Từ đó, mục tiêu chính của đề tài được đề xuất trong báo cáo này là phát triển hệ thống hỗ trợ ra quyết định về giáo dục nói chung; trong đó, khai phá – phân tích dữ liệu về giáo dục được
Trang 1MỤC LỤC
BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN 1
BÁO CÁO TỔNG KẾT 2
MỤC LỤC 3
TÓM TắT 6
ABSTRACT 7
DANH MỤC THUẬT NGỮ 8
DANH MỤC BẢNG 9
DANH MỤC HÌNH 10
LỜI CẢM ƠN 12
CHƯƠNG 1 – GIỚI THIỆU 13
1.1 L Ý DO CHọN Đề TÀI 13
1.2 M ụC TIÊU 13
1.3 Ý NGHĨA CủA Đề TÀI 14
1.4 C ấU TRÚC CủA BÁO CÁO 16
CHƯƠNG 2 – CÔNG TRÌNH LIÊN QUAN 18
CHƯƠNG 3 – BÀI TOÁN PHÂN LỚP SINH VIÊN DỰA TRÊN KẾT QUẢ HỌC TẬP 23
3.1 T ổNG QUAN Về PHƯƠNG PHÁP NGHIÊN CứU CủA BÀI TOÁN PHÂN LớP 23
3.2 G IảI PHÁP THựC HIệN 24
3.2.1 T IềN Xử LÝ TậP Dữ LIệU HọC TậP CủA SINH VIÊN 26
3.2.2 T HựC HIệN CHIA TậP Dữ LIệU THÀNH 5 FOLD 28
3.2.3 T HựC HIệN Xử LÝ Dữ LIệU Bị THIếU 29
3.2.3.1 P HƯƠNG PHÁP 1: Z ERO 30
3.2.3.2 P HƯƠNG PHÁP 2: C I NS M EAN 31
3.2.3.3 P HƯƠNG PHÁP 3: F I NS M EAN 32
3.2.3.4 P HƯƠNG PHÁP 4: A TT M EAN 32
3.2.3.5 P HƯƠNG PHÁP 5: C LASS _I NS 34
3.2.3.6 P HƯƠNG PHÁP 6: C LUSTER _I NS 35
3.2.3.7 P HƯƠNG PHÁP 7: Z ERO _I NS 36
3.2.3.8 P HƯƠNG PHÁP 8: C LASS _ K NN 36
3.2.3.9 P HƯƠNG PHÁP 9: C LUSTER _ K NN 37
3.2.3.10 P HƯƠNG PHÁP 10: Z ERO _ K NN 37
3.2.4 T HựC HIệN Xử LÝ Dữ LIệU MấT CÂN ĐốI 38
3.2.5 T HựC HIệN PHÂN LớP VớI WEKA 40
3.2.6 Đ ÁNH GIÁ 41
CHƯƠNG 4 – BÀI TOÁN PHÂN TÍCH LUẬT KẾT HỢP ĐỊNH LƯỢNG HƯỚNG THỜI GIAN 43
Trang 24.2 G IảI PHÁP THựC HIệN 45
4.2.1 C ÁC ĐịNH NGHĨA , CÁC KHÁI NIệM CƠ BảN 45
4.2.2 Đ ịNH NGHĨA BÀI TOÁN 46
4.2.3 C ÁC BƯớC GIảI QUYếT BÀI TOÁN 46
4.2.3.1 T IềN Xử LÝ Dữ LIệU 46
4.2.3.2 T ÌM TậP PHổ BIếN 47
4.2.3.3 S INH CÁC LUậT KếT HợP 48
4.3 C HI TIếT THUậT TOÁN ĐƯợC Đề XUấT CủA Đề TÀI 49
4.3.1 C ÁC ĐịNH NGHĨA CƠ BảN CủA THUậT TOÁN 49
4.3.2 T HUậT TOÁN TCIS PAN - K HAI PHÁ TậP MẫU ĐịNH LƯợNG HƯớNG THờI GIAN PHổ BIếN 51
4.3.2.1 C ÁC KÍ HIệU Sử DụNG TRONG THUậT TOÁN 51
4.3.2.2 C ÁC BƯớC CủA THUậT TOÁN TCIS PAN 52
4.3.2.3 T Hủ TụC C ROSS M ODULE M INING 52
4.3.2.4 T Hủ TụC R ETRIEVAL ( O N ODE ) 53
4.3.2.5 T Hủ TụC M ERGE (L 0 ’, L I ) 54
4.3.2.6 V Í Dụ 55
(A) V Í Dụ 1 - K HAI PHÁ Từ ĐầU DÙNG THUậT TOÁN H IRATE & Y AMANA 55
(B) V Í Dụ 2 - K HAI PHÁ GIA TĂNG DÙNG THUậT TOÁN TCIS PAN 56
4.3.2.7 S O SÁNH THUậT TOÁN TCIS PAN VÀ H IRATE & Y AMANA 59
4.3.2.8 T ÌM TậP LUậT Từ TậP PHổ BIếN ĐÃ KHAI PHÁ 59
(A) T Hủ TụC MINING FROM LIST 59
(B) T Hủ TụC MINING FROM TREE 60
(C) V Í Dụ 61
(D) S O SÁNH THủ TụC MINING FROM LIST VÀ THủ TụC MINING FROM TREE 62
(E) L ọC LUậT Sử DụNG Độ ĐO 62
4.3.2.9 M INH HọA Về TậP Dữ LIệU , TậP MẫU , TậP LUậT CủA Đề TÀI 63
(A) B ảNG ĐốI SÁNH MÃ MÔN HọC VÀ TÊN MÔN HọC DÙNG CHO CÁC VÍ Dụ 63
(B) V Í Dụ Về TậP Dữ LIệU 63
(C) V Í Dụ Về TậP MẫU 64
(D) V Í Dụ Về TậP LUậT 64
CHƯƠNG 5 – HỆ HỖ TRỢ RA QUYẾT ĐỊNH VỀ GIÁO DỤC 66
5.1 G IớI THIệU TổNG QUAN Về Hệ Hỗ TRợ RA QUYếT ĐịNH Về GIÁO DụC 66
5.2 H ệ THốNG KHO Dữ LIệU 67
5.3 H ệ THốNG GOM CụM 70
5.4 H ệ THốNG LUậT KếT HợP 74
5.5 H ệ THốNG TổNG HợP 76
5.6 M INH HọA CÁC CHứC NĂNG CủA Hệ THốNG ĐạT ĐƯợC 78
5.7 T ổNG KếT CHƯƠNG 92
CHƯƠNG 6 – KẾT LUẬN VÀ KIẾN NGHỊ 94
6.1 K ếT LUậN 94
6.2 K IếN NGHị 95
Trang 3TÀI LIỆU THAM KHẢO 96 PHỤ LỤC 100
Trang 4TÓM TắT
Ngày nay, khoa học - kỹ thuật phát triển không ngừng và được áp dụng rộng rãi trong hầu hết các lĩnh vực Trong lĩnh vực giáo dục, người học, người dạy, và cả đơn vị đào tạo được hỗ trợ ngày một nhiều từ nội dung đến phương pháp và cả loại hình đào tạo ở các cấp bậc đào tạo khác nhau, … Ngoài ra, theo thời gian, lượng thông tin - dữ liệu về giáo dục ở các đơn vị đào tạo được thu thập và tích trữ nhiều Nếu lượng thông tin - dữ liệu này được xử lý – phân tích phù hợp thì kết quả rút trích - khai phá được sẽ góp phần hỗ trợ vào các hoạt động học tập - giảng dạy trong tương lai tại các đơn vị này Do đó, lĩnh vực khai phá dữ liệu về giáo dục đã và đang thu hút được nhiều
sự quan tâm Một số vấn đề gặp phải trong giáo dục nói chung và giáo dục từ xa nói riêng đã được nhận diện và hỗ trợ bởi các kỹ thuật khai phá – phân tích dữ liệu trong các công trình học thuật gần đây
Trong bối cảnh cụ thể ở mỗi đơn vị đào tạo, các đặc điểm riêng biệt của các yếu tố khác nhau về con người, nơi chốn, lĩnh vực đào tạo,… sẽ dẫn đến các vấn đề khác nhau và dữ liệu thu thập được cũng sẽ mang những đặc điểm khác nhau Dữ liệu này cần được khai phá – phân tích sao cho phù hợp với các đặc điểm riêng này và có thể đem lại giá trị lợi ích lớn nhất cho các hoạt động học tập - giảng dạy trong tương lai theo hướng phát triển chung của kinh tế - xã hội – khoa học - kỹ thuật Vì vậy, việc lựa chọn và phát triển các kỹ thuật khai phá dữ liệu về giáo dục nhằm rút trích ra thông tin có thể được dùng để hỗ trợ ra quyết định là một vấn đề cần được xem xét Ngoài ra, việc đưa các kết quả khai phá – phân tích dữ liệu vào hỗ trợ các vấn đề cụ thể của mỗi đơn vị đào tạo cũng là một thử thách trong lĩnh vực khai phá dữ liệu về giáo dục
Từ đó, mục tiêu chính của đề tài được đề xuất trong báo cáo này là phát triển hệ thống hỗ trợ ra quyết định về giáo dục nói chung; trong đó, khai phá – phân tích dữ liệu về giáo dục được tận dụng Khi hệ thống được hoàn tất, những đóng góp được dự kiến như sau:
- Tổ chức - quản lý dữ liệu sao cho dữ liệu có thể được truy xuất - xử lý hiệu quả và có thể được tận dụng trong việc khai phá – phân tích dữ liệu và sau cùng là trong việc hỗ trợ ra quyết định
- Cung cấp thông tin phân tích - rút trích được từ lượng dữ liệu có được tùy theo yêu cầu/vấn
đề cần được giải quyết và hỗ trợ ra quyết định
- Cung cấp các tiện ích hỗ trợ ra quyết định
Trang 5Nowadays, we have witnessed continuous important growth and development in science and technology for many various application domains In the education domain, learners, teachers, and educational organizations have been supported more and more from content to methodology
at different levels of education and training In addition, a large amount of educational data can be gathered and archived along the time Valuable information and knowledge can be discovered if
we process such an amount of data appropriately Then, discovered information and knowledge can be utilized to support learning/teaching activities at the educational organizations in the future
As a result, educational data mining have been of interest worldwide to provide decision making support for educational problems of regular students as well as distance learners
In addition, there exist a variety of educational data and problems from the peculiarities of each educational organization and the educational system Therefore, how to analyze and mine educational data for actionable knowledge in the education domain needs to be considered in order
to give a great advantage to future’s teaching and learning activities in connection with the development of our economy, society, science, and engineering In particular, which data mining techniques need to be investigated is an important issue to provide educational deicison making support Consequently, how to put discovered information and knowledge in the educational data mining area into practice becomes another challenge in each educational organization
In this project, we concentrate on an educational decision support system for regular student’s academic affairs in an academic credit system where educational data analysis and mining techniques are developed and utilized for actionable knowledge Upon the completeness of the proposed system, tentative contributions will be achieved as follows:
- Educational data management is provided for educational data analysis and mining so that decision making support can be advanced
- Information and knowledge can be derived and discovered effectively and efficiently for educational problems that need decision making support
- Utilities for educational decision making support via a Web-based user interface are available for users
Trang 67 Soil and Water Analysis Tool Mô Hình Thông Số Phân
10 Natural Cluster Based
Mean-and-Mode Algorithm
Phương Pháp Trung Bình Gom Cụm Tự Nhiên
NCBMM
11 The Area under the ROC
Curve
Vùng Diện Tích Dưới Đường ROC
ROC
13 Time Extented Sequence
Database
CSDL Dãy Mở Rộng Nhãn Thời Gian
TSDB
Trang 7DANH MỤC BẢNG
Bảng 1 Tập dữ liệu kết quả học tập, tổ chức theo chương trình đào tạo chuẩn 26
Bảng 2 Các điểm đặc biệt của các môn học 27
Bảng 3 Ví dụ minh họa tập dữ liệu 30
Bảng 4 Ví dụ minh họa phương pháp 1: Zero 31
Bảng 5 Ví dụ minh họa phương pháp 2: cInsMean 31
Bảng 6 Ví dụ minh họa phương pháp 3 fInsMean 32
Bảng 7 Ví dụ minh họa phương pháp 4 AttMean 33
Bảng 8 Ví dụ minh họa phương pháp 5 Class_Ins 35
Bảng 9 Ví dụ minh họa phương pháp 7 Zero_Ins 36
Bảng 10 Ví dụ minh họa phương pháp 8 Class_kNN 37
Bảng 11 Ví dụ minh họa phương pháp 10 Zero_kNN 37
Bảng 12 Bảng so sánh dữ liệu trước và sau cân đối 38
Bảng 13 Kết quả ACC(%) và ROC trên các tập dữ liệu Year 2, Year 3, và Year 4 với các phương pháp xử lý dữ liệu bị thiếu 41
Bảng 14 Kết quả ACC(%) và Accuracy Delta trên các tập dữ liệu Year 2, Year 3, và Year 4 với các phương pháp xử lý dữ liệu bị thiếu và các phương pháp xử lý dữ liệu bị mất cân đối 42
Bảng 15 Ví dụ CSDL dãy mở rộng nhãn thời gian - TSDB 47
Bảng 16 Tập phổ biến của TSDB 47
Bảng 17 Tập luật của TSDB 48
Bảng 18 Các kí hiệu sử dụng trong thuật toán 51
Bảng 19 CSDL cập nhật thêm mới TSDB’ 55
Bảng 20 Các phần tử phổ biến của TSDB’ 55
Bảng 21 Tập phổ biến của TSDB’ 56
Bảng 22 Các phần tử thuộc I phổ biến trong TSDB’ 56
Bảng 23 Tập phổ biến thu được từ cây L’ 58
Bảng 24 Sinh luật từ cây L0 62
Bảng 25 Sinh luật từ cây L’ 62
Bảng 24 Dòng thực thi và dữ liệu của hệ thống kho dữ liệu 67
Bảng 25 Bảng mô tả sơ đồ hiện thực hệ thống Kho Dữ Liệu 69
Bảng 26 Đặc tả các chức năng của hệ thống gom cụm 71
Trang 8DANH MỤC HÌNH
Hình 1 – Các bước thực hiện của bài toán phân lớp 25
Hình 2 Cách lấy tập kiểm tra cho 5 fold 29
Hình 3 Các bước thực hiện xử lý dữ liệu bị thiếu về mặt ngữ nghĩa 30
Hình 4 Các bước thực hiện xử lý dữ liệu bị thiếu phương pháp hai giai đoạn 34
Hình 5 Các bước thực hiện xử lý dữ liệu bị thiếu và cân đối dữ liệu 1 39
Hình 6 Các bước thực hiện xử lý dữ liệu bị thiếu và cân đối dữ liệu 2 40
Hình 7 Các bước thực hiện xử lý dữ liệu bị thiếu và cân đối dữ liệu 3 40
Hình 8 Minh họa phép chiếu 50
Hình 9 Cây tiền tố của CSDL TSDB với min_count =2 50
Hình 10 Các bước thực hiện của thuật toán Hirate & Yamana đối với CSDL TSDB’ 56
Hình 11 Các bước thực hiện tìm cây L i 57
Hình 12 Cấu trúc cây L i 57
Hình 13 Cấu trúc cây L 0 ’ 58
Hình 14 Cấu trúc cây L’ lưu các mẫu phổ biến của TSDB’ 58
Hình 15 Kiến trúc của hệ thống kho dữ liệu 67
Hình 16 Sơ đồ hiện thực hệ thống Kho dữ liệu 69
Hình 17 Sơ đồ tổng quan của hệ thống gom cụm 70
Hình 18 Lược đồ usecase giản lược của hệ thống gom cụm 71
Hình 19 Sơ đồ tổng quan của hệ thống luật kết hợp 75
Hình 20 Sơ đồ khối của hệ thống tổng hợp 77
Hình 21 Giao diện chức năng khảo sát dữ liệu 78
Hình 22 Khảo sát dữ liệu sinh viên theo điểm các môn 79
Hình 23 Thông tin chi tiết sinh viên 79
Hình 24 Chọn dữ liệu khảo sát gom cụm 80
Hình 25 Chọn giải thuật gom cụm dữ liệu 80
Hình 26 Kết quả gom cụm dữ liệu 81
Hình 27 Chi tiết bộ gom cụm 81
Hình 28 Phân bố trạng thái sinh viên trong cụm 82
Trang 9Hình 29 Danh sách sinh viên trong cụm 82
Hình 30 Khảo sát sự tương đồng 83
Hình 31 Chọn mô hình dự đoán 83
Hình 32 Kết quả dự đoán trạng thái học tập 84
Hình 33 So sánh hai sinh viên gần giống nhau 84
Hình 34 Khai phá luật kết hợp 85
Hình 35 Kết quả khai phá luật kết hợp 85
Hình 36 Xem luật kết hợp 86
Hình 37 Xem tập thường xuyên 86
Hình 38 Danh sách kết quả khai phá 87
Hình 39 Tùy chọn giải thuật xây dựng luật kết hợp 88
Hình 40 Đồ thị kết quả học tập 88
Hình 41 Bảng điểm học tập 89
Hình 42 Khuyến cáo môn học 89
Hình 43 Tìm sinh viên bất thường 90
Hình 44 Phân tích dữ liệu đa chiều theo nhóm môn học 90
Hình 45 Thông tin sinh viên chi tiết trong phân tích dữ liệu đa chiều 91
Hình 46 Thông tin môn học chi tiết trong phân tích dữ liệu đa chiều 92
Trang 10LỜI CẢM ƠN
Trân trọng cám ơn Đại học Quốc Gia Tp.HCM đã cấp kinh phí để thực hiện đề tài này
Trang 11CHƯƠNG 1 – GIỚI THIỆU
1.1 L Ý DO CHọN Đề TÀI
Học chế tín chỉ mang lại cơ hội cho người học chủ động thực hiện quá trình học tập phù hợp Người học có thể đăng ký học nhiều môn học nếu có khả năng tiếp thu tốt và có thể dành nhiều thời gian cho việc học tập Ngược lại, người học cũng có thể đăng ký học ít môn nếu khả năng tiếp thu bị hạn chế hoặc không thể dành nhiều thời gian cho việc học tập Trong trường hợp không đạt kết quả tốt của một môn học trong chương trình thì người học chỉ phải học lại môn học
đó
Tuy nhiên, trong một số trường hợp, người học lúng túng khi thực hiện kế hoạch học tập cho bản thân đòi hỏi sự hỗ trợ của chuyên gia tư vấn (giáo viên chủ nhiệm) Một số sinh viên sau khi bị rớt một số môn học thường đăng ký nhiều môn học trong một học kỳ với mong muốn đuổi kịp các bạn đồng khoá nhưng kết quả là các sinh viên này lại bị rớt nhiều hơn Một số sinh viên gặp khó khăn trong việc tiếp thu một số môn học cụ thể cần có sự hỗ trợ của chuyên gia
Đề tài này hướng đến việc xây dựng một hệ thống có các chức năng hỗ trợ người học, chuyên gia tư vấn và người quản lý Người học có thể sử dụng hệ thống khi chuẩn bị việc đăng ký môn học nhằm chọn môn học phù hợp cho bản thân Chuyên gia tư vấn có thể dùng các chức năng của hệ thống để dự đoán tình trạng học tập của người học, qua đó, có thể đưa ra các lời khuyên thích hợp cho người học Người quản lý cóthể sử dụng hệ thống để quản lý các dữ liệu giáo dục nhằm đưa ra các quyết định thích hợp
1.2 M ụC TIÊU
Mục tiêu khoa học mà đề tài hướng tới và mong muốn đạt được trọn vẹn sau cùng là hệ hỗ trợ ra quyết định về giáo dục có 5 chức năng chính như sau:
1 Quản lý dữ liệu giáo dục gia tăng theo thời gian
2 Phân tích đa chiều và lập báo cáo linh động
3 Dự đoán tình trạng học tập đúng hạn của sinh viên
4 Hỗ trợ sinh viên đăng ký môn học phù hợp
5 Hỗ trợ cảnh báo tình trạng học tập các môn học hiện tại của sinh viên
Chức năng 1 và 2 của hệ thống nhằm định hướng hệ thống đến dạng hệ hỗ trợ ra quyết định hướng dữ liệu; trong đó, dữ liệu giáo dục được tổ chức và quản lý hiệu quả cho việc cung cấp khung nhìn dữ liệu tổng quan và trực quan về dữ liệu của hệ thống, tức là về tất cả các sinh viên
và các hoạt động – kết quả học tập của sinh viên Ngoài ra, hai chức năng này cũng hỗ trợ nhà quản lý giáo dục tiếp cận được nguồn dữ liệu lớn được tích tụ theo thời gian về tất cả các hoạt động giảng dạy – học tập một cách hiệu quả
Chức năng 3, 4, và 5 của hệ thống nhằm định hướng hệ thống đến dạng hệ hỗ trợ ra quyết định hướng tri thức và mô hình; trong đó, mô hình và tri thức tiềm ẩn từ dữ liệu và từ nhà quản lý
Trang 12giáo dục sẽ được khai thác tốt nhất có thể để hỗ trợ cho các vấn đề học vụ Một trong những vấn
đề học vụ tiêu biểu nhất là vấn đề quyết định dừng và cứu xét học tập của sinh viên Do đó, việc sớm nhận diện những khó khăn tiềm ẩn của sinh viên trong học tập từ phạm vi môn học đến cả khóa học của mỗi sinh viên sẽ giúp các cá nhân liên quan và tổ chức giáo dục – đào tạo có những giải pháp phù hợp kịp thời và trợ giúp sinh viên, tránh được những tình huống đáng tiếc xảy ra với sinh viên và cũng tránh cho xã hội đón nhận những thanh niên vào đời dở dang
Ngoài những chức năng chính được liệt kê ở trên, hệ thống còn có những chức năng khác như: tích hợp dữ liệu từ nguồn dữ liệu ngoài vào hệ thống, quản lý tri thức khám phá được từ các giải thuật khai phá dữ liệu giáo dục, trực quan hóa dữ liệu với các báo cáo thống kê Ngoài ra, hệ thống đã và đang được phát triển theo tiêu chí uyển chuyển và khả mở với giao diện Web linh hoạt cho người sử dụng của hệ thống và cho sự mở rộng trong tương lai của hệ thống
1.3 Ý NGHĨA CủA Đề TÀI
Như đã giới thiệu ở trên, nhóm nghiên cứu nhận thấy rằng hệ hỗ trợ ra quyết định về giáo dục thật sự cần được phát triển nhằm góp phần hỗ trợ nhà quản lý giáo dục và sau đó là hỗ trợ các hoạt động học tập – giảng dạy của sinh viên – giảng viên, không chỉ giúp cải tiến và phát triển tổ chức giáo dục-đào tạo mà còn giúp xã hội và đất nước ngày càng tốt đẹp hơn Từ khảo sát ở trên
về tình hình nghiên cứu và đầu tư trong và ngoài nước dành cho hệ hỗ trợ ra quyết định về giáo dục và lĩnh vực khai phá dữ liệu giáo dục, đề tài nghiên cứu khoa học mà nhóm nghiên cứu đề xuất là phát triển một hệ hỗ trợ ra quyết định về giáo dục ở bậc đại học chính quy trong hệ thống giáo dục theo quy chế tín chỉ So với các công trình liên quan, hệ thống được đề xuất có những tính năng mới và hướng giải quyết tương ứng như sau:
Quản lý dữ liệu giáo dục, thông tin, và tri thức khám phá được gia tăng theo thời gian: đặc điểm này của hệ thống rất quan trọng do hệ thống giáo dục của một tổ chức/một quốc gia luôn tồn tại và lớn mạnh dần theo thời gian Hệ hỗ trợ ra quyết định gắn liền với dữ liệu từ các hệ thống ngoài Những chức năng của hệ hỗ trợ ra quyết định có thể đáp ứng chức năng hỗ trợ các vấn đề của người sử dụng hay không phụ thuộc hoàn toàn vào dữ liệu nhập mà hệ thống có được Nhằm tạo ra được tri thức sử dụng được hay không bởi các chức năng hỗ trợ ra quyết định của hệ thống, trước tiên hệ thống phải có dữ liệu liên quan các vấn đề của người sử dụng và dữ liệu liên quan mà từ đó tri thức tiềm ẩn được khám phá ra cho các chức năng hỗ trợ ra quyết định Hướng giải quyết cho tính năng này là bên cạnh cơ sở dữ liệu hướng thời gian truyền thống, hệ thống được đề xuất còn có một kho dữ liệu hướng thời gian, một kho lưu trữ thông tin
và tri thức khám phá được theo thời gian, và một cơ chế tích hợp và giao tiếp giữa dữ liệu, thông tin, và tri thức cũng được hình thành và duy trì theo thời gian
Phân tích đa chiều và lập báo cáo linh động: tính năng thường hiện diện ở các hệ hỗ trợ ra quyết định Tuy nhiên, trong hệ thống được đề xuất, tính năng này còn có thể được sử dụng để trợ giúp các tính năng khác theo hướng định hình hệ thống của đề tài để hệ hỗ trợ
ra quyết định về giáo dục đạt được không chỉ là hệ hỗ trợ ra quyết định hướng dữ liệu mà
Trang 13còn là hệ hỗ trợ ra quyết định hướng tri thức và hướng mô hình Hướng giải quyết là phát triển mô hình dữ liệu đa chiều từ kho dữ liệu của hệ thống và sau đó, phát triển tính năng tạo báo cáo linh hoạt
Dự đoán tình trạng học tập đúng hạn của sinh viên, hỗ trợ sinh viên đăng ký môn học phù hợp, và hỗ trợ cảnh báo tình trạng học tập các môn học hiện tại của sinh viên: 3 tính năng này góp phần quan trọng trong việc hỗ trợ các vấn đề học vụ hiện đang được xem xét cũng như sau này Về dữ liệu được sử dụng trong các tính năng này, hệ thống được đề xuất sử dụng điểm số của kết quả học tập của tất cả các môn học mà sinh viên đã từng học So với các công trình liên quan, 3 tính năng này của hệ thống đều mới do đặc điểm dữ liệu nhập của 3 tính năng này được xem xét toàn diện trong ngữ cảnh của hệ thống giáo dục theo quy chế tín chỉ và nhiều chương trình đào tạo khác nhau Cụ thể là nhóm nghiên cứu luôn xem xét mỗi sinh viên thông qua tất cả các môn học của chương trình đào tạo ở bất kỳ học kỳ được chọn nào; trong khi đó, các công trình liên quan chỉ xem xét cho một số học kỳ, một
số môn học cụ thể, và không xét đặc điểm của dữ liệu phát sinh trong hệ thống giáo dục theo quy chế tín chỉ và nhiều chương trình đào tạo khác nhau theo thời gian Các công trình liên quan có xem xét thêm các đặc điểm xã hội, giới tính, tuổi, vấn đề đi làm thêm, hành vi tương tác trên hệ thống e-learning, và phần đông các công trình này xem xét cho một hay một số môn học cụ thể Tuy nhiên, nhóm nghiên cứu nhận thấy rằng mục tiêu học tập của mỗi sinh viên chính là hoàn thành chương trình đào tạo và tốt nghiệp được và để đạt được mục tiêu này, mỗi sinh viên cần đạt tất cả các mô học của chương trình Do đó, nhóm nghiên cứu quan tâm đến bao nhiêu phần sinh viên đã đạt được và bao nhiêu phần sinh viên cần đạt được so với mục tiêu này Về các thành phần dữ liệu, nhóm nghiên cứu nhận thấy rằng các đặc điểm khác ngoài kết quả học tập của sinh viên có vai trò nhất định trong việc đạt được mục tiêu này của sinh viên; tuy nhiên, việc thu thập dữ liệu về các đặc điểm khác như trên rất khó khăn về thời gian, công sức, và cả về chất lượng dữ liệu thu được Ngoài ra, các đặc điểm khác này có sự liên hệ đến kết quả học tập của sinh viên ở mỗi học kỳ Sự liên hệ này tích cực hay tiêu cực sẽ được thể hiện qua việc cao hay thấp trong kết quả học tập của sinh viên Chính vì thế, nhóm nghiên cứu đã dùng phương án ngược lại bằng cách kiểm tra những đặc điểm này của sinh viên sau khi nhận diện sinh viên dựa trên kết quả học tập của sinh viên Từ những vấn đề của dữ liệu nhập dành cho các tính năng như được trình bày ở trên, giải pháp của các tính năng này có những đặc điểm mới và riêng mà các công trình liên quan chưa xem xét như: cách biểu diễn mỗi sinh viên trong giải pháp, việc so sánh giữa các sinh viên của cùng chương trình, việc so sánh giữa các sinh viên thuộc về những chương trình khác nhau, việc diễn nghĩa cho những
Trang 14môn học sinh viên đã từng học, học nhưng chưa qua, và chưa học, Hướng giải quyết cụ thể cho mỗi tính năng là:
o Dự đoán tình trạng học tập đúng hạn của sinh viên: dự kiến là bài toán phân lớp và/hoặc gom cụm
o Hỗ trợ sinh viên đăng ký môn học phù hợp: dự kiến là bài toán phân tích luật kết hợp và/hoặc gom cụm
o Hỗ trợ cảnh báo tình trạng học tập các môn học hiện tại của sinh viên: dự kiến là bài toán phân tích luật kết hợp và/hoặc gom cụm
Lợi ích chính của hệ thống được đề xuất là hỗ trợ cho các vấn đề học vụ liên quan trực tiếp đến việc hoàn thành chương trình học của sinh viên Những ứng dụng kết quả của hệ thống từng bước được khai thác tại Khoa Khoa Học & Kỹ Thuật Máy Tính, Trường Đại Học Bách Khoa TP.HCM Hiện tại, nhóm nghiên cứu mong muốn sớm nhận diện những sinh viên có khả năng không thể hoàn thành chương trình học và từ đó, đưa ra các cảnh báo phù hợp đến nhà quản lý giáo dục, giáo viên chủ nhiệm, sinh viên, và phụ huynh để các bên liên quan dành sự hỗ trợ kịp thời cho những sinh viên này, cải thiện được những tình huống đáng tiếc Kết quả kéo theo chính
là giúp xã hội giảm đi những thanh niên vào đời dở dang Đây cũng là lý do ngầm định cho việc lựa chọn bậc giáo dục đại học mà đề tài của nhóm nghiên cứu quan tâm
1.4 C ấU TRÚC CủA BÁO CÁO
Phần còn lại của báo cáo được tổ chức như sau:
Chương 2: Chương này giới thiệu tổng quan tình hình nghiên cứu trong và ngoài nước
về hệ hỗ trợ ra quyết định về giáo dục
Chương 3: Chương này trình bày bài toán phân lớp sinh viên dựa trên kết quả học tập của sinh viên trong hệ giáo dục theo quy chế tín chỉ; trong đó, phương pháp phân lớp sinh viên có xem xét các đặc điểm của dữ liệu liên quan được đề xuất
Chương 4: Chương này trình bày bài toán khai phá luật kết hợp định lượng hướng thời gian dựa trên kết quả học tập của sinh viên trong hệ giáo dục theo quy chế tín chỉ; trong đó, phương pháp khai phá mẫu tuần tự hướng thời gian phổ biến trong cơ sở dữ liệu giáo dục hướng thời gian gia tăng và phương pháp khai phá luật kết hợp định lượng hướng thời gian được đề xuất
Chương 5: Chương này trình bày hệ hỗ trợ ra quyết định về giáo dục của đề tài Hệ thống đang được hoàn thiện dần trên nền tảng công nghệ mã nguồn mở
Trang 15 Chương 6: Chương này tổng kết lại những công việc đã được thực hiện cho đề tài và các kết quả ban đầu đạt được Ngoài ra, phần kiến nghị của nhóm thực hiện đề tài cũng được trình bày
Ngoài ra, báo cáo còn bao gồm phần danh mục các tài liệu tham khảo của đề tài và phần phụ lục
Trang 16CHƯƠNG 2 – CÔNG TRÌNH LIÊN QUAN
Trong chương 2 này, các công trình nghiên cứu liên quan về hệ hỗ trợ ra quyết định về giáo dục trong và ngoài nước được giới thiệu Từ đó, nhóm nghiên cứu xác định những vấn đề còn tồn đọng trong nghiên cứu của hệ hỗ trợ ra quyết định về giáo dục để làm cơ sở cho việc hình thành đề tài và sau đó, phát triển hệ hỗ trợ ra quyết định về giáo dục cho hệ thống giáo dục theo quy chế tín chỉ
Việc ứng dụng công nghệ thông tin và truyền thông trong lĩnh vực giáo dục – đào tạo được thực hiện ngày càng phổ biến Chúng ta dễ dàng nhận thấy từ các hệ thống xử lý giao tác (transactional processing system, TPS) hiện diện trong các hoạt động quản lý thông tin sinh viên, quản lý học vụ, quản lý nhân sự, … ở các tổ chức giáo dục – đào tạo Ngoài ra, các hệ thống thông tin quản lý (management information system, MIS) cũng được phát triển và tận dụng từ rất sớm Quan trọng hơn hết là các hệ thống hỗ trợ ra quyết định (decision support system, DSS) của các tổ chức giáo dục – đào tạo ở nhiều nơi trên thế giới Phần sau sẽ điểm qua những công trình nghiên cứu và những kết quả mới nhất trong và ngoài nước có liên quan đến đề tài này theo thời gian như sau:
Ở Việt Nam, nhiều đơn vị và nhóm nghiên cứu đã và đang đầu tư về những đề tài liên quan đến các hệ hỗ trợ ra quyết định trong nhiều lĩnh vực khác nhau như được ghi nhận ở [1-6] Trong những công trình này, [1] là một trong số những công trình của nhóm tác giả về vấn đề đánh giá
độ rủi ro động đất đô thị và những thiệt hại về nhà cửa và người do động đất gây ra trên nền tảng
hệ thống thông tin địa lý (geographical information system, GIS) trong lĩnh vực địa chất Kết quả ứng dụng đáng chú ý là một hệ hỗ trợ ra quyết định cho quy trình đánh giá độ rủi ro động đất đô thị, từ đó hỗ trợ các công tác phòng ngừa, ứng cứu và giảm nhẹ thiệt hại do động đất gây ra Về những hỗ trợ của công nghệ thông tin và truyền thông trong lĩnh vực nông nghiệp, [2] đã giới thiệu một cổng thông tin phòng chống dịch hại nhằm hỗ trợ nhà Nghiên cứu, nhà Quản lý, và nhà Nông tiếp cận các giải pháp dự báo và mô phỏng dịch hại Cổng thông tin này được phát triển với
10 hệ thống chính: hệ thống thông tin – kho dữ liệu, hệ tìm kiếm thông tin theo ngữ nghĩa, hệ chuyên gia hỗ trợ chẩn đoán bệnh và trị bệnh, hệ vẽ bản đồ trực tuyến, hệ dự báo dịch bệnh, hệ mô phỏng lan truyền bệnh, hệ phân tích thống kê trực tuyến (OLAP), hệ viết báo cáo cộng tác (WikiReport), hệ khai mỏ dữ liệu (Data Mining), và hệ an ninh phát hiện tin tặc Cũng hỗ trợ cho lĩnh vực nông nghiệp, [5] đã trình bày phần phát triển một hệ hỗ trợ ra quyết định trên nền GIS và
mô hình quy hoạch tuyến tính đa mục tiêu phục vụ quy hoạch sử dụng đất sản xuất nông nghiệp trên địa bàn cấp huyện Hệ thống được xây dựng gồm những chức năng chính như: quản trị hệ thống, tác nghiệp dữ liệu bản đồ, quản lý cơ sở dữ liệu, giải mô hình quy hoạch tuyến tính, và xử
lý và tổng hợp ý kiến chuyên gia theo quy trình ra quyết định nhóm Delphy để từ đó vẽ bản đồ và lưu trữ phương án quy hoạch Trong lĩnh vực môi trường, [3] đã sử dụng cách tiếp cận kết hợp hệ
hỗ trợ ra quyết định, GIS và mô hình thông số phân bố SWAT để hỗ trợ quy hoạch sinh thái lưu vực sông Đa Dâng thuộc thượng nguồn sông Đồng Nai Với hệ hỗ trợ ra quyết định trên nền GIS, bài toán quy hoạch sinh thái lưu vực sông Đa Dâng được phân tích và đánh giá theo một số kịch bản thông qua mô hình SWAT thiết lập mối quan hệ giữa lưu lượng nước và lượng bồi lắng Hệ thống có thể cung cấp những thông tin hữu ích cho người ra quyết định trong các chính sách sử
Trang 17dụng đất, dự đoán cường độ của phản ứng thủy văn, … [4] đã nghiên cứu, xây dựng và thử nghiệm các hệ hỗ trợ ra quyết định dựa trên mạng nơron, logic mờ, và giải thuật di truyền chủ yếu trong lĩnh vực y tế, cụ thể cho các bài toán: tối ưu hóa qui trình sản xuất và thành phần thuốc y dược, nhận dạng ảnh chân dung, vân tay, cảm xúc trên khuôn mặt, dò tìm khuôn mặt, chẩn đoán bệnh, … Cũng hỗ trợ trong lĩnh vực y tế, [6] được ghi nhận cho việc sử dụng lý thuyết ra quyết định đa mục tiêu nhằm hỗ trợ cho bài toán bố trí mặt bằng cho bệnh viện Kết quả hệ thống đạt được là một hệ hỗ trợ ra quyết định có các chức năng xây dựng chỉ số đánh giá hệ thống đa mục tiêu theo chỉ số hiệu suất, chỉ số phòng khám, và chỉ số bệnh nhân, xây dựng các phương án hoạch định, và chọn lựa các phương án dựa vào các chỉ số đánh giá này
Riêng trong lĩnh vực giáo dục-đào tạo, một số công trình nghiên cứu cũng đã được đầu tư nhưng đa phần là những đóng góp ở mức thuật giải và quy trình khai phá dữ liệu giáo dục của các luận án ở các tổ chức giáo dục-đào tạo như được ghi nhận trong một số công trình [7, 8, 9]; trong
đó, phổ biến nhất là bài toán khai phá luật kết hợp và phân lớp Trong công trình [7], giải thuật Apriori được sử dụng và hướng đến việc xây dựng hệ thống tư vấn lựa chọn môn học của sinh viên ở Trường Đại Học Thăng Long dùng bộ thư viện Weka Trong công trình [8], bài toán khai phá luật kết hợp có kết hợp với phương pháp đánh giá khách quan bằng các độ đo cosine và lift nhằm tìm kiếm các sự bất thường trong quan hệ giữa các sinh viên và các kết quả học tập trên các môn học và sau đó hỗ trợ dự báo kết quả học tập cho sinh viên Trong công trình [9], kỹ thuật phân lớp với cây quyết định C4.5 và kỹ thuật khai phá luật kết hợp với giải thuật Apriori được sử dụng trên tập dữ liệu của sinh viên ở Trường Cao Đẳng Kinh Tế - Kỹ Thuật Quảng Nam trên nền tảng công nghệ Microsoft và kết quả là một hệ thống tư vấn học tập hỗ trợ dự đoán kết quả học tập cuối khóa của sinh viên
So với các lĩnh vực khác ở trong nước, hiện giờ, lĩnh vực giáo dục-đào tạo chưa thực sự có được sự hỗ trợ của công nghệ thông tin và truyền thông ở mức hệ hỗ trợ ra quyết định Cụ thể hơn
là chưa thật sự một nhà quản lý giáo dục, giảng viên, giáo viên chủ nhiệm, sinh viên hay phụ huynh ở bất kỳ tổ chức giáo dục – đào tạo của Việt Nam được hỗ trợ bởi một hệ hỗ trợ ra quyết định Tóm lại, chúng ta có thể khẳng định rằng một hệ hỗ trợ ra quyết định về giáo dục ở bậc đại học chính quy theo quy chế tín chỉ chưa được phát triển rõ nét ở diện rộng và có chiều sâu ở Việt Nam
Ở các quốc gia khác trên thế giới, từ rất sớm vào khoảng năm 1982, hệ hỗ trợ ra quyết định
đã được quan tâm trong lĩnh vực giáo dục như [10] đã giới thiệu một hệ hỗ trợ ra quyết định cho vấn đề thiết kế chương trình đào tạo Với những thành tựu khoa học – kỹ thuật máy tính của những năm thời đó, việc phát triển hệ hỗ trợ ra quyết định về giáo dục gặp không ít khó khăn như được tóm tắt trong [11, 12] Về sau này, [13] giới thiệu hệ thống PADSS nhằm xác định liệu các mục tiêu giáo dục của tổ chức có đạt được hay không thông qua thông tin thống kê từ các kết quả học tập của sinh viên như: điểm thi đầu vào, tỉ lệ giữa số học kỳ được yêu cầu và số học kỳ mà sinh viên đã học, điểm trung bình, và dữ liệu khác liên quan đến sinh viên và môn học của sinh viên [14] trình bày hệ thống UNICAP nhằm hỗ trợ việc hoạch định, phân phối, và cách sử dụng các tài nguyên của tổ chức [15, 16] hướng đến những giải pháp công nghệ cụ thể hơn như kho dữ liệu (data warehouse) và xử lý phân tích trực tuyến (online analytical processing, OLAP) cho việc phát triển một hệ hỗ trợ ra quyết định cho các tổ chức giáo dục – đào tạo Gần đây, [17] đề xuất hệ thống DEMASS nhằm hỗ trợ quản trị bằng cách nhận diện các yếu tố về lượng, phân bố, và xu
Trang 18hướng, … để xác định các lý do cho các quyết định về chính sách và quy trình của tổ chức và giúp nhà quản lý giáo dục có thể tiếp cận lượng dữ liệu ngày một tích tụ lớn dần hiệu quả hơn [18] hướng đến hỗ trợ sinh viên quốc tế trong việc nhập học vào trường và cũng xem xét liệu có nên nhìn nhận sinh viên quốc tế như là khách hàng của trường hay không bằng một hệ hỗ trợ ra quyết định [19] đã phát triển một hệ hỗ trợ ra quyết định chủ yếu dựa trên các khảo sát hài lòng của sinh viên nhằm gia tăng quản lý giáo dục và cải thiện chất lượng giáo dục với công nghệ kho dữ liệu, OLAP và có kết hợp với khai phá dữ liệu [20] giới thiệu hệ hỗ trợ quyết định Extended MATEP nhằm tăng cường giáo dục đào tạo từ xa bằng cách xác định sinh viên là những ai, cách sinh viên học, cách sinh viên sử dụng các khóa học ảo, … Cũng hỗ trợ cho vấn đề quản trị của tổ chức, [21]
đề xuất một hệ hỗ trợ ra quyết định dành cho việc phát triển các chính sách nhập học của sinh viên
và sau đó, hỗ trợ sinh viên trong việc nhập học và học tại tổ chức Đặc biệt là hệ hỗ trợ ra quyết định về giáo dục vừa được [22] đăng ký bằng sáng chế nhằm hỗ trợ vấn đế đạt được mục tiêu nghề nghiệp hay mục tiêu giáo dục bằng việc thực hiện phân tích dữ liệu giữa hồ sơ người dùng và hồ
sơ chuẩn; từ đó, nhận diện ra các khác biệt để đề xuất những tài nguyên và/hoặc hành động tương ứng Mới đây nhất, [23] dự kiến hướng đến một hệ thống tư vấn, một dạng hệ hỗ trợ ra quyết định dành cho sinh viên, nhằm giúp sinh viên chọn được các khóa học phù hợp trong quá trình học tập tại trường
Phần sau tóm tắt một số công trình về hệ hỗ trợ ra quyết định theo bài toán của hệ thống:
Công trình [10]
- Đặc tả bài toán: không đặc tả bài toán cụ thể
- Vấn đề mà bài báo hỗ trợ: hỗ trợ các nhà quản lý giáo dục trong công tác tổ chức và điều khiển các khóa học
- Kỹ thuật: giải thuật học máy – gom cụm, cây quyết định, luật phân lớp
- Hệ thống giáo dục theo quy chế tín chỉ: không
Công trình [14]
- Đặc tả bài toán: không đặc tả bài toán
- Vấn đề mà bài báo hỗ trợ: hỗ trợ công tác quản lý giáo dục cho việc hoạch định về tài nguyên, phân bố và sử dụng tài nguyên ở đơn vị giáo dụ
- Hệ thống giáo dục theo quy chế tín chỉ: không
Công trình [21]
- Đặc tả bài toán: không đặc tả bài toán
- Vấn đề mà bài báo hỗ trợ là công tác tuyển sinh của trường đại học
- Kỹ thuật: kho dữ liệu, khai phá dữ liệu (không có kỹ thuật khai phá dữ liệu cụ thể nào được
đề cập) và IDSS (IDSS = DSS + Artificial Intelligence)
Trang 19- Hệ giáo dục theo quy chế tín chỉ: không
Nhìn chung, những hệ hỗ trợ ra quyết định trong các công trình ngoài nước ở trên được đề xuất cụ thể cho mỗi tổ chức giáo dục mà ở đó, các đặc điểm của môi trường sử dụng hệ thống có
sự ảnh hưởng nhất định đến đặc điểm của hệ thống Do đó, các vấn đề được hỗ trợ bởi mỗi hệ thống cũng khác nhau, chủ yếu tập trung vào các vấn đề quản trị và hoạch định tài nguyên, chính sách, mục tiêu của tổ chức hoặc các vấn đề trong hệ giáo dục đào tạo từ xa, hệ thống e-learning,
… hoặc vấn đề nhập học và chọn môn học dành cho sinh viên Có thể thấy rằng những công trình liên quan trên thế giới ở trên chưa thật sự hướng đến một hệ hỗ trợ ra quyết định về giáo dục cho
hệ thống giáo dục cho bậc giáo dục đại học chính quy theo quy chế tín chỉ ở mức toàn diện hơn như là hướng đến nhà quản lý giáo dục, giáo viên chủ nhiệm, giảng viên giảng dạy, sinh viên, và
kể cả phụ huynh
Bên cạnh những công trình liên quan hệ hỗ trợ ra quyết định về giáo dục, nhóm nghiên cứu cũng điểm qua một số công trình liên quan trong lĩnh vực khai phá dữ liệu giáo dục (educational data mining, EDM) Khai phá dữ liệu giáo dục là một chuyên ngành của lĩnh vực khai phá dữ liệu Trong những năm gần đây, khai phá dữ liệu giáo dục trở thành lĩnh vực nghiên cứu sôi động trong
và ngoài nước; cụ thể là khai phá dữ liệu giáo dục được phát triển mạnh mẽ từ năm 2008, tiêu biểu qua sự hiện diện của hội nghị chuyên ngành Khai Phá Dữ Liệu Giáo Dục (International Conference on Data Mining) và sau đó là sự ra đời của tạp chí chuyên ngành Khai Phá Dữ Liệu Giáo Dục (International Journal on Data Mining) [24] Một số khảo sát tổng quan trong lĩnh vực này cũng được thực hiện như được trình bày trong [25, 26, 27, 28] Tình hình nghiên cứu của lĩnh vực khai phá dữ liệu giáo dục này ở Việt Nam cũng được phát triển Một số công trình trong nước [7, 8, 9] đã được giới thiệu ở phần trên Những công trình này chủ yếu đầu tư vào bài toán phân lớp và phân tích luật kết hợp Một số công trình ngoài nước như [29-41] Trong số những công trình này, [29] thực hiện trên dữ liệu giáo dục ở bậc trung học, [30-37] ở bậc đại học, [38] ở bậc sau đại học Trong đó, [29, 30, 38] là những công trình quan tâm đến bài toán phân tích thống kê, [31, 32, 33, 38] bài toán phân lớp, [34, 35, 36] bài toán gom cụm, và [35, 37] bài toán phân tích kết hợp Gần đây, một số công trình đã khai thác những dạng dữ liệu khác nhau cho bài toán khai phá dữ liệu giáo dục như [39] dành cho hệ thống trợ giảng thông minh, [40] dành cho hệ thống can thiệp sinh viên, và [41] dành cho các đặc điểm xã hội của sinh viên Trong những công trình liên quan trong lĩnh vực khai phá dữ liệu giáo dục này, nhóm nghiên cứu nhận thấy nhiều bài toán khai phá được đầu tư, các tập dữ liệu và kết quả khai phá dành cho nhiều mục đích cụ thể của những tổ chức giáo dục – đào tạo khác nhau Ngoài ra, nhóm nghiên cứu cũng lưu tâm về việc chưa có những tập dữ liệu chuẩn và những thước đo chuẩn để so sánh và đánh giá các công trình được đề xuất trong lĩnh vực khai phá dữ liệu giáo dục non trẻ này Như được khuyến cáo trong [42], tập dữ liệu được sử dụng trong các công trình thường nhỏ và thường được thu thập thông qua các hệ thống tương tác với sinh viên, cụ thể là hệ thống e-learning, hệ thống trợ giảng, …, qua Web Ngoài ra, theo nhóm nghiên cứu khảo sát, tập dữ liệu thường có tính riêng tư và cục bộ Thêm vào đó, đặc điểm của hệ thống giáo dục có ảnh hưởng đến dữ liệu và dạng dữ liệu thu thập được ở mỗi tổ chức giáo dục – đào tạo nhưng chưa được chưa xem xét trong bài toán khai phá dữ liệu giáo dục và đặc biệt là đối với hệ thống giáo dục theo quy chế tín chỉ Quan trọng hơn nữa là phần nhiều các công trình liên quan chỉ mới xem xét bài toán khai phá dữ liệu giáo dục cho một hay một vài môn học cụ thể của sinh viên Do đó, chưa có sự kiểm tra toàn diện về tất cả tri thức
Trang 20dữ liệu và tri thức khai phá được khi sinh viên được xem xét trong hệ thống giáo dục theo quy chế tín chỉ và khi thuộc về nhiều chương trình đào tạo khác nhau
Từ những nhận định về các công trình liên quan trong và ngoài nước, nhóm nghiên cứu đề xuất phát triển một hệ hỗ trợ ra quyết định về giáo dục ở bậc đại học chính quy theo quy chế tín chỉ; trong đó, chủ yếu bao gồm các giải pháp khai phá dữ liệu giáo dục: phân lớp, gom cụm, và phân tích luật kết hợp So với các công trình liên quan, hệ thống được đề xuất không chỉ hướng đến cung cấp dữ liệu hay tri thức khai phá được cho người sử dụng mà hướng đến một hệ thống toàn diện hơn hỗ trợ cho giai đoạn tư duy trong quá trình ra quyết định như được xác định trong [43] Do đó, hệ thống được đề xuất vừa hướng đến dữ liệu (data-driven) [44] vừa hướng đến tri thức (knowledge-driven) [45] nhằm cung cấp dữ liệu, thông tin, và tri thức phù hợp cho các vấn
đề cần được hỗ trợ của người sử dụng hệ thống
Trong đề tài nghiên cứu này, nhóm nghiên cứu đặc biệt quan tâm đến hệ thống giáo dục theo quy chế tín chỉ vì những lý do vừa được đề cập đến các công trình liên quan ở trên Hơn thế nữa, nhóm nghiên cứu nhận thấy rằng hệ giáo dục theo quy chế tín chỉ hiện nay được áp dụng rất phổ biến ở Việt Nam cũng như ở các nước trên thế giới Đặc điểm chính của hệ giáo dục theo quy chế tín chỉ là khả năng đem lại sự linh động cho sinh viên trong việc học tập và hoàn thành chương trình học tùy theo khả năng của mỗi sinh viên Chính sự linh động này đã hình thành những đường học tập khác nhau cho mỗi sinh viên so với các sinh viên khác ở các khóa học khác nhau và ở ngay cùng khóa học Điều này dẫn đến dữ liệu học tập của các sinh viên có thể không đồng nhất cho cùng một học kỳ, cho cùng một khóa học, và cho cùng một chương trình học Ngoài ra, theo thời gian, chương trình đào tạo ở một tổ chức giáo dục-đào tạo có thể có những thay đổi từ thay đổi nội dung môn học, thay đổi môn học, thay đổi chương trình, …
Trang 21CHƯƠNG 3 – BÀI TỐN PHÂN LỚP SINH
Cho bài tốn phân lớp sinh viên dựa trên kết quả học tập, đề tài nghiên cứu tập dữ liệu kết quả học tập trong hệ thống giáo dục theo quy chế tín chỉ và tập trung nghiên cứu vấn đề dữ liệu bị thiếu và dữ liệu mất cân đối Từ đĩ, đề tài đưa ra các phương pháp để giải quyết bài tốn phân lớp
dữ liệu giáo dục nhằm cải thiện độ chính xác trong phân lớp Đối với vấn đề dữ liệu bị thiếu, đề tài
sẽ giải quyết trong giai đoạn tiền xử lý dữ liệu với 10 phương pháp khác nhau được chia làm 2 nhĩm là nhĩm ngữ nghĩa và nhĩm 2 giai đoạn Cịn đối với vấn đề dữ liệu mất cân đối, đề tài sẽ giải quyết bằng phương pháp Resample và SMOTE Kết quả là xây dựng được mơ hình phân lớp
cĩ độ chính xác phân lớp cao và thời gian xây dựng mơ hình cĩ thể chấp nhận được
Chi tiết của chương này được trình bày trong cơng trình [48, 51, 52]
3.1 T ổNG QUAN Về PHƯƠNG PHÁP NGHIÊN CứU CủA BÀI TỐN PHÂN LớP
Đối với dữ liệu bị thiếu
Xem xét những hiện thực phương pháp xử lý dữ liệu bị thiếu trước đây và xây dựng mơ hình phân lớp bằng các giải thuật trong WEKA
So sánh, đánh giá và chọn ra phương pháp mà mơ hình phân lớp cĩ độ chính xác cao, cụ thể
là dùng 10 phương pháp được chia làm 2 nhĩm: nhĩm 1 là nhĩm về ngữ nghĩa và nhĩm 2 là nhĩm hai giai đoạn Nhĩm 1 gồm 4 phương pháp như: giá trị tồn cục 0, trung bình ngang đối với những giá trị đã biết, trung bình ngang khi đã điền vào giá trị tồn cục 0, trung bình theo cột thuộc tính Nhĩm 2 là nhĩm hai giai đoạn vì tập dữ liệu được chia làm hai phần là tập huấn luyện và tập kiểm tra và 2 phần này sẽ cĩ cách xử lý dữ liệu bị thiếu khác nhau Tập huấn luyện sử dụng các phương pháp trung bình dựa vào gom cụm tự nhiên (NCBMM), phương pháp gom cụm và phương pháp Zero; tập kiểm tra được xử lý bằng phương pháp trung bình ngang và k láng giềng gần
Xây dựng mơ hình phân lớp
Trong các phương pháp phân lớp, đề tài đã chọn ra những phương pháp cơ bản và phổ biến đại diện cho các nhĩm phương pháp khác nhau: phương pháp phân lớp thống kê: Nạve Bayes, phương pháp tuyến tính và phi tuyến: SMO, phương pháp lazy learning: kNN, phương pháp cấu trúc: C4.5 và Random Forest (RF)
Sử dụng những phương pháp phân lớp trong WEKA như: Nạve Bayes, SMO (Sequential Minimal Optimization, đây là thuật tốn tối ưu dành riêng cho phương pháp Support Vector Machine), Neural network, kNN, C4.5, RF
So sánh, đánh giá và và chọn ra phương pháp mà mơ hình phân lớp cĩ độ chính xác cao Kết quả khảo sát sơ bộ cho thấy đa số giải thuật RF thường cho kết quả cao hơn các giải thuật phân lớp khác
Dùng phương pháp Resample để giải quyết vấn đề mất cân đối dữ liệu
Đánh giá
Trang 22 So sánh độ chính xác của mơ hình vừa xây dựng với các mơ hình phân lớp trong WEKA như : Nạve Bayes, SMO, Neural network, C4.5, kNN và dùng độ đo về độ chính xác và khu vực dưới đường cong ROC để đánh giá các phương pháp phân lớp; từ đĩ rút ra kết luận về
mơ hình sau cùng cho hệ hỗ trợ ra quyết định về giáo dục
3.2 G IảI PHÁP THựC HIệN
Hiện tại ít cĩ cơng trình liên quan đến phần xử lý dữ liệu bị thiếu trong giáo dục và trong những cơng trình cĩ đề cập, các tác giả cũng chỉ dùng phương pháp khá đơn giản là điền vào giá trị tồn cục và dẫn đến kết quả phân lớp khơng tốt Chính vì lý do này mà chúng tơi đã áp dụng 10 phương pháp được chia làm hai nhĩm là nhĩm ngữ nghĩa và nhĩm hai giai đoạn để xử lý dữ liệu
bị thiếu nhằm so sánh đánh giá và chọn ra phương pháp cho kết quả tốt hơn các phương pháp thường được dùng cho dữ liệu giáo dục trước đây Trước hết chúng tơi đã tính tốn được tỷ lệ dữ liệu bị thiếu trong tập dữ liệu kết quả học tập các mơn học của các lớp sinh viên đại học thuộc khoa Khoa học và Kỹ thuật Máy tính, trường Đại học Bách Khoa TpHCM trong 3 năm học (năm
2, năm 3, và năm 4) với kích thước dữ liệu là 1334 và 43 thuộc tính và 1 thuộc tính lớp
Ngồi ra, chúng tơi cũng đã đề cập đến vấn đề dữ liệu mất cân đối trong giáo dục, mà các biện pháp để xử lý tình trạng này nĩi chung vẫn cịn đang được nghiên cứu, những cơng trình nghiên cứu gần đây cho thấy hiệu quả của chúng cũng cịn tùy thuộc vào giải thuật phân lớp và mức độ mất cân đối của tập dữ liệu cụ thể Chúng tơi đã thực hiện cân bằng lại bằng Resample và SMOTE trong WEKA rồi thực hiện phân lớp với 6 giải thuật phổ biến: C4.5, Nạve Bayes, SVM, Neural Network, Random Forest (RF) Trong đĩ RF là giải thuật thường cho kết quả cao nhất và khơng bị ảnh hưởng vấn đề mất cân đối dữ liệu Chúng tơi cũng đã thực hiện so sánh việc chỉ xử
lý dữ liệu bị thiếu rồi đi phân lớp với 6 giải thuật nêu trên và việc sau khi xử lý bị thiếu rồi đi cân bằng lại bằng Resample và SMOTE nhằm so sánh và đánh giá hiệu năng của chúng
Các bước cần tiến hành để thực hiện các cơng việc của bài tốn này cĩ thể được mơ tả như trong hình dưới đây:
Trang 23HÌNH 1 – CÁC BƯớC THựC HIệN CủA BÀI TOÁN PHÂN LớP
Trang 243.2.1 T IềN Xử LÝ TậP Dữ LIệU HọC TậP CủA SINH VIÊN
Trong lĩnh vực khai phá dữ liệu nói chung và bài toán phân lớp nói riêng, quá trình tiền xử
lý dữ liệu đóng vai trò rất quan trọng Một tập dữ liệu thô/gốc (raw/original dataset) sau khi đã được tiền xử lý với các kỹ thuật phù hợp như thu giảm dữ liệu (data reduction), làm sạch dữ liệu (data cleaning/cleansing), chuẩn hóa, v.v… sẽ cho ra kết quả huấn luyện tốt hơn so với tập dữ liệu thô ban đầu Bên cạnh đó, mỗi giải thuật huấn luyện thường phù hợp với một loại dữ liệu nào đó hơn các loại dữ liệu khác, ví dụ: giải thuật cây quyết định thường cho ra mô hình hiệu năng cao hơn khi dữ liệu thuộc loại rời rạc (nominal) so với khi dữ liệu là loại liên tục (numerical), còn giải thuật mạng nơ-ron lan truyền ngược thường phù hợp hơn với dữ liệu liên tục đã chuẩn hóa Để việc phân lớp sinh viên đạt được độ chính xác cao, tập dữ liệu kết quả học tập cần được khảo sát tỉ
mỉ để tìm ra những vấn đề trong nó rồi áp dụng các kỹ thuật tiền xử lý khác nhau để giải quyết chúng
Trong tập dữ liệu thô điểm thi/kiểm tra các môn học do Phòng Đào tạo (PĐT) của trường cung cấp, các trạng thái học tập của sinh viên (chính là thuộc tính lớp mà ta cần phân lớp) bao gồm 5 giá trị: TOT NGHIEP (TN), DANG HOC (DH), CANH CAO 1 (CC1), CANH CAO 2 (CC2), và THOI HOC (TH) Trạng thái TN ứng với những sinh viên đã hoàn thành chương trình đào tạo và được công nhận tốt nghiệp, DH ứng với sinh viên đang học bình thường để hoàn thành chương trình đào tạo, CC1 và CC2 để chỉ những sinh viên có kết quả học tập không tốt, có nguy
cơ sẽ bị buộc thôi học và được xếp vào các mức cảnh cáo lần 1 và sau đó là cảnh cáo lần 2, còn
TH để chỉ các sinh viên không được phép tiếp tục học nữa vì lý do nào đó (có nhiều môn học kết quả kém kéo dài, hoặc đã học quá số thời gian tối đa quy định mà vẫn chưa tốt nghiệp được) Đối với hệ thống giáo dục đại học theo học chế tín chỉ, sinh viên được chọn các môn học một cách linh hoạt Tại một thời điểm hay học kỳ nào đó, số lượng môn học cũng như các môn học cụ thể mà mỗi sinh viên tích lũy được là khác nhau, gây khó khăn cho việc phân lớp sinh viên Hơn nữa, cùng là sinh viên một chuyên ngành như nhau, nhưng giữa các khóa học khác nhau đôi khi lại có những môn học khác nhau (do chương trình giáo dục thay đổi)
Tuy việc đăng ký học của sinh viên là linh hoạt, nhưng mỗi sinh viên đều phải tuân theo chương trình đào tạo do Khoa quản lý chuyên ngành của sinh viên quy định Ngoài ra, tuy chương trình thay đổi giữa các khóa nhưng có một danh sách các môn học tương đương (giữa môn học cũ
và môn học mới) để tiện việc quy đổi Do đó, để giải quyết vấn đề khác nhau giữa số lượng môn học và các môn học cụ thể của mọi sinh viên, chúng tôi tổ chức lại dữ liệu thô do PĐT cung cấp chiếu theo danh sách các môn học Khi đó, tập dữ liệu có dạng là một bảng như Bảng 1, trong đó mỗi cột là một môn học (ký hiệu bằng mã môn học cho ngắn gọn) có trong chương trình đào tạo chuẩn, còn mỗi hàng là dữ liệu về điểm và trạng thái được ghi nhận gần nhất (TN, CTN, v.v…) của một sinh viên
BảNG 1 TậP Dữ LIệU KếT QUả HọC TậP, Tổ CHứC THEO CHƯƠNG TRÌNH ĐÀO TạO CHUẩN
Trang 25đó, sinh viên A đã hoàn thành môn 003016 còn sinh viên B thì chưa Sự học lệch môn giữa các sinh viên như thế làm cho tập dữ liệu không được nhất quán Để giải quyết sự không nhất quán này, môn học nào sinh viên chưa học sẽ được cấp cho giá trị là ┴ trong cơ sở dữ liệu, môn học nào sinh viên đã học rồi thì điểm số chính là điểm tổng kết của môn học đó Thỉnh thoảng có những sinh viên học một môn học nào đó nhiều lần (học lại để đủ điểm hoặc để cải thiện điểm), khi
đó ta chỉ lấy điểm cao nhất mà sinh viên đạt được của môn đó để dùng trong quá trình phân lớp,
dù đó là điểm đạt hay không đạt (điều này cũng hoàn toàn phù hợp với cách đánh giá kết quả của PĐT)
Theo chương trình đào tạo, mỗi sinh viên phải hoàn thành năm môn học tự chọn Do các môn học tự chọn có ý nghĩa tương đương nhau đối với việc xét tốt nghiệp, nên nếu sinh viên không hoàn thành môn tự chọn nào đó thì có thể học lại môn đó ở học kỳ sau hoặc đăng ký học môn tự chọn khác Vì vậy, khi lấy điểm cho các môn tự chọn cho sinh viên, ta sắp xếp các môn theo điểm rồi lấy năm môn khác nhau có điểm cao nhất
Đặc biệt, ngoài các điểm bình thường trong thang 10, PĐT còn quy định thêm một số điểm đặc biệt có giá trị lớn hơn 10, các điểm đặc biệt này còn được ký hiệu bằng các điểm chữ (tuy nhiên các ký hiệu chữ này ít khi được sử dụng), như trong Bảng 2 bên dưới
BảNG 2 CÁC ĐIểM ĐặC BIệT CủA CÁC MÔN HọC
Điểm số Điểm chữ Ý nghĩa – tên điểm Ghi chú
12 M Miễn thi Ghi chú tạm trong bảng điểm, sẽ
cập nhật trước khi tổng kết
13 F Vắng thi không phép Tính như điểm 0
14 I Vắng thi có phép Tính chưa tích lũy
15 Z Chưa nhận điểm Ghi chú tạm thời, sẽ cập nhật
trước khi tổng kết
Trang 26không tính vào ĐTBHK
Các điểm đặc biệt này nếu còn trong bảng điểm thì không thể được xử lý như đối với các điểm bình thường thuộc thang 10 Trong tập dữ liệu điểm sinh viên các khóa 2005-2008 mà chúng tôi nhận được từ PĐT, không có các điểm 11, 13, 15 và 18, nhưng vẫn còn sót lại một số điểm 12, 14, 16 và 17 Dữ liệu dùng để phân lớp được thu thập từ kết quả học tập của sinh viên nhiều khóa khác nhau, nhưng chương trình đào tạo của các khóa có thể không giống nhau, nên xảy
ra vấn đề không đồng nhất môn học giữa các khóa như đã nói ở trên (chỉ từ năm 2008 về sau, chương trình đào tạo mới trở thành chuẩn thống nhất) Để tạo sự đồng nhất trong dữ liệu, ta tra bảng các môn học tương đương giữa các khóa để đặt điểm của các môn khóa trước vào đúng cột điểm của môn tương đương của chương trình chuẩn 2008
Lúc này, tập dữ liệu đã tương đối đồng nhất và có thể dùng để phân lớp Bảng dữ liệu gồm
43 cột môn học và 1 cột kết quả cuối khóa Và 43 môn học này theo quy định của học chế tín chỉ
là có mức độ quan trọng như nhau, không có việc phân biệt giữa môn chuyên ngành và môn cơ bản
3.2.2 T HựC HIệN CHIA TậP Dữ LIệU THÀNH 5 FOLD
Đề tài chọn cách chia tập dữ liệu thành 5 fold khác nhau, không phải là 10 fold như những công trình khác thường làm khi đi phân lớp tập dữ liệu Cách chọn chia thành 5 fold là phù hợp với tập dữ liệu vì tập dữ liệu bị mất cân đối khá nhiều, nên nếu chia thành quá nhiều fold sẽ dẫn đến tình trạng có những fold không có thông tin về lớp mà cụ thể ở đây là lớp thiểu số Điều này dẫn đến không có thông tin về lớp ở một fold nào đó sẽ đem đến kết quả không chính xác
Để chuẩn bị cho việc xử lý dữ liệu bị thiếu ở phương pháp hai giai đoạn chúng tôi chia tập
dữ liệu D thành 5 fold một cách ngẫu nhiên dựa trên WEKA để chia thành 2 tập: tập huấn luyện (4/5 dữ liệu), tập kiểm tra (1/5 dữ liệu) Đối với dữ liệu bị thiếu chúng tôi tiến hành giải quyết hoàn toàn trong giai đoạn tiền xử lý dữ liệu Trên thực tế, khi đi phân lớp một đối tượng thì chưa biết lớp của đối tượng đó, nên trong khi xử lý dữ liệu bị thiếu, chúng tôi cũng chia tập dữ liệu của mình thành hai phần là tập huấn luyện và tập kiểm tra Tập huấn luyện được xem như tập dữ liệu
để xây dựng mô hình đã biết trước lớp đối tượng và chiếm 4/5 dữ liệu Còn tập kiểm tra là tập những đối tượng được xem như là chưa biết lớp đối tượng và chiếm 1/5 tập dữ liệu Tập kiểm tra được lấy ngẫu nhiên bằng việc chức năng StratifiedRemoveFolds trong WEKA và tập huấn luyện
là 4/5 tập dữ liệu còn lại Và để đảm bảo tập test ở 5 fold không bị trùng record thì từ fold 2 sẽ lấy ngẫu nhiên từ tập huấn luyện của fold 1 và tương tự cho fold 3, fold 4 và fold 5 Theo như hình 1 dưới đây D1, D2, D3, D4, D5 lần lượt là tập kiểm tra của các fold 1, fold 2, fold 3, fold 4, fold 5
Trang 27HÌNH 2 CÁCH LấY TậP KIểM TRA CHO 5 FOLD
Như vậy fold 1 bao gồm tập kiểm tra D1 và tập huấn luyện là D-D1,
fold 2 bao gồm tập kiểm tra D2 và tập huấn luyện là D-D2,
fold 3 bao gồm tập kiểm tra D3 và tập huấn luyện là D-D3,
fold 4 bao gồm tập kiểm tra D4 và tập huấn luyện là D-D4,
fold 5 bao gồm tập kiểm tra D5 và tập huấn luyện là D-D5
3.2.3 T HựC HIệN Xử LÝ Dữ LIệU Bị THIếU
Xử lý dữ liệu bị thiếu được xem xét về mặt ngữ nghĩa của tập dữ liệu kết hợp với thông tin
về lớp và xem xét trong hai giai đoạn xây dựng mô hình và sử dụng mô hình Chính vì thế mà phương pháp tiếp cận được chia làm 2 nhóm là nhóm tiếp cận về mặt ngữ nghĩa và nhóm tiếp cận hai giai đoạn Trong nhóm đầu tiên sẽ không có sự phân biệt 2 giai đoạn tập huấn luyện và tập kiểm tra trong quá trình xử lý dữ liệu bị thiếu mà các giá trị được điền vào những chỗ bị thiếu sẽ được xem xét về mặt ngữ nghĩa Trong nhóm thứ hai, trong việc xử lý dữ liệu bị thiếu được chia làm 2 giai đoạn là huấn luyện và kiểm tra, có thể hiểu rằng những đối tượng đi phân lớp sẽ có những giá trị bị thiếu và cũng không biết trước được lớp của đối tượng, trong trường hợp này thì giá trị cục bộ hoặc những giá trị của những đối tượng lân cận sẽ được xem xét trong giai đoạn phân lớp
A Phương pháp dựa trên ngữ nghĩa: áp dụng cho cả tập huấn luyện và tập kiểm tra là như nhau
Chúng tôi tiến hành xử lý dữ liệu bị thiếu ở tập huấn luyện và tập kiểm tra giống nhau Các bước thực nghiệm được tiến hành như ở hình 3 dưới đây:
Trang 28HÌNH 3 CÁC BƯớC THựC HIệN Xử LÝ Dữ LIệU Bị THIếU Về MặT NGữ NGHĨA
Để dễ dàng hơn trong việc tiếp cận các phương pháp chúng tôi đưa ra ví dụ minh họa tập
dữ liệu gồm 10 bản ghi và 8 thuộc tính không kể thuộc tính lớp dưới đây để xem xét
BảNG 3 VÍ Dụ MINH HọA TậP Dữ LIệU
Về thực tế thì được hiểu những môn nào sinh viên chưa học hay chưa có kết quả thì đều đạt điểm 0, không có sự phân biệt về môn học hay ảnh hưởng từ những môn học khác đến điểm của những môn bị thiếu và cũng không liên quan đến lớp của đối tượng Với phương pháp Zero thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như Bảng 4 sau:
Trang 29BảNG 4 VÍ Dụ MINH HọA PHƯƠNG PHÁP 1: ZERO
…, xn , c) Dc là những chiều chứa giá trị đầy đủ và Di là những chiều giá trị bị thiếu, vì vậy |Dc| +
|Di| = n Những giá trị bị thiếu sẽ được thay thế bằng giá trị theo công thức sau:
Về thực tế thì việc thay những điểm số của những môn sinh viên chưa học bằng cách tính trung bình những môn đã học của chính sinh viên đó và điền vào Điều này sẽ đem lại kết quả phân lớp tốt nếu như điểm số của sinh viên tính đến thời điểm hiện tại và tương lai là như nhau, nhưng trong thực tế thì có thể không đúng vì có thể sinh viên có những nỗ lực trong việc học khiến kết quả cao hơn hoặc có những lý do khiến kết quả sinh viên thấp hơn hiện tại Và những giá trị được điền vào những chỗ ┴ sẽ không liên quan gì đến lớp của đối tượng
Với phương pháp cInsMean thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như Bảng 5 sau:
BảNG 5 VÍ Dụ MINH HọA PHƯƠNG PHÁP 2: CINSMEAN
D k k
Trang 30i D
k k
Vì vậy, phương pháp này đã khám phá ngữ nghĩa của dữ liệu bị thiếu kết hợp với thông tin lớp của đối tượng
Với phương pháp fInsMean thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như Bảng
dữ liệu bị thiếu
Trang 31Cách tiếp cận này, AttMean sẽ đối xử với các sinh viên như nhau trong việc điền vào giá trị bị thiếu Nó cũng giả định rằng những sinh viên chưa học môn học và chưa có điểm sẽ có kết quả tương đương với những môn đã học Điều này có thể không đúng đối với những sinh viên có khả năng vượt trội ở một số môn học nhất định nào đó Bên cạnh đó, phương pháp này không xem xét thông tin về lớp trong quá trình xử lý dữ liệu bị thiếu
Với phương pháp AttMean thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như Bảng
B Phương pháp hai giai đoạn
Trong nhóm này, chúng ta nghiên cứu các phương pháp xử lý dữ liệu bị thiếu mà không xử
lý dữ liệu huấn luyện và dữ liệu kiểm tra giống nhau Do đó, chúng tôi đặt tên cho cách tiếp cận như vậy cách tiếp cận hai giai đoạn Trong nhóm này, xác định sáu phương pháp hai giai đoạn cụ thể Trong giai đoạn huấn luyện , chúng tôi xử lý dữ liệu bị thiếu trong tập huấn luyện thiết lập trong ba cách khác nhau: cách thứ nhất là Class là phương pháp NCBMM bằng cách sử dụng thông tin lớp của từng đối tượng huấn luyện, cách thứ hai là Cluster, bằng cách sử dụng thông tin nhóm của từng đối tượng huấn luyện , và Zero sử dụng một giá trị toàn cục bằng không Trong giai đoạn phân lớp để xử lý dữ liệu bị thiếu trong tập kiểm tra, chúng tôi xem xét hai phương pháp: phương pháp đầu tiên, được đặt tên Ins, sử dụng các giá trị địa phương từ mỗi đối tượng kiểm tra và phương pháp thứ hai, đặt tên kNN, sử dụng những giá trị lân cận của đối tượng kiểm tra
Trang 32HÌNH 4 CÁC BƯớC THựC HIệN Xử LÝ Dữ LIệU Bị THIếU PHƯƠNG PHÁP HAI GIAI ĐOạN
3.2.3.5 PHƯƠNG PHÁP 5:CLASS_INS
Cách tiếp cận này, Class_Ins sử dụng trung bình gom cụm tự nhiên (NCBMM) để xử lý dữ liệu bị thiếu của dữ liệu huấn luyện thiết lập trong giai đoạn học và phương pháp tiếp cận cInsMean để điền dữ liệu bị thiếu của dữ liệu kiểm tra trong giai đoạn phân lớp NCBMM sử dụng trung bình của mỗi cụm tự nhiên dựa trên thông tin lớp của các đối tượng trong mỗi cụm để điền
dữ liệu bị thiếu trong tập dữ liệu huấn luyện Về thực tế thì sẽ không có thông tin về lớp đối với tập kiểm tra nên không thể xử lý dữ liệu bị thiếu như tập dữ liệu huấn luyện Vì vậy mà khi chọn phương pháp xử lý dữ liệu bị thiếu đối với tập kiểm tra cần độc lập với thông tin lớp Xử lý dữ liệu bị thiếu được tiến hành như sau :
Đối với giai đoạn học, cho mỗi lớp là một cụm tự nhiên bao gồm đối tượng M trong tập dữ liệu huấn luyện tương ứng với lớp c ký hiệu là : Class = { X1training , X2training , , XMtraining } Mỗi
Xttraining đối tượng trong lớp cho t = 1 M được ký hiệu là : Xttraining = ( xt1training , xt2training , ,
xtntraining , c) Cho Dctraining có chiều nơi Xttraining có giá trị đầy đủ và Ditraining có chiều nơi Xttraining có giá trị bị thiếu mà | Dctraining | + | Ditraining | = n Mỗi giá trị không rõ trong Xttraining cho t = 1
M ở chiều j cho k = 1 | Ditraining | được thay thế bằng các giá trị Classj là một tập hợp con của lớp bao gồm tất cả các đối tượng có dữ liệu đầy đủ tại chiều j
|
Class k
training kj training
c
D k
test k test
D
x x
test c
Trang 33Về ngữ nghĩa, giá trị sử dụng cho điền dữ liệu bị thiếu trong giai đoạn học trong mỗi lớp và
có thể giúp tăng cường hiệu quả của việc phân lớp như làm cho tất cả các đối tượng trong cùng một lớp học tương tự như nhau Tuy nhiên, giá trị sử dụng trong giai đoạn phân lớp chỉ đơn giản
là dựa trên dữ liệu hoàn chỉnh hiện tại của mỗi đối tượng kiểm tra và không liên quan đến lớp hay các dữ liệu thuộc tính của các đối tượng trong tập dữ liệu huấn luyện Giá trị như vậy có thể gây trở ngại cho việc phân lớp theo kết quả phân lớp đối tượng Thật vậy, cách tiếp cận này đã thừa nhận rằng các lớp của các đối tượng kiểm tra phải được bắt nguồn từ lớp của các đối tượng có dữ liệu thuộc tính tương tự như dữ liệu hoàn chỉnh như hiện nay Vào thời điểm đó , tình trạng nghiên cứu cuối cùng dự đoán của sinh viên được phân lớp chỉ dựa trên các lớp hiện tại của các đối tượng
đã được nghiên cứu
Với phương pháp Class_Ins thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như Bảng
8 với 8 bản ghi đầu thuộc tập huấn luyện và 2 bản ghi cuối thuộc tập kiểm tra:
BảNG 8 VÍ Dụ MINH HọA PHƯƠNG PHÁP 5 CLASS_INS
bị thiếu trong giai đoạn học:
Bước 1: Sử dụng các phương pháp tiếp cận Zero với số không cho điền dữ liệu không đầy
đủ trong tập dữ liệu huấn luyện
Bước 2: Gom cụm dữ liệu huấn luyện đặt vào k cụm, k là số lớp Mỗi cụm được đại diện bởi một đại diện là một trung bình
Bước 3: Tính toán lại giá trị trung bình của mỗi cụm chỉ sử dụng hoàn toàn dữ liệu của các đối tượng thuộc nhóm đó
Bước 4: Đối với mỗi đối tượng của mỗi cụm, dữ liệu không đầy đủ mà hiện nay số không
từ bước 1 được thay thế bằng trung bình của nó
Trang 34Phương pháp này có phần tương tự như Class_Ins cách tiếp cận trước, trừ các cụm dựa trên
sự tương tự giữa các đối tượng được sử dụng thay vì cụm tự nhiên Vì vậy, nhiệm vụ phân lớp có
xu hướng chỉ định một lớp để một đối tượng kiểm tra chỉ dựa trên dữ liệu hiện tại
3.2.3.7 PHƯƠNG PHÁP 7:ZERO_INS
Zero_Ins là cách tiếp cận kết hợp các phương pháp tiếp cận dựa trên ngữ nghĩa là Zero và
cInsMean Với phương pháp Zero_Ins thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như
Bảng 9 với 8 bản ghi đầu thuộc tập huấn luyện và 2 bản ghi cuối thuộc tập kiểm tra
BảNG 9 VÍ Dụ MINH HọA PHƯƠNG PHÁP 7 ZERO_INS
có được những đối tượng tương tự của một đối tượng kiểm tra, chúng tôi sử dụng phương pháp k (k ≥ 1) đối tượng lân cận trong không gian con của tập dữ liệu huấn luyện, nơi các đối tượng kiểm tra có dữ liệu đầy đủ là số đối tượng tương tự của các đối tượng kiểm tra Xử lý dữ liệu bị thiếu trong giai đoạn phân lớp được cung cấp từng bước như sau
Bước 1 : Xác định các không gian con cho tập dữ liệu huấn luyện dựa trên chiều, nơi các
đối tượng kiểm tra có dữ liệu đầy đủ
Bước 2: Lấy k láng giềng gần nhất của đối tượng kiểm tra từ dữ liệu huấn luyện đặt trong
không gian con nói trên với k ≥ 1
Bước 3: Điền dữ liệu không đầy đủ của đối tượng kiểm tra bằng cách sử dụng giá trị trung
bình từ dữ liệu hoàn chỉnh bên tập huấn luyện theo k láng giềng gần nhất
Cũng giống như các phương pháp tiếp cận cInsMean cho giai đoạn phân lớp trong ba cách tiếp cận hai giai đoạn trước đó, bằng cách sử dụng thuật toán k -nn trong không gian con nơi đối tượng kiểm tra có dữ liệu đầy đủ sẽ làm cho giá trị sử dụng để xử lý dữ liệu bị thiếu cũng dựa trên
dữ liệu hoàn chỉnh như hiện nay Tuy nhiên , không có nguồn gốc từ các dữ liệu hoàn chỉnh hiện tại của đối tượng kiểm tra, các giá trị trong phương pháp này được tính toán chiều bằng chiều từ
Trang 35dữ liệu hoàn chỉnh của k hàng xóm gần nhất của đối tượng kiểm tra trong tập dữ liệu huấn luyện Những dữ liệu hoàn chỉnh của k láng giềng gần nhất đã được kết hợp với thông tin về lớp để các giá trị cho điền dữ liệu bị thiếu của đối tượng thử nghiệm có thể được kết nối với thông tin lớp đến mức độ nào so với các đối tượng trong tập dữ liệu huấn luyện Vì vậy, các lớp của các đối tượng không đầy đủ của một sinh viên được tính toán từ các lớp của các đối tượng đầy đủ của các sinh viên khác, tức là tìm những sinh viên có điểm đầy đủ và lực học ngang bằng với sinh viên có điểm chưa đầy đủ để điền vào giá trị bị thiếu
Với phương pháp Class_kNN thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như
Bảng 10 với 8 bản ghi đầu thuộc tập huấn luyện và 2 bản ghi cuối thuộc tập kiểm tra
BảNG 10 VÍ Dụ MINH HọA PHƯƠNG PHÁP 8 CLASS_KNN
3.2.3.10 PHƯƠNG PHÁP 10:ZERO_KNN
Zero_kNN là một phương pháp sử dụng các phương pháp tiếp cận Zero trong giai đoạn học
và quá trình xử lý dữ liệu bị thiếu trong giai đoạn phân lớp các phương pháp tiếp cận Class_kNN với k láng giềng gần Cách tiếp cận này, Zero_kNN, khác với Zero_Ins tiếp cận trong đó các giá trị được sử dụng để điền dữ liệu bị thiếu trong giai đoạn phân lớp được liên kết với thông tin từ các lớp dữ liệu hoàn chỉnh của k hàng xóm gần nhất trong tập dữ liệu huấn luyện Như khám phá những ngữ nghĩa của dữ liệu bị thiếu trong việc xem xét thông tin lớp, hy vọng rằng Zero_kNN có thể giúp nâng cao hiệu quả của một phân lớp hiện tốt hơn so với Zero_Ins có thể
Với phương pháp Zero_kNN thì sau khi xử lý dữ liệu bị thiếu Bảng 3 sẽ trở thành như
Bảng 11 với 8 bản ghi đầu thuộc tập huấn luyện và 2 bản ghi cuối thuộc tập kiểm tra:
Trang 363.2.4 T HựC HIệN Xử LÝ Dữ LIệU MấT CÂN ĐốI
Đầu tiên, chúng tôi tiến hành so sánh tập dữ liệu
BảNG 12 BảNG SO SÁNH Dữ LIệU TRƯớC VÀ SAU CÂN ĐốI
dữ liệu ban đầu Việc lấy mẫu lại này sử dụng các bộ tiền xử lý Resample và SpreadSubsample có sẵn trong WEKA
Trang 37Resample sinh ra một tập con gồm những mẫu ngẫu nhiên của tập dữ liệu bằng cách dùng phương pháp lấy mẫu có đặt lại chỗ cũ (mặc định) hoặc không đặt lại chỗ cũ Ta có thể chỉ định số lượng bản ghi của tập con mẫu được sinh ra Tập con mẫu này theo mặc định vẫn duy trì phân bố lớp của tập dữ liệu gốc, tuy nhiên ta có thể sửa cấu hình giải thuật để chỉnh lại phân bố lớp của nó thành phân bố đều (như vậy giống như đã lấy mẫu thiếu lớp đa số và lấy mẫu dư lớp thiểu số)
SpreadSubsample cũng sinh ra một tập con gồm những mẫu ngẫu nhiên của tập dữ liệu, nhưng ta có thể kiểm soát sự khác biệt tần suất giữa lớp ít nhất và lớp nhiều nhất bằng cách chỉ định tham số độ trải (spread): khi độ trải này bằng 1, tập con sẽ có phân bố đều (tức là cũng giống như đã lấy mẫu dư lớp thiểu số và lấy mẫu thiếu lớp đa số)
Về việc cân đối lại dữ liệu, chúng tôi đã tiến xử lý dữ liệu bị thiếu và cân đối dữ liệu song song với nhau Đối với cả hai nhóm phương pháp ngữ nghĩa và nhóm phương pháp hai giai đoạn thì chúng tôi cũng đã tiến hành chia làm 5 fold với mỗi fold bao gồm cả tập huấn luyện và tập kiểm tra chứ không sử dụng việc phân thành 5 fold trong quá trình phân lớp với WEKA như ở trên đối với phương pháp xử lý dữ liệu bị thiếu Việc xử lý dữ liệu bị thiếu của tập kiểm tra sẽ phụ thuộc vào những giá trị bên tập huấn luyện, ở một số phương pháp như Attmean, Class_kNN, Cluster_kNN, Zero_kNN Đặc biệt chúng tôi chỉ tiến hành cân đối với tập huấn luyện, rồi sau đó
xử lý dữ liệu bị thiếu bên tập kiểm tra, còn với tập kiểm tra thì không cân đối vì tập kiểm tra là những đối tượng được chưa biết lớp, nên việc cân đối cả tập kiểm tra không đúng với thực tế mà
đề tài đang đề cập Cụ thể đối với các phương pháp xử lý dữ liệu bị thiếu, chúng tôi sẽ tiến hành
xử lý dữ liệu bị thiếu kết hợp với xử lý mất cân đối như sau:
Đối với nhóm phương pháp ngữ nghĩa, chúng tôi cũng tiến hành chia 5 fold với mỗi fold bao gồm cả tập huấn luyện và tập kiểm tra Đối với 3 phương pháp Zero, cInsMean và fInsMean việc xử lý dữ liệu bị thiếu ở tập kiểm tra không liên quan đến việc xử lý dữ liệu bị thiếu trong tập huấn luyện vì đối với phương pháp Zero sử dụng giá trị toàn cục là 0 và phương pháp cInsMean
và fInsMean thì giá trị thay thế được tính từ mỗi đối tượng, tức là những môn học nào chưa có điểm của mỗi sinh viên sẽ được thay thế bởi giá trị dựa trên những môn học đã có điểm Còn riêng đối với phương pháp AttMean thì những giá trị bị thiếu bên tập kiểm tra sẽ dựa vào những giá trị
đã biết bên tập huấn luyện nhưng không liên quan đến thông tin về lớp Đối với 3 phương pháp Class_Ins, Cluster_Ins, Cluster_Ins cũng giống với phương pháp cInsMean và fInsMean là xử lý
dữ liệu bị thiếu bên tập kiểm tra không liên quan đến tập huấn luyện Chính vì thế với các phương pháp trên chúng tôi cũng tiến hành xử lý dữ liệu bị thiếu đối với cả tập huấn luyện và tập kiểm tra; rồi cân đối dữ liệu bên tập huấn luyện; xây dựng mô hình và kiểm tra mô hình với tập kiểm tra Cụ thể với các phương pháp Zero, cInsMean, fInsMean, AttMean, Class_Ins, Cluster_Ins, Zero_Ins chúng tôi tiến hành theo các bước như hình 5 dưới đây:
Trang 38Đối với 3 phương pháp cịn lại Class_kNN, Cluster_kNN, Zero_kNN thì việc xử lý bên tập kiểm tra khơng những cĩ liên quan đến các tập huấn luyện mà cịn liên quan đến thơng tin về lớp bên tập huấn luyện Chính vì lý do này nên chúng tơi đã tiến hành xử lý dữ liệu bị thiếu bên tập huấn luyện, đem cân đối với Resample tập huấn luyện; sau đĩ mới dùng các giá trị cũng như thơng tin lớp bên tập huấn luyện để điền vào giá trị bị thiếu bên tập kiểm tra Cuối cùng chúng tơi cũng dùng mơ hình phân lớp bên tập huấn luyện để kiểm tra mơ hình với tập kiểm tra Cụ thể với các phương pháp Class_kNN, Cluster_kNN, Zero_kNN chúng tơi tiến hành theo các bước như hình 6 dưới đây:
HÌNH 6 CÁC BƯớC THựC HIệN Xử LÝ Dữ LIệU Bị THIếU VÀ CÂN ĐốI Dữ LIệU 2
Phương pháp tái cân đối trước khi xử lý dữ liệu bị thiếu với phương pháp Class_kNN và
Cluster_kNN
Đối với các phương pháp Zero, cInsMean, fInsMean, AttMean, Class_Ins, Cluster_Ins, Zero_Ins, Zero_kNN thì khi thực hiện tái cân đối sau hay trước khi xử lý dữ liệu bị thiếu đều khơng ảnh hưởng đến kết quả vì những phương pháp này khi xử lý dữ liệu bị thiếu trong tập huấn luyện và tập kiểm tra đều khơng phụ thuộc vào thơng tin về lớp Nhưng đối với phương pháp Class_kNN và Cluster_kNN thì khi thơng tin về lớp thay đổi sẽ làm ảnh hưởng đến thơng tin về lớp của các đối tượng trong cụm đối với phương pháp Cluster_kNN, và đối với phương pháp Cluster_kNN khi thơng tin về lớp thay đổi sẽ dẫn đến thay đổi về số lượng các đối tượng cùng lớp Chính vì vậy, chúng tơi đã tiến hành đổi thứ tự đối với hai phương pháp nay, tái cân đối dữ liệu trước khi xử lý dữ liệu bị thiếu Cụ thể được trình bày ở hình 7 dưới đây:
HÌNH 7 CÁC BƯớC THựC HIệN Xử LÝ Dữ LIệU Bị THIếU VÀ CÂN ĐốI Dữ LIệU 3
3.2.5 T HựC HIệN PHÂN LớP VớI WEKA
Chúng tơi đã sử dụng các thuật tốn phổ biến C4.5, Nạve Bayes, SVM, Neural Network,
RF trong cơng cụ khai phá dữ liệu WEKA để đánh giá và so sánh các phương pháp xử lý bị thiếu
Trang 39và dữ liệu mất cân đối Theo kinh nghiệm, chúng tơi đã lựa chọn các tham số thích hợp với từng giải thuật phân lớp để đạt được kết quả phân lớp tốt nhất : (1) Nạve Bayes; (2) Neural Networks:
số tầng ẩn (number of hidden layers) = 1; số nút ẩn (number of hidden nodes) = (input nodes + output nodes)/2; tỷ lệ học (learning rate) = 0.3; động lượng (momentum) = 0.2; number of epochs
= 500 ; (3) One-against-one Support Vector Machine (SMO) kernel = radial basis function, degree
= 3 ; (4) K-nn: k = 1, distance measure = Euclidean; (6) RF: số các thuộc tính (numFeatures) = 2;
số lượng cây numTrees = 300 Hơn nữa, chúng tơi sử dụng các thuật tốn k-means với k = 5 cho Cluster_Ins và Cluster_kNN Ngồi ra, số lượng những phần tử lân cận được sử dụng trong Class_kNN, Cluster_kNN, và Zero_kNN được thay đổi trong {1, 6, 11, 16 , 21 } và sau đĩ nếu k nào cho kết quả phân lớp tốt hơn sẽ được chọn trong phần thực nghiệm
3.2.6 Đ ÁNH GIÁ
Về việc đánh giá mơ hình, chúng tơi chọn k-fold cross-validation với k = 5 và đánh giá với
độ đo là độ chính xác và độ đo khu phần phía dưới đường cong ROC Đặc biệt độ chính xác được chọn để đánh giá tổng thể và nĩ thể hiện được khả năng phân lớp đúng đối với đối tượng cần phân lớp Ngồi ra ROC thể hiện mối liên hệ giữa tỷ lệ dương đúng và tỷ lệ dương sai Đối với hai độ
đo nĩi trên, khi các giá trị càng cao, khả năng phân lớp càng tốt Một số kết quả thực nghiệm được minh họa trong Bảng 13 và 14 bên dưới
BảNG 13 KếT QUả ACC(%) VÀ ROC TRÊN CÁC TậP Dữ LIệU YEAR 2, YEAR 3, VÀ YEAR 4 VớI CÁC PHƯƠNG PHÁP Xử LÝ Dữ LIệU Bị THIếU
Trang 40BảNG 14 KếT QUả ACC(%) VÀ ACCURACY DELTA TRÊN CÁC TậP Dữ LIệU YEAR 2, YEAR 3, VÀ YEAR 4 VớI CÁC PHƯƠNG PHÁP Xử LÝ Dữ LIệU Bị THIếU VÀ CÁC PHƯƠNG PHÁP Xử LÝ Dữ LIệU Bị MấT CÂN ĐốI