Xây Dựng Hệ Hỗ Trợ Quyết Định Tìm Cố Vấn Học Tập Cho Sinh Viên Dựa Trên Lý Thuyết Ghép Cặp Bền Vững Và Các Giải Thuật Tối Ưu Tiến Hóa Đa Mục TiêuXây Dựng Hệ Hỗ Trợ Quyết Định Tìm Cố Vấn Học Tập Cho Sinh Viên Dựa Trên Lý Thuyết Ghép Cặp Bền Vững Và Các Giải Thuật Tối Ưu Tiến Hóa Đa Mục TiêuXây Dựng Hệ Hỗ Trợ Quyết Định Tìm Cố Vấn Học Tập Cho Sinh Viên Dựa Trên Lý Thuyết Ghép Cặp Bền Vững Và Các Giải Thuật Tối Ưu Tiến Hóa Đa Mục TiêuXây Dựng Hệ Hỗ Trợ Quyết Định Tìm Cố Vấn Học Tập Cho Sinh Viên Dựa Trên Lý Thuyết Ghép Cặp Bền Vững Và Các Giải Thuật Tối Ưu Tiến Hóa Đa Mục TiêuXây Dựng Hệ Hỗ Trợ Quyết Định Tìm Cố Vấn Học Tập Cho Sinh Viên Dựa Trên Lý Thuyết Ghép Cặp Bền Vững Và Các Giải Thuật Tối Ưu Tiến Hóa Đa Mục TiêuHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --- Trần Ngọc Khoa XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH TÌM CỐ VẤN HỌC TẬP CHO SINH VIÊN DỰA TRÊN LÝ THUYẾT GHÉP CẶP BỀN VỮNG VÀ CÁC GIẢI THUẬT TỐI ƯU
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Trần Ngọc Khoa
XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH TÌM CỐ VẤN HỌC TẬP CHO SINH VIÊN DỰA TRÊN LÝ THUYẾT GHÉP CẶP BỀN VỮNG
VÀ CÁC GIẢI THUẬT TỐI ƯU TIẾN HOÁ ĐA MỤC TIÊU
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - NĂM 2025
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Trần Ngọc Khoa
XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH TÌM CỐ VẤN HỌC TẬP CHO SINH VIÊN DỰA TRÊN LÝ THUYẾT GHÉP CẶP BỀN VỮNG
VÀ CÁC GIẢI THUẬT TỐI ƯU TIẾN HOÁ ĐA MỤC TIÊU
Chuyên ngành: HỆ THỐNG THÔNG TIN
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong đề án tốt nghiệp là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác
Tác giả đề án tốt nghiệp ký và ghi rõ họ tên
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH iv
MỞ ĐẦU 1
CHƯƠNG 1 – MÔ TẢ BÀI TOÁN VÀ CƠ SỞ LÝ THUYẾT 6
1.1 Mô tả bài toán 6
1.2 Lý thuyết ghép cặp bền vững (Stable matching theory) 8
1.3 Giải thuật tối ưu tiến hoá đa mục tiêu (MOEA) 14
1.4 Các nghiên cứu liên quan 24
CHƯƠNG 2 – XÂY DỰNG GIẢI THUẬT VÀ HỆ TRỢ GIÚP QUYẾT ĐỊNH 27
2.1 Xây dựng mô hình toán học 27
2.2 Thiết kế giải thuật đề xuất 34
2.3 Triển khai hệ trợ giúp quyết định 45
CHƯƠNG 3 – CÀI ĐẶT VÀ THỬ NGHIỆM 49
3.1 Thiết kế thực nghiệm 49
3.2 Cài đặt hệ thống và kết quả thực nghiệm 52
3.3 Đánh giá 53
KẾT LUẬN 57
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 58
Trang 5DANH MỤC CÁC BẢNG
Bảng 3.1: Bảng so sánh kết quả giá trị fitness giữa các giải thuật 53 Bảng 3.2: Bảng so sánh kết quả thời gian chạy của các giải thuật 53
Trang 6DANH MỤC CÁC HÌNH
Hình 1.1: Minh hoạ cho bài toán ghép cặp 12
Hình 1.2: Sơ đồ các bước hoạt động của NSGA-II 16
Hình 1.3: Chu trình hoạt động của giải thuật SPEA2 18
Hình 1.4: Luồng hoạt động của giải thuật MOEA/D 20
Hình 2.1: Các mẫu mã hóa cá thể (chromosome) trong NSGA-III 37
Hình 2.2: Sơ đồ hoạt động của giải thuật đề xuất 40
Hình 2.3: Mã giả của giải thuật đề xuất 40
Hình 2.4: Giao diện khối tải lên file Excel dữ liệu phía người dùng 47
Hình 2.5: Giao diện khối hiển thị tiến trình 47
Hình 2.6: Giao diện khối hiển thị kết quả 48
Hình 2.7: Giao diện khối hiển thị phân tích chuyên sâu (insights) 49
Hình 3.1: Kết quả thực nghiệm của giải thuật 52
Hình 3.2: Đồ thị biểu diễn kết quả thời gian chạy của các giải thuật 54
Trang 7MỞ ĐẦU
1 Lý do chọn đề tài
Trong bối cảnh giáo dục hiện đại, nhu cầu tiếp cận tri thức chuyên môn và sự
hỗ trợ cá nhân hóa từ cố vấn ngày càng trở nên cấp thiết Điều này đặt ra yêu cầu cho việc nghiên cứu và phát triển các hệ thống ghép cặp sinh viên - cố vấn hiệu quả và bền vững, nhằm tối ưu hóa quá trình học tập và nghiên cứu Mặc dù việc ứng dụng công nghệ thông tin trong giáo dục là xu hướng tất yếu, thực trạng hiện nay cho thấy các hệ thống ghép cặp vẫn còn tồn tại nhiều hạn chế Các hệ thống truyền thống thường thiếu tính cá nhân hóa, chưa đề cao việc xem xét sự phù hợp về chuyên môn, phương pháp giảng dạy và đặc điểm tính cách giữa sinh viên và cố vấn Điều này khiến sinh viên gặp khó khăn trong việc tìm kiếm người hướng dẫn phù hợp, ảnh hưởng tiêu cực đến hiệu quả học tập và nghiên cứu Hơn nữa, việc ghép cặp thủ công cũng gây lãng phí thời gian và công sức của sinh viên, cố vấn và các tổ chức giáo dục
Để giải quyết những thách thức này, việc ứng dụng các thành tựu khoa học tiên tiến, điển hình là lý thuyết ghép cặp bền vững (stable matching theory), vào thực tiễn giáo dục được xem là một hướng đi đầy tiềm năng Được trao giải Nobel Kinh
tế năm 2012, lý thuyết lĩnh vực lý thuyết trò chơi (game theory) này đã tạo ra một bước đột phá trong việc giải quyết các bài toán phân bổ nguồn lực Cụ thể, lý thuyết này cho phép tạo ra các cặp ghép đôi bền vững, trong đó không cá nhân nào có xu hướng rời bỏ cặp hiện tại để tìm kiếm đối tác khác phù hợp hơn
Bằng cách kết hợp lý thuyết ghép cặp bền vững với các giải thuật tối ưu tiến hóa đa mục tiêu, đề án này hướng đến việc tối ưu hóa quy trình ghép cặp sinh viên -
cố vấn Mục tiêu là xây dựng một hệ thống hỗ trợ quyết định thân thiện với người dùng, mang lại lợi ích tối đa cho cả sinh viên và cố vấn Việc ứng dụng thành tựu khoa học này vào thực tiễn hứa hẹn tạo ra một hệ thống hỗ trợ ghép cặp hiệu quả, khoa học, với tiềm năng triển khai cao và khả năng mang lại lợi ích thiết thực cho cộng đồng giáo dục Đề án được xây dựng trên nền tảng khoa học vững chắc, ứng dụng các giải thuật đã được nghiên cứu và kiểm chứng tính hiệu quả trong thực tế, từ
Trang 8đó gia tăng khả năng ứng dụng thực tiễn và đóng góp tích cực vào sự phát triển của lĩnh vực giáo dục
2 Tổng quan về vấn đề nghiên cứu
Bài toán ghép cặp sinh viên - cố vấn đã và đang thu hút sự quan tâm nghiên cứu rộng rãi của cộng đồng khoa học, dẫn đến sự hình thành của nhiều phương pháp
và kỹ thuật tiếp cận khác nhau Các hệ thống dựa trên luật [23], tuy sở hữu ưu điểm
về tính đơn giản và khả năng triển khai dễ dàng, lại thường thể hiện sự thiếu linh hoạt trong việc đáp ứng các yêu cầu phức tạp của bài toán thực tế Trong khi đó, các nghiên cứu ứng dụng học máy cho thấy tiềm năng đáng kể trong việc phân tích dữ liệu và tự động hóa quy trình ghép cặp Tuy nhiên, các phương pháp này vẫn còn phụ thuộc vào chất lượng và số lượng dữ liệu huấn luyện, đồng thời gặp hạn chế trong việc diễn giải kết quả cho người dùng Tương tự, các phương pháp tối ưu hóa dựa trên thống kê [10], mặc dù đạt hiệu quả trong việc tìm kiếm giải pháp tối ưu cho các hàm mục tiêu
cụ thể, vẫn đối mặt với thách thức trong việc xử lý các bài toán đa ràng buộc phức tạp thường gặp trong thực tế Các nghiên cứu đánh giá thực nghiệm [3], tuy cung cấp cái nhìn thực tiễn hơn về hiệu quả của các phương pháp cố vấn hiện có, thường đòi hỏi chi phí đáng kể và khó khăn trong việc kiểm soát các yếu tố tác động
Xuất phát từ những hạn chế của các phương pháp hiện tại, đề án này đề xuất ứng dụng lý thuyết ghép cặp bền vững (Stable matching theory) – một lý thuyết đột phá được trao giải Nobel Kinh tế năm 2012 – làm nền tảng lý thuyết chính Bên cạnh
đó, đề án sẽ tập trung khai thác các giải thuật tối ưu hóa thuộc lớp giải thuật tiến hóa
đa mục tiêu (Multiobjective evolutionary algorithm - MOEA), đặc biệt chú trọng vào giải thuật NSGA-III, nhằm tìm kiếm lời giải tối ưu cho bài toán ghép cặp sinh viên -
cố vấn học tập Việc lựa chọn NSGA-III dựa trên khả năng xử lý hiệu quả các bài toán tối ưu đa mục tiêu với nhiều ràng buộc phức tạp So sánh hiệu năng của NSGA-III với các giải thuật khác trong khuôn khổ MOEA, bao gồm eMOEA, VEGA, NSGA-II, IBEA, PESA2, sẽ cung cấp cái nhìn toàn diện về hiệu suất của từng giải thuật, hỗ trợ quá trình lựa chọn giải thuật phù hợp nhất cho bài toán
Trang 9Ý tưởng cốt lõi của đề án này là xây dựng một hệ thống hỗ trợ quyết định thông minh để khắc phục những yếu kém đó Mục tiêu không chỉ là tìm ra một cặp ghép phù hợp, mà là một giải pháp toàn diện, vừa tối ưu trên nhiều phương diện, vừa bền vững trong dài hạn Để hiện thực hóa ý tưởng này, đề án đề xuất một giải pháp đột phá bằng cách kết hợp hai nền tảng lý thuyết mạnh mẽ: lý thuyết ghép cặp bền vững (Stable matching theory - SMT) và giải thuật tối ưu tiến hóa đa mục tiêu (MOEA) Đề xuất trung tâm của đề án chính là giải thuật lai SMT-NSGA-III Cách tiếp cận này khai thác sức mạnh của NSGA-III để khám phá không gian giải pháp rộng lớn, tìm ra một tập hợp các phương án ghép cặp ưu việt, cân bằng được nhiều mục tiêu (gọi là "mặt trận Pareto") sau đó sử dụng các nguyên lý của SMT (thông qua giải thuật Gale-Shapley) như một bước tinh chỉnh cuối cùng để đảm bảo giải pháp được chọn là hoàn toàn bền vững Sự kết hợp này giải quyết được những điểm yếu
cố hữu khi sử dụng riêng lẻ từng lý thuyết: SMT gặp khó khăn với nhiều tiêu chí, trong khi MOEA không đảm bảo được tính bền vững Do đó, đề xuất của đề án mang lại một giải pháp vừa tối ưu, vừa ổn định, là một bước tiến quan trọng so với các phương pháp hiện có
Thông qua việc kết hợp ưu điểm của lý thuyết ghép cặp bền vững với sức mạnh của các giải thuật MOEA, đề án hướng đến việc xây dựng một hệ thống hỗ trợ quyết định thông minh, linh hoạt và hiệu quả Hệ thống này sẽ xem xét đồng thời nhiều yếu tố ảnh hưởng đến quyết định của cả sinh viên và cố vấn, bao gồm trình độ chuyên môn, kinh nghiệm, phong cách giảng dạy, mục tiêu học tập Mục tiêu là đưa
ra các giải pháp cân bằng mong muốn của cả hai bên, tối ưu hóa sự hài lòng và nâng cao hiệu quả của quá trình cố vấn Với việc kết hợp những ưu điểm của các phương pháp hiện có và khắc phục những hạn chế còn tồn tại, đề án kỳ vọng sẽ mang đến một phương pháp tiếp cận toàn diện và hiệu quả hơn cho bài toán ghép cặp sinh viên - cố vấn học tập, đồng thời đóng góp vào việc nâng cao chất lượng giáo dục
3 Mục đích nghiên cứu
Đề án hướng đến việc phát triển một hệ thống hỗ trợ quyết định thông minh
và hiệu quả, tận dụng sức mạnh của lý thuyết ghép cặp bền vững (Stable matching
Trang 10theory) và các giải thuật tối ưu tiến hóa đa mục tiêu, nhằm giải quyết bài toán ghép cặp sinh viên - cố vấn học tập một cách tối ưu Đề án đặt ra mục tiêu thiết kế và triển khai một hệ thống có khả năng phân tích, xử lý và đề xuất các cặp ghép đôi tối ưu, đáp ứng các tiêu chí và ràng buộc đa dạng từ cả phía sinh viên và cố vấn
Cụ thể, các mục tiêu của đề án bao gồm:
- Phân tích bài toán ghép cặp: nghiên cứu sâu rộng bài toán ghép cặp sinh viên
- cố vấn học tập, xác định và phân tích các tiêu chí quan trọng ảnh hưởng đến quyết định lựa chọn cố vấn của sinh viên và ngược lại Quá trình này bao gồm việc khảo sát, tổng hợp và đánh giá các yếu tố then chốt góp phần vào sự thành công của mối quan hệ cố vấn, từ đó xây dựng nền tảng cho việc phát triển mô hình và giải thuật
- Phát triển mô hình và giải thuật: đề xuất và phát triển một mô hình toán học mạnh mẽ, kết hợp với giải thuật tối ưu hóa quy trình ghép cặp, nhằm đảm bảo sự hài lòng và hiệu quả cho cả sinh viên và cố vấn Mô hình này sẽ tích hợp các tiêu chí đã được xác định ở mục tiêu 1, đồng thời xem xét các ràng buộc thực tế để đảm bảo tính khả thi của giải pháp
- Xây dựng hệ thống hỗ trợ quyết định: xây dựng một hệ thống hỗ trợ quyết định dựa trên lý thuyết ghép cặp bền vững, kết hợp giải thuật NSGA-III và giải thuật Gale-Shapley để hỗ trợ quá trình ghép cặp sinh viên - cố vấn Việc tích hợp các giải thuật này nhằm tận dụng khả năng xử lý bài toán đa mục tiêu và đảm bảo tính bền vững của các cặp ghép đôi được đề xuất
- Triển khai và đánh giá hệ thống: triển khai và đánh giá hiệu quả của hệ thống thông qua mô phỏng và thực nghiệm Quá trình đánh giá sẽ sử dụng các bộ dữ liệu
mô phỏng và dữ liệu thực tế để kiểm chứng tính hiệu quả, khả năng mở rộng và tính ứng dụng thực tiễn của hệ thống Kết quả đánh giá sẽ được phân tích và sử dụng để cải tiến và hoàn thiện hệ thống
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề án là bài toán ghép cặp sinh viên - cố vấn học tập trong lĩnh vực giáo dục - một bài toán phân bổ nguồn lực phức tạp đòi hỏi tính hiệu quả và sự hài lòng cao từ cả hai nhóm đối tượng: sinh viên với đa dạng nhu cầu,
Trang 11mục tiêu học tập và cố vấn học tập với khả năng, kinh nghiệm chuyên môn riêng biệt Bài toán này đặt ra thách thức trong việc cân bằng đồng thời các yếu tố như chuyên môn phù hợp, thời gian cố vấn khả thi, khả năng đáp ứng về kinh phí, cũng như mức
độ phù hợp về tính cách, phong cách làm việc giữa sinh viên và người cố vấn
Phạm vi nghiên cứu của đề án bao gồm:
- Nghiên cứu các nguyên tắc của lý thuyết ghép cặp bền vững để xác định tiêu chí ghép sinh viên với cố vấn học tập và các yếu tố ảnh hưởng đến sự bền vững trong mối quan hệ giữa sinh viên và cố vấn
- Nghiên cứu các giải thuật tối ưu hóa tiến hóa đa mục tiêu, thiết kế mô hình tối ưu hóa để đạt được sự phù hợp tối ưu giữa sinh viên và cố vấn dựa trên nhiều tiêu chí
5 Phương pháp nghiên cứu
Phương pháp phân tích tổng kết kinh nghiệm
Thu thập, tổng hợp và phân tích các tài liệu và nghiên cứu trước đây về lý thuyết ghép cặp bền vững và giải thuật tối ưu đa mục tiêu, bài toán ghép cặp sinh viên
Trang 12CHƯƠNG 1 – MÔ TẢ BÀI TOÁN VÀ CƠ SỞ LÝ THUYẾT
1.1 Mô tả bài toán
1.1.1 Đặc điểm
Sự phức tạp của bài toán ghép cặp sinh viên - cố vấn học tập bắt nguồn từ tính
đa dạng và không đồng nhất của các thực thể tham gia Về phía sinh viên, mỗi cá nhân là một thực thể độc đáo, mang trong mình một tập hợp các đặc điểm, nhu cầu
và mục tiêu riêng biệt Các yếu tố này bao gồm nhu cầu học thuật cụ thể (hỗ trợ cho các môn học chuyên ngành, phát triển kỹ năng nghiên cứu khoa học), mục tiêu nghề nghiệp dài hạn (định hướng thực tập, chuẩn bị cho thị trường lao động sau tốt nghiệp), định hướng nghiên cứu khoa học (lựa chọn lĩnh vực chuyên sâu, xác định chủ đề cho luận văn tốt nghiệp), phong cách học tập cá nhân (ưu tiên học qua hình ảnh, tương tác nhóm, hay tự nghiên cứu độc lập) và các ràng buộc cá nhân khác Do đó, sinh viên không chỉ đơn thuần tìm kiếm một người cố vấn có kiến thức chuyên môn sâu rộng mà còn kỳ vọng vào một người thầy có khả năng truyền đạt hiệu quả, hướng dẫn tận tâm và quan trọng hơn cả là khả năng tạo động lực và truyền cảm hứng
Ở phía đối diện, các cố vấn học tập cũng là những cá nhân với các lĩnh vực chuyên môn đặc thù, bề dày kinh nghiệm nghiên cứu và giảng dạy phong phú, cùng với những phương pháp sư phạm và phong cách làm việc riêng biệt Mỗi cố vấn học tập thường có một giới hạn về số lượng sinh viên mà họ có thể hướng dẫn một cách hiệu quả và tận tâm, thường được gọi là "sức chứa" (capacity) Bên cạnh đó, các cố vấn học tập cũng có thể có những tiêu chí riêng trong việc lựa chọn sinh viên để hướng dẫn, dựa trên các yếu tố như tiềm năng học thuật, sự phù hợp với hướng nghiên cứu của cố vấn hoặc mức độ cam kết và chủ động của sinh viên
Các phương pháp ghép cặp truyền thống thường bộc lộ nhiều hạn chế đáng kể
và ngày càng trở nên không phù hợp với yêu cầu của giáo dục hiện đại Một trong những hạn chế lớn nhất là hệ thống truyền thống thiếu tính cá nhân hóa, chưa chú trọng đến sự phù hợp về chuyên môn, phương pháp giảng dạy và tính cách, khiến sinh viên khó tìm được người hướng dẫn phù hợp, ảnh hưởng đến hiệu quả học tập
Trang 13Việc thực hiện ghép cặp một cách thủ công, thường dựa trên kinh nghiệm chủ quan của các nhà quản lý hoặc các tiêu chí phân bổ đơn giản, không chỉ mất nhiều thời gian và công sức của cả sinh viên, cố vấn và tổ chức giáo dục mà còn dễ dẫn đến các quyết định không tối ưu, thiếu công bằng, và có thể bỏ lỡ những cơ hội kết nối tiềm năng mang lại lợi ích lớn cho cả hai phía
1.1.2 Yêu cầu
Để giải quyết một cách hiệu quả và khoa học bài toán ghép cặp sinh viên - cố vấn học tập, một hệ thống hỗ trợ quyết định tiên tiến cần phải được thiết kế để đáp ứng một tập hợp các yêu cầu cốt lõi và mang tính thách thức Những yêu cầu này không chỉ phản ánh sự phức tạp của bài toán mà còn định hướng cho việc lựa chọn
và phát triển các phương pháp luận phù hợp:
Thứ nhất, tính hiệu quả và bền vững của các cặp ghép là yêu cầu hàng đầu Hệ thống không chỉ nhằm mục tiêu tạo ra những kết nối phù hợp tại thời điểm ban đầu
mà còn phải có khả năng thúc đẩy các mối quan hệ hợp tác hiệu quả, ổn định và có tiềm năng phát triển lâu dài Sự bền vững ở đây, được hiểu theo nghĩa của lý thuyết ghép cặp bền vững, ngụ ý rằng không có sinh viên và cố vấn nào có động cơ chính đáng và cơ hội để đơn phương phá vỡ cặp ghép hiện tại của họ nhằm tìm kiếm một đối tác khác mà cả hai cùng cho là tốt hơn
Thứ hai, hệ thống phải có khả năng xem xét đa tiêu chí một cách toàn diện và khoa học Quá trình ghép cặp phải dựa trên việc đánh giá đồng thời và cân nhắc một cách tinh vi nhiều yếu tố đầu vào từ cả phía sinh viên và cố vấn học tập Đối với sinh viên, các yếu tố này có thể bao gồm, nhưng không giới hạn ở: lĩnh vực học thuật mà sinh viên quan tâm sâu sắc, các mục tiêu học tập cụ thể đã đặt ra, thành tích học tập
đã đạt được và các yêu cầu đặc thù khác liên quan đến nhu cầu cá nhân Tương tự, đối với cố vấn học tập, các yếu tố cần xem xét bao gồm: chuyên môn sâu và các hướng nghiên cứu chính, kinh nghiệm hướng dẫn sinh viên, phương pháp giảng dạy
và cố vấn đặc trưng, số lượng sinh viên hiện tại đang phụ trách và sức chứa tối đa có thể đảm nhận, cùng với các tiêu chí ưu tiên mà cố vấn đặt ra trong việc lựa chọn sinh viên
Trang 14Thứ ba, mục tiêu của hệ thống phải là tối ưu hóa sự hài lòng và cân bằng lợi ích đa chiều Điều này có nghĩa là hệ thống không chỉ dừng lại ở việc tìm ra một cặp ghép "chấp nhận được" hay "khả dĩ", mà phải hướng đến việc xác định các phương
án ghép cặp "tối ưu", có khả năng cân bằng một cách tốt nhất các nguyện vọng, ưu tiên và lợi ích của cả sinh viên và cố vấn học tập Yêu cầu này đòi hỏi một cách tiếp cận có khả năng xử lý các mục tiêu thường xuyên xung đột với nhau, ví dụ như mong muốn của sinh viên được ghép với cố vấn hàng đầu và mong muốn của nhà trường
về việc phân bổ đều khối lượng công việc cho các cố vấn
Thứ tư, tính khoa học, khách quan và minh bạch của quy trình ghép cặp là yếu
tố then chốt để xây dựng niềm tin Quy trình này được xây dựng trên nền tảng các phương pháp luận khoa học đã được kiểm chứng, có cơ sở lý thuyết vững chắc và logic rõ ràng
Cuối cùng, tính thân thiện và dễ sử dụng của giao diện hệ thống là một yêu cầu thực tiễn quan trọng Giao diện cần được thiết kế một cách trực quan, dễ dàng tương tác và truy cập cho tất cả các đối tượng người dùng, bao gồm sinh viên, cố vấn học tập và các nhà quản lý giáo dục, nhằm đảm bảo rằng công nghệ hỗ trợ một cách hiệu quả chứ không trở thành một rào cản
1.2 Lý thuyết ghép cặp bền vững (Stable matching theory)
1.2.1 Khái niệm
Lý thuyết ghép cặp bền vững (Stable matching theory) là một nhánh nghiên cứu quan trọng trong lý thuyết trò chơi, tập trung vào việc thiết kế các giải thuật để tạo ra các cặp ghép "ổn định" giữa hai nhóm tác nhân Khái niệm cốt lõi của lý thuyết này, "sự ổn định", mô tả một trạng thái cân bằng trong đó không tồn tại bất kỳ cặp tác nhân nào có động lực để rời bỏ đối tác hiện tại của mình và hình thành một cặp mới Điều này đồng nghĩa với việc loại bỏ sự tồn tại của "cặp chặn" (blocking pair) - một cặp tác nhân ưa thích lẫn nhau hơn so với đối tác được gán cho họ trong cặp ghép hiện tại Tính ổn định đảm bảo sự hài lòng của các tác nhân và ngăn chặn sự xáo trộn, bất ổn định sau khi ghép cặp ban đầu được thiết lập Công trình nghiên cứu của Gale
Trang 15và Shapley [12], với bài toán hôn nhân ổn định và giải thuật Gale-Shapley, đã đặt nền móng cho sự phát triển của lý thuyết này
Bài toán ghép cặp nam nữ có thể được xem xét như ví dụ kinh điển để minh hoạ cho lý thuyết này Giả sử có tập hợp nam giới M = {m1, m2, m3} và tập hợp nữ giới W = {w1, w2, w3} Mỗi người có một thứ tự ưu tiên trên tập hợp đối tác tiềm năng Ví dụ, thứ tự ưu tiên của m1 có thể là w2 ≻ w1 ≻ w3, trong đó ký hiệu ≻ biểu thị quan hệ "ưa thích hơn" Xét cặp ghép μ = {(m1, w1), (m2, w3), (m3, w2)} Cặp ghép này không ổn định nếu tồn tại một cặp chặn Chẳng hạn, nếu m1 ưa thích w2 hơn w1
(tức là w2 ≻m1 w1) và w2 cũng ưa thích m1 hơn m3 (tức là m1 ≻w2 m3), thì cặp (m1,
w2) là một cặp chặn Sự tồn tại của cặp chặn này cho thấy cả m1 và w2 có động lực
để rời bỏ đối tác hiện tại để đến với nhau, gây ra bất ổn định cho cặp ghép μ
Quy chuẩn hoá khái niệm này, một cặp ghép μ được định nghĩa là một hàm hai chiều giữa hai tập hợp M và W, với μ(m) = w khi và chỉ khi μ(w) = m Một cặp ghép μ được gọi là ổn định nếu không tồn tại cặp (m, w) ∈ M × W thỏa mãn đồng thời:
w ≻ m x μ(m) (m thích w hơn bạn đời hiện tại, hoặc m độc thân)
m ≻ w x μ(w) (w thích m hơn bạn đời hiện tại, hoặc w độc thân)
Mô hình nền tảng của lý thuyết ghép cặp bền vững là ghép cặp một-một to-one matching), trong đó mỗi tác nhân trong một nhóm được ghép với tối đa một tác nhân trong nhóm còn lại Ví dụ kinh điển là bài toán hôn nhân ổn định, nơi mỗi
Trang 16(one-người nam được ghép với tối đa một (one-người nữ, và ngược lại [19] Một cặp ghép một μ có thể được biểu diễn bằng một hàm μ: M ∪ W → M ∪ W, với M là tập hợp nam và W là tập hợp nữ Hàm này thỏa mãn: μ(m) ∈ W hoặc μ(m) = m (nếu m độc thân), μ(w) ∈ M hoặc μ(w) = w (nếu w độc thân), và μ(μ(m)) = m với mọi m ∈ M, μ(μ(w)) = w với mọi w ∈ W Nói cách khác, nếu nam m được ghép đôi với nữ w, thì
một-nữ w cũng phải được ghép đôi với nam m
Từ mô hình một-một, ghép cặp nhiều-một (many-to-one matching) cho phép một tác nhân trong một nhóm (ví dụ: trường đại học) được ghép với nhiều tác nhân trong nhóm kia (ví dụ: sinh viên) Tuy nhiên, mỗi tác nhân trong nhóm "nhiều" vẫn chỉ được ghép với một tác nhân duy nhất trong nhóm "một" Mô hình này phù hợp với bài toán tuyển sinh đại học, nơi mỗi trường có thể nhận nhiều sinh viên, nhưng mỗi sinh viên chỉ có thể theo học tại một trường Khái niệm quota (qa) được giới thiệu
để giới hạn số lượng tác nhân nhóm "nhiều" mà mỗi tác nhân a thuộc nhóm "một" có thể chấp nhận: |μ(a)| ≤ qa
Ghép cặp nhiều-nhiều (many-to-many matching) là dạng tổng quát nhất, cho phép mỗi tác nhân trong cả hai nhóm được ghép với nhiều tác nhân trong nhóm còn lại Ví dụ tiêu biểu là bài toán ghép cặp nhân viên với dự án, nơi mỗi nhân viên có thể tham gia nhiều dự án và mỗi dự án có thể có nhiều nhân viên Trong mô hình này, μ(i) biểu diễn tập hợp các tác nhân mà tác nhân i được ghép cặp Định nghĩa ổn định phức tạp hơn, bao gồm ổn định nhóm (không có nhóm tác nhân nào muốn cùng nhau rời bỏ cặp ghép hiện tại) và ổn định cặp (không có cặp tác nhân nào muốn rời bỏ đối tác hiện tại) [7]
Ngoài ba mô hình trên còn có các mô hình khác như ghép cặp với chuyển nhượng (matching with transfers) cho phép trao đổi giá trị giữa các tác nhân để cải thiện sự hài lòng [20], ghép cặp với ràng buộc (matching with constraints) áp đặt các giới hạn bổ sung lên các cặp ghép có thể hình thành [12] Sự đa dạng về mô hình cho thấy tính linh hoạt của lý thuyết ghép cặp bền vững trong việc giải quyết các bài toán thực tế
1.2.3 Sự ổn định trong ghép cặp
Trang 17Khái niệm "ổn định" (stability) đóng vai trò then chốt trong lý thuyết ghép cặp bền vững (stable matching theory) và là thước đo quan trọng để đánh giá chất lượng của một cặp ghép Một cặp ghép được xem là ổn định khi không có cặp tác nhân nào mong muốn rời bỏ đối tác hiện tại của mình để hình thành một cặp khác, đảm bảo sự hài lòng cho các tác nhân và ngăn chặn sự xáo trộn không mong muốn sau khi ghép cặp ban đầu đã được thiết lập Tuy nhiên, định nghĩa chính xác của ổn định phụ thuộc vào mô hình ghép cặp cụ thể, từ mô hình cơ bản một-một (one-to-one) đến các mô hình phức tạp hơn như nhiều-một (many-to-one) và nhiều-nhiều (many-to-many) Hiểu rõ các sắc thái của tính ổn định trong từng mô hình là điều kiện tiên quyết để áp dụng lý thuyết ghép cặp bền vững một cách hiệu quả Công trình của Gale và Shapley
đã đặt nền móng cho khái niệm ổn định trong lĩnh vực này [19]
Trong mô hình ghép cặp một-một, tính ổn định có một định nghĩa trực quan Một cặp ghép μ được coi là ổn định nếu không tồn tại cặp (m, w), với m thuộc tập hợp nam giới M và w thuộc tập hợp nữ giới W, sao cho (m, w) không thuộc cặp ghép
μ nhưng m lại ưa thích w hơn đối tác hiện tại của mình trong μ (hoặc m độc thân) và
w cũng ưa thích m hơn đối tác hiện tại của mình trong μ (hoặc w độc thân) Cặp (m, w) được gọi là cặp chặn (blocking pair), đại diện cho sự bất ổn định tiềm ẩn Ví dụ, với M = {m1, m2, m3} và W = {w1, w2, w3}, nếu m1 thích w2 hơn w1 và w2 thích m1 hơn m3, thì cặp ghép {(m1, w1), (m2, w3), (m3, w2)} không ổn định, bởi vì tồn tại cặp chặn (m1, w2)
Trong ghép cặp nhiều-một, định nghĩa về tính ổn định phức tạp hơn Một cặp ghép được xem là ổn định nếu không tồn tại cặp (s, c), với s là tác nhân trong nhóm
"nhiều" (ví dụ: sinh viên) và c là tác nhân trong nhóm "một" (ví dụ: trường đại học), sao cho s thích c hơn trường hiện tại (hoặc nếu s chưa được nhận vào trường nào) và
c hoặc còn chỗ trống dưới quota đã định, hoặc thích s hơn ít nhất một sinh viên hiện tại
Với ghép cặp nhiều-nhiều, có nhiều khái niệm khác nhau về tính ổn định, đáng chú ý là ổn định cặp và ổn định nhóm Ổn định cặp đòi hỏi không tồn tại cặp tác nhân nào muốn rời bỏ đối tác hiện tại của mình để đến với nhau, trong khi ổn định nhóm,
Trang 18một điều kiện mạnh hơn, yêu cầu không tồn tại một nhóm tác nhân nào muốn đồng thời rời bỏ cặp ghép hiện tại để hình thành các cặp ghép mới
1.2.4 Giải thuật Gale-Shapley
Giải thuật Gale-Shapley mang đến một phương pháp hiệu quả và ổn định để giải quyết bài toán ghép cặp một-một (one-to-one) và nhiều-một (many-to-one) trong
lý thuyết ghép cặp bền vững Được giới thiệu bởi Gale và Shapley [13], giải thuật này không chỉ có giá trị lý thuyết sâu rộng mà còn được ứng dụng rộng rãi trong thực tiễn,
từ việc ghép cặp sinh viên với trường đại học, bác sĩ với bệnh viện, đến phân bổ tài nguyên Tầm quan trọng của giải thuật Gale-Shapley được cộng đồng khoa học ghi nhận, đặc biệt là thông qua việc trao giải Nobel Kinh tế năm 2012 cho Alvin E Roth
và Lloyd S Shapley, một phần nhờ vào những đóng góp của họ cho lý thuyết ghép cặp bền vững, trong đó giải thuật Gale-Shapley đóng vai trò trung tâm
Hình 1.1: Minh hoạ cho bài toán ghép cặp
Giải thuật Gale-Shapley hoạt động dựa trên cơ chế "cầu hôn" và "chấp nhận/từ chối" lặp đi lặp lại Trong bài toán ghép cặp một-một, giải thuật bắt đầu bằng việc đặt tất cả các tác nhân trong nhóm "cầu hôn" (thường được minh họa là nam giới trong
ví dụ hôn nhân ổn định) vào trạng thái độc thân Quy trình của giải thuật được chi tiết hóa qua các bước sau:
- Khởi tạo: Tất cả các tác nhân trong nhóm "cầu hôn" đều chưa được ghép cặp (độc thân)
Trang 19- Cầu hôn: Một tác nhân độc thân trong nhóm cầu hôn sẽ "cầu hôn" tác nhân được xếp hạng cao nhất trong danh sách ưu tiên của mình mà anh ta chưa từng cầu hôn trước đó (Tác nhân cầu hôn gửi lời đề nghị ghép cặp đến tác nhân được cầu hôn)
- Chấp nhận (nếu độc thân): Nếu tác nhân được cầu hôn hiện đang độc thân,
cô ấy sẽ chấp nhận lời cầu hôn và hình thành một cặp ghép tạm thời với tác nhân cầu hôn (Một cặp ghép tạm thời được hình thành)
- Đánh giá (nếu đã có đối tác): Nếu tác nhân được cầu hôn đã có đối tác, cô ấy
sẽ so sánh người cầu hôn mới với đối tác hiện tại dựa trên danh sách ưu tiên của mình (Tác nhân được cầu hôn cân nhắc lời đề nghị mới)
- Chấp nhận và Từ chối: Nếu người cầu hôn mới được ưa thích hơn đối tác hiện tại, tác nhân được cầu hôn sẽ chấp nhận lời cầu hôn mới, hình thành một cặp ghép tạm thời với người cầu hôn mới, và đồng thời từ chối đối tác hiện tại, người này trở về trạng thái độc thân (Cặp ghép tạm thời được cập nhật, một tác nhân trở lại trạng thái độc thân) Nếu đối tác hiện tại được ưa thích hơn người cầu hôn mới, tác nhân được cầu hôn sẽ từ chối lời cầu hôn mới và duy trì cặp ghép hiện tại (Không có thay đổi trong cặp ghép tạm thời)
- Lặp lại: Giải thuật lặp lại các bước từ cầu hôn cho đến chấp nhận và từ chối cho đến khi tất cả các tác nhân trong nhóm cầu hôn đều đã được ghép cặp
Ví dụ: Xét M = {m1, m2} và W = {w1, w2} với thứ tự ưu tiên: m1: w1 ≻ w2;
m2: w1 ≻ w2; w1: m2 ≻ m1; w2: m1 ≻ m2 Áp dụng Gale-Shapley: (1) m1 cầu hôn w1
(bước 2,3) (2) m2 cầu hôn w1 (bước 2,4,5) w1 chọn m2, từ chối m1 (3) m1 cầu hôn
Trang 20tất cả các cố vấn trong danh sách ưu tiên của mình, nhưng số lượng đề nghị tổng thể vẫn là hữu hạn
Đảm bảo tính bền vững (Stability): đây là đặc tính quan trọng nhất Kết quả ghép cặp cuối cùng do giải thuật Gale-Shapley tạo ra luôn luôn là một phép ghép cặp bền vững Điều này có nghĩa là sẽ không tồn tại bất kỳ cặp chặn nào trong kết quả cuối cùng
Tối ưu cho bên đề xuất (Proposer-optimality): kết quả ghép cặp sẽ mang lại lợi ích tối ưu cho bên đưa ra lời đề nghị Nếu sinh viên là bên đề xuất, mỗi sinh viên
sẽ nhận được đối tác (cố vấn) tốt nhất có thể trong số tất cả các phép ghép cặp bền vững có thể tồn tại Ngược lại, nếu cố vấn là bên đề xuất, họ sẽ là người được hưởng lợi theo nghĩa này Điều này cũng ngụ ý rằng kết quả sẽ là tệ nhất có thể (trong số các ghép cặp bền vững) cho bên nhận lời đề nghị [11]
Mặc dù giải thuật Gale-Shapley đảm bảo tính ổn định và có những ưu điểm rõ ràng về mặt lý thuyết, nó cũng có những hạn chế nhất định khi áp dụng vào các bài toán thực tế phức tạp Kết quả của giải thuật có thể nhạy cảm với chất lượng và tính chính xác của các danh sách ưu tiên ban đầu, cũng như vai trò của bên nào được chọn làm bên đề xuất Hơn nữa, khái niệm "tính tối ưu" trong giải thuật này chỉ được xét trên phương diện ưu tiên của một bên cụ thể và có thể không phải là giải pháp tốt nhất nếu chúng ta cần xem xét đồng thời nhiều tiêu chí phức tạp khác, chẳng hạn như sự cân bằng về khối lượng công việc giữa các cố vấn, sự đa dạng trong các cặp ghép, hoặc các yếu tố định tính khó lượng hóa như sự tương thích về tính cách hay phong cách làm việc Đây chính là những điểm mà các phương pháp tối ưu hóa đa mục tiêu, như các giải thuật MOEA, có thể đóng vai trò bổ sung và hoàn thiện [14]
1.3 Giải thuật tối ưu tiến hoá đa mục tiêu (MOEA)
1.3.1 Khái niệm
MOEA là các giải thuật tìm kiếm ngẫu nhiên (stochastic search algorithms) dựa trên quần thể (population-based), lấy cảm hứng từ các nguyên lý của quá trình tiến hóa sinh học tự nhiên như chọn lọc tự nhiên (natural selection), lai ghép di truyền (genetic crossover) và đột biến gen (mutation) Khác biệt cơ bản so với các giải thuật
Trang 21tối ưu đơn mục tiêu (chỉ tìm kiếm một giải pháp duy nhất tốt nhất theo một tiêu chí), MOEA hướng đến việc tìm ra một tập hợp các giải pháp được gọi là tập Pareto tối ưu (Pareto-optimal set) Mỗi giải pháp trong tập hợp này đại diện cho một sự đánh đổi khác nhau và không thể so sánh một cách tuyệt đối với các giải pháp khác trong cùng tập hợp; không có giải pháp nào trong tập này tốt hơn giải pháp khác ở tất cả các mục tiêu một cách đồng thời
Để hiểu rõ hơn, cần định nghĩa khái niệm sự trội Pareto (Pareto dominance) Một giải pháp x1 được gọi là trội Pareto so với một giải pháp x2 (ký hiệu x1≺x2) nếu
và chỉ nếu x1 không tệ hơn x2 ở tất cả các hàm mục tiêu và x1 tốt hơn một cách chặt chẽ so với x2 ở ít nhất một hàm mục tiêu Một giải pháp x∗ được gọi là Pareto tối ưu (hay còn gọi là không bị trội - non-dominated) nếu không tồn tại bất kỳ một giải pháp khả thi x nào khác trong không gian tìm kiếm sao cho x trội Pareto so với x∗ Tập hợp tất cả các vector mục tiêu tương ứng với các giải pháp Pareto tối ưu trong không gian mục tiêu tạo thành một bề mặt được gọi là mặt trận Pareto (Pareto front) [4]
Về mặt toán học, một bài toán tối ưu hóa đa mục tiêu có thể được phát biểu một cách tổng quát như sau:
Minimize/Maximize F(x)=(f1(x),f2(x), ,fk(x))T thỏa mãn x∈Ω Trong đó:
- x=(x1,x2, ,xn)T là vector các biến quyết định, với n là số lượng biến quyết định
- Ω là không gian các biến quyết định khả thi (feasible decision variable space), được xác định bởi các ràng buộc của bài toán
- F(x):Ω→Rk là vector các hàm mục tiêu, với k≥2 là số lượng mục tiêu cần được tối ưu hóa đồng thời
- fi(x):Ω→R là hàm mục tiêu thứ i, ánh xạ một giải pháp từ không gian biến quyết định sang một giá trị thực trong không gian mục tiêu
Mục tiêu cơ bản của một giải thuật MOEA là tìm ra một tập hợp các giải pháp
X∗⊆Ω sao cho các vector mục tiêu tương ứng F(X∗) tạo thành một xấp xỉ tốt nhất có thể của mặt trận Pareto thực sự, đồng thời đảm bảo sự đa dạng (diversity) và phân bố
Trang 22đều (uniform distribution) của các giải pháp trên mặt trận đó Điều này cung cấp cho người ra quyết định một loạt các lựa chọn tối ưu, mỗi lựa chọn thể hiện một sự cân bằng khác nhau giữa các mục tiêu
1.3.2 Các giải thuật MOEA phổ biến
a) NSGA-II (Non-dominated Sorting Genetic Algorithm II):
Hình 1.2: Sơ đồ các bước hoạt động của NSGA-II
NSGA-II (Non-dominated Sorting Genetic Algorithm II) nổi bật là một trong những giải thuật tiến hóa đa mục tiêu (MOEA) được ứng dụng rộng rãi nhất, nhờ hiệu quả tính toán cao và tính dễ triển khai Sức mạnh của NSGA-II nằm ở khả năng tìm kiếm tập hợp các giải pháp tối ưu Pareto, đồng thời duy trì sự đa dạng của mặt trận Pareto, đảm bảo khám phá rộng rãi không gian giải pháp Hai cơ chế quan trọng đóng góp vào hiệu suất của NSGA-II là phân loại không thống trị nhanh (fast non-dominated sorting) và khoảng cách dồn ép (crowding distance) [2]
Phân loại không thống trị nhanh là một cải tiến đáng kể so với giải thuật NSGA đời đầu Trong khi NSGA yêu cầu so sánh toàn diện giữa tất cả các cặp giải pháp để xác định quan hệ thống trị, dẫn đến độ phức tạp tính toán cao, NSGA-II sử dụng một phương pháp phân tầng hiệu quả hơn Giải thuật này gán cho mỗi cá thể một hạng
Trang 23(rank) tương ứng với mặt trận Pareto mà nó thuộc về Các cá thể nằm trên mặt trận Pareto đầu tiên (F1), tức là tập hợp các giải pháp không bị thống trị bởi bất kỳ giải pháp nào khác, được gán hạng 1 Các cá thể thuộc mặt trận Pareto thứ hai (F2), tức là tập hợp các giải pháp chỉ bị thống trị bởi các cá thể thuộc F1, được gán hạng 2, và cứ thế tiếp tục Phương pháp phân tầng này giảm thiểu đáng kể độ phức tạp tính toán xuống O(MN2), với M là số lượng mục tiêu và N là kích thước quần thể
Bên cạnh việc xác định thứ hạng Pareto, NSGA-II còn sử dụng khoảng cách dồn ép để duy trì sự đa dạng giải pháp trên mặt trận Pareto Khoảng cách dồn ép của một cá thể đo lường mật độ giải pháp xung quanh nó trong không gian mục tiêu Giá trị này được tính toán bằng tổng khoảng cách giữa cá thể đó và hai cá thể lân cận theo mỗi mục tiêu, sau khi đã sắp xếp các cá thể trong cùng một mặt trận Pareto theo thứ
tự tăng dần của giá trị mục tiêu Cá thể có khoảng cách dồn ép lớn hơn được ưu tiên hơn trong quá trình chọn lọc, vì nó đại diện cho một vùng ít tập trung giải pháp, từ
đó góp phần vào sự phân bố đồng đều và đa dạng của mặt trận Pareto
Quy trình hoạt động của NSGA-II bao gồm các bước sau: (1) Khởi tạo một quần thể P gồm N cá thể ngẫu nhiên (2) Phân loại không thống trị: sắp xếp quần thể
P thành các mặt trận Pareto F1, F2, dựa trên quan hệ thống trị bằng giải thuật phân loại không thống trị nhanh (3) Gán khoảng cách dồn ép: tính toán khoảng cách dồn
ép cho mỗi cá thể trong mỗi mặt trận Pareto (4) Chọn lọc: sử dụng phương pháp tournament selection dựa trên thứ hạng mặt trận và khoảng cách dồn ép để chọn các
cá thể tham gia vào quá trình lai ghép và đột biến (5) Lai ghép và Đột biến: tạo quần thể con Q bằng cách áp dụng các toán tử lai ghép và đột biến lên các cá thể được chọn (6) Kết hợp: kết hợp quần thể cha mẹ P và quần thể con Q thành một quần thể trung gian R có kích thước 2N (7) Chọn lọc Elitist: chọn N cá thể tốt nhất từ quần thể R dựa trên thứ hạng mặt trận và khoảng cách dồn ép để tạo thành quần thể của thế hệ tiếp theo Cơ chế chọn lọc này đảm bảo rằng các giải pháp tốt nhất từ cả quần thể cha
mẹ và con được bảo tồn và truyền lại cho thế hệ sau, giúp giải thuật hội tụ đến mặt trận Pareto tối ưu
b) SPEA2 (Strength Pareto Evolutionary Algorithm 2):
Trang 24Hình 1.3: Chu trình hoạt động của giải thuật SPEA2
SPEA2 (Strength Pareto Evolutionary Algorithm 2) là một giải thuật tiến hóa
đa mục tiêu được đánh giá cao nhờ khả năng duy trì và cải thiện chất lượng của mặt trận Pareto thông qua việc sử dụng kho lưu trữ ngoài (external archive) [25] Kho lưu trữ này đóng vai trò lưu trữ các giải pháp không bị thống trị được tìm thấy trong quá trình tối ưu hóa, giúp giải thuật liên tục học hỏi và tinh chỉnh tập hợp các giải pháp tối ưu Điểm nổi bật của SPEA2 nằm ở cơ chế đánh giá fitness kết hợp giữa strength
và density, cho phép giải thuật vừa tìm kiếm các giải pháp tối ưu, vừa duy trì sự đa dạng trên mặt trận Pareto [2]
Khác với các giải thuật MOEA chỉ dựa trên quan hệ thống trị để so sánh các giải pháp, SPEA2 sử dụng một cơ chế tính fitness phức tạp và tinh tế hơn Strength của một cá thể được định nghĩa là số lượng cá thể mà nó thống trị Một cá thể có strength cao hơn thể hiện khả năng thống trị tốt hơn, và do đó được coi là một giải pháp tiềm năng hơn Tuy nhiên, nếu chỉ dựa vào strength, giải thuật có thể hội tụ vào
Trang 25một vùng nhỏ trên mặt trận Pareto, bỏ qua các giải pháp tối ưu khác Để khắc phục hạn chế này, SPEA2 kết hợp density, một thước đo mật độ giải pháp xung quanh một
cá thể Density thường được tính toán dựa trên khoảng cách k-lân cận gần nhất, với
k là một tham số được xác định trước Cá thể nằm ở vùng thưa thớt hơn trong không gian mục tiêu sẽ có density lớn hơn, và được ưu tiên hơn trong quá trình chọn lọc Fitness của một cá thể trong SPEA2 được tính bằng tổng strength của tất cả các cá thể bị nó thống trị (nghĩa là strength của những cá thể thống trị nó cộng lại), cộng thêm một thành phần dựa trên density Cơ chế này khuyến khích giải thuật khám phá các vùng khác nhau trên mặt trận Pareto, đảm bảo sự đa dạng của tập hợp giải pháp tối ưu
Giải thuật SPEA2 bắt đầu bằng việc khởi tạo quần thể (P) và kho lưu trữ ngoài (A) Quần thể ban đầu thường được tạo ngẫu nhiên, trong khi kho lưu trữ ban đầu có thể rỗng hoặc chứa một tập hợp giải pháp khởi tạo Sau đó, giải thuật lặp lại các bước sau cho đến khi đạt được điều kiện dừng, ví dụ như số lượng thế hệ tối đa: (1) Tính toán strength cho mỗi cá thể trong cả quần thể và kho lưu trữ (2) Tính toán fitness cho mỗi cá thể dựa trên strength và density đã tính ở bước trước (3) Chọn lọc cá thể cha mẹ từ quần thể dựa trên fitness Các cá thể có fitness tốt hơn có xác suất cao hơn được chọn (4) Áp dụng các toán tử lai ghép và đột biến lên các cá thể cha mẹ được chọn để tạo ra quần thể con (5) Cập nhật kho lưu trữ ngoài: Các giải pháp không bị thống trị từ cả quần thể hiện tại và kho lưu trữ cũ được đưa vào kho lưu trữ mới Nếu kích thước kho lưu trữ vượt quá giới hạn cho phép, một cơ chế cắt tỉa dựa trên khoảng cách, thường là khoảng cách k-lân cận gần nhất, sẽ được sử dụng để loại bỏ các cá thể dư thừa, đảm bảo kho lưu trữ luôn chứa các giải pháp đại diện và đa dạng nhất cho mặt trận Pareto Quá trình lặp lại này cho phép SPEA2 liên tục tinh chỉnh và cải thiện chất lượng của mặt trận Pareto, hướng tới việc tìm ra tập hợp các giải pháp tối
ưu đa dạng và đại diện nhất cho bài toán
c) MOEA/D (Multi-objective Evolutionary Algorithm based on Decomposition):
Trang 26Hình 1.4: Luồng hoạt động của giải thuật MOEA/D
MOEA/D (Multi-objective Evolutionary Algorithm based on Decomposition)
là một giải thuật tiến hóa đa mục tiêu khác biệt so với các giải thuật MOEA truyền thống như NSGA-II hay SPEA2 Thay vì trực tiếp xử lý bài toán đa mục tiêu dựa trên quan hệ thống trị Pareto, MOEA/D áp dụng chiến lược phân rã (decomposition), biến đổi bài toán đa mục tiêu ban đầu thành một tập hợp các bài toán con đơn mục tiêu Mỗi bài toán con được định nghĩa bởi một vector trọng số, đại diện cho một hướng tối ưu hóa riêng biệt trong không gian mục tiêu [2] Điểm mạnh của MOEA/D nằm
ở khả năng tối ưu hóa đồng thời các bài toán con này, đồng thời tận dụng thông tin từ các bài toán con lân cận để tăng tốc độ hội tụ và cải thiện chất lượng của mặt trận Pareto
Cụ thể, việc phân rã bài toán trong MOEA/D được thực hiện bằng cách sử dụng một tập hợp các vector trọng số được phân bố đều trong không gian mục tiêu [24] Mỗi vector trọng số có thể được xem như là một ưu tiên tương đối giữa các mục
Trang 27tiêu Mỗi bài toán con được định nghĩa bằng một hàm mục tiêu tổng hợp, là một tổ hợp tuyến tính của các hàm mục tiêu ban đầu, sử dụng các thành phần của vector trọng số tương ứng làm hệ số Việc sử dụng vector trọng số cho phép MOEA/D khám phá không gian mục tiêu một cách có hệ thống, tập trung vào các hướng tối ưu hóa khác nhau, từ đó đảm bảo sự đa dạng của mặt trận Pareto Một đặc điểm quan trọng của MOEA/D là việc tận dụng thông tin từ các bài toán con lân cận Các bài toán con lân cận được xác định dựa trên khoảng cách giữa các vector trọng số tương ứng Thông tin từ các bài toán con lân cận, ví dụ như các giải pháp tốt, có thể được sử dụng
để cải thiện giải pháp của bài toán con đang xét, giúp tăng tốc độ hội tụ của giải thuật
Quy trình của MOEA/D bao gồm các bước sau: (1) Xác định trọng số: Một tập hợp các vector trọng số được xác định Việc phân bố các vector trọng số ảnh hưởng đáng kể đến hiệu suất của giải thuật Thông thường, các vector trọng số được phân bố đều trong không gian mục tiêu (2) Khởi tạo: Một quần thể ban đầu được tạo, mỗi cá thể trong quần thể được liên kết với một vector trọng số duy nhất (3) Tối ưu hóa lân cận: Đây là bước lặp lại chính của MOEA/D Đối với mỗi cá thể, giải thuật xác định tập hợp các cá thể lân cận dựa trên khoảng cách giữa các vector trọng số tương ứng Sau đó, các toán tử lai ghép và đột biến được áp dụng lên cá thể hiện tại
và các cá thể lân cận để tạo ra các giải pháp con Các giải pháp con được đánh giá dựa trên hàm mục tiêu tổng hợp tương ứng với vector trọng số của cá thể hiện tại Nếu một giải pháp con tốt hơn giải pháp hiện tại hoặc bất kỳ giải pháp lân cận nào,
nó sẽ thay thế giải pháp tương ứng (4) Lặp lại: Bước 3 được lặp lại cho đến khi đạt được điều kiện dừng, ví dụ như số lượng thế hệ tối đa hoặc khi không còn sự cải thiện đáng kể nào trong chất lượng của mặt trận Pareto
Nhìn chung, MOEA/D là một giải thuật tối ưu hóa đa mục tiêu hiệu quả, tận dụng chiến lược phân rã và tối ưu hóa lân cận để khám phá không gian mục tiêu một cách có hệ thống và hiệu quả Việc sử dụng vector trọng số cho phép MOEA/D kiểm soát hướng tìm kiếm và duy trì sự đa dạng của mặt trận Pareto Tính hiệu quả và linh hoạt của MOEA/D đã được chứng minh qua nhiều ứng dụng thực tế trong các lĩnh vực khác nhau
Trang 281.3.3 Giải thuật NSGA-III
NSGA-III (Non-dominated Sorting Genetic Algorithm III) được Deb và Jain giới thiệu vào năm 2014 như một sự mở rộng và cải tiến quan trọng của giải thuật NSGA-II Mục tiêu chính của NSGA-III là giải quyết hiệu quả hơn các bài toán tối
ưu hóa với nhiều mục tiêu (many-objective optimization problems - MaOPs), thường được định nghĩa là các bài toán có từ bốn mục tiêu trở lên, một lĩnh vực mà NSGA-
II bắt đầu bộc lộ những hạn chế
Những thách thức chính trong các bài toán MaOPs bao gồm việc một tỷ lệ rất lớn các giải pháp trong quần thể có xu hướng trở thành không bị trội lẫn nhau khi số lượng mục tiêu tăng lên Điều này làm giảm đáng kể áp lực chọn lọc của giải thuật dựa trên sự trội Pareto đơn thuần Đồng thời, việc duy trì sự đa dạng của các giải pháp trên một mặt trận Pareto có số chiều cao (hyper-dimensional Pareto front) trở nên vô cùng khó khăn nếu chỉ dựa vào các cơ chế như đo lường mật độ (crowding distance) được sử dụng trong NSGA-II, vốn hoạt động tốt trong không gian 2 hoặc 3 mục tiêu nhưng kém hiệu quả hơn khi số chiều tăng NSGA-III giải quyết những vấn đề này bằng cách giới thiệu một cơ chế chọn lọc dựa trên điểm tham chiếu (reference points) Các điểm tham chiếu này được cung cấp trước hoặc được tạo ra một cách có hệ thống trên một siêu phẳng chuẩn hóa (normalized hyperplane) trong không gian mục tiêu, giúp hướng dẫn quá trình tìm kiếm và duy trì sự đa dạng của các giải pháp
Các bước chính của giải thuật NSGA-III bao gồm một quy trình lặp đi lặp lại qua các thế hệ, mỗi thế hệ bao gồm các giai đoạn sau:
Giai đoạn 1: Khởi tạo quần thể và điểm tham chiếu: một quần thể ban đầu
P0 gồm N cá thể (giải pháp) được tạo ra một cách ngẫu nhiên hoặc bằng một phương pháp heuristic nào đó Đồng thời, một tập hợp các điểm tham chiếu có cấu trúc Zs
(đối với các điểm tham chiếu được cung cấp) hoặc Za (đối với các điểm tham chiếu thích ứng) được xác định trên siêu phẳng chuẩn hóa
Giai đoạn 2: Sắp xếp không bị trội: tại mỗi thế hệ t, quần thể cha mẹ Pt được
sử dụng để tạo ra một quần thể con cái Qt (cũng có kích thước N) thông qua các toán
tử di truyền như lựa chọn giải đấu nhị phân (binary tournament selection), lai ghép
Trang 29(crossover) và đột biến (mutation) Sau đó, hai quần thể này được kết hợp lại thành một quần thể trung gian Rt=Pt∪Qt có kích thước 2N Quần thể Rt này được thực hiện sắp xếp không bị trội để phân chia nó thành các mặt trận không bị trội F1,F2, ,Fl, , trong đó F1 là mặt trận tốt nhất (tất cả các giải pháp trong F1 không bị trội bởi bất kỳ giải pháp nào khác trong Rt)
Giai đoạn 3: Lựa chọn các mặt trận cho thế hệ tiếp theo: các giải pháp từ
các mặt trận không bị trội được lần lượt thêm vào quần thể thế hệ tiếp theo Pt+1, bắt đầu từ F1, sau đó F2, và cứ thế tiếp tục, cho đến khi kích thước của Pt+1 bằng hoặc vượt quá kích thước quần thể mong muốn N Gọi Fl là mặt trận cuối cùng được xem xét, tức là mặt trận mà việc thêm toàn bộ nó vào Pt+1 sẽ làm cho ∣Pt+1∣>N, trong khi việc thêm các mặt trận F1 đến Fl−1 thì ∣Pt+1∣≤N
Giai đoạn 4: Chuẩn hóa mục tiêu và liên kết điểm tham chiếu (Niching):
- Tất cả các giải pháp từ các mặt trận đã được chọn hoàn toàn (tức là từ F1 đến
Fl−1) được đưa trực tiếp vào Pt+1
- Đối với các giải pháp trong mặt trận Fl (và có thể cả các giải pháp trong các mặt trận F1 đến Fl−1 nếu cần thiết để duy trì sự đa dạng trong trường hợp đặc biệt), các vector giá trị mục tiêu của chúng được chuẩn hóa Quá trình chuẩn hóa này giúp loại bỏ sự khác biệt về thang đo giữa các mục tiêu và đưa tất cả các giải pháp về một
siêu phẳng chuẩn hóa
- Sau khi chuẩn hóa, mỗi giải pháp trong St (tập các giải pháp đang được xem xét) được liên kết với một điểm tham chiếu gần nhất Việc liên kết này thường dựa trên khoảng cách vuông góc từ giải pháp (đã được chuẩn hóa) đến các đường thẳng tham chiếu (là các đường thẳng nối gốc tọa độ với mỗi điểm tham chiếu trên siêu
phẳng)
Giai đoạn 5: Chọn lọc dựa trên điểm tham chiếu để hoàn thiện Pt+1: Một
cơ chế niching (phân vùng) được áp dụng để chọn ra K=N−∣Pt+1∣ giải pháp còn thiếu
từ mặt trận Fl để điền vào Pt+1 cho đủ N cá thể Quá trình này ưu tiên các điểm tham chiếu có ít giải pháp đã được liên kết nhất từ các mặt trận F1 đến Fl−1 (để duy trì sự đa dạng của các giải pháp trên toàn mặt trận Pareto) Nếu có nhiều giải pháp từ Fl cùng
Trang 30liên kết với một điểm tham chiếu "ít đông đúc" nhất, thì giải pháp có khoảng cách vuông góc nhỏ nhất đến đường tham chiếu của điểm đó sẽ được chọn (để thúc đẩy sự hội tụ về phía mặt trận Pareto thực sự) Nếu vẫn còn sự trùng lặp, một giải pháp sẽ
được chọn ngẫu nhiên
Giai đoạn 6: Xét điều kiện dừng: quá trình lặp lại các bước trên cho đến khi
một điều kiện dừng được thỏa mãn, ví dụ như đạt đến số thế hệ tối đa đã định trước hoặc khi không có sự cải thiện đáng kể nào về chất lượng của các giải pháp trong một
số thế hệ liên tiếp
Bằng cách sử dụng các điểm tham chiếu một cách có hệ thống, NSGA-III có khả năng duy trì sự đa dạng của các giải pháp tốt hơn trong không gian mục tiêu có
số chiều cao, đồng thời vẫn đảm bảo sự hội tụ mạnh mẽ về phía mặt trận Pareto thực
sự Khả năng xử lý hiệu quả các bài toán tối ưu đa mục tiêu với nhiều ràng buộc phức tạp là lý do chính khiến NSGA-III được lựa chọn làm giải thuật cốt lõi trong đề án
1.4 Các nghiên cứu liên quan
Các phương pháp truyền thống trong việc phân công cố vấn học tập tại nhiều
cơ sở giáo dục thường dựa trên quy trình hành chính thủ công, quyết định của trưởng khoa/bộ môn dựa trên kinh nghiệm hoặc các tiêu chí đơn giản như chuyên ngành đào tạo của sinh viên Những phương pháp này, mặc dù có thể dễ triển khai ban đầu, thường không đảm bảo sự phù hợp tối ưu và có thể dẫn đến sự không hài lòng từ cả sinh viên lẫn cố vấn học tập, cũng như bỏ lỡ các cơ hội kết nối tiềm năng có thể mang lại lợi ích học thuật lớn hơn Sự thiếu cá nhân hóa, không xem xét đến các yếu tố phức tạp như phong cách học tập của sinh viên, mục tiêu nghề nghiệp, phương pháp hướng dẫn cụ thể của cố vấn học tập, hay sự tương thích về mặt tính cách là những hạn chế cố hữu
Trong nỗ lực cải thiện quy trình này, một số hệ thống hỗ trợ quyết định và nền tảng công nghệ đã được đề xuất và phát triển:
- Các hệ thống quản lý và hỗ trợ tìm gia sư/người hướng dẫn cơ bản:
nghiên cứu của Siti Zulaiha Ahmad và cộng sự về "GRAB tutor management system with SMS notification" [14] và công trình của Torres và Santos giới thiệu "Grab A
Trang 31Tutor: A Decision Support Mobile App for Student Tutoring" [16] là những ví dụ về các hệ thống tập trung vào việc quản lý và tạo điều kiện tìm kiếm cố vấn học tập Các
hệ thống này thường hữu ích trong việc quản lý thông tin, tạo kênh giao tiếp (qua SMS) và cho phép sinh viên tìm kiếm người hướng dẫn dựa trên các tiêu chí cơ bản như môn học hoặc lịch trình Tuy nhiên, trọng tâm của chúng thường là về quản lý hoạt động và tạo sự thuận tiện trong tìm kiếm hơn là tối ưu hóa sự phù hợp dựa trên nhiều yếu tố sâu sắc hoặc đảm bảo các tính chất lý thuyết như tính bền vững của cặp ghép Chúng thường không giải quyết bài toán ghép cặp hai phía một cách toàn diện,
ít xem xét sở thích của người hướng dẫn và không được thiết kế để tối ưu hóa đồng thời nhiều mục tiêu phức tạp
- Ứng dụng Học máy và Hệ thống Đề xuất trong Cố vấn học tập: một
hướng tiếp cận khác là sử dụng các kỹ thuật học máy để xây dựng hệ thống đề xuất (recommender systems) trong lĩnh vực cố vấn học tập [13] Các hệ thống này thường
sử dụng các giải thuật như lọc cộng tác (collaborative filtering) hoặc lọc dựa trên nội dung (content-based filtering) để gợi ý cố vấn học tập hoặc các nội dung liên quan dựa trên hồ sơ, sở thích, hoặc lịch sử tương tác của sinh viên và các sinh viên tương
tự Mặc dù có tiềm năng trong việc cá nhân hóa, các hệ thống dựa trên học máy thuần túy này có thể gặp phải một số thách thức Thứ nhất, chúng phụ thuộc lớn vào chất lượng và số lượng dữ liệu lịch sử; dữ liệu thiếu hoặc thiên lệch có thể dẫn đến các đề xuất không chính xác hoặc không công bằng Thứ hai, nhiều mô hình học máy phức tạp hoạt động như "hộp đen", gây khó khăn trong việc giải thích lý do đằng sau một
đề xuất cụ thể, làm giảm sự tin tưởng của người dùng Quan trọng hơn, chúng thường không được thiết kế để đảm bảo các ràng buộc cứng như sức chứa của cố vấn học tập hay tính bền vững của cặp ghép theo lý thuyết SMT, và thường tối ưu cho dự đoán
sở thích cá nhân hơn là một giải pháp tối ưu toàn cục cho cả hệ thống
Lý thuyết ghép cặp bền vững đã được ứng dụng rộng rãi trong lĩnh vực giáo dục, bao gồm cả việc phân công cố vấn học tập Tuy nhiên, giải thuật Gale-Shapley
cơ bản chỉ xem xét một tiêu chí duy nhất là thứ tự ưu tiên, gây khó khăn khi áp dụng cho các bài toán thực tế phức tạp hơn và cần cân nhắc đồng thời nhiều yếu tố Nghiên
Trang 32cứu của Ömeroğulları và cộng sự đã chỉ ra rằng kiến thức nền của sinh viên và trình
độ của cố vấn đều ảnh hưởng đến hiệu quả cố vấn [17] Hơn nữa, các yếu tố như phong cách học tập của sinh viên và phương pháp giảng dạy của cố vấn cũng cần được xem xét [10] Do đó, việc tích hợp đa tiêu chí vào quá trình ghép cặp là một yêu cầu thiết yếu
Các giải thuật MOEA nổi bật với khả năng tối ưu hóa đồng thời nhiều mục tiêu, phù hợp với bài toán ghép cặp sinh viên - cố vấn, nơi cần cân nhắc mong muốn của sinh viên và khả năng/sở thích của cố vấn Một số giải thuật MOEA phổ biến đã được nghiên cứu áp dụng bao gồm:
- NSGA-II: được biết đến với hiệu quả tính toán và khả năng duy trì sự đa dạng của mặt trận Pareto nhờ phân loại không thống trị nhanh và khoảng cách dồn
ép Tuy nhiên, NSGA-II có thể gặp khó khăn khi số lượng mục tiêu tăng cao, ảnh hưởng đến sự phân bố đều của các giải pháp [4]
- SPEA2: sử dụng kho lưu trữ ngoài để lưu trữ các giải pháp không bị thống trị, kết hợp strength (số lượng giải pháp bị thống trị) và density (mật độ giải pháp xung quanh) để đánh giá fitness và duy trì sự đa dạng
- MOEA/D: phân rã bài toán đa mục tiêu thành nhiều bài toán con đơn mục tiêu bằng cách sử dụng các vector trọng số, tận dụng thông tin từ các bài toán con lân cận để tăng tốc độ hội tụ
Mặc dù nhiều nghiên cứu đã đề cập đến vấn đề ghép cặp sinh viên - cố vấn [3,
9, 22, 23] tuy nhiên vẫn còn tồn tại một số hạn chế:
- Nguồn dữ liệu hạn chế: nhiều nghiên cứu chỉ dựa vào dữ liệu từ các trung tâm, thiếu sự đa dạng trong nguồn tìm kiếm cố vấn
- Khả năng thích ứng còn hạn chế: phương pháp và thời gian của cố vấn chưa chắc phù hợp với nhu cầu và phong cách học tập của từng sinh viên
- Bộ tiêu chí chưa đầy đủ: việc đánh giá sự phù hợp thường dựa trên một số tiêu chí hạn chế, chưa phản ánh đầy đủ các yếu tố quan trọng như phong cách học tập của sinh viên, phương pháp giảng dạy của cố vấn cũng như các yếu tố về kinh tế - xã hội
Trang 33Việc xây dựng hệ hỗ trợ quyết định tìm cố vấn học tập hiệu quả cần kết hợp
lý thuyết ghép cặp bền vững và giải thuật MOEA phù hợp Hệ thống cần xem xét đa dạng tiêu chí của cả sinh viên và cố vấn và đồng thời cần phát triển phương pháp đánh giá sự phù hợp chính xác và toàn diện
CHƯƠNG 2 – XÂY DỰNG GIẢI THUẬT VÀ HỆ TRỢ GIÚP
(một vector hoặc danh sách các kỹ năng cụ thể mà sinh viên si đã sở hữu, bao gồm cả
kỹ năng cứng như lập trình, phân tích dữ liệu và kỹ năng mềm như làm việc nhóm, thuyết trình); Goalsi (các mục tiêu học tập ngắn hạn và dài hạn, cũng như định hướng nghề nghiệp mà sinh viên si hướng tới) và LearningStylei (phong cách học tập ưa thích của sinh viên si, ví dụ: học qua hình ảnh, âm thanh, vận động hoặc kết hợp, một yếu tố có thể ảnh hưởng lớn đến sự tương thích với phương pháp hướng dẫn của cố vấn học tập) Thay vì yêu cầu sinh viên cung cấp một danh sách ưu tiên tường minh