Khoá luận tốt nghiệp ngành công nghệ thông tin đề tài: XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI), so sánh các chỉ số với 3 model Deepseek
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT VĨNH LONG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN
XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH
HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI)
Giảng viên hướng dẫn: ThS Nguyễn Thị Mỹ Nga
Sinh viên thực hiện: Trần Tấn Vạn
Mã số sinh viên: 21004287
Vĩnh Long - Năm 2025
Trang 2KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN
XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH
HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI)
Giảng viên hướng dẫn: ThS Nguyễn Thị Mỹ Nga
Sinh viên thực hiện: Trần Tấn Vạn
Mã số sinh viên: 21004287
Vĩnh Long - Năm 2025
Trang 3KHOA CÔNG NGHỆ THÔNG TIN Độc lập - Tự do - Hạnh phúc
PHIẾU GIAO KHOÁ LUẬN TỐT NGHIỆP
Tên đề tài: XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI) Nhiệm vụ:
Phương pháp đánh giá: □ Báo cáo trước hội đồng □ Chấm thuyết minh Ngày giao luận văn: ngày tháng năm
Ngày hoàn thành luận văn: ngày tháng năm
Số lượng sinh viên thực hiện luận văn: 1 Họ và tên sinh viên: Trần Tấn Vạn MSSV: 21004287 Vĩnh Long, ngày tháng năm
(Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên)
Trang 4LỜI CAM ĐOAN
Em tên là TRẦN TẤN VẠN, mã số sinh viên 21004287, sinh viên lớp ĐHCNTT21A3, khóa 46 Giảng viên hướng dẫn là ThS Nguyễn Thị Mỹ Nga Em xin cam
đoan toàn bộ nội dung được trình bày trong luận văn Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tra cứu thông tin học tập có khả năng giải thích (XAI) là kết quả quá trình tìm hiểu và nghiên cứu của em Các kiến thức được trình
bày trong luận văn này đều xuất phát từ quá trình học tập, nghiên cứu độc lập và sángtạo của em dưới sự hướng dẫn của cô Mọi thông tin trích dẫn, tài liệu tham khảo đềuđược liệt kê rõ ràng và tuân thủ đầy đủ các quy định về sở hữu trí tuệ Em cam kếtkhông sao chép, làm giả hoặc vi phạm bản quyền trong suốt quá trình thực hiện luậnvăn Mọi trích dẫn và tham khảo đều được ghi chú chính xác, rõ ràng theo đúng quyđịnh của nhà trường
Em xin chịu hoàn toàn trách nhiệm đối với tất cả các nội dung được trình bày trongluận văn này Nếu có bất kỳ vấn đề nào liên quan đến vi phạm bản quyền, đạo vănhoặc các sai sót khác, em hoàn toàn chịu trách nhiệm trước pháp luật và nhà trường
Trang 5LỜI CẢM ƠN
Đầu tiên em xin chân thành cảm ơn Ban Lãnh Đạo, các phòng ban của TrườngĐại học Sư phạm Kỹ thuật Vĩnh Long, đặc biệt là quý thầy cô khoa Công nghệ thôngtin đã tạo điều kiện thuận lợi cho em được tìm hiểu thực tiễn trong suốt quá trình thựchiện khóa luận tốt nghiệp Qua quá trình thực hiện luận văn này em đẫ nhận ra nhiềuđiều mới mẻ và bổ ích trong việc nghiên cứu, học tập và phát triển bản thân Và hơn
hết em xin chân thành cảm ơn cô ThS Nguyễn Thị Mỹ Nga – giảng viên trực tiếp
hướng dẫn và và hỗ trợ em hết mình trong quá trình thực hiện đồ án này
Tuy có nhiều cố gắng trong quá trình học tập cũng như trong quá trình làm đề tài
và báo cáo nhưng cũng không thể tránh khỏi những thiếu sót, em rất mong nhận đượcnhững góp ý quý báu của các thầy, các cô để đề tài của em được hoàn thiện hơn.Cuối cùng, em xin kính chúc các quý thầy, cô thật nhiều sức khỏe và thành côngtrong sự nghiệp cao quý
Em xin chân thành cảm ơn!
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CHỮ VIẾT TẮT vi
DANH MỤC HÌNH ẢNH vii
DANH MỤC BẢNG BIỂU viii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Động lực nghiên cứu 2
3 Phạm vi và đối tượng nghiên cứu 2
4 Bố cục khoá luận 3
5 Kết luận 4
CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 5
1.1 Đặt vấn đề 5
1.2 Lý do chọn đề tài 5
1.3 Một số nghiên cứu liên quan 6
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 9
2.1 Giới thiệu về Chatbot thông minh 9
2.2 Xử lý ngôn ngữ tự nhiên (NLP) 10
2.3 Mô hình ngôn ngữ lớn (Large Language Model – LLM) 11
2.4 Một số mô hình sử dụng trong nghiên cứu 12
2.4.1 DeepSeek R1 12
2.4.2 DeepSeek V3 12
2.4.3 DeepSeek Prover V2 13
2.5 Mô hình Truy xuất tri thức tăng cường (RAG) 13
2.6 Các độ đo đánh giá: Cosine, BLEU, ROUGE, METEOR, F1 14
2.6.1 Cosine Similarity 14
2.6.2 BLEU 16
2.6.3 ROUGE 17
2.6.4 METEOR 18
2.6.5 F1-score 20
Trang 72.7 Công cụ LIME 21
2.7.1 Khái niệm XAI 21
2.7.2 Nguyên lý công cụ LIME 22
2.7.3 Cơ chế giải thích LIME trong mô hình RAG 22
2.8 Vector Embedding và cơ sở dữ liệu vector 23
2.8.1 Khái niệm về Vector Embedding 23
2.8.2 Ứng dụng Vector Embedding trong hệ thống hỗ trợ sinh viên 24 2.8.3 Cơ sở dữ liệu Vector 25
2.8.4 Ưu điểm của Vector Embedding 26
2.9 LlamaParse 26
2.10 Streamlit 27
2.11 Giao tiếp với mô hình ngôn ngữ lớn qua API 28
2.11.1 Khái niệm về mô hình ngôn ngữ lớn (Large Languague Model - LLM) 28
2.11.2 Cách thức giao tiếp với mô hình ngôn ngữ lớn qua API 29
CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 30
3.1 Yêu cầu hệ thống và bài toán đặt ra 30
3.2 Kiến trúc tổng thể đề xuất 31
3.3 Upload dữ liệu lên RAG PineCone 34
3.4 Kịch bản thử nghiệm và thực nghiệm 36
3.4.1 Kịch bản thử nghiệm 36
3.4.2 Kịch bản thực nghiệm 37
3.4.3 Tổng hợp luồng kịch bản 38
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM 39
4.1 Môi trường thử nghiệm 39
4.2 Tập dữ liệu 40
4.3 Kết quả thử nghiệm 42
4.3.1 Thử nghiệm đánh giá các mô hình 42
4.3.2 Thử nghiệm đánh giá lợi ích của RAG trong hệ thống chatbot 43 4.3.3 Thử nghiệm XAI - LIME trên một số câu hỏi 43
4.4 Kết quả thực nghiệm 47
4.4.1 Chức năng Chatbot 47
4.4.2 Chức năng AI research 48
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50
Trang 85.1 Tóm tắt kết quả nghiên cứu 50
5.1.1 Ưu điểm 50
5.1.2 Hạn chế 51
5.2 Đóng góp của đề tài 51
5.3 Hướng phát triển 52
TÀI LIỆU THAM KHẢO 53
Trang 9DANH MỤC CHỮ VIẾT TẮT
GPT Generative Pre-trained Transformer
RAG Retrieval-Augmented Generation
NLP Natural Language Processing
AI Artificial Intelligence
LIME Local Interpretable Model-agnostic Explanations
API Application Programming Interface
BERT Bidirectional Encoder Representations from TransformersBLEU Bilingual Evaluation Understudy
ROUGE Recall-Oriented Understudy for Gisting Evaluation
METEOR Metric for Evaluation of Translation with Explicit ORderingMLM Masked Language Modeling
SQuAD Stanford Question Answering Dataset
Trang 10DANH MỤC HÌNH ẢNH
Hình 2.1 Chatbot thông minh 9
Hình 2.2 Ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên 10
Hình 2.3 Kiến trúc RAG 13
Hình 2.4 Độ tương đồng văn bản Cosine Similarity 14
Hình 2.5 Ví dụ kết quả của LIME 23
Hình 2.6 Vector Embedding 24
Hình 2.7 LlamaParse công cụ hỗ trợ RAG 27
Hình 2.8 Streamlit 28
Hình 3.1 Sơ đồ luồng dữ liệu RAG Pinecone 33
Hình 3.2 Sơ đồ luồng dữ liệu Chatbot 33
Hình 3.3 Giao diện upload tài liệu PDF scan 34
Hình 3.4 Kết quả upload dữ liệu đã xử lý vào Pinecone 35
Hình 4.1 Ví dụ một số câu hỏi trong bộ dữ liệu 41
Hình 4.2 Các độ đo đánh giá giữa các mô hình 42
Hình 4.3 Kết quả so sánh dùng RAG và không RAG 43
Hình 4.4 Giải thích LIME cho mẫu câu hỏi 1 44
Hình 4.5 Biểu đồ cột - trọng số LIME cho mẫu câu hỏi 1 44
Hình 4.6 Biểu đồ đường - trọng số LIME cho mẫu câu hỏi 1 45
Hình 4.7 Heatmap - trọng số LIME cho mẫu câu hỏi 1 45
Hình 4.8 Biểu đồ phân tán - trọng số LIME cho mẫu câu hỏi 1 45
Hình 4.9 Giải thích LIME cho mẫu câu hỏi 2 46
Hình 4.10 Biểu đồ cột - trọng số LIME cho mẫu câu hỏi 2 46
Hình 4.11 Biểu đồ đường - trọng số LIME cho mẫu câu hỏi 2 47
Hình 4.12 Heatmap - trọng số LIME cho mẫu câu hỏi 2 47
Hình 4.13 Biểu đồ phân tán - trọng số LIME cho mẫu câu hỏi 2 47
Hình 4.14 Giao diện hệ thống chatbot triển khai bằng Streamlit 48
Hình 4.15 Giao diện chức năng AI Research 49
Trang 11DANH MỤC BẢNG BIỂU
Bảng 3.1 So sánh các giải pháp triển khai mô hình ngôn ngữ lớn 32Bảng 3.2 Kịch bản thử nghiệm mô hình trên Kaggle 36Bảng 3.3 Kịch bản thực nghiệm triển khai hệ thống chatbot trên local 37Bảng 3.4 Tổng hợp luồng thử nghiệm và thực nghiệm 38Bảng 4.1 Mô tả bộ dữ liệu câu hỏi và trả lời 41
Trang 12MỞ ĐẦU
Chương mở đầu sẽ nêu ra tính cấp thiết của đề tài, động lực nghiên cứu, đối tượng
và phạm vi nghiên cứu song song với đó là bố cục đồ án và tóm tắt nội dung tươngứng của các phần
1 Tính cấp thiết của đề tài
Trong bối cảnh chuyển đổi số đang diễn ra mạnh mẽ, nhu cầu xây dựng các hệthống hỗ trợ học tập thông minh ngày càng trở nên cấp thiết Một trong những hướngtiếp cận hiệu quả là ứng dụng các mô hình ngôn ngữ lớn (LLM – Large LanguageModels) vào việc phát triển chatbot nhằm hỗ trợ sinh viên tra cứu thông tin một cáchnhanh chóng và chính xác [1] Tuy nhiên, thực tế hiện nay cho thấy vẫn còn nhiềukhoảng trống nghiên cứu và ứng dụng trong lĩnh vực này, đặc biệt là tại các cơ sở giáodục
Cụ thể, tại Trường Đại học Sư phạm Kỹ thuật Vĩnh Long, hiện chưa có hệ thốngchatbot nào được triển khai sử dụng dữ liệu nội bộ, chẳng hạn như các quy định đàotạo được ban hành chính thức (ví dụ: Quyết định 100/QĐ-ĐHSPKTVL) Việc sinhviên phải tự tra cứu thông tin trong các văn bản PDF dài dòng, thiếu khả năng tươngtác đã phần nào hạn chế hiệu quả tiếp cận thông tin học tập
Ngoài ra, các nghiên cứu hiện có về chatbot học thuật tại Việt Nam chủ yếu tậptrung vào việc truy vấn thông tin đơn thuần, chưa tích hợp các công nghệ mới như
cơ chế RAG (Retrieval-Augmented Generation) để nâng cao độ chính xác của câu trảlời, cũng như chưa có nghiên cứu nào kết hợp khả năng giải thích (Explainable AI -XAI) trong quá trình phản hồi của hệ thống Việc tích hợp phương pháp LIME (LocalInterpretable Model-Agnostic Explanations) vào hệ thống giúp người dùng hiểu rõhơn lý do tại sao chatbot lại đưa ra câu trả lời cụ thể – điều này đặc biệt quan trọngtrong môi trường giáo dục đòi hỏi tính minh bạch cao
Bên cạnh đó, sự xuất hiện ngày càng nhiều của các mô hình ngôn ngữ lớn nhưDeepSeek-R1, DeepSeek-V3 hay DeepSeek-Prover-V2 đặt ra bài toán lựa chọn môhình phù hợp với ngữ cảnh và mục tiêu sử dụng Tuy nhiên, hiện vẫn chưa có nghiêncứu nào tiến hành đánh giá định lượng và so sánh hiệu quả của các mô hình này trongbài toán hỏi đáp tra cứu thông tin học tập tại Việt Nam, nhất là đối với dữ liệu chuyênbiệt như quy định đào tạo của một trường đại học cụ thể
Trang 13Từ những phân tích trên, có thể khẳng định rằng việc nghiên cứu và triển khai một
hệ thống chatbot học tập thông minh, có khả năng giải thích, sử dụng dữ liệu thực tếcủa Trường Đại học Sư phạm Kỹ thuật Vĩnh Long là một hướng đi mới, cấp thiết và
có ý nghĩa ứng dụng cao trong thực tiễn giáo dục
2 Động lực nghiên cứu
Trong thời đại công nghệ số phát triển mạnh mẽ như hiện nay, việc ứng dụng trítuệ nhân tạo vào giáo dục không còn là điều xa lạ Một trong những ứng dụng nổibật và gần gũi nhất là chatbot – hệ thống trả lời tự động có khả năng trò chuyện vớicon người bằng ngôn ngữ tự nhiên Ở nhiều trường đại học, nhu cầu tra cứu thông tinhọc tập ngày càng cao, nhưng sinh viên vẫn gặp khó khăn khi tìm kiếm thông tin liênquan đến chương trình đào tạo, lịch thi, điểm số, học bổng hay các quy định của nhàtrường
Việc tra cứu thông tin thông qua các kênh truyền thống như website, văn bảnhướng dẫn hay hỏi trực tiếp cán bộ giảng viên đôi khi không mang lại hiệu quả cao.Thông tin có thể quá nhiều, bị phân tán hoặc không được cập nhật kịp thời, khiến sinhviên mất thời gian và dễ rơi vào trạng thái hoang mang, đặc biệt là đối với sinh viênnăm nhất
Chính vì vậy, việc xây dựng một hệ thống chatbot thông minh để hỗ trợ sinh viêntra cứu thông tin học tập một cách nhanh chóng và chính xác là điều rất cần thiết Tuynhiên, chatbot không chỉ nên dừng lại ở việc đưa ra câu trả lời đơn thuần, mà còn cầngiải thích rõ vì sao lại trả lời như vậy Khi có thể hiểu được lý do đằng sau mỗi phảnhồi, sinh viên sẽ yên tâm và tin tưởng hơn vào hệ thống Đây cũng là mục tiêu chínhcủa lĩnh vực trí tuệ nhân tạo có khả năng giải thích, thường được gọi là Explainable
AI (XAI)
Đề tài “Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tra cứu thông tinhọc tập có khả năng giải thích” ra đời từ nhu cầu thực tế đó Hệ thống được thiết kếdựa trên các công nghệ hiện đại như mô hình kết hợp truy xuất và sinh văn bản (RAG),phép đo độ tương đồng văn bản bằng cosine similarity, công cụ giải thích LIME, cùngkhả năng mở rộng tìm kiếm giống như công cụ Tavily Tất cả nhằm hướng đến mộtgiải pháp hữu ích, tiện lợi và thân thiện cho sinh viên
3 Phạm vi và đối tượng nghiên cứu
Đề tài tập trung vào việc nghiên cứu và xây dựng một hệ thống chatbot sử dụngtrí tuệ nhân tạo, có thể tự động trả lời các câu hỏi của sinh viên liên quan đến học tập
Trang 14và quy chế đào tạo Cụ thể, hệ thống có khả năng tìm kiếm thông tin trong các tài liệutrong chương trình đào tạo.
Phạm vi nghiên cứu gồm các nội dung chính như sau:
• Áp dụng mô hình truy xuất tri thức kết hợp sinh văn bản (RAG) để chatbot cóthể tìm kiếm thông tin chính xác từ dữ liệu đầu vào
• Sử dụng phép đo cosine similarity để đánh giá mức độ giống nhau giữa câu hỏi
và nội dung có trong tài liệu
• Tích hợp công cụ LIME nhằm giúp hệ thống có thể giải thích được lý do chọncâu trả lời
• Sử dụng giao tiếp với mô hình ngôn ngữ lớn thông qua API
• Thiết kế giao diện thân thiện với người dùng, triển khai trên nền tảng web
• Sử dụng dữ liệu thực tế từ một trường đại học cụ thể là Trường Đại học Sưphạm Kỹ thuật Vĩnh Long
Đối tượng nghiên cứu của đề tài là hệ thống chatbot thông minh hỗ trợ sinh viêntra cứu thông tin học tập, được xây dựng trên nền tảng trí tuệ nhân tạo và học máy
Hệ thống này có khả năng tiếp nhận câu hỏi từ người dùng là sinh viên, sau đó thựchiện truy vấn thông tin từ các tài liệu liên quan trong chương trình đào tạo để đưa racâu trả lời phù hợp và chính xác
4 Bố cục khoá luận
Đề tài nghiên cứu: Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tracứu thông tin học tập có khả năng giải thích (XAI) được chia thành 5 chương:
• Chương 1: Tổng quan đề tài
Chương này đặt ra bối cảnh vấn đề và nói lên lý do lựa chọn đề tài Đồng thờicũng nêu một số nghiên cứu liên quan đến đề tài thực hiện và xác định cáchướng tiếp cận được tham khảo vào đề tài
• Chương 2: Cơ sở lý thuyết
Chương này cung cấp các kiến thức nền tảng phục vụ cho quá trình phântích và xây dựng hệ thống Nội dung bao gồm tổng quan về chatbot thôngminh, xử lý ngôn ngữ tự nhiên (NLP), mô hình truy xuất tri thức tăng cường(RAG), phương pháp đo độ tương đồng văn bản bằng cosine similarity, BLEU,ROUGE, METEOR, F1-score, các khái niệm liên quan đến AI có khả năng
Trang 15giải thích (XAI) cùng với công cụ LIME, embedding vector và cơ sở dữ liệuvector, cũng như cách giao tiếp với mô hình ngôn ngữ lớn thông qua API.
• Chương 3: Phân tích và thiết kế hệ thống
Dựa trên các cơ sở lý thuyết đã trình bày ở chương trước, chương này đi sâuvào việc phân tích bài toán đặt ra Sau đó là phần trình bày kiến trúc tổng thể,các kịch bản thử nghiệm cũng như thực nghiệm cụ thể
• Chương 4: Kết quả Từ những kịch bản của chương 3, chương này hướng đếnkết quả thử nghiệm và thực nghiệm các kịch bản, cũng như thông số đánh giátrên mô hình lựa chọn
• Chương 5: Kết luận và hướng phát triển
Chương cuối cùng tổng kết lại kết quả đạt được trong quá trình thực hiện khoáluận, đánh giá những ưu điểm nổi bật cũng như chỉ ra các hạn chế của hệ thống.Đồng thời, chương cũng đưa ra một số định hướng phát triển trong tương lai,như mở rộng phạm vi truy vấn, cải tiến giao diện người dùng, hoặc tích hợpthêm các mô hình ngôn ngữ mới và công nghệ tìm kiếm hiện đại hơn
5 Kết luận
Phần mở đầu đã giới thiệu tổng quan về đề tài, nêu rõ lý do thực hiện, phạm vi vàđối tượng nghiên cứu, cũng như cách tổ chức nội dung của luận văn Từ thực tiễn nhucầu của sinh viên trong việc tra cứu thông tin học tập, đề tài đã xác định được mụctiêu và hướng tiếp cận rõ ràng Những cơ sở lý thuyết và kỹ thuật liên quan sẽ đượctrình bày chi tiết hơn trong chương tiếp theo, làm nền tảng cho việc xây dựng và triểnkhai hệ thống chatbot thông minh có khả năng giải thích
Trang 16CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI
Tuy nhiên, việc triển khai các hệ thống hỗ trợ học tập dựa trên LLM trong môitrường giáo dục vẫn còn nhiều rào cản Một trong những thách thức lớn là khả năngkiểm chứng và giải thích được nội dung mà mô hình tạo ra Điều này đặc biệt quantrọng trong bối cảnh sinh viên cần tiếp cận thông tin chính xác, chính thống và minhbạch liên quan đến chương trình đào tạo, quy chế học vụ hoặc điều kiện xét tốt nghiệp.Nếu hệ thống không thể giải thích được lý do đằng sau mỗi phản hồi, thì dù có khảnăng sinh văn bản tốt đến đâu, nó cũng khó được tin tưởng và ứng dụng rộng rãi tronghọc đường
Mặt khác, trong thực tiễn tại các trường đại học, việc tra cứu thông tin học tập còngặp nhiều bất tiện Nhiều sinh viên gặp khó khăn khi cần tìm hiểu các quy định, thủtục hoặc nội dung chương trình đào tạo, do thông tin thường được lưu trữ dưới dạngvăn bản dài, phân mảnh và thiếu tính tương tác
Chính từ thực trạng và yêu cầu thực tiễn đó, việc xây dựng một hệ thống chatbotthông minh có khả năng trả lời chính xác và giải thích rõ ràng cho từng phản hồi làmột hướng đi tiềm năng và cần thiết Đây cũng chính là xuất phát điểm cho việc lựachọn và thực hiện đề tài nghiên cứu này
1.2 Lý do chọn đề tài
Hiện nay, với sự phát triển nhanh chóng của trí tuệ nhân tạo, đặc biệt là các môhình ngôn ngữ lớn (Large Language Models – LLMs), đã và đang tạo ra những chuyểnbiến sâu rộng trong nhiều lĩnh vực, trong đó có giáo dục Với khả năng hiểu và sinhngôn ngữ tự nhiên một cách linh hoạt, các mô hình như GPT, LLaMA, hay DeepSeek
mở ra tiềm năng lớn trong việc xây dựng các hệ thống hỗ trợ học tập thông minh,chẳng hạn như chatbot tư vấn học vụ, hỗ trợ tra cứu thông tin hay giải đáp kiến thứcchuyên ngành
Trang 17Tuy nhiên, một hạn chế cố hữu của các hệ thống dựa trên mô hình học sâu là tínhkhông minh bạch trong quá trình ra quyết định Khi chatbot đưa ra câu trả lời, ngườidùng thường không thể biết rõ hệ thống dựa vào cơ sở nào để suy luận, điều này đặt ravấn đề về độ tin cậy và khả năng kiểm chứng của hệ thống, đặc biệt trong môi trườnghọc thuật – nơi đòi hỏi độ chính xác và tính chính thống cao Do đó, nhu cầu pháttriển các hệ thống AI có khả năng giải thích được (Explainable AI – XAI) là điều cầnthiết, nhằm giúp người dùng hiểu rõ cơ sở và mức độ hợp lý của từng phản hồi.Bên cạnh đó, trong thực tế tại các trường đại học, sinh viên thường gặp khó khănkhi cần tìm kiếm các thông tin liên quan đến chương trình đào tạo, quy chế học vụ,điều kiện tốt nghiệp hay hướng dẫn thực hiện khóa luận, Các thông tin này tuy đượccông bố công khai, nhưng phân tán ở nhiều nguồn và không được tổ chức dưới dạngtương tác thân thiện, gây khó khăn trong quá trình tra cứu và tiếp nhận.
Chính vì vậy, đề tài “Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tracứu thông tin học tập có khả năng giải thích (XAI)” được lựa chọn với mục tiêu kếthợp các thành tựu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên, truy xuất tri thức và trítuệ nhân tạo có khả năng giải thích Hệ thống không chỉ hướng đến việc hỗ trợ sinhviên tra cứu thông tin một cách nhanh chóng, chính xác mà còn cung cấp khả nănggiải thích rõ ràng về nội dung phản hồi, góp phần nâng cao tính minh bạch, tin cậy vàtrải nghiệm người dùng
1.3 Một số nghiên cứu liên quan
Bài báo "Role of AI chatbots in education: Systematic literature review" [1] cungcấp một tổng quan có hệ thống về vai trò của chatbot AI trong giáo dục, nhấn mạnhlợi ích như hỗ trợ học tập cá nhân hóa và thách thức như vấn đề đạo đức Nhóm tácgiả sử dụng các phương pháp định tính để phân tích hiệu quả của chatbot trong việc
hỗ trợ sinh viên Kết quả cho thấy chatbot cải thiện trải nghiệm học tập và tiết kiệmthời gian Nghiên cứu này được tham khảo để định vị dự án trong bối cảnh giáo dục,đặc biệt trong việc thiết kế chatbot hỗ trợ sinh viên, như được trình bày trong Chương
1 (Giới thiệu) và Chương 5 (Kết luận và Hướng Phát triển)
Trong bài báo ""Why Should I Trust You?": Explaining the Predictions of AnyClassifier" [2], nhóm tác giả giới thiệu LIME (Local Interpretable Model-agnosticExplanations), một công cụ XAI giúp giải thích các quyết định của mô hình AI bằngcách tạo ra các mô hình thay thế cục bộ LIME được áp dụng để tăng tính minh bạchtrong các hệ thống AI, bao gồm chatbot Kết quả cho thấy LIME giúp người dùnghiểu rõ hơn về lý do đằng sau các dự đoán của mô hình Trong luận văn, LIME được
Trang 18tích hợp để giải thích các phản hồi của chatbot, giúp sinh viên hiểu cách hệ thống đưa
ra câu trả lời
Trong bài báo "Retrieval-Augmented Generation for Knowledge-Intensive NLPTasks" [4], nhóm tác giả giới thiệu phương pháp Retrieval-Augmented Generation(RAG), một kỹ thuật kết hợp truy xuất thông tin từ cơ sở dữ liệu bên ngoài và sinh vănbản để cải thiện hiệu suất trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) chuyên sâu
về kiến thức Các tác giả đã xây dựng một hệ thống RAG sử dụng vector embeddings
để truy xuất thông tin liên quan, sau đó tích hợp với mô hình ngôn ngữ lớn để tạo racâu trả lời chính xác Kết quả cho thấy RAG đạt hiệu suất cao trong các tác vụ trảlời câu hỏi mở, với khả năng cung cấp thông tin chính xác mà không cần huấn luyệnlại toàn bộ mô hình Trong luận văn, chúng tôi áp dụng RAG để cải thiện khả năngtruy xuất thông tin học tập từ cơ sở dữ liệu vector Pinecone, đảm bảo câu trả lời củachatbot phù hợp với nhu cầu của sinh viên
Bài báo "REALM: Retrieval-Augmented Language Model Pre-Training" [5] trìnhbày REALM, một mô hình tăng cường bằng truy xuất trong giai đoạn huấn luyệntrước, giúp cải thiện khả năng lý giải và sinh văn bản của các mô hình ngôn ngữ lớn.Nhóm tác giả sử dụng cơ chế truy xuất tương tự RAG, tập trung vào tối ưu hóa hiệusuất NLP Kết quả cho thấy REALM cải thiện đáng kể độ chính xác trong các tác vụyêu cầu kiến thức bên ngoài Trong luận văn, nghiên cứu này được tham khảo để củng
cố lý thuyết về RAG, đặc biệt trong việc thiết kế hệ thống truy xuất thông tin
Trong bài báo "DeepSeek-Prover-V2: Advancing Formal Mathematical ing via Reinforcement Learning for Subgoal Decomposition" [6], nhóm tác giả trìnhbày DeepSeek-Prover-V2, một mô hình ngôn ngữ lớn được tối ưu hóa cho lý luận toánhọc thông qua học tăng cường Mô hình này đạt hiệu suất cao trong các bài kiểm tranhư MiniF2F-test, phù hợp với các ứng dụng yêu cầu phản hồi chính xác Trong đềtài của em, DeepSeek-Prover-V2 được chọn làm mô hình chính cho chatbot, với cácthử nghiệm sử dụng BLEU, ROUGE, và Cosine Similarity để đánh giá hiệu quả.Trong bài báo "ROUGE: A Package for Automatic Evaluation of Summaries" [8],tác giả giới thiệu ROUGE (Recall-Oriented Understudy for Gisting Evaluation), một
Reason-bộ độ đo đánh giá tóm tắt tự động, bao gồm ROUGE-1, ROUGE-2, và ROUGE-L.ROUGE tập trung vào sự chồng lấn n-gram giữa văn bản được tạo ra và văn bảntham chiếu, đạt hiệu quả cao trong việc đánh giá chất lượng tóm tắt Trong luận văn,ROUGE được sử dụng để đánh giá khả năng sinh văn bản của chatbot, đảm bảo câutrả lời phù hợp với thông tin tham chiếu
Trang 19Bài báo "METEOR: An Automatic Metric for MT Evaluation with Improved relation with Human Judgments" [9] trình bày METEOR, một độ đo đánh giá dịchmáy với sự tương quan cao với đánh giá của con người, dựa trên sự kết hợp của từđồng nghĩa và cấu trúc câu Kết quả cho thấy METEOR vượt trội trong việc đánh giácác câu trả lời phức tạp Trong luận văn, METEOR được sử dụng để bổ sung cho các
Cor-độ đo như BLEU và ROUGE, cung cấp đánh giá toàn diện hơn về chất lượng phảnhồi của chatbot
Trong bài báo "Investigating the Performance of Retrieval-Augmented Generationand Fine-Tuning for the Development of AI-Driven Knowledge-Based Systems" [10],các tác giả đánh giá hiệu suất của RAG và fine-tuning trong các hệ thống kiến thứcdựa trên AI, sử dụng Cosine Similarity để đo lường độ tương đồng giữa câu trả lờiđược tạo ra và câu trả lời tham chiếu Kết quả cho thấy RAG cải thiện độ chính xáctrong các tác vụ truy xuất thông tin, với Cosine Similarity đạt giá trị cao trong cácthử nghiệm Trong luận văn, Cosine Similarity được sử dụng để đánh giá chất lượngphản hồi của chatbot, đặc biệt trong các thử nghiệm so sánh với các mô hình khác.Bài báo "BLEU: A Method for Automatic Evaluation of Machine Translation"[11] giới thiệu độ đo BLEU (Bilingual Evaluation Understudy), một phương phápđánh giá tự động chất lượng văn bản được tạo ra bằng cách so sánh n-gram với vănbản tham chiếu Nhóm tác giả phát triển BLEU để đánh giá các hệ thống dịch máy,với kết quả cho thấy độ đo này có tương quan cao với đánh giá của con người BLEUgiúp giảm thiểu thời gian và chi phí so với các phương pháp đánh giá thủ công Trongluận văn, BLEU được áp dụng để đánh giá độ chính xác của các câu trả lời do chatbottạo ra, đặc biệt trong các thử nghiệm với mô hình DeepSeek-Prover-V2
Trang 20CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Để xây dựng một hệ thống chatbot thông minh có khả năng tra cứu thông tin họctập và đồng thời cung cấp lời giải thích cho câu trả lời, việc nắm rõ các kiến thức lýthuyết liên quan là vô cùng cần thiết Trong chương này, luận văn sẽ trình bày cáckhái niệm, mô hình và công nghệ làm nền tảng cho việc xây dựng hệ thống Các nộidung bao gồm: khái niệm về chatbot thông minh, xử lý ngôn ngữ tự nhiên, mô hìnhtruy xuất tri thức tăng cường (RAG), phương pháp đo độ tương đồng giữa các văn bảnbằng Cosine Similarity, khái niệm về AI có khả năng giải thích (XAI) cùng với công
cụ LIME, vector embedding và cơ sở dữ liệu vector, và cuối cùng là cách giao tiếp với
mô hình ngôn ngữ lớn thông qua API
2.1 Giới thiệu về Chatbot thông minh
Hình 2.1 Chatbot thông minh
Chatbot là một ứng dụng trí tuệ nhân tạo có khả năng giao tiếp với con ngườithông qua ngôn ngữ tự nhiên Thay vì chỉ đơn thuần trả lời theo kịch bản được lậptrình sẵn như các chatbot truyền thống, chatbot thông minh có thể hiểu được ý địnhcủa người dùng, xử lý ngữ nghĩa phức tạp và tạo ra phản hồi tự nhiên, chính xác hơn.Trong giáo dục, nhu cầu hỗ trợ sinh viên ngày càng tăng cao, đặc biệt là trong
Trang 21việc tra cứu thông tin học tập như: chương trình đào tạo, lịch học, quy chế học vụ,chính sách học bổng, v.v Tuy nhiên, việc sinh viên phải tự tìm kiếm trong hàng trămtrang tài liệu thường tốn thời gian và dễ gây nhầm lẫn Một chatbot thông minh có thểtrở thành người trợ lý học tập ảo đáng tin cậy, luôn sẵn sàng cung cấp câu trả lời phùhợp bất cứ lúc nào sinh viên cần.
Không chỉ dừng lại ở việc cung cấp thông tin, chatbot trong đề tài này còn có khảnăng giải thích vì sao lại đưa ra câu trả lời đó Đây chính là điểm nổi bật và khác biệt
so với các chatbot thông thường khác
2.2 Xử lý ngôn ngữ tự nhiên (NLP)
Hình 2.2 Ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên là cách giao tiếp của con người trong cuộc sống hằng ngày,bao gồm lời nói và văn bản Đối với máy tính, việc hiểu và xử lý ngôn ngữ tự nhiên
là một thách thức lớn Vì vậy, lĩnh vực xử lý ngôn ngữ tự nhiên (Natural LanguageProcessing - viết tắt là NLP) ra đời nhằm giúp máy tính có thể hiểu, phân tích và tạo
ra văn bản giống như con người
Trong hệ thống chatbot, NLP là thành phần cốt lõi Nó giúp máy hiểu được nộidung câu hỏi của sinh viên và lựa chọn câu trả lời phù hợp Một số công đoạn quan
Trang 22trọng trong NLP bao gồm:
• Tiền xử lý văn bản: Trước khi đưa vào xử lý, văn bản thường phải được làmsạch Các bước như chuyển tất cả về chữ thường, loại bỏ dấu câu, tách từ, bỏcác từ dừng (như "và", "là", "của") sẽ giúp mô hình dễ dàng phân tích hơn
• Mã hóa văn bản: Sau khi làm sạch, văn bản cần được chuyển thành dạng số đểmáy có thể hiểu được Đây chính là bước embedding sẽ trình bày ở phần sau
• Hiểu ngữ cảnh: Các mô hình ngôn ngữ lớn (Large Language Models) sẽ phântích văn bản trong ngữ cảnh tổng thể, không chỉ từng từ riêng lẻ, nhờ đó chatbot
có thể hiểu rõ hơn ý định thực sự của người hỏi
• Sinh câu trả lời: Sau khi hiểu câu hỏi và truy xuất thông tin, chatbot sẽ sinh racâu trả lời mạch lạc, tự nhiên như một người thật đang trả lời
2.3 Mô hình ngôn ngữ lớn (Large Language Model – LLM)
Trong những năm gần đây, mô hình ngôn ngữ lớn (Large Language Model – LLM)
đã trở thành nền tảng quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Khácvới các phương pháp biểu diễn ngôn ngữ truyền thống như Word2Vec hay GloVe,LLM được xây dựng dựa trên kiến trúc Transformer, cho phép mô hình học được mốiquan hệ ngữ nghĩa sâu giữa các từ trong văn bản, bất kể vị trí của chúng trong chuỗi.Transformer, được giới thiệu lần đầu bởi Vaswani và cộng sự vào năm 2017, hoạt
động dựa trên cơ chế self-attention Cơ chế này giúp mô hình tự động xác định mức
độ liên kết giữa các từ trong câu, từ đó hiểu rõ hơn ngữ nghĩa tổng thể
Các LLM hiện đại thường trải qua hai giai đoạn huấn luyện chính:
• Tiền huấn luyện (Pre-training): Mô hình được huấn luyện trên tập dữ liệu
cực lớn (từ hàng trăm tỷ đến hàng nghìn tỷ token), với nhiệm vụ dự đoán các
từ bị ẩn trong chuỗi văn bản (Masked Language Modeling – MLM) hoặc sinh
từ tiếp theo (Causal Language Modeling)
• Tinh chỉnh (Fine-tuning): Sau khi tiền huấn luyện, mô hình được điều chỉnh
lại trên các tập dữ liệu nhỏ hơn, có gán nhãn cụ thể cho từng tác vụ như hỏiđáp, dịch máy, hoặc sinh lời giải thích
Một số đặc điểm nổi bật của LLM:
• Sở hữu số lượng tham số lớn (từ vài trăm triệu đến hàng chục tỷ)
• Có khả năng khái quát hóa tốt, kể cả với những ngữ cảnh chưa từng gặp
Trang 23• Có thể tích hợp thêm tri thức ngoại sinh bằng phương pháp RAG Augmented Generation).
(Retrieval-2.4 Một số mô hình sử dụng trong nghiên cứu
Trong nghiên cứu này, ba mô hình thuộc dòng DeepSeek được lựa chọn để thựchiện các vai trò khác nhau trong hệ thống chatbot học thuật: sinh giải thích, đánh giágiải thích, và so sánh hiệu quả theo tiêu chí XAI
2.4.1 DeepSeek R1
DeepSeek R1 là một mô hình ngôn ngữ lớn thuộc thế hệ đầu tiên của dòng
DeepSeek, được tối ưu hóa cho các tác vụ hội thoại và phản hồi nhanh trong thờigian thực
DeepSeek V3 là phiên bản cơ sở của dòng mô hình thế hệ thứ ba (V3), có kiến
trúc gọn nhẹ nhưng hiệu quả trong các tác vụ sinh văn bản tự động
• Số tham số: 7 tỷ (7B)
• Kích thước embedding: 4096
• Số lớp Transformer:32
• Số đầu attention:32
• Dữ liệu huấn luyện: khoảng 2.4 nghìn tỷ token (2.4T)
• Ứng dụng: Dùng làm mô hình so sánh baseline, kiểm tra khả năng sinh lờigiải thích không sử dụng đánh giá chuyên biệt
Trang 242.4.3 DeepSeek Prover V2
DeepSeek Prover V2 là mô hình chuyên biệt được huấn luyện để đánh giá và
kiểm tra tính đúng đắn của các lập luận, lời giải thích hoặc suy diễn logic trong ngữcảnh học thuật
Để khắc phục hạn chế này, mô hình RAG (Retrieval-Augmented Generation) rađời Đây là sự kết hợp giữa khả năng truy xuất thông tin từ nguồn dữ liệu bên ngoàivới khả năng sinh văn bản tự nhiên từ mô hình ngôn ngữ
Cách hoạt động của RAG gồm hai bước chính:
Trang 25Truy xuất thông tin: Khi người dùng đặt câu hỏi, hệ thống sẽ tìm kiếm các đoạnvăn bản có liên quan từ cơ sở dữ liệu học tập (các tài liệu, quy định, thông báo, v.v).Sinh câu trả lời: Sau khi có các đoạn văn liên quan, mô hình ngôn ngữ sẽ dùngchúng như dữ kiện để tạo ra câu trả lời Việc này giúp chatbot vừa chính xác, vừakhông bị giới hạn bởi kiến thức tĩnh của mô hình.
Việc ứng dụng RAG giúp hệ thống chatbot của luận văn có thể cập nhật dữ liệumới mà không cần huấn luyện lại mô hình từ đầu, đồng thời tạo ra câu trả lời phù hợp
và đúng bối cảnh hơn
2.6 Các độ đo đánh giá: Cosine, BLEU, ROUGE, METEOR, F1
2.6.1 Cosine Similarity
Hình 2.4 Độ tương đồng văn bản Cosine Similarity
Trong lĩnh vực xử lý ngôn ngữ tự nhiên, một trong những bước quan trọng trongquá trình truy xuất thông tin là đánh giá mức độ tương đồng giữa hai đoạn văn bản
Cosine Similaritylà một phương pháp phổ biến được sử dụng nhằm đo lường độ tươngđồng về mặt ngữ nghĩa giữa hai vector văn bản
Khác với việc so sánh chuỗi ký tự theo từng chữ cái hoặc từ, Cosine Similarity
chuyển văn bản về dạng vector trong không gian nhiều chiều, từ đó tính toán góc giữahai vector đại diện Góc càng nhỏ thì hai văn bản càng có nội dung tương đồng Giátrị của Cosine Similarity nằm trong khoảng từ -1 đến 1, trong đó:
Trang 26• Giá trị gần 1 biểu thị hai văn bản rất giống nhau.
• Giá trị gần 0 biểu thị hai văn bản không liên quan
• Giá trị gần -1 biểu thị hai văn bản có xu hướng đối lập (trường hợp này rất hiếmgặp trong xử lý ngôn ngữ)
Giả sử có hai vector văn bản ⃗A và ⃗B, mỗi vector gồm n chiều tương ứng với sốlượng đặc trưng trong không gian từ vựng, công thức Cosine Similarity được tính nhưsau:
Cosine Similarity = cos(θ ) =
• ⃗A· ⃗Blà tích vô hướng giữa hai vector,
• ∥⃗A∥ và ∥⃗B∥ lần lượt là chuẩn Euclid của ⃗A và ⃗B,
• Aivà Bi là các thành phần tại vị trí thứ i trong vector
Ví dụ minh hoạ:
Xét hai câu sau:
• Câu 1: “Sinh viên cần học luật đào tạo”
• Câu 2: “Quy chế đào tạo sinh viên phải học”
Sau khi loại bỏ từ dừng và biểu diễn bằng mô hình Bag of Words, ta có tập từ
vựng gồm: {sinh viên, học, luật, quy chế, đào tạo} Khi đó, hai câu được biểu diễndưới dạng vector như sau:
Trang 272.6.2 BLEU
BLEU (Bilingual Evaluation Understudy) là một chỉ số đánh giá phổ biến tronglĩnh vực dịch máy và sinh văn bản tự động, được đề xuất bởi Papineni và cộng sự vàonăm 2002 BLEU đo lường mức độ trùng khớp giữa văn bản do mô hình tạo ra vớimột hoặc nhiều câu tham chiếu (ground truth), dựa trên tần suất xuất hiện của cáccụm từ (n-gram)
Công thức tổng quát của BLEU được biểu diễn như sau:
BLEU = BP · exp
N
∑n=1
• c: tổng độ dài của các câu được mô hình sinh ra
• r: tổng độ dài của các câu tham chiếu
• pn: độ chính xác của các n-gram bậc n
• wn: trọng số của mỗi bậc n-gram, thường được gán đều nhau, ví dụ: wn = 14với n = 1 4
Ưu điểm: BLEU là chỉ số đánh giá tự động, dễ tính toán, và hiệu quả khi áp dụng
cho các bài toán sinh ngôn ngữ tự nhiên có tham chiếu cụ thể
Hạn chế: BLEU không xét đến yếu tố ngữ nghĩa và cú pháp tổng thể, do đó có
thể cho điểm thấp đối với những câu có nghĩa đúng nhưng diễn đạt khác biệt
Trong đề tài này, BLEU được sử dụng để đánh giá mức độ tương đồng giữa câutrả lời của hệ thống Chatbot với câu trả lời chuẩn, giúp phản ánh chất lượng ngôn ngữsinh ra từ mô hình
Trang 282.6.3 ROUGE
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một tập hợp cácchỉ số đánh giá chất lượng của văn bản được sinh ra bởi mô hình, đặc biệt phổ biếntrong các bài toán tóm tắt văn bản và sinh ngôn ngữ tự nhiên Khác với BLEU – vốnthiên về độ chính xác (precision), ROUGE lại ưu tiên đo lường khả năng bao phủ(recall) của mô hình, tức là mức độ mà các từ hoặc cụm từ trong văn bản tham chiếuđược tái hiện lại trong văn bản được tạo ra
Trong khuôn khổ đề tài này, ba biến thể phổ biến nhất của ROUGE được sử dụng,bao gồm ROUGE-1, ROUGE-2 và ROUGE-L Mỗi biến thể tập trung vào một khíacạnh khác nhau của việc so sánh văn bản:
• ROUGE-1 đo lường tỉ lệ trùng khớp giữa các từ đơn lẻ (unigram) trong vănbản được sinh ra và văn bản tham chiếu Đây là chỉ số cơ bản nhất, phản ánhkhả năng tái hiện nội dung ở cấp độ từ
• ROUGE-2mở rộng đánh giá lên cấp độ bigram, tức là các cặp từ liên tiếp, chophép đo được phần nào tính mạch lạc và cấu trúc ngữ pháp của câu văn
• ROUGE-Llại dựa trên khái niệm chuỗi con chung dài nhất (Longest Common
Subsequence – LCS), giúp phản ánh mức độ tương đồng về trật tự và cấu trúcgiữa các câu trong văn bản
Công thức tổng quát để tính ROUGE-N, với N là bậc của n-gram (ví dụ N = 1cho ROUGE-1, N = 2 cho ROUGE-2), được biểu diễn như sau:
ROUGE-N = ∑S∈{Tập câu tham chiếu}∑gramn∈SCountmatch(gramn)
∑S∈{Tập câu tham chiếu}∑gramn∈SCount(gramn)Trong đó:
• Countmatch(gramn) là số lượng n-gram (có thể là từ đơn, cặp từ, ) trùng nhaugiữa văn bản sinh ra và văn bản tham chiếu
• Count(gramn) là tổng số n-gram trong các câu tham chiếu
Đối với ROUGE-L, thay vì n-gram, ta tính độ dài của chuỗi con chung dài nhất(LCS) giữa hai câu hoặc đoạn văn bản Chuỗi con chung dài nhất là dãy các từ xuấthiện theo cùng thứ tự trong cả hai văn bản (không nhất thiết phải liên tiếp), giúp phảnánh khả năng bảo toàn trật tự và ý nghĩa câu
Trang 29Chỉ số ROUGE-L có thể được tính thông qua precision (độ chính xác), recall (độbao phủ), và F1-score như sau:
Precision = LCS(X ,Y )
length(X ), Recall =
LCS(X ,Y )length(Y )
ROUGE-L = (1 + β
2) · Precision · RecallRecall + β2· Precision , với β = 1Trong đó X là chuỗi sinh ra bởi mô hình, Y là chuỗi tham chiếu Việc sử dụngđồng thời precision và recall giúp ROUGE-L phản ánh tốt hơn sự cân bằng giữa mức
độ đầy đủ và tính chính xác trong kết quả của mô hình
Ưu điểm: ROUGE là công cụ đánh giá khách quan và tự động, không đòi hỏi sự
can thiệp của con người Nó đặc biệt hiệu quả khi đánh giá các mô hình sinh văn bản
có câu trả lời dạng tự do hoặc tóm tắt mở
Hạn chế: ROUGE chỉ đánh giá dựa trên sự trùng khớp từ vựng hoặc cấu trúc,
không phản ánh được các yếu tố ngữ nghĩa sâu hơn như sự đồng nghĩa, suy diễn hayngữ cảnh rộng
Trong đề tài này, các chỉ số ROUGE-1, ROUGE-2 và ROUGE-L được sử dụng
để đánh giá mức độ tương đồng giữa câu trả lời của hệ thống Chatbot với các câutrả lời mẫu (ground truth) Đây là cơ sở quan trọng để kiểm chứng chất lượng sinhngôn ngữ của hệ thống, bên cạnh các chỉ số đánh giá khác như BLEU, METEOR hayF1-score
• Trùng khớp chính xác (exact match): từ trong câu sinh ra trùng hoàn toàn
với từ trong câu tham chiếu
Trang 30• Trùng khớp gốc từ (stem match): từ sinh ra và từ tham chiếu có chung gốc
từ, dù hình thái khác nhau (ví dụ: “study” và “studying”)
• Trùng khớp đồng nghĩa (synonym match): hai từ có cùng hoặc gần nghĩa,
được phát hiện thông qua từ điển đồng nghĩa như WordNet
• Trùng khớp xáo trộn thứ tự (paraphrase match): trong các phiên bản mở
rộng, METEOR còn xét cả trật tự và cụm từ tương đương về ngữ nghĩa
Chỉ số METEOR được tính dựa trên harmonic mean giữa độ chính xác (precision)
và độ bao phủ (recall), có trọng số nghiêng về recall, như sau:
Fmean = 10 · P · R
R+ 9PTrong đó:
• P(Precision): Tỉ lệ từ đúng trong câu sinh ra so với tổng số từ trong câu sinhra
• R (Recall): Tỉ lệ từ đúng trong câu sinh ra so với tổng số từ trong câu thamchiếu
Sau khi tính Fmean, METEOR còn áp dụng một hệ số phạt (penalty) nếu trật tự
từ trong câu sinh ra không giống với câu tham chiếu, phản ánh mức độ xáo trộn:
• γ và θ là các hệ số điều chỉnh, thường được đặt là γ = 0.5 và θ = 3
Ưu điểm: METEOR có khả năng đánh giá sâu sắc hơn vì xét đến nhiều dạng
tương đồng ngữ nghĩa, đồng thời cân bằng giữa precision và recall Điều này giúp chỉ
số METEOR phản ánh chất lượng ngữ nghĩa và độ tự nhiên của câu trả lời một cáchtoàn diện hơn so với các chỉ số chỉ xét trùng khớp từ
Trang 31Hạn chế: METEOR đòi hỏi nhiều tài nguyên ngôn ngữ (như từ điển gốc từ và từ
điển đồng nghĩa) nên có thể không đầy đủ hoặc kém chính xác khi áp dụng với ngônngữ ít tài nguyên như tiếng Việt
Trong phạm vi đề tài, chỉ số METEOR được sử dụng như một công cụ hỗ trợ
đánh giá độ phù hợp về ngữ nghĩa giữa câu trả lời sinh ra bởi hệ thống Chatbot vàcâu trả lời mẫu Do bài toán hướng đến hỗ trợ học tập cho sinh viên, các yếu tố về
sự rõ ràng, chính xác ngữ nghĩa và mức độ bao phủ thông tin rất quan trọng, vì vậyMETEOR là chỉ số đặc biệt hữu ích trong quá trình đánh giá hệ thống
2.6.5 F1-score
F1-score là một chỉ số tổng hợp được sử dụng rộng rãi trong lĩnh vực học máy và
xử lý ngôn ngữ tự nhiên (NLP) để đánh giá độ chính xác của mô hình, đặc biệt trong
các bài toán phân loại và sinh văn bản Đây là trung bình điều hòa (harmonic mean) giữa độ chính xác (precision) và độ bao phủ (recall), nhằm phản ánh cân bằng giữa
hai yếu tố này
Trong ngữ cảnh bài toán sinh câu trả lời hoặc truy xuất thông tin như hệ thốngChatbot trong đề tài, F1-score được sử dụng để đánh giá mức độ khớp giữa câu trả lờisinh ra và câu trả lời mẫu dựa trên đơn vị là từ (token) Cụ thể:
• Precision (Độ chính xác)là tỉ lệ số từ đúng mà mô hình sinh ra so với tổng số
từ mà mô hình đã sinh
• Recall (Độ bao phủ)là tỉ lệ số từ đúng mà mô hình sinh ra so với tổng số từ
có trong câu trả lời mẫu
F1-score được tính theo công thức:
F1 = 2 · P· R
P+ RTrong đó:
• P: Precision
• R: Recall
Ý nghĩa: F1-score mang lại một cái nhìn tổng thể về khả năng sinh văn bản của
hệ thống, trong đó mô hình không được phép nghiêng hoàn toàn về precision (sinhđúng nhưng quá ít từ) hay recall (sinh nhiều nhưng sai nhiều từ) Một mô hình tốt cầnđạt F1-score cao, cho thấy sự cân bằng trong việc vừa sinh đúng từ, vừa bao phủ nội
Trang 32dung của câu trả lời gốc.
Ưu điểm:
• F1-score đơn giản, dễ tính toán và trực quan
• Phù hợp trong trường hợp dữ liệu mất cân bằng hoặc khi cần đánh giá trên từngmẫu riêng lẻ
• Hữu ích khi số lượng từ sinh ra không cố định hoặc có thể bị dư thừa hoặc thiếusót
Trong đề tài, F1-score được áp dụng để đo lường mức độ khớp từ vựng giữa câu
trả lời của hệ thống Chatbot và câu trả lời chuẩn Việc sử dụng F1-score, kết hợp cùngcác chỉ số khác như BLEU, ROUGE và METEOR, giúp tạo nên một bộ tiêu chí đánhgiá đa chiều, cung cấp cái nhìn toàn diện về hiệu năng của mô hình khi tích hợp các
kỹ thuật như RAG và XAI
2.7 Công cụ LIME
Trong nhiều ứng dụng trí tuệ nhân tạo, đặc biệt là khi mô hình đưa ra quyết định
quan trọng, người dùng không chỉ cần biết kết quả mà còn muốn hiểu được tại sao kết quả đó lại được đưa ra Khái niệm Explainable AI (XAI) ra đời nhằm giải quyết vấn
đề “hộp đen” của các mô hình học máy và học sâu
2.7.1 Khái niệm XAI
Explainable AI (AI có khả năng giải thích) là lĩnh vực nghiên cứu và phát triểncác kỹ thuật để mô hình AI:
• Cung cấp được lời giải thích dễ hiểu về cách thức hoạt động nội tại hoặc quytrình ra quyết định
• Tăng tính minh bạch và tin cậy cho người dùng
• Hỗ trợ phát hiện và khắc phục sai sót, thiên kiến trong mô hình
Một giải pháp XAI điển hình sẽ trả về:
Trang 331 Các thành phần dữ liệu đầu vào (features) có ảnh hưởng lớn nhất tới quyết định.
2 Mức độ đóng góp (weight) của từng thành phần đó
3 Một mô hình đơn giản giải thích cục bộ (local) cho mỗi dự đoán cụ thể
2.7.2 Nguyên lý công cụ LIME
LIME hoạt động theo các bước sau:
1 Chọn điểm cần giải thích: Chọn một điểm dữ liệu x0 cần giải thích từ tập dữliệu
2 Sinh mẫu ngẫu nhiên: Tạo ra các mẫu dữ liệu z1, z2, , zm gần với x0, thôngqua quá trình perturbation (thay đổi ngẫu nhiên các đặc trưng của x0)
3 Dự đoán nhãn cho các mẫu: Áp dụng mô hình gốc f để tính giá trị dự đoán
cho các mẫu f (z1), f (z2), , f (zm)
4 Xây dựng mô hình cục bộ: Tạo ra mô hình giải thích cục bộ g (ví dụ, mô hình
hồi quy tuyến tính hoặc cây quyết định) để xấp xỉ quyết định của mô hình gốctrên tập mẫu gần x0
5 Tối ưu hóa mô hình cục bộ: Mục tiêu là tối thiểu hóa hàm mất mát giữa mô
hình gốc và mô hình cục bộ, với trọng số các mẫu gần x0 được tính bằng hàmtrọng số:
6 Giải thích mô hình: Mô hình g cho biết mức độ đóng góp của từng đặc trưng
x0vào quyết định của mô hình gốc
2.7.3 Cơ chế giải thích LIME trong mô hình RAG
Khi áp dụng LIME trong mô hình RAG, mục tiêu là giải thích cách mà từng từ
trong văn bản đầu vào ảnh hưởng đến kết quả đầu ra của mô hình Đầu vào của môhình có thể là một câu hỏi hoặc văn bản, và đầu ra là kết quả dự đoán hoặc câu trả lờicủa mô hình
LIME sẽ tạo ra các mẫu dữ liệu tương tự như văn bản đầu vào, trong đó một số từhoặc cụm từ bị thay đổi hoặc loại bỏ, sau đó tính toán ảnh hưởng của mỗi từ đến kếtquả dự đoán Ví dụ, với câu hỏi “Điều kiện nhận học bổng là gì?", LIME sẽ tạo ra cácmẫu dữ liệu như “Điều kiện nhận học” hoặc “nhận học bổng”