Khoá luận tốt nghiệp ngành công nghệ thông tin đề tài: XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI)

Khoá luận tốt nghiệp ngành công nghệ thông tin đề tài: XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI), so sánh các chỉ số với 3 model Deepseek

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT VĨNH LONG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN

XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH

HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI)

Giảng viên hướng dẫn: ThS Nguyễn Thị Mỹ Nga

Sinh viên thực hiện: Trần Tấn Vạn

Mã số sinh viên: 21004287

Vĩnh Long - Năm 2025

Trang 2

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN

XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH

HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI)

Giảng viên hướng dẫn: ThS Nguyễn Thị Mỹ Nga

Sinh viên thực hiện: Trần Tấn Vạn

Mã số sinh viên: 21004287

Vĩnh Long - Năm 2025

Trang 3

KHOA CÔNG NGHỆ THÔNG TIN Độc lập - Tự do - Hạnh phúc

PHIẾU GIAO KHOÁ LUẬN TỐT NGHIỆP

Tên đề tài: XÂY DỰNG HỆ THỐNG CHATBOT THÔNG MINH HỖ TRỢ SINH VIÊN TRA CỨU THÔNG TIN HỌC TẬP CÓ KHẢ NĂNG GIẢI THÍCH (XAI) Nhiệm vụ:

Phương pháp đánh giá: □ Báo cáo trước hội đồng □ Chấm thuyết minh Ngày giao luận văn: ngày tháng năm

Ngày hoàn thành luận văn: ngày tháng năm

Số lượng sinh viên thực hiện luận văn: 1 Họ và tên sinh viên: Trần Tấn Vạn MSSV: 21004287 Vĩnh Long, ngày tháng năm

(Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên)

Trang 4

LỜI CAM ĐOAN

Em tên là TRẦN TẤN VẠN, mã số sinh viên 21004287, sinh viên lớp ĐHCNTT21A3, khóa 46 Giảng viên hướng dẫn là ThS Nguyễn Thị Mỹ Nga Em xin cam

đoan toàn bộ nội dung được trình bày trong luận văn Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tra cứu thông tin học tập có khả năng giải thích (XAI) là kết quả quá trình tìm hiểu và nghiên cứu của em Các kiến thức được trình

bày trong luận văn này đều xuất phát từ quá trình học tập, nghiên cứu độc lập và sángtạo của em dưới sự hướng dẫn của cô Mọi thông tin trích dẫn, tài liệu tham khảo đềuđược liệt kê rõ ràng và tuân thủ đầy đủ các quy định về sở hữu trí tuệ Em cam kếtkhông sao chép, làm giả hoặc vi phạm bản quyền trong suốt quá trình thực hiện luậnvăn Mọi trích dẫn và tham khảo đều được ghi chú chính xác, rõ ràng theo đúng quyđịnh của nhà trường

Em xin chịu hoàn toàn trách nhiệm đối với tất cả các nội dung được trình bày trongluận văn này Nếu có bất kỳ vấn đề nào liên quan đến vi phạm bản quyền, đạo vănhoặc các sai sót khác, em hoàn toàn chịu trách nhiệm trước pháp luật và nhà trường

Trang 5

LỜI CẢM ƠN

Đầu tiên em xin chân thành cảm ơn Ban Lãnh Đạo, các phòng ban của TrườngĐại học Sư phạm Kỹ thuật Vĩnh Long, đặc biệt là quý thầy cô khoa Công nghệ thôngtin đã tạo điều kiện thuận lợi cho em được tìm hiểu thực tiễn trong suốt quá trình thựchiện khóa luận tốt nghiệp Qua quá trình thực hiện luận văn này em đẫ nhận ra nhiềuđiều mới mẻ và bổ ích trong việc nghiên cứu, học tập và phát triển bản thân Và hơn

hết em xin chân thành cảm ơn cô ThS Nguyễn Thị Mỹ Nga – giảng viên trực tiếp

hướng dẫn và và hỗ trợ em hết mình trong quá trình thực hiện đồ án này

Tuy có nhiều cố gắng trong quá trình học tập cũng như trong quá trình làm đề tài

và báo cáo nhưng cũng không thể tránh khỏi những thiếu sót, em rất mong nhận đượcnhững góp ý quý báu của các thầy, các cô để đề tài của em được hoàn thiện hơn.Cuối cùng, em xin kính chúc các quý thầy, cô thật nhiều sức khỏe và thành côngtrong sự nghiệp cao quý

Em xin chân thành cảm ơn!

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CHỮ VIẾT TẮT vi

DANH MỤC HÌNH ẢNH vii

DANH MỤC BẢNG BIỂU viii

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Động lực nghiên cứu 2

3 Phạm vi và đối tượng nghiên cứu 2

4 Bố cục khoá luận 3

5 Kết luận 4

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 5

1.1 Đặt vấn đề 5

1.2 Lý do chọn đề tài 5

1.3 Một số nghiên cứu liên quan 6

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 9

2.1 Giới thiệu về Chatbot thông minh 9

2.2 Xử lý ngôn ngữ tự nhiên (NLP) 10

2.3 Mô hình ngôn ngữ lớn (Large Language Model – LLM) 11

2.4 Một số mô hình sử dụng trong nghiên cứu 12

2.4.1 DeepSeek R1 12

2.4.2 DeepSeek V3 12

2.4.3 DeepSeek Prover V2 13

2.5 Mô hình Truy xuất tri thức tăng cường (RAG) 13

2.6 Các độ đo đánh giá: Cosine, BLEU, ROUGE, METEOR, F1 14

2.6.1 Cosine Similarity 14

2.6.2 BLEU 16

2.6.3 ROUGE 17

2.6.4 METEOR 18

2.6.5 F1-score 20

Trang 7

2.7 Công cụ LIME 21

2.7.1 Khái niệm XAI 21

2.7.2 Nguyên lý công cụ LIME 22

2.7.3 Cơ chế giải thích LIME trong mô hình RAG 22

2.8 Vector Embedding và cơ sở dữ liệu vector 23

2.8.1 Khái niệm về Vector Embedding 23

2.8.2 Ứng dụng Vector Embedding trong hệ thống hỗ trợ sinh viên 24 2.8.3 Cơ sở dữ liệu Vector 25

2.8.4 Ưu điểm của Vector Embedding 26

2.9 LlamaParse 26

2.10 Streamlit 27

2.11 Giao tiếp với mô hình ngôn ngữ lớn qua API 28

2.11.1 Khái niệm về mô hình ngôn ngữ lớn (Large Languague Model - LLM) 28

2.11.2 Cách thức giao tiếp với mô hình ngôn ngữ lớn qua API 29

CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 30

3.1 Yêu cầu hệ thống và bài toán đặt ra 30

3.2 Kiến trúc tổng thể đề xuất 31

3.3 Upload dữ liệu lên RAG PineCone 34

3.4 Kịch bản thử nghiệm và thực nghiệm 36

3.4.1 Kịch bản thử nghiệm 36

3.4.2 Kịch bản thực nghiệm 37

3.4.3 Tổng hợp luồng kịch bản 38

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM 39

4.1 Môi trường thử nghiệm 39

4.2 Tập dữ liệu 40

4.3 Kết quả thử nghiệm 42

4.3.1 Thử nghiệm đánh giá các mô hình 42

4.3.2 Thử nghiệm đánh giá lợi ích của RAG trong hệ thống chatbot 43 4.3.3 Thử nghiệm XAI - LIME trên một số câu hỏi 43

4.4 Kết quả thực nghiệm 47

4.4.1 Chức năng Chatbot 47

4.4.2 Chức năng AI research 48

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50

Trang 8

5.1 Tóm tắt kết quả nghiên cứu 50

5.1.1 Ưu điểm 50

5.1.2 Hạn chế 51

5.2 Đóng góp của đề tài 51

5.3 Hướng phát triển 52

TÀI LIỆU THAM KHẢO 53

Trang 9

DANH MỤC CHỮ VIẾT TẮT

GPT Generative Pre-trained Transformer

RAG Retrieval-Augmented Generation

NLP Natural Language Processing

AI Artificial Intelligence

LIME Local Interpretable Model-agnostic Explanations

API Application Programming Interface

BERT Bidirectional Encoder Representations from TransformersBLEU Bilingual Evaluation Understudy

ROUGE Recall-Oriented Understudy for Gisting Evaluation

METEOR Metric for Evaluation of Translation with Explicit ORderingMLM Masked Language Modeling

SQuAD Stanford Question Answering Dataset

Trang 10

DANH MỤC HÌNH ẢNH

Hình 2.1 Chatbot thông minh 9

Hình 2.2 Ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên 10

Hình 2.3 Kiến trúc RAG 13

Hình 2.4 Độ tương đồng văn bản Cosine Similarity 14

Hình 2.5 Ví dụ kết quả của LIME 23

Hình 2.6 Vector Embedding 24

Hình 2.7 LlamaParse công cụ hỗ trợ RAG 27

Hình 2.8 Streamlit 28

Hình 3.1 Sơ đồ luồng dữ liệu RAG Pinecone 33

Hình 3.2 Sơ đồ luồng dữ liệu Chatbot 33

Hình 3.3 Giao diện upload tài liệu PDF scan 34

Hình 3.4 Kết quả upload dữ liệu đã xử lý vào Pinecone 35

Hình 4.1 Ví dụ một số câu hỏi trong bộ dữ liệu 41

Hình 4.2 Các độ đo đánh giá giữa các mô hình 42

Hình 4.3 Kết quả so sánh dùng RAG và không RAG 43

Hình 4.4 Giải thích LIME cho mẫu câu hỏi 1 44

Hình 4.5 Biểu đồ cột - trọng số LIME cho mẫu câu hỏi 1 44

Hình 4.6 Biểu đồ đường - trọng số LIME cho mẫu câu hỏi 1 45

Hình 4.7 Heatmap - trọng số LIME cho mẫu câu hỏi 1 45

Hình 4.8 Biểu đồ phân tán - trọng số LIME cho mẫu câu hỏi 1 45

Hình 4.9 Giải thích LIME cho mẫu câu hỏi 2 46

Hình 4.10 Biểu đồ cột - trọng số LIME cho mẫu câu hỏi 2 46

Hình 4.11 Biểu đồ đường - trọng số LIME cho mẫu câu hỏi 2 47

Hình 4.12 Heatmap - trọng số LIME cho mẫu câu hỏi 2 47

Hình 4.13 Biểu đồ phân tán - trọng số LIME cho mẫu câu hỏi 2 47

Hình 4.14 Giao diện hệ thống chatbot triển khai bằng Streamlit 48

Hình 4.15 Giao diện chức năng AI Research 49

Trang 11

DANH MỤC BẢNG BIỂU

Bảng 3.1 So sánh các giải pháp triển khai mô hình ngôn ngữ lớn 32Bảng 3.2 Kịch bản thử nghiệm mô hình trên Kaggle 36Bảng 3.3 Kịch bản thực nghiệm triển khai hệ thống chatbot trên local 37Bảng 3.4 Tổng hợp luồng thử nghiệm và thực nghiệm 38Bảng 4.1 Mô tả bộ dữ liệu câu hỏi và trả lời 41

Trang 12

MỞ ĐẦU

Chương mở đầu sẽ nêu ra tính cấp thiết của đề tài, động lực nghiên cứu, đối tượng

và phạm vi nghiên cứu song song với đó là bố cục đồ án và tóm tắt nội dung tươngứng của các phần

1 Tính cấp thiết của đề tài

Trong bối cảnh chuyển đổi số đang diễn ra mạnh mẽ, nhu cầu xây dựng các hệthống hỗ trợ học tập thông minh ngày càng trở nên cấp thiết Một trong những hướngtiếp cận hiệu quả là ứng dụng các mô hình ngôn ngữ lớn (LLM – Large LanguageModels) vào việc phát triển chatbot nhằm hỗ trợ sinh viên tra cứu thông tin một cáchnhanh chóng và chính xác [1] Tuy nhiên, thực tế hiện nay cho thấy vẫn còn nhiềukhoảng trống nghiên cứu và ứng dụng trong lĩnh vực này, đặc biệt là tại các cơ sở giáodục

Cụ thể, tại Trường Đại học Sư phạm Kỹ thuật Vĩnh Long, hiện chưa có hệ thốngchatbot nào được triển khai sử dụng dữ liệu nội bộ, chẳng hạn như các quy định đàotạo được ban hành chính thức (ví dụ: Quyết định 100/QĐ-ĐHSPKTVL) Việc sinhviên phải tự tra cứu thông tin trong các văn bản PDF dài dòng, thiếu khả năng tươngtác đã phần nào hạn chế hiệu quả tiếp cận thông tin học tập

Ngoài ra, các nghiên cứu hiện có về chatbot học thuật tại Việt Nam chủ yếu tậptrung vào việc truy vấn thông tin đơn thuần, chưa tích hợp các công nghệ mới như

cơ chế RAG (Retrieval-Augmented Generation) để nâng cao độ chính xác của câu trảlời, cũng như chưa có nghiên cứu nào kết hợp khả năng giải thích (Explainable AI -XAI) trong quá trình phản hồi của hệ thống Việc tích hợp phương pháp LIME (LocalInterpretable Model-Agnostic Explanations) vào hệ thống giúp người dùng hiểu rõhơn lý do tại sao chatbot lại đưa ra câu trả lời cụ thể – điều này đặc biệt quan trọngtrong môi trường giáo dục đòi hỏi tính minh bạch cao

Bên cạnh đó, sự xuất hiện ngày càng nhiều của các mô hình ngôn ngữ lớn nhưDeepSeek-R1, DeepSeek-V3 hay DeepSeek-Prover-V2 đặt ra bài toán lựa chọn môhình phù hợp với ngữ cảnh và mục tiêu sử dụng Tuy nhiên, hiện vẫn chưa có nghiêncứu nào tiến hành đánh giá định lượng và so sánh hiệu quả của các mô hình này trongbài toán hỏi đáp tra cứu thông tin học tập tại Việt Nam, nhất là đối với dữ liệu chuyênbiệt như quy định đào tạo của một trường đại học cụ thể

Trang 13

Từ những phân tích trên, có thể khẳng định rằng việc nghiên cứu và triển khai một

hệ thống chatbot học tập thông minh, có khả năng giải thích, sử dụng dữ liệu thực tếcủa Trường Đại học Sư phạm Kỹ thuật Vĩnh Long là một hướng đi mới, cấp thiết và

có ý nghĩa ứng dụng cao trong thực tiễn giáo dục

2 Động lực nghiên cứu

Trong thời đại công nghệ số phát triển mạnh mẽ như hiện nay, việc ứng dụng trítuệ nhân tạo vào giáo dục không còn là điều xa lạ Một trong những ứng dụng nổibật và gần gũi nhất là chatbot – hệ thống trả lời tự động có khả năng trò chuyện vớicon người bằng ngôn ngữ tự nhiên Ở nhiều trường đại học, nhu cầu tra cứu thông tinhọc tập ngày càng cao, nhưng sinh viên vẫn gặp khó khăn khi tìm kiếm thông tin liênquan đến chương trình đào tạo, lịch thi, điểm số, học bổng hay các quy định của nhàtrường

Việc tra cứu thông tin thông qua các kênh truyền thống như website, văn bảnhướng dẫn hay hỏi trực tiếp cán bộ giảng viên đôi khi không mang lại hiệu quả cao.Thông tin có thể quá nhiều, bị phân tán hoặc không được cập nhật kịp thời, khiến sinhviên mất thời gian và dễ rơi vào trạng thái hoang mang, đặc biệt là đối với sinh viênnăm nhất

Chính vì vậy, việc xây dựng một hệ thống chatbot thông minh để hỗ trợ sinh viêntra cứu thông tin học tập một cách nhanh chóng và chính xác là điều rất cần thiết Tuynhiên, chatbot không chỉ nên dừng lại ở việc đưa ra câu trả lời đơn thuần, mà còn cầngiải thích rõ vì sao lại trả lời như vậy Khi có thể hiểu được lý do đằng sau mỗi phảnhồi, sinh viên sẽ yên tâm và tin tưởng hơn vào hệ thống Đây cũng là mục tiêu chínhcủa lĩnh vực trí tuệ nhân tạo có khả năng giải thích, thường được gọi là Explainable

AI (XAI)

Đề tài “Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tra cứu thông tinhọc tập có khả năng giải thích” ra đời từ nhu cầu thực tế đó Hệ thống được thiết kếdựa trên các công nghệ hiện đại như mô hình kết hợp truy xuất và sinh văn bản (RAG),phép đo độ tương đồng văn bản bằng cosine similarity, công cụ giải thích LIME, cùngkhả năng mở rộng tìm kiếm giống như công cụ Tavily Tất cả nhằm hướng đến mộtgiải pháp hữu ích, tiện lợi và thân thiện cho sinh viên

3 Phạm vi và đối tượng nghiên cứu

Đề tài tập trung vào việc nghiên cứu và xây dựng một hệ thống chatbot sử dụngtrí tuệ nhân tạo, có thể tự động trả lời các câu hỏi của sinh viên liên quan đến học tập

Trang 14

và quy chế đào tạo Cụ thể, hệ thống có khả năng tìm kiếm thông tin trong các tài liệutrong chương trình đào tạo.

Phạm vi nghiên cứu gồm các nội dung chính như sau:

• Áp dụng mô hình truy xuất tri thức kết hợp sinh văn bản (RAG) để chatbot cóthể tìm kiếm thông tin chính xác từ dữ liệu đầu vào

• Sử dụng phép đo cosine similarity để đánh giá mức độ giống nhau giữa câu hỏi

và nội dung có trong tài liệu

• Tích hợp công cụ LIME nhằm giúp hệ thống có thể giải thích được lý do chọncâu trả lời

• Sử dụng giao tiếp với mô hình ngôn ngữ lớn thông qua API

• Thiết kế giao diện thân thiện với người dùng, triển khai trên nền tảng web

• Sử dụng dữ liệu thực tế từ một trường đại học cụ thể là Trường Đại học Sưphạm Kỹ thuật Vĩnh Long

Đối tượng nghiên cứu của đề tài là hệ thống chatbot thông minh hỗ trợ sinh viêntra cứu thông tin học tập, được xây dựng trên nền tảng trí tuệ nhân tạo và học máy

Hệ thống này có khả năng tiếp nhận câu hỏi từ người dùng là sinh viên, sau đó thựchiện truy vấn thông tin từ các tài liệu liên quan trong chương trình đào tạo để đưa racâu trả lời phù hợp và chính xác

4 Bố cục khoá luận

Đề tài nghiên cứu: Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tracứu thông tin học tập có khả năng giải thích (XAI) được chia thành 5 chương:

• Chương 1: Tổng quan đề tài

Chương này đặt ra bối cảnh vấn đề và nói lên lý do lựa chọn đề tài Đồng thờicũng nêu một số nghiên cứu liên quan đến đề tài thực hiện và xác định cáchướng tiếp cận được tham khảo vào đề tài

• Chương 2: Cơ sở lý thuyết

Chương này cung cấp các kiến thức nền tảng phục vụ cho quá trình phântích và xây dựng hệ thống Nội dung bao gồm tổng quan về chatbot thôngminh, xử lý ngôn ngữ tự nhiên (NLP), mô hình truy xuất tri thức tăng cường(RAG), phương pháp đo độ tương đồng văn bản bằng cosine similarity, BLEU,ROUGE, METEOR, F1-score, các khái niệm liên quan đến AI có khả năng

Trang 15

giải thích (XAI) cùng với công cụ LIME, embedding vector và cơ sở dữ liệuvector, cũng như cách giao tiếp với mô hình ngôn ngữ lớn thông qua API.

• Chương 3: Phân tích và thiết kế hệ thống

Dựa trên các cơ sở lý thuyết đã trình bày ở chương trước, chương này đi sâuvào việc phân tích bài toán đặt ra Sau đó là phần trình bày kiến trúc tổng thể,các kịch bản thử nghiệm cũng như thực nghiệm cụ thể

• Chương 4: Kết quả Từ những kịch bản của chương 3, chương này hướng đếnkết quả thử nghiệm và thực nghiệm các kịch bản, cũng như thông số đánh giátrên mô hình lựa chọn

• Chương 5: Kết luận và hướng phát triển

Chương cuối cùng tổng kết lại kết quả đạt được trong quá trình thực hiện khoáluận, đánh giá những ưu điểm nổi bật cũng như chỉ ra các hạn chế của hệ thống.Đồng thời, chương cũng đưa ra một số định hướng phát triển trong tương lai,như mở rộng phạm vi truy vấn, cải tiến giao diện người dùng, hoặc tích hợpthêm các mô hình ngôn ngữ mới và công nghệ tìm kiếm hiện đại hơn

5 Kết luận

Phần mở đầu đã giới thiệu tổng quan về đề tài, nêu rõ lý do thực hiện, phạm vi vàđối tượng nghiên cứu, cũng như cách tổ chức nội dung của luận văn Từ thực tiễn nhucầu của sinh viên trong việc tra cứu thông tin học tập, đề tài đã xác định được mụctiêu và hướng tiếp cận rõ ràng Những cơ sở lý thuyết và kỹ thuật liên quan sẽ đượctrình bày chi tiết hơn trong chương tiếp theo, làm nền tảng cho việc xây dựng và triểnkhai hệ thống chatbot thông minh có khả năng giải thích

Trang 16

CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI

Tuy nhiên, việc triển khai các hệ thống hỗ trợ học tập dựa trên LLM trong môitrường giáo dục vẫn còn nhiều rào cản Một trong những thách thức lớn là khả năngkiểm chứng và giải thích được nội dung mà mô hình tạo ra Điều này đặc biệt quantrọng trong bối cảnh sinh viên cần tiếp cận thông tin chính xác, chính thống và minhbạch liên quan đến chương trình đào tạo, quy chế học vụ hoặc điều kiện xét tốt nghiệp.Nếu hệ thống không thể giải thích được lý do đằng sau mỗi phản hồi, thì dù có khảnăng sinh văn bản tốt đến đâu, nó cũng khó được tin tưởng và ứng dụng rộng rãi tronghọc đường

Mặt khác, trong thực tiễn tại các trường đại học, việc tra cứu thông tin học tập còngặp nhiều bất tiện Nhiều sinh viên gặp khó khăn khi cần tìm hiểu các quy định, thủtục hoặc nội dung chương trình đào tạo, do thông tin thường được lưu trữ dưới dạngvăn bản dài, phân mảnh và thiếu tính tương tác

Chính từ thực trạng và yêu cầu thực tiễn đó, việc xây dựng một hệ thống chatbotthông minh có khả năng trả lời chính xác và giải thích rõ ràng cho từng phản hồi làmột hướng đi tiềm năng và cần thiết Đây cũng chính là xuất phát điểm cho việc lựachọn và thực hiện đề tài nghiên cứu này

1.2 Lý do chọn đề tài

Hiện nay, với sự phát triển nhanh chóng của trí tuệ nhân tạo, đặc biệt là các môhình ngôn ngữ lớn (Large Language Models – LLMs), đã và đang tạo ra những chuyểnbiến sâu rộng trong nhiều lĩnh vực, trong đó có giáo dục Với khả năng hiểu và sinhngôn ngữ tự nhiên một cách linh hoạt, các mô hình như GPT, LLaMA, hay DeepSeek

mở ra tiềm năng lớn trong việc xây dựng các hệ thống hỗ trợ học tập thông minh,chẳng hạn như chatbot tư vấn học vụ, hỗ trợ tra cứu thông tin hay giải đáp kiến thứcchuyên ngành

Trang 17

Tuy nhiên, một hạn chế cố hữu của các hệ thống dựa trên mô hình học sâu là tínhkhông minh bạch trong quá trình ra quyết định Khi chatbot đưa ra câu trả lời, ngườidùng thường không thể biết rõ hệ thống dựa vào cơ sở nào để suy luận, điều này đặt ravấn đề về độ tin cậy và khả năng kiểm chứng của hệ thống, đặc biệt trong môi trườnghọc thuật – nơi đòi hỏi độ chính xác và tính chính thống cao Do đó, nhu cầu pháttriển các hệ thống AI có khả năng giải thích được (Explainable AI – XAI) là điều cầnthiết, nhằm giúp người dùng hiểu rõ cơ sở và mức độ hợp lý của từng phản hồi.Bên cạnh đó, trong thực tế tại các trường đại học, sinh viên thường gặp khó khănkhi cần tìm kiếm các thông tin liên quan đến chương trình đào tạo, quy chế học vụ,điều kiện tốt nghiệp hay hướng dẫn thực hiện khóa luận, Các thông tin này tuy đượccông bố công khai, nhưng phân tán ở nhiều nguồn và không được tổ chức dưới dạngtương tác thân thiện, gây khó khăn trong quá trình tra cứu và tiếp nhận.

Chính vì vậy, đề tài “Xây dựng hệ thống Chatbot thông minh hỗ trợ sinh viên tracứu thông tin học tập có khả năng giải thích (XAI)” được lựa chọn với mục tiêu kếthợp các thành tựu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên, truy xuất tri thức và trítuệ nhân tạo có khả năng giải thích Hệ thống không chỉ hướng đến việc hỗ trợ sinhviên tra cứu thông tin một cách nhanh chóng, chính xác mà còn cung cấp khả nănggiải thích rõ ràng về nội dung phản hồi, góp phần nâng cao tính minh bạch, tin cậy vàtrải nghiệm người dùng

1.3 Một số nghiên cứu liên quan

Bài báo "Role of AI chatbots in education: Systematic literature review" [1] cungcấp một tổng quan có hệ thống về vai trò của chatbot AI trong giáo dục, nhấn mạnhlợi ích như hỗ trợ học tập cá nhân hóa và thách thức như vấn đề đạo đức Nhóm tácgiả sử dụng các phương pháp định tính để phân tích hiệu quả của chatbot trong việc

hỗ trợ sinh viên Kết quả cho thấy chatbot cải thiện trải nghiệm học tập và tiết kiệmthời gian Nghiên cứu này được tham khảo để định vị dự án trong bối cảnh giáo dục,đặc biệt trong việc thiết kế chatbot hỗ trợ sinh viên, như được trình bày trong Chương

1 (Giới thiệu) và Chương 5 (Kết luận và Hướng Phát triển)

Trong bài báo ""Why Should I Trust You?": Explaining the Predictions of AnyClassifier" [2], nhóm tác giả giới thiệu LIME (Local Interpretable Model-agnosticExplanations), một công cụ XAI giúp giải thích các quyết định của mô hình AI bằngcách tạo ra các mô hình thay thế cục bộ LIME được áp dụng để tăng tính minh bạchtrong các hệ thống AI, bao gồm chatbot Kết quả cho thấy LIME giúp người dùnghiểu rõ hơn về lý do đằng sau các dự đoán của mô hình Trong luận văn, LIME được

Trang 18

tích hợp để giải thích các phản hồi của chatbot, giúp sinh viên hiểu cách hệ thống đưa

ra câu trả lời

Trong bài báo "Retrieval-Augmented Generation for Knowledge-Intensive NLPTasks" [4], nhóm tác giả giới thiệu phương pháp Retrieval-Augmented Generation(RAG), một kỹ thuật kết hợp truy xuất thông tin từ cơ sở dữ liệu bên ngoài và sinh vănbản để cải thiện hiệu suất trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) chuyên sâu

về kiến thức Các tác giả đã xây dựng một hệ thống RAG sử dụng vector embeddings

để truy xuất thông tin liên quan, sau đó tích hợp với mô hình ngôn ngữ lớn để tạo racâu trả lời chính xác Kết quả cho thấy RAG đạt hiệu suất cao trong các tác vụ trảlời câu hỏi mở, với khả năng cung cấp thông tin chính xác mà không cần huấn luyệnlại toàn bộ mô hình Trong luận văn, chúng tôi áp dụng RAG để cải thiện khả năngtruy xuất thông tin học tập từ cơ sở dữ liệu vector Pinecone, đảm bảo câu trả lời củachatbot phù hợp với nhu cầu của sinh viên

Bài báo "REALM: Retrieval-Augmented Language Model Pre-Training" [5] trìnhbày REALM, một mô hình tăng cường bằng truy xuất trong giai đoạn huấn luyệntrước, giúp cải thiện khả năng lý giải và sinh văn bản của các mô hình ngôn ngữ lớn.Nhóm tác giả sử dụng cơ chế truy xuất tương tự RAG, tập trung vào tối ưu hóa hiệusuất NLP Kết quả cho thấy REALM cải thiện đáng kể độ chính xác trong các tác vụyêu cầu kiến thức bên ngoài Trong luận văn, nghiên cứu này được tham khảo để củng

cố lý thuyết về RAG, đặc biệt trong việc thiết kế hệ thống truy xuất thông tin

Trong bài báo "DeepSeek-Prover-V2: Advancing Formal Mathematical ing via Reinforcement Learning for Subgoal Decomposition" [6], nhóm tác giả trìnhbày DeepSeek-Prover-V2, một mô hình ngôn ngữ lớn được tối ưu hóa cho lý luận toánhọc thông qua học tăng cường Mô hình này đạt hiệu suất cao trong các bài kiểm tranhư MiniF2F-test, phù hợp với các ứng dụng yêu cầu phản hồi chính xác Trong đềtài của em, DeepSeek-Prover-V2 được chọn làm mô hình chính cho chatbot, với cácthử nghiệm sử dụng BLEU, ROUGE, và Cosine Similarity để đánh giá hiệu quả.Trong bài báo "ROUGE: A Package for Automatic Evaluation of Summaries" [8],tác giả giới thiệu ROUGE (Recall-Oriented Understudy for Gisting Evaluation), một

Reason-bộ độ đo đánh giá tóm tắt tự động, bao gồm ROUGE-1, ROUGE-2, và ROUGE-L.ROUGE tập trung vào sự chồng lấn n-gram giữa văn bản được tạo ra và văn bảntham chiếu, đạt hiệu quả cao trong việc đánh giá chất lượng tóm tắt Trong luận văn,ROUGE được sử dụng để đánh giá khả năng sinh văn bản của chatbot, đảm bảo câutrả lời phù hợp với thông tin tham chiếu

Trang 19

Bài báo "METEOR: An Automatic Metric for MT Evaluation with Improved relation with Human Judgments" [9] trình bày METEOR, một độ đo đánh giá dịchmáy với sự tương quan cao với đánh giá của con người, dựa trên sự kết hợp của từđồng nghĩa và cấu trúc câu Kết quả cho thấy METEOR vượt trội trong việc đánh giácác câu trả lời phức tạp Trong luận văn, METEOR được sử dụng để bổ sung cho các

Cor-độ đo như BLEU và ROUGE, cung cấp đánh giá toàn diện hơn về chất lượng phảnhồi của chatbot

Trong bài báo "Investigating the Performance of Retrieval-Augmented Generationand Fine-Tuning for the Development of AI-Driven Knowledge-Based Systems" [10],các tác giả đánh giá hiệu suất của RAG và fine-tuning trong các hệ thống kiến thứcdựa trên AI, sử dụng Cosine Similarity để đo lường độ tương đồng giữa câu trả lờiđược tạo ra và câu trả lời tham chiếu Kết quả cho thấy RAG cải thiện độ chính xáctrong các tác vụ truy xuất thông tin, với Cosine Similarity đạt giá trị cao trong cácthử nghiệm Trong luận văn, Cosine Similarity được sử dụng để đánh giá chất lượngphản hồi của chatbot, đặc biệt trong các thử nghiệm so sánh với các mô hình khác.Bài báo "BLEU: A Method for Automatic Evaluation of Machine Translation"[11] giới thiệu độ đo BLEU (Bilingual Evaluation Understudy), một phương phápđánh giá tự động chất lượng văn bản được tạo ra bằng cách so sánh n-gram với vănbản tham chiếu Nhóm tác giả phát triển BLEU để đánh giá các hệ thống dịch máy,với kết quả cho thấy độ đo này có tương quan cao với đánh giá của con người BLEUgiúp giảm thiểu thời gian và chi phí so với các phương pháp đánh giá thủ công Trongluận văn, BLEU được áp dụng để đánh giá độ chính xác của các câu trả lời do chatbottạo ra, đặc biệt trong các thử nghiệm với mô hình DeepSeek-Prover-V2

Trang 20

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Để xây dựng một hệ thống chatbot thông minh có khả năng tra cứu thông tin họctập và đồng thời cung cấp lời giải thích cho câu trả lời, việc nắm rõ các kiến thức lýthuyết liên quan là vô cùng cần thiết Trong chương này, luận văn sẽ trình bày cáckhái niệm, mô hình và công nghệ làm nền tảng cho việc xây dựng hệ thống Các nộidung bao gồm: khái niệm về chatbot thông minh, xử lý ngôn ngữ tự nhiên, mô hìnhtruy xuất tri thức tăng cường (RAG), phương pháp đo độ tương đồng giữa các văn bảnbằng Cosine Similarity, khái niệm về AI có khả năng giải thích (XAI) cùng với công

cụ LIME, vector embedding và cơ sở dữ liệu vector, và cuối cùng là cách giao tiếp với

mô hình ngôn ngữ lớn thông qua API

2.1 Giới thiệu về Chatbot thông minh

Hình 2.1 Chatbot thông minh

Chatbot là một ứng dụng trí tuệ nhân tạo có khả năng giao tiếp với con ngườithông qua ngôn ngữ tự nhiên Thay vì chỉ đơn thuần trả lời theo kịch bản được lậptrình sẵn như các chatbot truyền thống, chatbot thông minh có thể hiểu được ý địnhcủa người dùng, xử lý ngữ nghĩa phức tạp và tạo ra phản hồi tự nhiên, chính xác hơn.Trong giáo dục, nhu cầu hỗ trợ sinh viên ngày càng tăng cao, đặc biệt là trong

Trang 21

việc tra cứu thông tin học tập như: chương trình đào tạo, lịch học, quy chế học vụ,chính sách học bổng, v.v Tuy nhiên, việc sinh viên phải tự tìm kiếm trong hàng trămtrang tài liệu thường tốn thời gian và dễ gây nhầm lẫn Một chatbot thông minh có thểtrở thành người trợ lý học tập ảo đáng tin cậy, luôn sẵn sàng cung cấp câu trả lời phùhợp bất cứ lúc nào sinh viên cần.

Không chỉ dừng lại ở việc cung cấp thông tin, chatbot trong đề tài này còn có khảnăng giải thích vì sao lại đưa ra câu trả lời đó Đây chính là điểm nổi bật và khác biệt

so với các chatbot thông thường khác

2.2 Xử lý ngôn ngữ tự nhiên (NLP)

Hình 2.2 Ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên

Ngôn ngữ tự nhiên là cách giao tiếp của con người trong cuộc sống hằng ngày,bao gồm lời nói và văn bản Đối với máy tính, việc hiểu và xử lý ngôn ngữ tự nhiên

là một thách thức lớn Vì vậy, lĩnh vực xử lý ngôn ngữ tự nhiên (Natural LanguageProcessing - viết tắt là NLP) ra đời nhằm giúp máy tính có thể hiểu, phân tích và tạo

ra văn bản giống như con người

Trong hệ thống chatbot, NLP là thành phần cốt lõi Nó giúp máy hiểu được nộidung câu hỏi của sinh viên và lựa chọn câu trả lời phù hợp Một số công đoạn quan

Trang 22

trọng trong NLP bao gồm:

• Tiền xử lý văn bản: Trước khi đưa vào xử lý, văn bản thường phải được làmsạch Các bước như chuyển tất cả về chữ thường, loại bỏ dấu câu, tách từ, bỏcác từ dừng (như "và", "là", "của") sẽ giúp mô hình dễ dàng phân tích hơn

• Mã hóa văn bản: Sau khi làm sạch, văn bản cần được chuyển thành dạng số đểmáy có thể hiểu được Đây chính là bước embedding sẽ trình bày ở phần sau

• Hiểu ngữ cảnh: Các mô hình ngôn ngữ lớn (Large Language Models) sẽ phântích văn bản trong ngữ cảnh tổng thể, không chỉ từng từ riêng lẻ, nhờ đó chatbot

có thể hiểu rõ hơn ý định thực sự của người hỏi

• Sinh câu trả lời: Sau khi hiểu câu hỏi và truy xuất thông tin, chatbot sẽ sinh racâu trả lời mạch lạc, tự nhiên như một người thật đang trả lời

2.3 Mô hình ngôn ngữ lớn (Large Language Model – LLM)

Trong những năm gần đây, mô hình ngôn ngữ lớn (Large Language Model – LLM)

đã trở thành nền tảng quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Khácvới các phương pháp biểu diễn ngôn ngữ truyền thống như Word2Vec hay GloVe,LLM được xây dựng dựa trên kiến trúc Transformer, cho phép mô hình học được mốiquan hệ ngữ nghĩa sâu giữa các từ trong văn bản, bất kể vị trí của chúng trong chuỗi.Transformer, được giới thiệu lần đầu bởi Vaswani và cộng sự vào năm 2017, hoạt

động dựa trên cơ chế self-attention Cơ chế này giúp mô hình tự động xác định mức

độ liên kết giữa các từ trong câu, từ đó hiểu rõ hơn ngữ nghĩa tổng thể

Các LLM hiện đại thường trải qua hai giai đoạn huấn luyện chính:

• Tiền huấn luyện (Pre-training): Mô hình được huấn luyện trên tập dữ liệu

cực lớn (từ hàng trăm tỷ đến hàng nghìn tỷ token), với nhiệm vụ dự đoán các

từ bị ẩn trong chuỗi văn bản (Masked Language Modeling – MLM) hoặc sinh

từ tiếp theo (Causal Language Modeling)

• Tinh chỉnh (Fine-tuning): Sau khi tiền huấn luyện, mô hình được điều chỉnh

lại trên các tập dữ liệu nhỏ hơn, có gán nhãn cụ thể cho từng tác vụ như hỏiđáp, dịch máy, hoặc sinh lời giải thích

Một số đặc điểm nổi bật của LLM:

• Sở hữu số lượng tham số lớn (từ vài trăm triệu đến hàng chục tỷ)

• Có khả năng khái quát hóa tốt, kể cả với những ngữ cảnh chưa từng gặp

Trang 23

• Có thể tích hợp thêm tri thức ngoại sinh bằng phương pháp RAG Augmented Generation).

(Retrieval-2.4 Một số mô hình sử dụng trong nghiên cứu

Trong nghiên cứu này, ba mô hình thuộc dòng DeepSeek được lựa chọn để thựchiện các vai trò khác nhau trong hệ thống chatbot học thuật: sinh giải thích, đánh giágiải thích, và so sánh hiệu quả theo tiêu chí XAI

2.4.1 DeepSeek R1

DeepSeek R1 là một mô hình ngôn ngữ lớn thuộc thế hệ đầu tiên của dòng

DeepSeek, được tối ưu hóa cho các tác vụ hội thoại và phản hồi nhanh trong thờigian thực

DeepSeek V3 là phiên bản cơ sở của dòng mô hình thế hệ thứ ba (V3), có kiến

trúc gọn nhẹ nhưng hiệu quả trong các tác vụ sinh văn bản tự động

• Số tham số: 7 tỷ (7B)

• Kích thước embedding: 4096

• Số lớp Transformer:32

• Số đầu attention:32

• Dữ liệu huấn luyện: khoảng 2.4 nghìn tỷ token (2.4T)

• Ứng dụng: Dùng làm mô hình so sánh baseline, kiểm tra khả năng sinh lờigiải thích không sử dụng đánh giá chuyên biệt

Trang 24

2.4.3 DeepSeek Prover V2

DeepSeek Prover V2 là mô hình chuyên biệt được huấn luyện để đánh giá và

kiểm tra tính đúng đắn của các lập luận, lời giải thích hoặc suy diễn logic trong ngữcảnh học thuật

Để khắc phục hạn chế này, mô hình RAG (Retrieval-Augmented Generation) rađời Đây là sự kết hợp giữa khả năng truy xuất thông tin từ nguồn dữ liệu bên ngoàivới khả năng sinh văn bản tự nhiên từ mô hình ngôn ngữ

Cách hoạt động của RAG gồm hai bước chính:

Trang 25

Truy xuất thông tin: Khi người dùng đặt câu hỏi, hệ thống sẽ tìm kiếm các đoạnvăn bản có liên quan từ cơ sở dữ liệu học tập (các tài liệu, quy định, thông báo, v.v).Sinh câu trả lời: Sau khi có các đoạn văn liên quan, mô hình ngôn ngữ sẽ dùngchúng như dữ kiện để tạo ra câu trả lời Việc này giúp chatbot vừa chính xác, vừakhông bị giới hạn bởi kiến thức tĩnh của mô hình.

Việc ứng dụng RAG giúp hệ thống chatbot của luận văn có thể cập nhật dữ liệumới mà không cần huấn luyện lại mô hình từ đầu, đồng thời tạo ra câu trả lời phù hợp

và đúng bối cảnh hơn

2.6 Các độ đo đánh giá: Cosine, BLEU, ROUGE, METEOR, F1

2.6.1 Cosine Similarity

Hình 2.4 Độ tương đồng văn bản Cosine Similarity

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, một trong những bước quan trọng trongquá trình truy xuất thông tin là đánh giá mức độ tương đồng giữa hai đoạn văn bản

Cosine Similaritylà một phương pháp phổ biến được sử dụng nhằm đo lường độ tươngđồng về mặt ngữ nghĩa giữa hai vector văn bản

Khác với việc so sánh chuỗi ký tự theo từng chữ cái hoặc từ, Cosine Similarity

chuyển văn bản về dạng vector trong không gian nhiều chiều, từ đó tính toán góc giữahai vector đại diện Góc càng nhỏ thì hai văn bản càng có nội dung tương đồng Giátrị của Cosine Similarity nằm trong khoảng từ -1 đến 1, trong đó:

Trang 26

• Giá trị gần 1 biểu thị hai văn bản rất giống nhau.

• Giá trị gần 0 biểu thị hai văn bản không liên quan

• Giá trị gần -1 biểu thị hai văn bản có xu hướng đối lập (trường hợp này rất hiếmgặp trong xử lý ngôn ngữ)

Giả sử có hai vector văn bản ⃗A và ⃗B, mỗi vector gồm n chiều tương ứng với sốlượng đặc trưng trong không gian từ vựng, công thức Cosine Similarity được tính nhưsau:

Cosine Similarity = cos(θ ) =

• ⃗A· ⃗Blà tích vô hướng giữa hai vector,

• ∥⃗A∥ và ∥⃗B∥ lần lượt là chuẩn Euclid của ⃗A và ⃗B,

• Aivà Bi là các thành phần tại vị trí thứ i trong vector

Ví dụ minh hoạ:

Xét hai câu sau:

• Câu 1: “Sinh viên cần học luật đào tạo”

• Câu 2: “Quy chế đào tạo sinh viên phải học”

Sau khi loại bỏ từ dừng và biểu diễn bằng mô hình Bag of Words, ta có tập từ

vựng gồm: {sinh viên, học, luật, quy chế, đào tạo} Khi đó, hai câu được biểu diễndưới dạng vector như sau:

Trang 27

2.6.2 BLEU

BLEU (Bilingual Evaluation Understudy) là một chỉ số đánh giá phổ biến tronglĩnh vực dịch máy và sinh văn bản tự động, được đề xuất bởi Papineni và cộng sự vàonăm 2002 BLEU đo lường mức độ trùng khớp giữa văn bản do mô hình tạo ra vớimột hoặc nhiều câu tham chiếu (ground truth), dựa trên tần suất xuất hiện của cáccụm từ (n-gram)

Công thức tổng quát của BLEU được biểu diễn như sau:

BLEU = BP · exp

N

∑n=1

• c: tổng độ dài của các câu được mô hình sinh ra

• r: tổng độ dài của các câu tham chiếu

• pn: độ chính xác của các n-gram bậc n

• wn: trọng số của mỗi bậc n-gram, thường được gán đều nhau, ví dụ: wn = 14với n = 1 4

Ưu điểm: BLEU là chỉ số đánh giá tự động, dễ tính toán, và hiệu quả khi áp dụng

cho các bài toán sinh ngôn ngữ tự nhiên có tham chiếu cụ thể

Hạn chế: BLEU không xét đến yếu tố ngữ nghĩa và cú pháp tổng thể, do đó có

thể cho điểm thấp đối với những câu có nghĩa đúng nhưng diễn đạt khác biệt

Trong đề tài này, BLEU được sử dụng để đánh giá mức độ tương đồng giữa câutrả lời của hệ thống Chatbot với câu trả lời chuẩn, giúp phản ánh chất lượng ngôn ngữsinh ra từ mô hình

Trang 28

2.6.3 ROUGE

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một tập hợp cácchỉ số đánh giá chất lượng của văn bản được sinh ra bởi mô hình, đặc biệt phổ biếntrong các bài toán tóm tắt văn bản và sinh ngôn ngữ tự nhiên Khác với BLEU – vốnthiên về độ chính xác (precision), ROUGE lại ưu tiên đo lường khả năng bao phủ(recall) của mô hình, tức là mức độ mà các từ hoặc cụm từ trong văn bản tham chiếuđược tái hiện lại trong văn bản được tạo ra

Trong khuôn khổ đề tài này, ba biến thể phổ biến nhất của ROUGE được sử dụng,bao gồm ROUGE-1, ROUGE-2 và ROUGE-L Mỗi biến thể tập trung vào một khíacạnh khác nhau của việc so sánh văn bản:

• ROUGE-1 đo lường tỉ lệ trùng khớp giữa các từ đơn lẻ (unigram) trong vănbản được sinh ra và văn bản tham chiếu Đây là chỉ số cơ bản nhất, phản ánhkhả năng tái hiện nội dung ở cấp độ từ

• ROUGE-2mở rộng đánh giá lên cấp độ bigram, tức là các cặp từ liên tiếp, chophép đo được phần nào tính mạch lạc và cấu trúc ngữ pháp của câu văn

• ROUGE-Llại dựa trên khái niệm chuỗi con chung dài nhất (Longest Common

Subsequence – LCS), giúp phản ánh mức độ tương đồng về trật tự và cấu trúcgiữa các câu trong văn bản

Công thức tổng quát để tính ROUGE-N, với N là bậc của n-gram (ví dụ N = 1cho ROUGE-1, N = 2 cho ROUGE-2), được biểu diễn như sau:

ROUGE-N = ∑S∈{Tập câu tham chiếu}∑gramn∈SCountmatch(gramn)

∑S∈{Tập câu tham chiếu}∑gramn∈SCount(gramn)Trong đó:

• Countmatch(gramn) là số lượng n-gram (có thể là từ đơn, cặp từ, ) trùng nhaugiữa văn bản sinh ra và văn bản tham chiếu

• Count(gramn) là tổng số n-gram trong các câu tham chiếu

Đối với ROUGE-L, thay vì n-gram, ta tính độ dài của chuỗi con chung dài nhất(LCS) giữa hai câu hoặc đoạn văn bản Chuỗi con chung dài nhất là dãy các từ xuấthiện theo cùng thứ tự trong cả hai văn bản (không nhất thiết phải liên tiếp), giúp phảnánh khả năng bảo toàn trật tự và ý nghĩa câu

Trang 29

Chỉ số ROUGE-L có thể được tính thông qua precision (độ chính xác), recall (độbao phủ), và F1-score như sau:

Precision = LCS(X ,Y )

length(X ), Recall =

LCS(X ,Y )length(Y )

ROUGE-L = (1 + β

2) · Precision · RecallRecall + β2· Precision , với β = 1Trong đó X là chuỗi sinh ra bởi mô hình, Y là chuỗi tham chiếu Việc sử dụngđồng thời precision và recall giúp ROUGE-L phản ánh tốt hơn sự cân bằng giữa mức

độ đầy đủ và tính chính xác trong kết quả của mô hình

Ưu điểm: ROUGE là công cụ đánh giá khách quan và tự động, không đòi hỏi sự

can thiệp của con người Nó đặc biệt hiệu quả khi đánh giá các mô hình sinh văn bản

có câu trả lời dạng tự do hoặc tóm tắt mở

Hạn chế: ROUGE chỉ đánh giá dựa trên sự trùng khớp từ vựng hoặc cấu trúc,

không phản ánh được các yếu tố ngữ nghĩa sâu hơn như sự đồng nghĩa, suy diễn hayngữ cảnh rộng

Trong đề tài này, các chỉ số ROUGE-1, ROUGE-2 và ROUGE-L được sử dụng

để đánh giá mức độ tương đồng giữa câu trả lời của hệ thống Chatbot với các câutrả lời mẫu (ground truth) Đây là cơ sở quan trọng để kiểm chứng chất lượng sinhngôn ngữ của hệ thống, bên cạnh các chỉ số đánh giá khác như BLEU, METEOR hayF1-score

• Trùng khớp chính xác (exact match): từ trong câu sinh ra trùng hoàn toàn

với từ trong câu tham chiếu

Trang 30

• Trùng khớp gốc từ (stem match): từ sinh ra và từ tham chiếu có chung gốc

từ, dù hình thái khác nhau (ví dụ: “study” và “studying”)

• Trùng khớp đồng nghĩa (synonym match): hai từ có cùng hoặc gần nghĩa,

được phát hiện thông qua từ điển đồng nghĩa như WordNet

• Trùng khớp xáo trộn thứ tự (paraphrase match): trong các phiên bản mở

rộng, METEOR còn xét cả trật tự và cụm từ tương đương về ngữ nghĩa

Chỉ số METEOR được tính dựa trên harmonic mean giữa độ chính xác (precision)

và độ bao phủ (recall), có trọng số nghiêng về recall, như sau:

Fmean = 10 · P · R

R+ 9PTrong đó:

• P(Precision): Tỉ lệ từ đúng trong câu sinh ra so với tổng số từ trong câu sinhra

• R (Recall): Tỉ lệ từ đúng trong câu sinh ra so với tổng số từ trong câu thamchiếu

Sau khi tính Fmean, METEOR còn áp dụng một hệ số phạt (penalty) nếu trật tự

từ trong câu sinh ra không giống với câu tham chiếu, phản ánh mức độ xáo trộn:

• γ và θ là các hệ số điều chỉnh, thường được đặt là γ = 0.5 và θ = 3

Ưu điểm: METEOR có khả năng đánh giá sâu sắc hơn vì xét đến nhiều dạng

tương đồng ngữ nghĩa, đồng thời cân bằng giữa precision và recall Điều này giúp chỉ

số METEOR phản ánh chất lượng ngữ nghĩa và độ tự nhiên của câu trả lời một cáchtoàn diện hơn so với các chỉ số chỉ xét trùng khớp từ

Trang 31

Hạn chế: METEOR đòi hỏi nhiều tài nguyên ngôn ngữ (như từ điển gốc từ và từ

điển đồng nghĩa) nên có thể không đầy đủ hoặc kém chính xác khi áp dụng với ngônngữ ít tài nguyên như tiếng Việt

Trong phạm vi đề tài, chỉ số METEOR được sử dụng như một công cụ hỗ trợ

đánh giá độ phù hợp về ngữ nghĩa giữa câu trả lời sinh ra bởi hệ thống Chatbot vàcâu trả lời mẫu Do bài toán hướng đến hỗ trợ học tập cho sinh viên, các yếu tố về

sự rõ ràng, chính xác ngữ nghĩa và mức độ bao phủ thông tin rất quan trọng, vì vậyMETEOR là chỉ số đặc biệt hữu ích trong quá trình đánh giá hệ thống

2.6.5 F1-score

F1-score là một chỉ số tổng hợp được sử dụng rộng rãi trong lĩnh vực học máy và

xử lý ngôn ngữ tự nhiên (NLP) để đánh giá độ chính xác của mô hình, đặc biệt trong

các bài toán phân loại và sinh văn bản Đây là trung bình điều hòa (harmonic mean) giữa độ chính xác (precision) và độ bao phủ (recall), nhằm phản ánh cân bằng giữa

hai yếu tố này

Trong ngữ cảnh bài toán sinh câu trả lời hoặc truy xuất thông tin như hệ thốngChatbot trong đề tài, F1-score được sử dụng để đánh giá mức độ khớp giữa câu trả lờisinh ra và câu trả lời mẫu dựa trên đơn vị là từ (token) Cụ thể:

• Precision (Độ chính xác)là tỉ lệ số từ đúng mà mô hình sinh ra so với tổng số

từ mà mô hình đã sinh

• Recall (Độ bao phủ)là tỉ lệ số từ đúng mà mô hình sinh ra so với tổng số từ

có trong câu trả lời mẫu

F1-score được tính theo công thức:

F1 = 2 · P· R

P+ RTrong đó:

• P: Precision

• R: Recall

Ý nghĩa: F1-score mang lại một cái nhìn tổng thể về khả năng sinh văn bản của

hệ thống, trong đó mô hình không được phép nghiêng hoàn toàn về precision (sinhđúng nhưng quá ít từ) hay recall (sinh nhiều nhưng sai nhiều từ) Một mô hình tốt cầnđạt F1-score cao, cho thấy sự cân bằng trong việc vừa sinh đúng từ, vừa bao phủ nội

Trang 32

dung của câu trả lời gốc.

Ưu điểm:

• F1-score đơn giản, dễ tính toán và trực quan

• Phù hợp trong trường hợp dữ liệu mất cân bằng hoặc khi cần đánh giá trên từngmẫu riêng lẻ

• Hữu ích khi số lượng từ sinh ra không cố định hoặc có thể bị dư thừa hoặc thiếusót

Trong đề tài, F1-score được áp dụng để đo lường mức độ khớp từ vựng giữa câu

trả lời của hệ thống Chatbot và câu trả lời chuẩn Việc sử dụng F1-score, kết hợp cùngcác chỉ số khác như BLEU, ROUGE và METEOR, giúp tạo nên một bộ tiêu chí đánhgiá đa chiều, cung cấp cái nhìn toàn diện về hiệu năng của mô hình khi tích hợp các

kỹ thuật như RAG và XAI

2.7 Công cụ LIME

Trong nhiều ứng dụng trí tuệ nhân tạo, đặc biệt là khi mô hình đưa ra quyết định

quan trọng, người dùng không chỉ cần biết kết quả mà còn muốn hiểu được tại sao kết quả đó lại được đưa ra Khái niệm Explainable AI (XAI) ra đời nhằm giải quyết vấn

đề “hộp đen” của các mô hình học máy và học sâu

2.7.1 Khái niệm XAI

Explainable AI (AI có khả năng giải thích) là lĩnh vực nghiên cứu và phát triểncác kỹ thuật để mô hình AI:

• Cung cấp được lời giải thích dễ hiểu về cách thức hoạt động nội tại hoặc quytrình ra quyết định

• Tăng tính minh bạch và tin cậy cho người dùng

• Hỗ trợ phát hiện và khắc phục sai sót, thiên kiến trong mô hình

Một giải pháp XAI điển hình sẽ trả về:

Trang 33

1 Các thành phần dữ liệu đầu vào (features) có ảnh hưởng lớn nhất tới quyết định.

2 Mức độ đóng góp (weight) của từng thành phần đó

3 Một mô hình đơn giản giải thích cục bộ (local) cho mỗi dự đoán cụ thể

2.7.2 Nguyên lý công cụ LIME

LIME hoạt động theo các bước sau:

1 Chọn điểm cần giải thích: Chọn một điểm dữ liệu x0 cần giải thích từ tập dữliệu

2 Sinh mẫu ngẫu nhiên: Tạo ra các mẫu dữ liệu z1, z2, , zm gần với x0, thôngqua quá trình perturbation (thay đổi ngẫu nhiên các đặc trưng của x0)

3 Dự đoán nhãn cho các mẫu: Áp dụng mô hình gốc f để tính giá trị dự đoán

cho các mẫu f (z1), f (z2), , f (zm)

4 Xây dựng mô hình cục bộ: Tạo ra mô hình giải thích cục bộ g (ví dụ, mô hình

hồi quy tuyến tính hoặc cây quyết định) để xấp xỉ quyết định của mô hình gốctrên tập mẫu gần x0

5 Tối ưu hóa mô hình cục bộ: Mục tiêu là tối thiểu hóa hàm mất mát giữa mô

hình gốc và mô hình cục bộ, với trọng số các mẫu gần x0 được tính bằng hàmtrọng số:

6 Giải thích mô hình: Mô hình g cho biết mức độ đóng góp của từng đặc trưng

x0vào quyết định của mô hình gốc

2.7.3 Cơ chế giải thích LIME trong mô hình RAG

Khi áp dụng LIME trong mô hình RAG, mục tiêu là giải thích cách mà từng từ

trong văn bản đầu vào ảnh hưởng đến kết quả đầu ra của mô hình Đầu vào của môhình có thể là một câu hỏi hoặc văn bản, và đầu ra là kết quả dự đoán hoặc câu trả lờicủa mô hình

LIME sẽ tạo ra các mẫu dữ liệu tương tự như văn bản đầu vào, trong đó một số từhoặc cụm từ bị thay đổi hoặc loại bỏ, sau đó tính toán ảnh hưởng của mỗi từ đến kếtquả dự đoán Ví dụ, với câu hỏi “Điều kiện nhận học bổng là gì?", LIME sẽ tạo ra cácmẫu dữ liệu như “Điều kiện nhận học” hoặc “nhận học bổng”

Tiêu đề	Xây dựng hệ thống chatbot thông minh hỗ trợ sinh viên tra cứu thông tin học tập có khả năng giải thích (XAI)
Tác giả	Trần Tấn Vạn
Người hướng dẫn	ThS. Nguyễn Thị Mỹ Nga
Trường học	Trường Đại học Sư phạm Kỹ thuật Vĩnh Long
Chuyên ngành	Công nghệ Thông tin
Thể loại	Đề tài tốt nghiệp đại học
Năm xuất bản	2025
Thành phố	Vĩnh Long

Định dạng
Số trang	67
Dung lượng	2,53 MB