TRƯỜNG ĐẠI HỌC CÔNG ĐOÀN BỘ MÔN TIN HỌC ` BÁO CÁO KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC Tên đề tài NGHIÊN CỨU CÁC GIẢI THUẬT TÌM KIẾM TRONG XÂY DỰNG PHẦN MỀM TRẢ LỜI TƯ VẤN TUYỂN SINH TỰ ĐỘNG TẠI TRƯỜNG ĐẠI HỌC CÔNG ĐOÀN Chủ nhiệm đề tài ThS Lê Thị Hào Hà Nội, tháng 052022 Nhóm nghiên cứu Hà Nội, ngày tháng năm 20 Chủ nhiệm đề tài Hà Nội, ngày tháng năm 20 Trưởng KhoaPhòngBộ mônViện Hà Nội, ngày tháng năm 20 Chủ tịch Hội đồng nghiệm thu Hà Nội, ngày tháng năm 20 Hiệu trưởng MỤC LỤC MỞ ĐẦU 1 1 T.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG ĐOÀN
BỘ MÔN TIN HỌC
`
BÁO CÁO KẾT QUẢ
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
Tên đề tài:
NGHIÊN CỨU CÁC GIẢI THUẬT TÌM KIẾM
TRONG XÂY DỰNG PHẦN MỀM TRẢ LỜI TƯ VẤN TUYỂN SINH
TỰ ĐỘNG TẠI TRƯỜNG ĐẠI HỌC CÔNG ĐOÀN
Chủ nhiệm đề tài: ThS Lê Thị Hào
Hà Nội, tháng 05/2022
NHÓM NGHIÊN CỨU
Trang 2Hà Nội, ngày tháng… năm 20….
Chủ nhiệm đề tài
Hà Nội, ngày… tháng năm 20.…
Trưởng Khoa/Phòng/Bộ môn/Viện
Hà Nội, ngày tháng… năm 20.…
Chủ tịch Hội đồng nghiệm thu
Hà Nội, ngày tháng… năm 20….
Hiệu trưởng
Trang 3MỤC LỤC
Trang 4DANH MỤC HÌNH VẼ
Hình 1.1: Minh họa tập dữ liệu gồm 2 lớp
Hình 1.2: Minh họa tài liệu X được thêm vào tập dữ liệu
Hình 1.3: Minh họa các láng giềng gần nhất của tài liệu X
Hình 1.4: Tổng quan Chatbot
Hình 2.1: Sơ đồ hệ thống
Hình 2.2: Minh họa về bộ dữ liệu câu hỏi tuyển sinh trên phần mềm ExcelHình 2.3: Sơ đồ quá trình tạo từ điển và loại bỏ stop words
Hình 2.4: Sơ đồ quá trình tạo vector đặc trưng cho tài liệu
Hình 2.5: Mô hình huấn luyện dữ liệu
Hình 2.6: Sơ đồ tìm theo mô hình túi từ
Hình 2.7: Minh họa về load dữ liệu
Hình 2.8: Minh họa về loại bỏ Stop word
Hình 2.9: Minh họa về vector hóa dữ liệu câu hỏi
Hình 2.10: Minh họa về training
Hình 2.11: Minh họa về lưu huấn luyện
Hình 2.12: Minh họa về tư vấn
Hình 2.13: Giao diện web tư vấn
Hình 2.14: Minh họa về câu hỏi
Hình 2.15: Minh họa về câu trả lời
Hình 2.16: Minh họa về Hệ thống chưa có đủ dữ liệu trả lời
Hình 2.17: Giao diện web tư vấn và khảo sát phần mềm
Hình 2.18: Kết quả đánh giá về đối tượng khảo sát
Hình 2.19: Kết quả phản hồi của học sinh
Hình 2.20: Kết quả phản hồi của phụ huynh
Trang 5DANH MỤC BẢNG BIỂU
Bảng 1.1: Ví dụ về tập dữ liệu văn bản
Bảng 1.2: Biễu diễn tập dữ liệu bằng mô hình túi từ
Bảng 2.1: Bảng Theo số đăng ký tuyển sinh từ 2019 – 2021
Bảng 2.2: Số lượng thí sinh trúng tuyển vào các ngành
Trang 6DANH MỤC TỪ VIẾT TẮT
Từ viết tắt Viết đầy đủ
Trang 7MỞ ĐẦU
1 Tính cấp thiết của đề tài
Với sự phát triển của khoa học và công nghệ trong ngành giáo dục, việc ápdụng các công nghệ giáo dục (Edtech) đòi hỏi giáo dục phải đem lại cho ngườihọc những kỹ năng và kiến thức cơ bản lẫn tư duy sáng tạo, khả năng thích nghivới các thách thức và yêu cầu công việc thay đổi liên tục để tránh nguy cơ bị tụthậu và đào thải Các cơ sở giáo dục đại học trên cả nước đã có nhiều đổi mớitrong tuyển sinh, đào tạo theo hướng cách mạng công nghệ 4.0 Mục tiêu khôngcòn là tuyển đủ chỉ tiêu mà tuyển được những thí sinh có chất lượng cao, đủ tốchất để lĩnh hội các kỹ thuật tiên tiến trong kỷ nguyên cách mạng số, có khảnăng trở thành công dân toàn cầu, có năng lực tư duy đổi mới và sáng tạo
Việc tư vấn tuyển sinh quan trọng nhất là khâu thông tin ngành nghề Cóthể thấy rõ rằng tư vấn để các thí sinh chọn đúng ngành nghề đóng vai trò vôcùng quan trọng đối với sự phát triển của đất nước và xã hội Đặc biệt, thời điểmthế giới hội nhập sẽ có nhiều ngành nghề phát triển và chiếm lĩnh thị trường, thuhút được nhiều bạn học sinh, sinh viên
Hiện nay, lĩnh vực giáo dục đang phát triển mạnh mẽ, hệ thống trường lớpđang ngày được mở rộng, khả năng cạnh tranh thu hút học sinh, sinh viên giữacác trường ngày một quyết liệt hơn Vì vậy, công tác tư vấn tuyển sinh là mộttrong những vấn đề quan tâm hàng đầu của các cơ quan giáo dục, đã có rất nhiềuchương trình tư vấn tuyển sinh rộng khắp trên tất cả các tỉnh thành trong cảnước, với nhiều hình thức phong phú
Các cơ sở giáo dục đại học trên cả nước nói chung và trường Đại học Côngđoàn nói riêng hàng năm đều tổ chức các đợt tư vấn cho thí sinh, tuy nhiên việcnày còn phụ thuộc vào nhiều yếu tố như: địa điểm, thời gian, nhân sự…do vậychỉ hỗ trợ được một bộ phận thí sinh ở thành phố hoặc những thí sinh có điềukiện tham gia Công tác tham gia tư vấn tuyển sinh trực tiếp tại các trường trunghọc phổ thông chỉ thực hiện trước mùa tuyển sinh nên không đáp ứng đủ nhucầu thông tin mọi lúc, mọi nơi cho thí sinh Trước đây thí sinh tìm hiểu qua cuốn
Trang 8Những điều cần biết về tuyển sinh và đến trực tiếp cơ sở đào tạo nhưng hiện naygần như 100% thí sinh tìm hiểu qua mạng Internet và tư vấn qua các kênh mạng
xã hội Nắm được xu hướng đó Trường Đại học Công đoàn đã có những thay đổi
về cách thức, hoạt động tư vấn tuyển sinh: Nhà trường đã kết hợp giữa thông tintrên website với fanpage tuyển sinh, tin nhắn messenger và các số điện thoạiđăng ký với Bộ GD&ĐT, giúp thí sinh có thể tìm hiểu về tuyển sinh của Nhàtrường Tuy nhiên, khi các câu hỏi thắc mắc của thí sinh gửi đến fanpage củatrường, các thí sinh phải chờ câu trả lời từ các cán bộ chuyên trách Đôi khithông tin đến các thí sinh không kịp thời, thiếu thông tin trong chọn ngành, chọntrường phù hợp với khả năng, năng lực của thí sinh hoặc khi số lượng các câuhỏi ngày càng nhiều và có sự lặp đi lặp lại thì việc trả lời thủ công không cònđược khả thi
Nhằm mục đích đưa các thông tin tuyển sinh một cách kịp thời, nhanh
chóng và chính xác đến các thí sinh, hệ thống trả lời tự động là phương pháphữu hiệu đảm bảo được tính tức thời, hiệu quả và cần thiết Vì những lý do trên,
nhóm nghiên cứu quyết định chọn đề tài “Nghiên cứu các giải thuật tìm kiếm
trong xây dựng phần mềm trả lời tư vấn tuyển sinh tự động tại Trường Đại học Công đoàn” Trong đề tài này, nhóm nghiên cứu đề xuất giải pháp tìm kiếm
theo mô hình túi từ để xây dựng hệ thống trả lời tự động nhằm giúp các thí sinhcập nhật thông tin, có thể tìm được các thông tin mong muốn nhanh nhất cũngnhư các tài liệu có nội dung “gần” với nội dung thí sinh cần giải đáp về tuyểnsinh Ở đây, bài toán xây dựng hệ thống trả lời tự động được đơn giản hóa thànhbài toán xây dựng hệ thống tìm kiếm thông tin
Tư vấn tuyển sinh là kênh nối trực tiếp giữa nhà trường với thí sinh, làngười bạn đồng hành không thể thiếu, nơi giải đáp những vướng mắc và hỗ trợthông tin kịp thời cho tất cả các sĩ tử trước kỳ thi trung học phổ thông cam go vàtrong suốt quá trình đăng ký xét tuyển đại học Việc sử dụng hệ thống trả lời tựđộng hứa hẹn sẽ là cầu nối hiệu quả giữa nhà trường và thí sinh trong trong cácmùa tuyển sinh
Trang 92 Tổng quan tình hình nghiên cứu của đề tài
2.1 Tình hình nghiên cứu ngoài nước
Hệ thống trả lời tự động đã được các nhà nghiên cứu quan tâm từ rất lâu,bao gồm các trường đại học, các viện nghiên cứu và các doanh nghiệp Việcnghiên cứu về hệ thống trả lời tự động có ý nghĩa trong khoa học và thực tế Đã
có rất nhiều các hội nghị thường niên về xử lý ngôn ngữ tự nhiên, khai phá dữliệu, xử lý dữ liệu lớn, tương tác người máy
Trong những năm gần đây, phương pháp học máy đã chứng minh lợi íchđáng kể cho nhiệm vụ xử lý ngôn ngữ tự nhiên; Andreas và các cộng sự vớinghiên cứu “Mạng học sâu CNN cho hệ thống trả lời câu hỏi” Jinfeng Rao vàcác công sự với nghiên cứu “Ước lượng tương phản nhiễu để lựa chọn câu trảlời với các mạng thần kinh sâu” trình bày trong Kỷ yếu của Quốc tế ACM lầnthứ 25 về Hội nghị về Quản lý thông tin và tri thức New York 2016 Trong Kỷyếu của Hội nghị thường niên lần thứ 52 của Hiệp hội Ngôn ngữ học tính toán(ACL-14) 2014 Tom Young và các công sự với nghiên cứu về “Xu hướng gầnđây trong việc xử lý ngôn ngữ tự nhiên” trên tạp chí IEEE ComputationalIntelligence, 2018 Yoon Kim với nghiên cứu “Mạng lưới nơ ron chuyển đổi đểphân loại câu” sử dụng Mạng thần kinh chuyển đổi (CNN) và coi các câu hỏi làcâu chung để đạt được hiệu suất mạnh mẽ đáng kể trong nhiệm vụ phân loại câuhỏi TREC
2.2 Tình hình nghiên cứu trong nước
Tại Việt Nam, hệ thống trả lời tự động đã, đang được ứng dụng trongnhững năm gần đây và đạt được nhiều kết quả khả quan Nghiên cứu về ứng dụngkhai phá dữ liệu để tư vấn học tập tại trường Cao Đẳng Kinh tế - Kỹ thuật QuảngNam, tác giả Phạm Cẩm Vân đã sử dụng luật kết hợp (tìm ra luật liên quan giữa cácmôn học) và cây quyết định (dự đoán kết quả học tập của sinh viên)
Nghiên cứu về giải pháp xây dựng Hệ thống hỗ trợ tư vấn tuyển sinh, cáctác giả Nguyễn Thái Nghe, Trương Quốc Định đề xuất sử dụng kỹ thuật máy
Trang 10học véctơ hỗ trợ (Support Vector Machines) vào xử lý văn bản và xử lý tin nhắnSMS trong hệ thống thông tin di động
Báo cáo nghiên cứu khoa học giáo viên “Hệ thống trả lời tự động tiếngviệt cho công tác tuyển sinh đại học” – 2012 của trường đại học Lạc Hồng ápdụng dựa trên mô hình phân loại câu hỏi theo hướng mạng Bộ nhớ dài ngắnsong song (BiLSTM) để huấn luyện dữ liệu và kết hợp các phương pháp đánhgiá dựa trên đánh giá độ chính xác (Accuracy) để đưa ra mô hình dự đoán tối ưunhất nhằm mục đích trả lời các câu hỏi của người dùng
Học viên cao học Nhữ Bảo Vũ (Đại học Quốc gia Hà Nội, 2016) áp dụngphương pháp học chuỗi liên tiếp xây dựng mô hình đối thoại cho tiếng Việt trênmiền mở
Báo cáo tổng kết đề tài nghiên cứu khoa học cấp trường “Nghiên cứu xâydựng hệ hỗ trợ tư vấn tuyển sinh của trường Đại học Mở Hà Nội” – 2020 Đề tài
đã đóng góp cho công tác tư vấn tuyển sinh được diễn ra nhanh chóng, thuận tiện
và có ý nghĩa tác động đến công tác tuyển sinh của trường Đại học Mở Hà Nội.Gần đây nhất tác giả Bùi Thanh Hùng với nghiên cứu “Phân loại câu hỏi tiếngViệt dựa trên học sâu” – 2019 và “Kết hợp giữa phân loại câu hỏi với hệ thống bỏdấu tự động cho hệ thống hỏi đáp tự động bằng phương pháp học sâu” - 2020
3 Đối tượng và phạm vi nghiên cứu
- Đối tượng: Các giải thuật tìm kiếm trong xây dựng phần mềm trả lời tư vấntuyển sinh tự động
- Phạm vi: Tư vấn tuyển sinh tại Trường Đại học Công đoàn
4 Mục tiêu và nhiệm vụ của đề tài
Mục tiêu nghiên cứu: Xây dựng phần mềm trả lời tư vấn tuyển sinh tựđộng tại Trường Đại học Công đoàn
Nhiệm vụ nghiên cứu:
Tìm hiểu thực trạng tuyển sinh của Trường Đại học Công đoàn
Tìm hiểu các giải thuật tìm kiếm
Cài đặt phần mềm trả lời tư vấn tuyển sinh tự động tại Trường Đại họcCông đoàn
Trang 11Khảo sát và đánh giá tiện ích của phần mềm
5 Phương pháp nghiên cứu
- Sinh viên: 30 PVS (Phỏng vấn 30 sinh viên)
- Cán bộ chuyên viên: 05 PVS (Phỏng vấn 5 chuyên viên làm công tác tuyểnsinh của phòng đào tạo)
- Phụ huynh: 10 PVS (Phỏng vấn 10 phụ huynh có con thi Đại học năm 2022)
6 Ý nghĩa của đề tài
-Ứng dụng công nghệ thông tin trong việc tư vấn tuyển sinh tại trườngĐại học Công đoàn
7 Kết cấu của đề tài
Ngoài phần mở đầu và kết luận, nội dung đề tài gồm 02 chương:
Chương 1: Cơ sở lý luận về giải thuật tìm kiếm và hệ thống trả lời tự độngChương 2: Ứng dụng giải thuật mô hình túi từ BOW xây dựng phầnmềm trả lời tư vấn tuyển sinh tự động tại trường Đại học Công đoàn
Trang 12
Chương 1: CƠ SỞ LÝ LUẬN VỀ GIẢI THUẬT TÌM KIẾM VÀ HỆ
THỐNG TRẢ LỜI TỰ ĐỘNG 1.1 Tổng quan về tìm kiếm thông tin
1.1.1 Tìm kiếm thông tin và hệ thống tìm kiếm thông tin
Ngày nay, với sự phát triển của công nghệ thông tin, việc tìm kiếm thôngtin một cách nhanh chóng và chính xác trở thành một nhu cầu cấp thiết Với sựgia tăng dung lượng trong những tập dữ liệu rất lớn đó ẩn chứa hàm lượng thôngtin vô cùng lớn Câu hỏi đặt ra là làm thế nào khai thác được khối thông tin đó
để nó trở nên có ích đối với người dùng Những tiến bộ đạt được về lý thuyết vàcông nghệ trong lĩnh vực xử lý thông tin đã giải quyết được phần nào nhu cầunêu trên Một lĩnh vực của khoa học máy tính có liên quan nhiều nhất đến việcnghiên cứu và phát triển của kỹ thuật tìm kiếm là tìm kiếm thông tin
Tìm kiếm thông tin (Information retrieval, được viết tắt là IR): là tìm kiếmtrong một tập tài liệu để lấy ra các thông tin mà người tìm kiếm quan tâm.Nhiệm vụ chính của IR là tìm kiếm các tài liệu từ cơ sở dữ liệu nhằm thoả mãn
và đáp ứng được nhu cầu thông tin của người dùng [1]
Trong thực tế nghiên cứu, có thể định nghĩa tìm kiếm thông tin như sau:tìm kiếm thông tin là việc tìm kiếm tài liệu ở trạng thái phi cấu trúc (thường làvăn bản) thoả mãn một nhu cầu thông tin nào đó từ các tập hợp lớn (thường làtrên các máy chủ cục bộ hoặc trên mạng) Hành động đó xác định rõ cốt lõi của
IR Hàng ngày, có hàng trăm triệu người thực hiện truy xuất thông tin mỗi khi
họ sử dụng một máy tìm kiếm web hoặc tìm kiếm trong hộp thư điện tử củamình IR đang nhanh chóng trở thành hình thức truy nhập thông tin vượt trội,vượt qua dạng tìm kiếm kiểu cơ sở dữ liệu truyền thống
Tìm kiếm thông tin là một trong số các vấn đề rất được quan tâm trong giaiđoạn hiện nay Đây là vấn đề khó, ngay cả với những hệ thống tìm kiếm phổ biếntrên mạng Internet như: Google, Altavista, Yahoo thì vẫn còn nhiều hạn chế:
- Thứ nhất: với mỗi truy vấn, hệ thống thường trả về tập kết quả gồm hàngnghìn tài liệu, thậm chí còn lớn hơn nhiều, khiến người dùng phải mất nhiều thờigian để đọc nội dung của từng tài liệu nhằm tìm thông tin mà họ quan tâm
Trang 13- Thứ hai: vấn đề tìm kiếm theo trọng số của từ khoá, ví dụ nếu người dùngđưa ra truy vấn “software engineering” với mong muốn rằng từ “software” có ưutiên cao hơn từ “engineering” thì nhiều khi không nhận được kết quả như ý.
- Thứ ba: vấn đề sắp xếp các tài liệu trả về theo độ liên quan với truy vấn.Tìm kiếm thông tin đã trở thành một lĩnh vực quan trọng trong hầu hết cácnghiên cứu khi mà đối tượng dữ liệu ngày càng gia tăng, đặc biệt sự phát triểncủa Internet Để tìm kiếm thông tin có hiệu quả, các tài liệu thường được chuyểnđổi thành các cách biểu diễn tài liệu thích hợp
Hệ thống tìm kiếm thông tin – Information retrieval system (IRS) theo địnhnghĩa của Salton năm 1989 là “hệ thống tìm kiếm thông tin xử lý các tập tin lưutrữ và những yêu cầu về thông tin xác định và tìm từ các tập tin những thông tinphù hợp với những yêu cầu từ thông tin Việc tìm kiếm những thông tin đặc thùphụ thuộc vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, đượcđánh giá bằng cách so sánh các giá trị của các thuộc tính đối với thông tin đượclưu trữ và các yêu cầu về thông tin”
Cuốn sách [2] là tài liệu tham khảo chuẩn, đồng thời có so sánh chi tiết vềhiệu quả không gian và hiệu quả thời gian của chỉ mục nghịch đảo so với cáccấu trúc dữ liệu khác khi xây dựng hệ thống tìm kiếm văn bản
Hệ thống tìm kiếm tin hiện tại, bao gồm công cụ tìm kiếm trên web, cógiao diện chuẩn bao gồm một hộp nhập đơn lẻ chấp nhận từ khóa Các từ khóa
do người dùng gửi được so khớp với chỉ mục thu thập để tìm các tài liệu chứacác từ khóa đó, sau đó được sắp xếp theo các phương pháp khác nhau Khi truyvấn của người dùng chứa nhiều từ khóa theo chủ đề cụ thể mô tả chính xác nhucầu thông tin của mình, hệ thống có khả năng trả lại các kết quả phù hợp; tuynhiên, do các truy vấn của người dùng thường ngắn và ngôn ngữ tự nhiên vốnkhông rõ ràng, mô hình tìm kiếm đơn giản này thường dễ bị lỗi và thiếu sót
Xử lý việc tìm kiếm nhu cầu thông tin của người dùng đó chính là một yêucầu (request), là đầu vào của hệ thống tìm kiếm thông tin Một yêu cầu có thểđược viết ở dạng ngôn ngữ tự nhiên, là một tập các từ khóa với từ vựng giới hạn,
… Bước lấy yêu cầu là bước quan trọng trong quá trình tìm kiếm Ở bước đầu,
Trang 14trong giai đoạn tìm kiếm, hệ thống tìm kiếm thông tin thực hiện các thao tác xử
lý đối với truy vấn của người dùng tương tự như đối với các tài liệu ban đầutrong quá trình tiền xử lý Trong giai đoạn tìm kiếm, mỗi mục từ (term) thu được
từ thao tác xử lý văn bản được dùng để xác định, thông qua tập chỉ mục, mộtdanh sách các tài liệu mà trong đó nó xuất hiện Nếu có nhiều từ xuất hiện trongtruy vấn thì bước tìm kiếm sẽ trả về tập hợp của các tài liệu thu thập được theotất cả các từ hoặc một số từ, tùy theo kiểu truy vấn Tóm lại, tìm kiếm là quátrình đối sánh (matching) các mục từ trong các tài liệu với các mục từ trong truyvấn Cụ thể, hệ thống tìm kiếm thông tin thực hiện đối sánh giữa truy vấn vớitừng biểu diễn của tài liệu để đánh giá độ liên quan của nó với nhu cầu thông tin Một hệ thống tìm kiếm thông tin hoàn hảo chỉ có thể thu thập những tài liệu
có liên quan và bỏ qua những tài liệu không liên quan Tuy nhiên, sẽ không thểtồn tại những hệ thống như vậy bởi các câu lệnh tìm kiếm thường không đầy đủ
và độ liên quan phụ thuộc vào ý kiến chủ quan của người dùng Hai người dùng
có thể đưa ra cùng truy vấn giống nhau cho một hệ thống tìm kiếm thông tinnhưng lại có cách đánh giá độ liên quan khác nhau đối với các tài liệu thu thậpđược Hệ thống tìm kiếm thông tin theo một nghĩa nào đó, phải “thông dịch” nộidung của các phần tử thông tin (các tài liệu) trong một tập hợp và xếp hạngchúng theo mức độ liên quan tới câu truy vấn của người dùng Việc “thông dịch”một nội dung tài liệu bao gồm việc chắt lọc thông tin cú pháp và ngữ nghĩa từvăn bản tài liệu và sử dụng thông tin này để đối sánh với yêu cầu thông tin củangười dùng
Hệ thống tìm kiếm thông tin là hệ thống hỗ trợ cho người dùng việc tìmkiếm thông tin; cho phép người dùng nhập vào một yêu cầu cần truy vấn (biểuthức logic hoặc từ khóa) Hệ thống sẽ trả về kết quả là một danh sách các tài liệutheo nhu cầu thông tin của người dùng (được sắp xếp hoặc chưa được sắp xếptheo một tiêu chuẩn nào đó) [1], [2]
Một hệ thống tìm kiếm thông tin gồm các thành phần cơ bản:
- Thành phần lưu trữ dữ liệu: thu thập thông tin từ các site theo đúng giaothức web, duyệt web khi có sự tác động của con người
Trang 15- Thành phần lập chỉ mục (indexing): phân tích và xử lý dữ liệu, thực hiệnviệc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từghép, cụm từ quan trọng) từ những dữ liệu thu thập được và tổ chức thành cơ sở
dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả Hệthống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trangnào, địa chỉ nào
- Thành phần tìm kiếm (interrogation): tìm kiếm từ là tìm kiếm các trang
mà những từ trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ stopword(các từ quá thông dụng như mạo từ a, an, the,…) Một từ càng xuất hiện nhiềutrong một trang thì trang đó càng được chọn để trả về cho người dùng Và mộttrang chứa tất cả các từ trong câu truy vấn thì tốt hơn là một trang không chứamột hoặc một số từ
Trong quá trình truy vấn, hệ thống tìm kiếm thông tin chọn lọc các phầnthông tin có thể sẽ đáp ứng được nhu cầu thông tin được yêu cầu bởi ngườidùng Quá trình này thường gồm hai giai đoạn, tiền xử lý (preprocessing) và thuthập (retrieval)
Hệ thống tìm kiếm thông tin được chia làm 2 loại:
+ Hệ thống tìm kiếm thông tin dựa trên từ khóa: là cách sử dụng từ khóabiểu diễn tài liệu và câu truy vấn Trong đó, từ khóa sẽ được dùng để lập chỉmục cho các tài liệu
+ Hệ thống tìm kiếm thông tin dựa trên khái niệm: sử dụng khái niệm đểbiểu diễn tài liệu và câu truy vấn Hệ thống dùng các khái niệm để lập chỉ mục.Các giai đoạn thực hiện của hệ thống tìm kiếm thông tin:
- Giai đoạn phân tích truy vấn: là giai đoạn quan trọng nhất trong các hệthống hỏi - đáp, với mục tiêu là xác định thông tin cần thiết trong câu hỏi để đưavào giai đoạn tiếp theo Thông tin này thu được dựa trên các từ ngữ quan trọng
có trong câu hỏi Vì vậy, mục tiêu của giai đọan này là xác định các từ khóa (các
từ có ý nghĩa trong câu hỏi)
- Tách từ: việc đầu tiên trước khi xác định từ khóa là phân đoạn câu hỏithành các từ, cụm từ, hay còn gọi là tách từ Ngôn ngữ tiếng Việt rất đa dạng và
Trang 16phong phú, việc xác định ranh giới giữa các câu, các từ tương đối phức tạp vàkhông có một phương pháp nào là tối ưu cho tất cả các trường hợp
- Trích từ khóa: Truy vấn sau khi tách từ sẽ được loại bỏ bớt các cụm từkhông cần thiết, giữ lại những thông tin quan trọng nhất làm đầu vào cho cácgiai đoạn sau này
- Vector hóa tập dữ liệu và xây dựng vector truy vấn: phương pháp tìmkiếm phổ biến nhất dựa trên mô hình không gian vector (vector space model).Trong mô hình này, tài liệu văn bản được xây dựng thành vector đặc trưng củavăn bản đó Việc so khớp hai văn bản dựa trên độ đo tương tự giữa 2 vector, cụthể là độ đo cosine Sử dụng vector đặc trưng là một phương pháp phổ biến vàkhá hiệu quả khi tìm kiếm sự tương đồng giữa các văn bản
- So khớp câu hỏi và xếp hạng: sau bước xác định cụm gần nhất với truyvấn, vector truy vấn sẽ được so khớp với tất cả các câu hỏi trong cụm đó, dựatrên độ đo tương tự là độ đo cosine giữa 2 vector
Để đánh giá một hệ thống tìm kiếm thông tin, hai tiêu chí chính được sửdụng là mức độ chính xác của kết quả (effectiveness) và thời gian đáp trả của hệthống (efficiency) Trong phần lớn các nghiên cứu, việc đánh giá và so sánh thựcnghiệm giữa các hệ thống chủ yếu tập trung vào tiêu chí về độ chính xác của kếtquả Độ chính xác của một hệ thống thường được đánh giá theo hai cách: (1)Tiến hành nghiên cứu trên những người sử dụng hệ thống để đánh giá chấtlượng của quá trình tìm kiếm và kết quả (user based evaluation) (2) Phát triểncác bộ sưu tập dữ liệu đánh giá chuẩn (standard test collections) và thử nghiệmmột hệ thống trên các tập dữ liệu này để đánh giá chất lượng của kết quả tìmkiếm (system based evaluation) [3]
1.1.2 Khai phá dữ liệu
Ngày nay, với sự phát triển mạnh mẽ của Internet, con người được thừahưởng và tiếp cận một kho dữ liệu khổng lồ với vô số tri thức từ rất nhiều lĩnhvực khác nhau của các tổ chức, cơ quan, công ty,…qua các kênh khác nhau nhưinternet, truyền thông, trực tiếp hay gián tiếp Thậm chí sự kết nối mọi lúc mọinơi khi mà những công cụ nhỏ gọn cầm tay như điện thoại cũng có chức năng
Trang 17đầy đủ như một chiếc máy tính Chỉ với một từ khóa tìm kiếm trên internet cũng
đã cho chúng ta hàng ngàn kết quả và link liên kết Vậy làm sao để trích lọcđược những lượng thông tin cốt lõi và hữu ích?
Công nghệ khai phá tri thức từ dữ liệu được định nghĩa là sự trích xuất dữliệu từ những thông tin hữu ích nhưng tiềm ẩn và chưa được biết đến [5], là tiếntrình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức có tính khái quátcao, mang lại thông tin súc tích nhưng nhiều giá trị quyết định Khai phá dữ liệu
là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mốiquan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp.Khai phá dữ liệu (Data mining) được định nghĩa như là một quá trình chắt lọchay khai phá tri thức từ một lượng lớn dữ liệu Mục tiêu tổng thể của quá trình khaiphá dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấutrúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thô, nó còn liên quan tới cơ sở
dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình vàsuy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về cáccấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến
Khai phá dữ liệu được mô tả là quá trình phát hiện ra tri thức trong cơ sở
dữ liệu Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dựbáo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chiphí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phươngpháp thống kê) [2]
Quá trình khám phá tri thức gồm 3 bước chính: tiền xử lý, khai mỏ dữ liệu
và đánh giá kết quả Sau khi đã tiền xử lý dữ liệu xong, đến bước khai mỏ dữliệu Khai mỏ dữ liệu là một bước quan trọng trong quá trình khám phá tri thức
từ dữ liệu Khai mỏ dữ liệu thực hiện việc khảo sát, phân tích tỉ mỉ một lượnglớn dữ liệu nhằm phát hiện ra các mẫu hoặc các luật có ý nghĩa Bước khai mỏ
dữ liệu được xem là trung tâm của quá trình khám phá tri thức Khai mỏ dữ liệutập trung giải quyết các vấn đề cơ bản như phân lớp, hồi quy, gom cụm và luậtkết hợp [3]
Trang 181.1.3 Phân lớp văn bản
Phân lớp văn bản (text categorization) là gán nhãn tự động cho từng vănbản theo chủ đề đã được định nghĩa trước dựa vào nội dung của văn bản Phânlớp văn bản sử dụng phổ biến trong ứng dụng như: gán nhãn tự động một bảntin, phân lớp ý kiến người dùng trên các mạng xã hội, trả lời tự động thư điện tử,nhận dạng thư rác, Phân lớp văn bản thường được dựa trên mô hình ngữ nghĩahoặc máy học Hầu hết các phương pháp phân loại văn bản dựa trên mô hìnhthống kê từ và các giải thuật học tự động [5]
Phân lớp văn bản là một trong những kỹ thuật chính để xử lý và tổ chức dữliệu văn bản Kỹ thuật phân lớp văn bản được dùng để gán nhãn tự động các bảntin, sắp xếp tổ chức email hay tập tin, nhận dạng thư rác Có để định nghĩa ngắnngọn bài toán phân lớp văn bản như sau: gán nhãn cho từng văn bản theo chủ đề
đã được định nghĩa trước dựa vào nội dung của văn bản Phân lớp văn bản thườngđược dựa trên mô hình ngữ nghĩa hoặc máy học Tuy nhiên như bài phỏng vấnđược thực hiện bởi M Lucas (Tạp chí Mappa Mundi) năm 1999, M Hearst chorằng tiếp cận ngữ nghĩa là vấn đề rất khó, phức tạp Vì vậy, tiếp cận dựa trên máyhọc tự động lại đơn giản và cho nhiều kết quả tốt trong thực tiễn [4]
Theo nghiên cứu của các tác giả Trần Cao Đệ, Phạm Nguyên Khang trong
“Phân loại văn bản với máy học vector hỗ trợ và cây quyết định” [6], các tác giả
đã sử dụng máy học vector hỗ trợ (SVM) vào bài toán phân loại văn bản và sosánh hiệu quả của nó với hiệu quả của giải thuật cây quyết định Kết quả chothấy, SVM với cách lựa chọn đặc trưng bằng phương pháp tách giá trị đơn(SVD) cho kết quả tốt hơn so với cây quyết định
Vấn đề phân loại văn bản tiếng Việt được nhiều cơ sở nghiên cứu trong cảnước quan tâm trong những năm gần đây Một số công trình nghiên cứu cũngđạt được những kết quả khả quan Các hướng tiếp cận bài toán phân loại văn bản
đã được nghiên cứu bao gồm: hướng tiếp cận bài toán phân loại bằng lý thuyết
đồ thị [1], cách tiếp cận sử dụng lý thuyết tập thô [2], cách tiếp cận thống kê [7],cách tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục [8].Nhìn chung, những cách tiếp cận này đều cho kết quả chấp nhận được
Trang 191.2 Các giải thuật tìm kiếm
Trong ngành khoa học máy tính, một giải thuật tìm kiếm là một thuật toánlấy đầu vào là một bài toán và trả về kết quả là một lời giải cho bài toán đó,thường là sau khi cân nhắc giữa một loạt các lời giải có thể Hầu hết các thuậttoán được nghiên cứu bởi các nhà khoa học máy tính để giải quyết các bài toánđều là các thuật toán tìm kiếm Có rất nhiều thuật toán tìm kiếm khác nhau ứngdụng phù hợp với từng dạng bài toán cụ thể
1.2.1 Các giải thuật tìm kiếm KNN, BOW
a) Giải thuật tìm kiếm k láng giềng KNN (K-nearest neighbors)
KNN là thuật toán học máy có giám sát, đơn giản và dễ triển khai Giảithuật này thường được sử dụng trong các bài toán phân loại, hồi quy, phân lớp
và tìm kiếm văn bản
Giải thuật KNN được Fix và Hodges đề xuất từ những năm 1952 Đây làphương pháp rất đơn giản nhưng cũng cho hiệu quả cao trong khai mỏ dữ liệu.Giải thuật k láng giềng và phương pháp đánh giá hiệu quả phân lớp được mô tảchi tiết trong tài liệu [12]
Phương pháp KNN (tên khác instance-based, lazy) rất đơn giản, dễ hiểu vàthường cho kết quả tốt so với các phương pháp học khác Giải thuật k láng giềngkhông có quá trình học, khi dự đoán lớp (nhãn) của phần tử dữ liệu mới đến, giảithuật đi tìm k láng giềng của nó từ tập dữ liệu học, sau đó thực hiện việc phânlớp phần tử mới đến Quá trình phân lớp của k láng giềng mất rất nhiều thờigian Giải thuật ứng dụng thành công trong hầu hết các lĩnh vực tìm kiếm thôngtin, nhận dạng, phân tích dữ liệu, hồi quy [4]
Ý tưởng của thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ tồn tạigần nhau trong một không gian, từ đó công việc của chúng ta là sẽ tìm k điểm gầnvới dữ liệu cần kiểm tra nhất Việc tìm khoảng cách giữa 2 điểm củng có nhiềucông thức có thể sử dụng, tùy trường hợp mà chúng ta lựa chọn cho phù hợp Đây
là 3 cách cơ bản để tính khoảng cách 2 điểm dữ liệu x, y có k thuộc tính:
Trang 20KNN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhấtgiữa đối tượng cần sắp lớp và tất cả các đối tượng trong tập dữ liệu Do quá trình tìmkiếm k phần tử lân cận cho mỗi phần tử mới, sau đó phân loại dựa trên luật bìnhchọn số đông (hồi quy dựa trên giá trị trung bình), độ phức tạp của quá trình phânloại khá lớn và kết quả phụ thuộc vào việc lựa chọn khoảng cách sử dụng.
Mục tiêu của các bộ máy - hệ thống tìm kiếm thông tin là trả về cho ngườidùng k tài kiệu có độ tương đồng cao nhất so với nhu cầu thông tin của họ Thực tếthì khi người dùng thực hiện truy vấn họ không biết được đâu là k tài liệu phù hợpvới nhu cầu tìm kiếm của mình Trong trường hợp này, hệ thống tìm kiếm sẽ cốgắng trả về k tài liệu có độ tương đồng cao nhất so với truy vấn từ người dùng
Đề tài áp dụng phương pháp KNN để rút trích k tài liệu có độ tương đồngcao nhất với truy vấn của người dùng
Ví dụ sau đây minh họa cách thức hoạt động của phương pháp KNN
Hình 1.1: Minh họa tập dữ liệu gồm 2 lớp
Trang 21(Nguồn Đỗ Thanh Nghị (2017), Khai mỏ dữ liệu minh họa bằng ngôn ngữ
R, http://cit.ctu.edu.vn/~dtnghi/)
Hình 1.2: Minh họa tài liệu X được thêm vào tập dữ liệu
(Nguồn Đỗ Thanh Nghị (2017), Khai mỏ dữ liệu minh họa bằng ngôn ngữ
R, http://cit.ctu.edu.vn/~dtnghi/)
Hình 1.3: Minh họa các láng giềng gần nhất của tài liệu X
(Nguồn Đỗ Thanh Nghị (2017), Khai mỏ dữ liệu minh họa bằng ngôn ngữ
R, http://cit.ctu.edu.vn/~dtnghi/)
Giả sử ta có tập mẫu dữ liệu học ban đầu có 2 lớp (tròn, vuông) như ví dụtrong Hình 1.1 Giải thuật kNN không có quá trình học Khi có một phần tử dữliệu X mới đến cần dự đoán lớp, giải thuật đi tìm trong tập học k láng giềng (k =
Trang 225) của phần tử mới đến X để thực hiện dự đoán Lớp của phần tử mới đến Xđược dự đoán dựa vào luật bình chọn số đông từ các lớp của k láng giềng (trong
ví dụ thuộc hình 1.3, lớp của phần tử X được dự đoán là tròn)
Hình 1.3 thể hiện việc xác định các tài liệu tương đồng với X cũng chính làcác láng giềng gần nhất của X Như vậy, 4 tài liệu được ký hiệu hình tròn nhỏ và
1 tài liệu vuông được khoanh lại bởi hình tròn lớn là các tài liệu được đánh giá
là có độ tương đồng cao nhất với X
Thuật toán kNN áp dụng vào đề tài được mô tả như sau:
• Bước 1: Xác định giá trị tham số k (số láng giềng gần nhất)
• Bước 2: Để tính độ tương đồng giữa câu truy vấn từ người dùng với tậpcác tài liệu trong tập dữ liệu, độ đo cosine được sử dụng để tính độ tươngđồng giữa vector truy vấn và tập các vector đặc trưng của các tài liệu
• Bước 3: Sắp xếp theo chiều giảm dần của độ tương đồng và xác định kláng giềng gần nhất (k vector có độ tương đồng so với vector truyvấn) Lấy ra k tài liệu tương ứmg trả về cho người dùng)
b) Giải thuật tìm kiếm sử dụng mô hình túi từ BOW (Bag of Words)
Mô hình túi từ (bag-of-words) là một biểu diễn đơn giản hóa được sử dụngtrong xử lý ngôn ngữ tự nhiên và truy vấn thông tin (IR) Trong mô hình này,một văn bản (chẳng hạn như một câu hoặc một tài liệu) được thể hiện dưới dạngtúi (multiset) chứa các từ của nó, không quan tâm đến ngữ pháp và thậm chí trật
tự từ nhưng vẫn giữ tính đa dạng Mô hình túi từ cũng đã được sử dụng cho thịgiác máy tính
Mô hình túi từ thường được sử dụng trong các phương pháp phân loại tàiliệu trong đó sự xuất hiện (tần suất) của mỗi từ được sử dụng như một đặc trưng
để đào tạo máy phân loại
Bag of Words là một thuật toán hỗ trợ xử lý ngôn ngữ tự nhiên và mục đíchcủa BoW là phân loại text hay văn bản Ý tưởng của BoW là phân tích và phânnhóm dựa theo “Bag of Words”(corpus) Với test data mới, tiến hành tìm ra sốlần từng từ của test data xuất hiện trong “bag”
Trang 23Với một văn bản thì vector đặc trưng (feature vector) sẽ có dạng như thếnào? Hay nói cách khác, làm sao đưa các từ, các câu, đoạn văn ở dạng text trongcác văn bản về một vector mà mỗi phần tử là một số? Phương pháp phổ biếngiải quyết vấn đề này là mô hình túi từ BOW (Bag of Words).
Giả sử chúng ta có bài toán phân loại tin rác Ta thấy rằng nếu một tin cóchứa các từ khuyến mại, giảm giá, trúng thưởng, miễn phí, quà tặng, tri ân,… thìnhiều khả năng đó là một tin nhắn rác Vậy phương pháp đơn giản nhất là đếmxem trong tin đó có bao nhiêu từ thuộc vào các từ trên, nếu nhiều hơn 1 ngưỡngnào đó thì ta quyết định đó là tin rác (Tất nhiên bài toán thực tế phức tạp hơnnhiều khi các từ có thể được viết dưới dạng không dấu, viết tắt hoặc bị cố tìnhviết sai chính tả) Với các loại văn bản khác nhau thì lượng từ liên quan tới từngchủ đề cũng khác nhau Từ đó, có thể dựa vào số lượng các từ trong từng loại đểlàm các vector đặc trưng cho từng văn bản
Mô hình túi từ là một mô hình phổ biến cho biểu diễn dữ liệu văn bản [5].Quá trình trích đặc trưng của một văn bản bao gồm tách từ (word segmentation)
và đếm số lần xuất hiện của các từ trong văn bản Như thế, văn bản sẽ được biểudiễn dưới dạng véc-tơ tần số
Như vậy, mô hình túi từ là mô hình biễu diễn văn bản như vector tần sốxuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đềphân lớp văn bản thuộc lĩnh vực khoa học máy tính Trong đó, từ điển được tạothành từ tập tất cả các từ trong tập dữ liệu Mỗi tài liệu (có thể là câu, đoạn hoặcvăn bản) trong tập dữ liệu được biễu diễn dưới dạng vector đặc trưng, vector này
có số chiều bằng với số từ có trong từ điển Ví dụ, nếu tập dữ liệu có n từ thìvector của mỗi tài liệu trong tập dữ liệu sẽ có n chiều Vị Theo mô hình này, mỗi
từ (khác nhau) trong văn bản sẽ là một đặc trưng (feature) và tần số xuất hiệncủa nó trong văn bản là giá trị của đặc trưng tương ứng trí thành phần của vector
là tần số xuất hiện của từ trong tài liệu
Nghiên cứu của hai tác giả Đỗ Thanh Nghị và Phạm Nguyên Khang [5] đềxuất phân loại văn bản bằng mô hình túi từ và tập hợp mô hình máy học tự động
Trang 24dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ vàcác giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngâyngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫunhiên đơn giản (random oblique decision stump (rODS) Các giải thuật boostingmới đề được xuất dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơngiản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quảtập dữ liệu này Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phươngpháp đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạtđược chính xác 94.8%
Theo nghiên cứu của tác giả Đỗ Thanh Nghị và Trần Cao Đệ [4] kết hợpngữ nghĩa với mô hình túi từ để cải tiến giải thuật k láng giềng trong phân lớpvăn bản ngắn Các tác giả đã giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hìnhtúi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềngtrong phân lớp văn bản ngắn Kết quả thực nghiệm với tập dữ liệu thực cho thấyrằng các phương pháp của tác giả đề xuất cải thiện dự đoán lớp dương hơn 8%trong khi giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trongphân lớp văn bản ngắn
Ví dụ sau đây thể hiện cách hoạt động của mô hình túi từ
Chẳng hạn ta có tập dữ liệu văn bản như sau:
Bảng 1.1: Ví dụ về tập dữ liệu văn bản
Từ tập dữ liệu trong bảng 1.1 ta có từ điển:
điểm, chuẩn, ngành, luật, chỉ, tiêu, trúng, tuyển, các, xét, theo, học, bạ
Từ điển trên gồm có 13 từ, vậy nên mỗi tài liệu sau khi vector hóa sẽ có 13chiều Tần số xuất hiện của các từ được thể hiện trong bảng 1.2
Bảng 1.2: Biễu diễn tập dữ liệu bằng mô hình túi từ
Trang 25điểm chuẩn ngành luật chỉ tiêu trúng tuyển các xét theo học bạ
Ta có các vector từ các tài liệu trong bảng 2.2 như sau:
- Vector của tài liệu 1: (1,1,1,1,0,0,0,0,0,0,0,0,0)
- Vector của tài liệu 2: (0,0,1,1,1,1,0,0,0,0,0,0,0)
- Vector của tài liệu 3: (1,0,1,0,0,0,1,1,1,0,0,0,0)
- Vector của tài liệu 4: (0,0,0,0,0,0,0,1,0,1,1,1,1)
1.2.2 Ưu điểm của giải thuật KNN, BOW
a) Giải thuật KNN
K-nearest neighbor là một trong những thuật toán supervised-learning đơn
giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning Khi
training, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý
do thuật toán này được xếp vào loại lazy learning), mọi tính toán được thực hiện
khi nó cần dự đoán kết quả của dữ liệu mới
Ưu điểm của KNN:
• Dễ sử dụng và cài đặt
• Việc dự đoán kết quả của dữ liệu mới dễ dàng (sau khi đã xác định
được các điểm lân cận)
• Độ phức tạp tính toán của quá trình huấn luyện là bằng 0
• Không cần giả sử về phân phối của lớp
• Không cần giả sử gì về phân phối của các class
Nhược điểm của KNN
Trang 26• KNN nhiều dể đưa ra kết quả không chính xác khi k nhỏ.
• Cần thời gian lưu training set, khi dữ liệu training và test tăng lênnhiều sẽ mất nhiều thời gian tính toán
Như đã nói, KNN là một thuật toán mà mọi tính toán đều nằm ở khâu test.Trong đó việc tính khoảng cách tới từng điểm dữ liệu trong training set sẽ tốn rấtnhiều thời gian, đặc biệt là với các cơ sở dữ liệu có số chiều lớn và có nhiềuđiểm dữ liệu Với K càng lớn thì độ phức tạp cũng sẽ tăng lên Ngoài ra, việclưu toàn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng tới hiệu năng của KNN
b) Giải thuật BOW
Mô hình túi từ là một biểu diễn đơn giản được sử dụng trong xử lý ngônngữ tự nhiên và tìm kiếm thông tin Trong mô hình này, một văn bản được biểudiễn như là túi của các từ của nó, bỏ qua ngữ pháp và thậm chí cả thứ tự Ví dụ,
2 đoạn văn bản “ngành học A có điểm chuẩn cao hơn ngành học B” và “ngànhhọc B có điểm chuẩn cao hơn ngành học A” được biểu diễn giống nhau trong
mô hình túi từ
Theo mô hình túi từ, dữ liệu văn bản không có cấu trúc (độ dài khác nhau)được biểu diễn dưới dạng véc tơ tần số xuất hiện của từ trong văn bản Tập từvựng trong tập dữ liệu có thể lên đến hàng chục ngàn Tập các dữ liệu văn bảnđược chuyển về dạng một bảng có số cột (chiều, từ vựng) rất lớn [12]
Ưu điểm của BOW:
• Dễ sử dụng và cài đặt
• Việc biểu diễn dữ liệu dưới dạng véc tơ tần số xuất hiện dễ dàng và
có thể lưu trữ dữ liệu với số lượng lớn
• Độ phức tạp tính toán của thuật toán rất nhỏ
• Việc tìm kiếm và phân lớp văn bản dễ dàng
Trang 27Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồngnghĩa của từ, điều này làm giảm hiệu quả dự đoán trong quá trình tìm kiếmvăn bản.
1.2.3 Tích hợp hai giải thuật KNN, BOW
Như phân tích ở trên, mô hình túi từ là mô hình biểu diễn văn bản như véc
tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trongvấn đề phân lớp văn bản Tuy nhiên, nhược điểm của mô hình túi từ là khôngquan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớpdương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn
Do vậy để xây dựng phần mềm trả lời tư vấn tự động chúng tôi kết hợp giữa môhình túi từ để đưa ra câu trả lời đúng nhất của thí sinh khi hỏi đến Đồng thờichúng tôi tích hợp thêm giải thuật KNN để đưa ra được các câu hỏi có nội dungliên qua của thí sinh Như vậy sẽ giúp cho thí sinh khi tìm hiểu về 1 lĩnh vực nào
đó sẽ có nhiều thông tin tham khảo
1.3 Hệ thống trả lời tự động
1.3.1 Khái niệm hệ thống trả lời tự động
Với nhu cầu trao đổi thông tin của con người ngày càng cao, thông tin trànngập trên mọi phương tiện truyền thông, đặc biệt là sự phát triển rộng rãi củamạng toàn cầu Internet, hằng ngày con người phải xử lý một lượng thông tinkhổng lồ Những thắc mắc của người dùng dưới dạng truy vấn sẽ được tìm kiếm
và trả về một cách ngắn gọn, xúc tích, chính xác nhất những gì mà họ mongmuốn Đó chính là mục tiêu của hệ thống hỏi-đáp tự động Rất nhiều hệ thốnghỏi đáp thông tin qua mạng ra đời nhằm đáp ứng nhu cầu này
Hệ thống trả lời tự động là một hệ thống thông tin thông minh, được xâydựng nhằm tìm kiếm thông tin trả lời để xử lý một câu hỏi của người dùng theongôn ngữ tự nhiên dựa trên cơ sở dữ liệu sẵn có hoặc một tập hợp các văn bảnngôn ngữ tự nhiên Kỹ thuật xử lý ngôn ngữ tự nhiên (Natural LanguageProcessing), tìm kiếm thông tin (Information Retrieval) và trích rút thông tin(Information Extraction) được ứng dụng để xây dựng hệ thống này
Trang 28Các hệ thống này được chia ra làm hai loại: Hệ thống trả lời tự động lĩnhvực hẹp (Closed-domain Question Answering) và Hệ thống trả lời tự động lĩnhvực rộng (Open-domain Question Answering).
Hệ thống trả lời tự động lĩnh vực hẹp: hệ thống này liên quan đến các câuhỏi trong một lĩnh vực cụ thể và câu trả lời thường được trích xuất từ cơ sở dữliệu sẵn có Nó được coi là một nhiệm vụ đơn giản nhờ kỹ thuật xử lý ngôn ngữ
tự nhiên khai thác thông tin trong lĩnh vực đó
Hệ thống trả lời tự động lĩnh vực rộng: hệ thống này giải quyết các câu hỏiliên quan đến mọi thứ trong nhiều lĩnh vực Hệ thống thường nhận các câu hỏitheo ngôn ngữ tự nhiên và chuyển đổi chúng thành câu hỏi có cấu trúc Kỹ thuậttrích xuất từ khóa hoặc một phần kỹ thuật gắn thẻ giọng nói và phân tích cúpháp được sử dụng để xác định loại câu hỏi/ loại câu trả lời Sau đó, một hệthống truy xuất thông tin được sử dụng để tìm dữ liệu có chứa các từ khóa vàdịch câu trả lời thành văn bản có ý nghĩa
Hệ thống trả lời tự động (Chatbot) là một chương trình mô phỏng cuộc tròchuyện của một con người thông qua văn bản hoặc tương tác bằng giọng nói vớimáy Người dùng có thể yêu cầu chatbot một câu hỏi hoặc thực hiện một lệnh vàchatbot sẽ trả lời hoặc thực hiện các hành động được yêu cầu Mức độ chuẩn xác
và tự nhiên của câu trả lời phụ thuộc vào khả năng xử lý dữ liệu đầu vào cũngnhư độ phức tạp của thuật toán lựa chọn đầu ra của hệ thống
Trang 29Chatbot được sử dụng hỗ trợ việc trả lời các yêu cầu lặp đi lặp lại Khi cuộctrò chuyện trở nên quá phức tạp đối với một chatbot, nó sẽ được chuyển đến mộtnhân viên dịch vụ Các trợ lý ảo đang ngày càng được sử dụng rộng rãi để xử lýcác tác vụ đơn giản, giải phóng tác nhân của con người Điều này giúp tiết kiệmchi phí và cho phép các công ty cung cấp một dịch vụ tư vấn khách hàng liên tụcngay cả khi không có nhân viên tư vấn trực tiếp.
Chatbot là một hệ thống trả lời tự động thông minh, hay là một chươngtrình mô phỏng cuộc trò chuyện của con người thông qua văn bản hoặc bằnggiọng nói với máy Người dùng có thể yêu cầu một câu hỏi hoặc thực hiện mộtlệnh và chatbot sẽ trả lời hoặc thực hiện các hành động được yêu cầu Mức độchuẩn xác và tự nhiên của câu trả lời phụ thuộc vào khả năng xử lý dữ liệu đầuvào cũng như độ phức tạp của thuật toán lựa chọn đầu ra của hệ thống
Hiện nay nhu cầu sử dụng chatbot đang ngày càng tăng lên, nhất là trong các hệthống trực tuyến với số lượng lớn người dùng Các hệ thống chatbot có thể được
sử dụng để hỗ trợ hoặc thay thế cho nhân viên chăm sóc khách hàng trong một
số tác vụ tự động hoá Ví dụ, chatbot có thể tự động đưa ra câu trả lời cho kháchhàng về các dịch vụ mà doanh nghiệp cung cấp Sức nóng của chatbot hiện nayphần lớn là do những bước tiến vượt bậc trong ngành trí tuệ nhân tạo, nhất làtrong những lĩnh vực học máy, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên
Nhiều nhà nghiên cứu đã sử dụng các kỹ thuật học máy để xây dựngChatbot có khả năng hỗ trợ con người trò chuyện, nhắc nhở hay làm trợ lý côngviệc và có thể theo dõi tình trạng sức khỏe cá nhân mọi lúc, mọi nơi Rất nhiềucông ty lớn đã phát triển các trợ lý ảo có thể hiểu được ngôn ngữ tự nhiên củacon người và tương tác được với con người một cách tự nhiên hơn, nhằm làmtăng chất lượng và hiệu quả trong việc chăm sóc khách hàng, giúp khách hàng
có những trải nghiệm tốt nhất về sản phẩm và các dịch vụ mà họ được cung cấp
Trang 30Hình 1.4: Tổng quan Chatbot
1.3.2 Một số hệ thống trả lời tự động
Hiện nay, việc sử dụng hệ thống trả lời tự động trong các lĩnh vực ở trongnước và trên thế giới khá phổ biến
Từ những năm 1960, các hệ thống trả lời tự động đã được phát triển Năm
1961, hệ thống BASEBALL được nhóm tác giả Green, Chomsky, Laughery tại
Mỹ phát triển Hệ thống cung cấp các thông tin về các số liệu thống kê của liênđoàn bóng chày Mỹ Năm 1973, hệ thống LUNAR được phát triển bởi Woods cóthể trả lời các câu hỏi liên quan đến các mẫu đá trở về từ tàu thăm dò mặt trăngApollo Năm 1983, hệ thống TEAM được phát triển bởi Grosz giống như mộtchuỗi các biểu diễn ngữ nghĩa và một lược đồ phiên dịch Đây là những hệ thốngtrả lời tự động tiêu biểu được phát triển tại Mỹ trong thời kỳ đầu Tất cả đều sửdụng cơ sở dữ liệu để lưu trữ cơ sở tri thức, được các chuyên gia trong các lĩnhvực tương ứng thiết kế và xây dựng một cách thủ công Đến nay có rất nhiều cáccông ty lớn đã phát triển các hệ thống trả lời tự động để hiểu được ngôn ngữ tựnhiên của con người, tương tác với con người một cách tự nhiên nhằm tăng chấtlượng và hiệu quả trong việc chăm sóc khách hàng, giúp khách hàng có nhữngtrải nghiệm tốt nhất về sản phẩm và dịch vụ mà họ được cung cấp Một số ứngdụng điển hình như:
Trong các thiết bị dạng loa thông minh: Amazon Echo, Google Home,Apple Homepod
Trong các ứng dụng nhắn tin nhanh trên nền tảng của điện thoại thôngminh và web: Messenger của Facebook
Trang 31Tích hợp vào hệ điều hành di dộng như Siri của Apple trên các thiết bị iOS,các hệ điều hành máy tính như Cortana trên Microsoft Window.
Tích hợp vào điện thoại thông minh, tách rời khỏi hệ điều hành như Bixbytrên Samsung Note và Galaxy
Trong nước, hệ thống trả lời tự động cũng được ứng dụng rộng rãi trongcác lĩnh vực từ các doanh nghiệp, dịch vụ công của các cơ quan Nhà nước vàngay cả trong trường học
Các doanh nghiệp có thể sử dụng hệ thống trả lời tự động với mục đíchlàm trợ lý cá nhân, chăm sóc khách hàng, đặt chỗ, mua hàng, bán hàng tự động,
….Hệ thống trả lời tự động của FPTShop giúp khách hàng tìm kiếm thông tinsản phẩm, gửi thông báo về các chương trình khuyến mãi và hỗ trợ đặt muahàng trực tiếp nhanh chóng Ngân hàng Việt Á sử dụng hệ thống trả lời tự động
để tư vấn khách hàng các thông tin về lãi suất, tỷ giá, sản phẩm, biểu phí, quytrình mở thẻ,…Công ty VHT ứng dụng công nghệ xử lý ngôn ngữ tự nhiên củaFPT mở cho cộng đồng để phát triển hệ thống tự động liên hệ với khách hàng cókhả năng liên hệ 15.000 khách hàng trong vòng 1 giờ, tương đương với sức làmviệc của 500 người…
Không đứng ngoài công cuộc số hóa, các cơ quan Nhà nước cũng đã ứngdụng hệ thống trả lời tự động EVN Hà Nội ứng dụng hệ thống này để hỗ trợkhách hàng tra cứu tiền điện, lịch ghi chỉ số, lịch tạm ngừng cung cấp điện, đăng
ký cấp điện mới và nhiều dịch vụ hữu ích khác Sở Du lịch TP Đà Nẵng đã thíđiểm thành công hệ thống trả lời tự động Danang Fantasticity của Hakate giúptra cứu thông tin du lịch tự động trên tin nhắn Sở Giao thông TP Hồ Chí Minhcũng đã đưa vào sử dụng hệ thống này do FPT phát triển nhằm cung cấp và giảiđáp các thông tin về tình hình giao thông tới người dân Hiện đã có gần 60 nghìntài khoản thường xuyên tương tác với hệ thống này trên Zalo
Không chỉ có các doanh nghiệp, các dịch vụ công của cơ quan Nhà nướctăng cường ứng dụng hệ thống trả lời tự động, trong hệ thống giáo dục nóichung và các trường đại học, cao đẳng nói riêng hiện nay cũng đã có nhiều đề tàinghiên cứu và ứng dụng hệ thống này
Trang 32Với đề tài “nghiên cứu và xây dựng hệ thống trả lời tự động về tư vấntuyển sinh sau đại học tại trường Đại học Công nghiệp thực phẩm tp Hồ ChíMinh theo hướng học sâu” của nhóm tác giả tại trường Đề tài đã được ứng dụng
và giúp cho các đối tượng có nhu cầu tìm hiểu có thể tiếp cận được thông tintuyển sinh sau đại học một cách thuận tiện, nhanh chóng, liên tục mà không cầnphải tốn công đến trường tìm hiểu, không cần phải trực tiếp hỏi hoặc gọi điệnđến trường Trong hệ thống này, các tác giả sử dụng hai mô hình chủ đạo là phânloại ý định (Intent classification) và máy đọc hiểu văn bản (Machine readingcomprehension) Đồng thời, nhóm cũng đã xây dựng được hai kho ngữ liệu phục
vụ cho cộng đồng nghiên cứu về hệ thống này: kho ngữ liệu vi_SQuAD v1.1(được dịch từ kho ngữ liệu SQuAD của Đại học Stanford) và HUFI_PostGrad(được khởi tạo thủ công từ tài liệu Quy chế tuyển sinh sau đại học trường Đại họcCông nghiệp Thực phẩm) Kho dữ liệu được sử dụng cho quá trình huấn luyện vàkiểm tra kết quả của hệ thống
Năm 2015, tác giả Nguyễn Thái Nghe, Trương Quốc Định tại Đại học CầnThơ đã nghiên cứu về giải pháp xây dựng “hệ thống hỗ trợ tư vấn tuyển sinh đạihọc” Hệ thống này đề xuất sử dụng kỹ thuật máy học véctơ hỗ trợ (SupportVector Machines) vào xử lý văn bản và xử lý tin nhắn SMS trong hệ thống thôngtin di động Kết quả thực nghiệm trên tập dữ liệu thu thập được từ 447 câu hỏithuộc 8 lĩnh vực thường được nhiều thí sinh quan tâm cho thấy hệ thống đạt độchính xác 82,33% và độ chính xác này còn được cải thiện theo thời gian khi màlượng câu hỏi đủ lớn cho mô hình máy học
Ứng dụng hệ thống trả lời tự động trong hỗ trợ học tiếng Anh Một số hệthống như: Miki, Poli Bot, Sally Bot, Andy English, Acobot,…đã hỗ trợ ngườihọc luyện từ vựng, ứng dụng từ điển, trắc nghiệm, luyện kỹ năng nghe, kỹ năngđọc Tuy nhiên, các hệ thống gần như chưa hỗ trợ được người sử dụng trongviệc kiểm tra chính tả, ngữ pháp
Ngoài ra, còn rất nhiều các hệ thống ứng dụng cũng như các đề tài nghiêncứu trong nhiều lĩnh vực khác nhau Điều đó cho thấy, hệ thống trả lời tự động
đã và đang là một xu thế tất yếu
Trang 33Tiểu kết chương 1
Trong chương này, nhóm nghiên cứu đã trình bày tổng quan cơ sở lý thuyết
về tìm kiếm thống tin, hệ thống tìm kiếm thông tin, khai phá dữ liệu nhằm đápứng nhu cầu cần thiết của các tổ chức, cơ quan, công ty,…về phát hiện tri thức
từ các kho dữ liệu khổng lồ Khi người dùng cần truy vấn với một nhu cầu thôngtin nào đó với hệ thống tìm kiếm trong hệ thống sẽ trả về danh sách các tài liệuđược hệ thống xác định là phù hợp với nhu cầu của người dùng Các lý thuyết vềthuật toán tìm kiếm nói chung hay một số đặc điểm nổi bật của một số giải thuậttìm kiếm KNN và BOW cũng được nhóm nghiên cứu đề cập đến Cuối cùng, lýthuyết giới thiệu về hệ thống trả lời tự động (chatbot) cho thấy rõ ràng đây làmột công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày càng caocủa con người Như vậy, việc nghiên cứu để xây dựng một hệ thống trả lời tựđộng phục vụ cho việc tư vấn tuyển sinh tại Trường Đại học Công đoàn là mộtnhu cầu cần thiết Hướng tới mục tiêu này, ở Chương II, nhóm nghiên cứu sẽgiới thiệu việc ứng dụng giải thuật BOW để xây dựng một hệ thống trả lời tựđộng về việc tư vấn tuyển sinh tại Trường Đại học Công đoàn và thiết kế mộtphần mềm minh họa
Trang 34Chương 2: ỨNG DỤNG GIẢI THUẬT TÌM KIẾM XÂY DỰNG PHẦN MỀM TRẢ LỜI TƯ VẤN TUYỂN SINH TỰ ĐỘNG
TẠI TRƯỜNG ĐẠI HỌC CÔNG ĐOÀN 2.1 Thực trạng tư vấn tuyển sinh tại Trường Đại học Công đoàn
2.1.1 Tìm hiểu đề án tuyển sinh các năm của Trường Đại học Công đoàn
Trường Đại học Công đoàn là trường đại học đa ngành, đa lĩnh vực trựcthuộc Tổng Liên đoàn Lao động Việt Nam và chịu sự quản lý về chuyên môncủa Bộ Giáo dục và Đào tạo Trường vừa thực hiện chức năng đào tạo, bồidưỡng cán bộ cho tổ chức Công đoàn, vừa góp phần đào tạo nguồn nhân lựcchất lượng cao cho xã hội, từng bước khẳng định vị trí và uy tín trong xã hội Năm 2018, trường đã tiến hành tự đánh giá, đánh giá ngoài cơ sở giáo dụcđại học công lập thành công và được công nhận Trường đạt chuẩn Năm 2021,trường chủ động xây dựng kế hoạch tự đánh giá 09 chương trình đào tạo trình độđại học, cuối tháng 4/2022 trường đã hoàn thành công tác đánh giá ngoài chươngtrình đào tạo của Trường và là trường đầu tiên trong hệ thống giáo dục đại họchoàn thành công tác đánh giá ngoài tất cả các chương trình đào tạo của trường.Công tác tuyển sinh đóng vai trò quan trọng trong hoạt động của nhàtrường Việc thực hiện công tác tuyển sinh sẽ giúp người học làm quen và hiểubiết về một số ngành nghề đào tạo của nhà trường cũng như các điều kiện khácnhư: hệ đào tạo, khối thi, điểm đầu vào, điều kiện xét tuyển … nhằm tạo điềukiện thuận lợi để người học có thể lựa chọn ngành/nghề phù hợp phát triển tối đatiềm năng của bản thân bằng cách trau dồi sức khỏe, phát triển năng lực trí tuệ,bồi dưỡng các mối quan tâm, các thái độ, các giá trị đạo đức cũng như giá trịtinh thần đúng đắn; giúp nhà trường tuyển chọn được những sinh viên có tàinăng, kiến thức, kỹ năng và trình độ phù hợp với mục tiêu đào tạo của cácngành, nghề mà nhà trường đang đào tạo, nhằm giúp cho người học khi tốtnghiệp ra trường có thể lựa chọn cho mình một cách có ý thức nghề nghiệptương lai
Tư vấn tuyển sinh là tư vấn về sự hỗ trợ khách quan và cả cách nỗ lực chủquan trong quá trình tuyển sinh Mục tiêu của tư vấn tuyển sinh là giúp cho việc
Trang 35lựa chọn đúng ngành/nghề tránh chọn nhầm hướng và đi lầm đường.
Quảng bá, tư vấn là một trong những biện pháp nhằm đưa thông tin trực tiếphay gián tiếp đến với học sinh và những người có liên quan Muốn vậy, việcquảng bá, tư vấn phải được thực hiện bằng nhiều hình thức phong phú, đa dạng vàthường xuyên, qua việc tuyên truyền trên các kênh phát thanh, truyền hình; bằngcác pa-nô, áp-phích và đặc biệt là đưa các thông tin trực tiếp đến các học sinh.Các học sinh muốn tìm kiếm các thông tin hữu ích về các trường đại học,cao đẳng trong cả nước để tham gia thi tuyển Nhu cầu thông tin để các học sinhtham khảo thật sự cần thiết nhằm đảm bảo phù hợp với nhu cầu năng lực, sởthích,điều kiện kinh tế gia đình, điều kiện khoảng cách địa lý, giá trị bằng cấpcủa ngôi trường mình chọn đây là một nhu cầu rất thiết thực
Để đảm bảo thông tin đầy đủ và chính xác cần có một kho dữ liệu lớn vềthông tin tuyển sinh được cập nhật hằng năm, phân loại chính xác để cung cấpcho việc định hướng và tư vấn cho thí sinh, hỗ trợ cho thí sinh có hướng chọnđúng ngành nghề phù hợp
Theo số liệu thống kê từ 2019 - 2021, của phòng Đào tạo cho thấy số lượngđăng ký tuyển sinh hằng năm của trường đang có chiều hướng tăng rõ rệt Sốlượng học sinh đăng ký dự tuyển giữa các ngành/nghề được đào tạo trongtrường có sự chênh lệch nhau khá lớn giữa khối ngành kinh tế và khối ngành xãhội và ngành bảo hộ lao động
Bảng 2.3: Bảng Theo số đăng ký tuyển sinh từ 2019 – 2021
Trang 36Biểu đồ 2.1: Số lượng thí sinh đăng ký vào trường năm 2019 - 2021
Tính tới năm 2021, số lượng đăng ký ngành quản trị kinh doanh tăng401% so với năm 2019, ngành quản trị nhân lực tăng 344%, tài chính ngân hàng,
kế toán và quan hệ lao động đều tăng hơn 200%, ngành thấp nhất vẫn có tỷ lệtăng xấp xỉ 150% Điều này cho thấy nhà trường có những bước tiến khẳng định
vị thế của trường trên bản đồ các trường giáo dục đại học
Biểu đồ 2.2: Tỷ lệ thí sinh đăng ký tăng của các ngành
Hiện nay công tác tuyển sinh đại học, cao đẳng trong cả nước đều gặp rấtnhiều khó khăn Thực tế rất nhiều trường có những ngành không tuyển sinhđược Các trường đều có những hình thức tư vấn tuyển sinh khác nhau tới cáctrường phổ thông, các trường trung học cơ sở và các TT GDTX, tuy nhiên cũngkhông dễ thu hút được học sinh
Số lượng thí sinh đăng ký tăng nhưng số lượng trúng tuyển vào các ngànhkinh tế, luật bị giảm, nguyên nhân:
- Chỉ tiêu các ngành kinh tế giảm
- Điểm chuẩn tăng qua từng năm
Bảng 2.4: Số lượng thí sinh trúng tuyển vào các ngành
Trang 37Biểu đồ 2.3: Số lượng thí sinh trúng tuyển vào các ngành
Trong khi các ngành xã hội, quan hệ lao động và bảo hộ lao động số thísinh trúng tuyển có tăng lên, do điểm chuẩn của các ngành này khá thấp, điểmchuẩn vào trường trong khoảng từ15-18 điểm
Kỳ tuyển sinh năm 2022, Trường Đại học Công đoàn dự kiến có 4 phươngthức tuyển sinh: xét tuyển thẳng và ưu tiên xét tuyển; xét tuyển dựa vào kết quả
kỳ thi THPT 2022; xét tuyển dựa vào kết quả học tập bậc THPT (học bạ); xéttuyển theo đơn đặt hàng Đây là một điểm mới mang tính đột phá trong công táctuyển sinh của Trường [18]
Từ năm tuyển sinh 2022, Trường Đại học Công đoàn mở thêm 2 ngànhmới: Ngôn ngữ anh và du lịch Chương trình đào tạo cũng được bổ sung theohướng mô hình đào tạo chất lượng cao cụ thể nhà trường đang thực hiện vớingành Quản trị kinh doanh, sử dụng công nghệ số để đáp ứng yêu cầu chuẩnmực và hội nhập quốc tế
2.1.2 Thực trạng tư vấn tuyển sinh
Công tác truyền thông đóng vai trò quan trọng và cần thiết trong quảng báhình ảnh của Nhà trường nói chung cũng như công tác tuyển sinh nói riêng Sựphối kết hợp giữa phòng Đào tạo với trung tâm Truyền thông và Quan hệ côngchúng, Đoàn thanh niên và các đơn vị liên quan trong việc cung cấp kịp thời,đầy đủ, chính xác và thuận tiện để tra cứu ngành nghề đào tạo, thông tin tuyểnsinh đã giúp thí sinh hiểu, tin tưởng và lựa chọn tham gia đào tạo Trường Đạihọc Công đoàn
Qua truyền thông công tác tư vấn tuyển sinh được thực hiện sáng tạo, kếthợp giữa các kênh truyền thống với kênh mạng xã hội như facebook, zalo Hoạt động tư vấn tuyển sinh của nhà trường đã kết hợp giữa thông tin trênwebsite với fanpage tuyển sinh, tin nhắn messenger và các số điện thoại đăng kývới Bộ GD&ĐT, giúp thí sinh có thể tìm hiểu về tuyển sinh của Nhà trường mọilúc, mọi nơi Hoạt động tư vấn đảm bảo trả lời tất cả các câu hỏi cho đến khi thí
Trang 38sinh đã nắm rõ mọi thông tin cần thiết, nội dung tư vấn mang tính chất gợi mở
và phân tích làm nổi bật những thế mạnh của nhà trường chứ không chỉ là cungcấp thông tin Sự tận tâm và chuyên nghiệp trong công tác tư vấn giúp thí sinhhiểu rõ và yên tâm lựa chọn Trường Đại học Công đoàn
Tuy nhiên, hiện nay với việc đưa các câu hỏi thường gặp trên fanpage và tưvấn trực tiếp sẽ dẫn đến sự nghèo nàn trong quá trình tư vấn tuyển sinh và mấtrất nhiều thời gian, công sức của cán bộ giảng viên tham gia công tác tuyển sinhkèm theo đó là việc tư vấn này không xảy ra trong thời gian thực do đó làmgiảm tính tương tác của người học đối với cán bộ tuyển sinh Dưới đây là một sốthực trạng của cổng tư vấn tuyển sinh:
Một là, trang thông tin tuyển sinh của Trường Đại học Công đoàn tại địa chỉhttp://dhcd.edu.vn/ chỉ có: đề án tuyển sinh, thông tin tuyển sinh, thông tin trúngtuyển của các năm Chưa có danh mục các câu hỏi – câu trả lời thường gặp
Hai là, số lượng các câu hỏi của thí sinh hỏi về tư vấn tuyển sinh trùngnhau là rất nhiều, bởi vậy với phương thức trả lời câu hỏi qua điện thoại, hayfanpage sẽ dẫn đến lãng phí thời gian và công sức của người tư vấn
Ba là, với cách tư vấn tuyển sinh hiện nay của nhà trường chưa thực hiệnđược việc trả lời tức thời 24/7 Người hỏi vẫn phải chờ đợi câu trả lời trong khimột số thông tin có ít sự thay đổi trong khoảng 5-7 năm, chẳng hạn: địa điểmhọc tập, khu ký túc dành cho sinh viên, các quy định, quy chế tuyển sinh … nênđưa lên web để người hỏi có thể tham khảo ngay nội dung và không cần phải đợicâu trả lời
Bốn là, thông tin trên fanpage có thể bị trôi tin và số lượng câu hỏi, câu trảlời đưa lên fanpage cũng bị hạn chế dẫn đến khó khăn trong việc tra cứu, tìmkiếm thông tin
Với giải pháp như hiện nay, chúng ta thấy rõ ràng là rất lãng phí thời gian,nhân lực đã thực hiện công việc, ngoài ra tính tương tác thời gian thực bị hạnchế rất nhiều vì về bản chất của tư vấn là hỏi – đáp tức thời
2.2 Mô tả phần mềm trả lời tư vấn tuyển sinh tự động tại Trường Đại học Công đoàn
Trang 392.2.1.Quy trình xây dựng phần mềm
Trong đề tài này, nhóm nghiên cứu đề xuất một giải pháp xây dựng phầnmềm hỗ trợ tư vấn tuyển sinh tự động sử dụng kết hợp các kỹ thuật trong xử lývăn bản (xử lý ngôn ngữ tự nhiên) Thử nghiệm trên tập dữ liệu thu thập được từ
100 câu hỏi về tư vấn tuyển sinh của Trường Đại học Công đoàn
a Ngôn ngữ lập trình để viết phần mềm
Hiện nay, trong mảng phát triển phần mềm có rất nhiều các ngôn ngữ, công
cụ và thư viện có sẵn, giúp cho việc xây dựng các chương trình trở nên thuậntiện hơn Để xây dựng phần mềm, nhóm nghiên cứu sử dụng các ngôn ngữ vàthuật toán lập trình như sau:
C# là một ngôn ngữ lập trình đơn giản, được phát triển bởi đội ngũ kỹ sưcủa Microsoft C# là ngôn ngữ lập trình hiện đại, hướng đối tượng và được xâydựng trên nền tảng của hai ngôn ngữ mạnh nhất là C++ và Java
Net Framework là một công cụ hay một nền tảng lập trình hoạt động trên
hệ điều hành Windows và được sáng tạo bởi nhà Microsoft Net Framework chịutrách nhiệm điều khiển cho hệ thống phần mềm với chức năng chính là đảm bảo
an toàn, quản lý bộ nhớ và xử lý một số lỗi
C# với sự hỗ trợ mạnh mẽ của Net Framework giúp cho việc tạo một ứngdụng Windows Forms hay WPF (Windows Presentation Foundation), phát triểnứng dụng Web trở nên rất dễ dàng
FastText là một thư viện xử lý ngôn ngữ tự nhiên dựa trên các thuật toánhọc máy và học sâu Bộ phân loại văn bản của fastText là một trong những bộphân loại văn bản tiêu biểu có tốc độ huấn luyện nhanh so với các mô hình họcsâu khác trên cùng một tập dữ liệu và kết quả phân loại tương đối chính xácThuật toán BoW biểu diễn tập dữ liệu văn bản về cấu trúc bảng Bước tiền
xử lý này bao gồm việc phân tích từ vựng và tách các từ trong nội dung của tậpvăn bản, sau đó chọn tập hợp các từ có ý nghĩa quan trọng dùng để phân loại,biểu diễn dữ liệu văn bản về vector đặc trưng
Thuật toán KNN là một kĩ thuật học có giám sát (supervised learning)dùng để phân loại quan sát mới bằng cách tìm điểm tương đồng giữa quan sát
Trang 40mới này với dữ liệu sẵn có
Xây dựng phần mềm trả lời tự động tư vấn tuyển sinh bằng phương pháptìm kiếm thông tin văn bản dựa vào: thuật toán KNN và thuật toán BoW để trả
về những câu hỏi tương đồng cho các câu hỏi của thí sinh về tư vấn tuyển sinhmột cách nhanh chóng và kịp thời
b Các bước thiết kế chương trình
Bước 1: Thiết kế dữ liệu, thuật toán
• Dữ liệu: Bộ dữ liệu câu hỏi tuyển sinh
• Thuật toán sử dụng: BOW, KNN
Bước 2: Xây dựng tính năng, xây dựng hệ thống
• Xây dựng phần mềm xử lý dữ liệu tư vấn
• Xây dựng Web tư vấn online
Bước 3: Xây dựng giao diện
• Xây dựng các giao diện cần thiết