1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển hệ thống trả lời tự động các dịch vụ chăm sóc sinh viên bằng công nghệ Chatbot.pdf

82 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 5,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giới thiệuTrong những năm gần đây, khoa học kỳ thuật đã đạt được nhiều thành tựu nổi bật, đặc biệt là ngành công nghệ thông tin CNTT với nhiều ứng dụng vào các lĩnh vực trong đời sống củ

Trang 1

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

BÙI DUY TÂN

NGHIÊN CỨU PHÁT TRIÉN HẸ THÔNG TRẢ LỜI Tự ĐỘNG CÁC DỊCH vụ CHĂM SÓC SINH VIÊN

BẰNG CÔNG NGHỆ CHATBOT

LUẬN VĂN THẠC sĩ CÔNG NGHỆ THÔNG TIN

Tp Hồ Chí Minh - 2022

Trang 2

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

BÙI DUY TÂN

NGHIÊN CỨU PHÁT TRIÉN HỆ THỐNG TRẢ LỜI Tự ĐỘNG CÁC DỊCH vụ CHĂM SÓC SINH VIÊN

BẰNG CÔNG NGHỆ CHATBOT

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 8480201

LUẬN VĂN THẠC sĩ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẴN KHOA HỌC

TS NGƯYỀN KIM QƯỐC

Tp Hồ Chí Minh - 2022

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu cúa riêng cá nhân tôi đã được thực hiện dưới sự hướng dẫn của TS Nguyễn Kim Ọuốc Những kết quả đạt được trong luận văn này là sản phâm của riêng cá nhân, không sao chép của người khác Nội dung của luận văn có tham khảo và sứ dụng một số thông tin, tài liệu từ các nguồn sách, báo, tạp chí được liệt kê trong danh mục các tài liệu tham khảo

Tp HCM, tháng 2 năm 2022

TÁC GIẢ LUẬN VĂN

Bùi Duy Tân

Trang 4

Tp Hồ Chí Minh, tháng 2 năm 2022

Trang 5

MỤC LỤC

CHƯƠNG 1: TÒNG QUAN 1

1.1 G iới thiệu 1

1.2 Mục TIÊU NGHIÊN cứu 1

1.3 ĐÓI TUỢNG VÀ PHẠM VI NGHIÊN cứu 2

1.4 Cơ SỚ NGHIÊN CỨU 2

1.5 Phuong pháp nghiên C ứu 5

1.6 Ý NGHĨA THỰC TIÊN CỦA ĐỀ TÀI 5

CHƯƠNG 2: CÔNG NGHỆ CHATBOT 6

2.1. Chatbot LÀ Gì 6

2.2. Lịch sử phát trién của C hatbot 6

2.3 Chatbot hoạt động nhu thế nào? 7

2.4 CÁC nén tảng phát triền C hatbot 7

2.4.1 Microsoft Bot Framework [13] 7

2.4.2 Bot Framework Emulator 8

2.4.3 Wit ai 8

2.4.4 CÁC THU VIỆN DựA TRÊN NỀN TẢNG HỌC MÁY 9

CHƯƠNG 3: CÁC KỸ THUẬT - PHƯƠNG PHÁP VÀ MÔ HÌNH THựC NGHIỆM 10

3.1 Xử LÝ NGÔN NGỮ TỤ NHIÊN (NLP) 10

3.1.1 Khải niệm 10

3.1.2 Những bài toán cơ bán 10

3.2 M ột Số ứng dụng của NLP 11

3.3 NLP TRONG Chatbot 12

3.3.1 Phân loại ý định người dùng 12

3.3.2 Trích xuất thông tin 13

3.3.3 Quản lý hội thoại 13

3.4 Phuong pháp thục hiện 14

3.4.1 Tách từ 14

Trang 6

3.4.2 Mô hình tủi từ 15

3.4.3 Trọng sổ 15

3.4.4 Độ tương đồng Cosin 16

3.4.5 Phản loại văn bản 17

3.4.6 Deep Learning trong NLP [14] 19

3.4.7 NLƯ với Chatbot 24

3.5. Phương pháp đánh giá thực nghiệm 24

3.6 Mô HÌNH THỰC NGHIỆM 25

CHƯƠNG 4: HỆ THỐNG TRẢ LỜI Tự ĐỘNG CÁC DỊCH vụ CHĂM SÓC SINH VIÊN BẰNG CÔNG NGHỆ CHATBOT 28

4.1 MÔ TÀ BÀI TOÁN VÀ BỘ Dừ LIỆU 28

4.1.1 Mô tả bài toán 28

4.1.2 Bộ dữ liệu 29

4.2 YÊU CÀU HỆ THỐNG 31

4.3 CÁC GIAI ĐOẠN THỰC HIỆN 31

4.4 CÔNG NGHỆ Sừ DỤNG 3

4.5 MÔ TẢ QUY TRÌNH 33

4.5.1 Quy trình quán lý thông tin về Dịch vụ 33

4.5.2 Quy trình quản lý thông tin về Hoạt động 38

4.5.3 Quy trình quản lý thông tin về Người dùng 43

4.6 MÔ HÌNH ỨNG DỤNG 46

4.6.1 Sơ đồ chức năng 46

4.6.2 Mô hình Use Case 48

4.6.3 Sơ đồ lớp 55

4.6.4 Mô tả các bủng dữ liệu 55

4.7. Triên khai hệ thống 57

4.7.1 Trình tự thực hiện 5 7 4.7.2 Thực nghiệm và đánh giá kết quá 58

4.7.3 Cài đặt ứng dụng 63

Trang 7

CHƯƠNG 5: KÉT LUẬN VÀ HƯỚNG PHÁT TRIẺN 68

5.1 K ết luận 68 5.2 Hướng phát triên 68

Trang 8

DANH MỤC KÝ HIỆU VÀ VIẾT TẮT

Language

Ngôn ngừ trí tuệ nhân tạo

văn bản

hồi quy - RNN

toán xác suất

Trang 9

Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt

tự nhiên

văn bản

Trang 10

DANH MỤC HÌNH ẢNH

Hình 2.1: Hoạt động của Chatbot 7

Hình 2.2: Sơ đồ hoạt động của Wit.ai 9

Hình 3.1: Phân lớp dừ liệu với k láng giềng (k = 5) 18

Hình 3.2: Phân lóp rừng ngẫu nhiên 18

Hình 3.3: Phân lóp tuyến tính với học máy SVM 19

Hình 3.4: Mạng nơron đa tầng cho phân lớp 19

Hình 3.5: Mô hình mạng nơ-ron hồi quy - RNN 20

Hình 3.6: Mô hình LSTM 21

Hình 3.7: Word2Vector và 2 mô hình 22

Hình 3.8: Ví dụ về mô hình CBOW sinh kết quả dựa trên ngừ cảnh 22

Hình 3.9: Mô hình sequence-to-sequence sử dụng 2 mạng nơ-ron LSTM 23

Hình 3.10: Cơ chế Attention 23

Hình 3.11: Chatbot sử dụng NLP và công nghệ Machine learning 25

Hình 3.12: Tiến trình và các thành phần cơ bản của ML Chatbot 26

Hình 3.13: Hình ảnh minh họa hộp thoại Chatbot 27

Hình 3.14: Mô hình huấn luyện dừ liệu 27

Hình 4.1: Dừ liệu mẫu trong corpus về các vấn đề liên quan đến hoạt động hồ trợ sinh viên 30

Hình 4.2: Quy trình Thêm dịch vụ 33

Hình 4.3: Quy trình Sửa dịch vụ 34

Hình 4.4: Quy trình Xóa dịch vụ 35

Hình 4.5: Quy trình Thêm từ khóa dịch vụ 36

Hình 4.6: Quy trình Cập nhật từ khóa dịch vụ 37

Hình 4.7: Quy trình Thêm hoạt động 38

Hình 4.8: Quy trình Sửa hoạt động 39

Hình 4.9: Quy trình Xóa hoạt động 40

Hình 4.10: Quy trình Thêm hoạt động phụ 41

Hình 4.11: Quy trình Cập nhật hoạt động phụ 42

Hình 4.12: Quy trình Thêm người dùng 43

Trang 11

Hình 4.13: Quy trình Sửa người dùng 44

Hình 4.14: Quy trình Xóa người dùng 45

Hình 4.15: Sơ đo chức năng của hệ thống 46

Hình 4.16: Sơ đồ Use Case tổng quát 48

Hình 4.17: Sơ đồ Use Case quản lý dịch vụ 48

Hình 4.18: Sơ đồ Use Case quản lý hoạt động 49

Hình 4.19: Sơ đồ Use Case quản lý người dùng 49

Hình 4.20: Sơ đồ lớp các đối tượng 55

Hình 4.21: Mô hình tổng quát 58

Hình 4.22: Tập dừ liệu thu thập từ hệ thống 59

Hình 4.23: Tập dừ liệu 61

Hình 4.24: Tạo AI Bot Project 63

Hình 4.25: Màn hình cài đặt AI Bot Project trên Visual Studio 2019 64

Hình 4.26: Run AI Bot trên Browser 64

Hình 4.27: Run AI Bot với Bot Framework Emulator 65

Hình 4.28: Màn hình Live Chat của AI trên với Bot Framework Emulator 65

Hình 4.29: Thư viện ML.NET Model Builder của Visual Studio 2019 66

Hình 4.30: Tạo Machine Learning Model cho AI Bot 66

Hình 4.31: Màn hình chọn lựa ML Model 66

Hình 4.32: Màn hình chọn dừ liệu huấn luyện 67

Hình 4.33: Màn hình ứng dụng và Chatbot 67

Trang 12

DANH MỤC CÁC BẢNG

Bảng 3.1: Biểu diễn tập dừ liệu văn bản bằng mô hình túi từ 15

Bảng 4.1: Yêu cầu nghiệp vụ đổi với người dùng khách 47

Bảng 4.2: Yêu cầu nghiệp vụ đối với người dùng thường 47

Bảng 4.3: Yêu cầu nghiệp vụ đối với quản trị hệ thống 47

Bảng 4.4: Use Case Đặt câu hỏi 50

Bảng 4.5: Use Case Thêm dịch vụ 50

Bảng 4.6: Use Case Sửa dịch vụ 51

Bảng 4.7: Use Case Xóa dịch vụ 51

Bảng 4.8: Use Case Thêm hoạt động 52

Bảng 4.9: Use Case Sửa hoạt động 52

Bảng 4.10: Use Case Xóa hoạt động 53

Bảng 4.11: Use Case Thêm người dùng 53

Bảng 4.12: Use Case Sửa người dùng 54

Bảng 4.13: Use Case Xóa người dùng 54

Bảng 4.14: Bảng dichvu 55

Bảng 4.15: Bảng chitiet_dichvu 56

Bảng 4.16: Bảng tukhoa_dv 56

Bảng 4.17: Bảng hoatdong 56

Bảng 4.18: Bảng hoatdongphu 56

Bảng 4.19: Bảng chitiet_hoatdong 57

Bảng 4.20: Bảng users 57

Bảng 4.21: số lượng câu hỏi - trả lời trong bộ dừ liệu dự đoán và huấn luyện 60

Bảng 4.22: Tham số huấn luyện và giá trị 60

Bảng 4.23: số lượng hội thoại 61

Bảng 4.24: Mô tả dừ liệu dự đoán kết quả 62

Bảng 4.25: Đánh giá kết quả theo hướng dịch máy 63

Trang 13

Chương 1: TÓNG QUAN 1.1 Giới thiệu

Trong những năm gần đây, khoa học kỳ thuật đã đạt được nhiều thành tựu nổi bật, đặc biệt là ngành công nghệ thông tin (CNTT) với nhiều ứng dụng vào các lĩnh vực trong đời sống của con người, từ lao động sản xuất đến các hoạt động kinh tế, chính trị, xà hội, giáo dục Hiện nay, CNTT là một trong những ngành mũi nhọn và được ưu tiên hàng đầu ờ nước ta Song song với việc ứng dụng CNTT vào phát triển kinh tế, xã hội thì việc ứng dụng CNTT vào các hoạt động quản lý giáo dục - đào tạo cũng là xu hướng chung của các cơ sở giáo dục, hướng đến xây dựng một nền giáo dục bền vững và hiện đại trong thời kỳ hội nhập

Thực tể hiện nay, các thiết bị di động, máy tính, mạng Internet đã được người dùng sử dụng rộng rãi qua giao tiếp hàng ngày như tra cứu thông tin, tìm kiếm thông tin, các dịch vụ trực tuyến Điều này cũng đang dần thay đối hoàn toàn môi trường giáo dục trong phạm vi các cơ sở giáo dục đại học hiện đại Thông qua các hình thức tương tác trực tuyến, đặc biệt là các dịch vụ chăm sóc tự động, sinh viên có thế tiếp nhận hoặc phản hồi một cách nhanh chóng nhừng thông tin

hồ trợ cần thiết về các vấn đề liên quan đến đào tạo; học vụ; đời sống và định hướng nghề nghiệp

“Hệ thống trả lời tự động các dịch vụ chăm sóc sinh viên bằng công nghệ

trong môi trường giáo dục đại học hiện đại

1.2 Mục tiêu nghiên cứu

học máy tính vào lĩnh vực giáo dục - đào tạo theo công nghệ xử lý ngôn ngữ tự nhiên - NLP đê trả lời tự động các câu hỏi cùa sinh viên khi tìm hiêu thông tin hoặc thực hiện thủ tục liên quan đến đào tạo; học vụ; đời sổng và định hướng nghề nghiệp;

Trang 14

- Xây dựng ứng dụng tự động trả lời các câu hởi của sinh viên;

- Xây dựng CSDL bộ câu hỏi liên quan từ hệ thống dừ liệu của chuyên gia (các phòng, ban, khoa và các bộ phận liên quan của một trường đại học);

duy nhất trên mạng nhằm thống nhất việc cung cấp thông tin, hồ trợ sinh viên, giám sát, đánh giá dịch vụ hồ trợ sinh viên và tiếp nhận, xử lý phản ánh, kiến nghị

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

- Mô hình thực hiện dịch vụ chăm sóc sinh viên liên quan đến xử lý ngôn ngừ tự nhiên - NLP

1.4 Cơ sở nghiên cứu

Nghiên cứu khoa học ngoài nước

Trên thế giới đà có nhiều tài liệu liên quan đến phân tích ngừ nghĩa như: Phân lóp tự động văn bản cúa s Fabrizio [6] thực hiện gán nhãn cho từng văn bản theo chú đề đã được định nghĩa trước dựa vào nội dung của văn bản; truy hồi thông tin của C.D Manning, p Raghavan and H Schiitze [1], hỏi đáp tự động, Chatbot và xử lý ngôn ngữ tự nhiên của D Jurafsky and J-H Martin [2]

Cách tiếp cận phân lớp tự động văn bản của s Dumais, J Platt, D Heckerman and M Sahami [5], D-D Lewis and W-A Gale [3] biểu diền văn bản bằng mô hình túi từ (Bag-of-Words - BoW) và huấn luyện mô hình phân lóp của

Trang 15

X Wu and V Kumar [7].

Trong công bo của D Jurafsky and J-H Martin [2], lĩnh vực hỏi đáp và Chatbot nghiên cứu các mô hình tương tác giữa máy tính với người dùng bằng các đoạn đối thoại thông minh tự động sử dụng ngôn ngừ tự nhiên Hỏi đáp và Chatbot ngày càng trở nên phố biến và được xây dựng như một trợ lý ảo trong rất nhiều lĩnh vực và nhiều khía cạnh trong cuộc sống như là trợ lý sức khoẻ, trợ lý giáo dục, trợ lý bảo tàng

Tiếp cận dựa trên tập <câu hói, trả lời> và các luật đã tạo sẵn

Phương pháp phố biến trong việc xây dựng các ứng dụng cho hỏi đáp của Chatbot là tạo các bộ tập câu dữ liệu đầu vào được dự đoán trước và câu trá lời tương ứng với dừ liệu đầu vào Các câu giao tiếp đổi thoại của người dùng sè được

so sánh với các tập dữ liệu mặc định đế tìm ra mầu câu trả lời phù hợp nhất

Một trong những cách tạo ra các tập câu hỏi trả lời là dựa trên AIML - một ngôn ngữ giống như XML AIML cho phép hỏi đáp, Chatbot tạo ra các chú đề và các tập dữ liệu theo chú đề đó

Gần đây nhất, trong hội thảo quốc tế được tổ chức vào năm 2019 tại Amsterdam - Hà Lan về chú đề “Chatbot Research and Design” (Third International Workshop, CONVERSATIONS 2019 Amsterdam, The Netherlands, November 19-20) Các tác giả thuộc University of Goettingen - Germany và Aristotle University of Thessaloniki - Greece đã trình bày một so nghiên cứu cũng như ứng dụng thực tiền cứa Chatbot trong lĩnh vực giáo dục [9],

Nghiên cứu khoa học trong nước

Công trình nghiên cứu “Ve xử lý tiếng Việt trong công nghệ thông tin” của GS.TS Hồ Tú Báo và PGS.TS Lương Chi Mai thuộc Viện Công nghệ Thông tin [8] đã đề cập đến tình hình nghiên cứu về xử lý ngôn ngừ nói chung, cũng như nhừng nội dung và khó khăn trong xứ lý tiếng Việt (văn bản và tiếng nói)

Công trình nghiên cứu của Nguyền Thanh Tuấn [4] đề xuất xây dựng hệ

Trang 16

thống hỏi đáp tự động cho câu hòi định nghĩa trong Y khoa Hệ thống hỏi đáp tự động cho câu hỏi định nghĩa có 3 thành phần: phân tích câu hỏi, tìm kiếm tài liệu

và trích chọn câu trả lời Thành phần phân tích câu hỏi dựa vào cú pháp ngừ pháp của câu hỏi được định nghĩa trong ngôn ngừ tiếng Anh đế phân tích và trích ra các thuật ngừ trong câu hỏi Thành phần tìm kiếm tài liệu có liên quan đến thuật ngừ cần định nghĩa và trả về một tập các tài liệu có độ liên quan được sắp xếp giảm dần với máy học SVM Thành phần trích chọn câu trả lời là quá trình xử lý dựa trên kết quả tìm kiếm đế trích ra câu trả lời có độ liên quan cao nhất với câu hỏi trong tập kết quả tìm kiếm đê trả lời câu hói người dùng

Thành phố Đà Nằng đã đưa Chatbot vào trong du lịch với tên gọi ủng dụng Chatbot “Danang Fantasticity” Chatbot thường xuyên được cập nhật thông tin du lịch đầy đù bao gồm các chuyên mục: Điêm tham quan, sự kiện, trải nghiệm, nơi lưu trú, tình hình thời tiết tại Đà Nằng trong vòng 3 ngày và những thông tin du lịch cần biết (nhà vệ sinh công cộng, vị trí các cây ATM, số điện thoại đường dây nóng ) Bên cạnh đó, tông đài 1022 của Công dịch vụ công trực tuyến Đà Nằng trực tiếp trả lời, giải đáp thủ tục liên quan đến người dân và doanh nghiệp

Vào tháng 6/2020, Bộ Thông tin và Truyền thông đã tổ chức giới thiệu hai nền tảng công nghệ VAIS [10] của Công ty cố phần Giải Pháp Trí thông minh Nhân tạo Việt Nam và VBEE [11] cúa Công ty cổ phần dịch vụ và giải pháp xử

lý dữ liệu Vbee Đây là các nền tảng so “Make in Vietnam” nhằm thực hiện

“Chương trình chuyến đôi số quốc gia đến năm 2025, định hướng đến năm 2030”

đã được Thủ tướng Chính phủ phê duyệt VAIS và VBEE là hai công nghệ lõi trong nền tảng công nghệ xứ lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo tiên phong tại Việt Nam Với chiều sâu nghiên cứu về công nghệ nói chung và đặc thù ngôn ngữ tiếng Việt nói riêng, công nghệ của VAIS Và VBEE đã giải quyết triệt

đế được nhừng vấn đề mà các giải pháp nước ngoài chưa khắc phục được dành cho tiếng Việt

Trang 17

1.5 Phuong pháp nghiên cứu

- Tìm hiếu quy trình nghiệp vụ của các phòng, ban, khoa, bộ phận liên quan đến đối tượng sinh viên

- Tống hợp các câu hỏi thường gặp của sinh viên khi thực hiện tìm hiếu thông tin hoặc thực hiện thú tục liên quan

- Nghiên cứu các tài liệu có liên quan đến lĩnh vực nghiên cứu phân lóp tự động văn bản, hỏi đáp tự động, Chatbot, xử lý ngôn ngừ tự nhiên Đồng thời đề

ra những cải tiến cho phù hợp với ứng dụng mà luận văn đang hướng tới và định hướng phát triên trong tương lai

- Phân tích các các mà nguồn mở liên quan đến đề tài làm cơ sở thực hiện lại cho phù hợp với nhu cầu của đề tài

Đe tài đề cao tính ứng dụng Ngoài việc triển khai ứng dụng thực tế cụ thê tại Cống thông tin của một trường đại học, thì nó có thế phát triên thành một số ứng dụng khác như nhận dạng và chuyến tiếng nói sang văn bản cũng như ngược lại Bên cạnh đó, mô hình ứng dụng cũng có the được nhân rộng trên phạm vi các

cơ sở giáo dục được định hướng “số hóa” theo xu hướng hiện đại ngày nay

Trang 18

Chương 2: CÔNG NGHỆ CHATBOT

Chương này giới thiệu các khái niệm về Chatbot, lịch sử phát triến, phương thức hoạt động và các nền tảng phát triển Chatbot

Chatbot là một chương trình được tạo ra từ máy tính, là một công cụ có thê giao tiếp, tương tác với con người thông qua một trí tuệ nhân tạo đà được lập trình sằn Trong đa số các trường họp thì Chatbot được sử dụng qua ứng dụng nhắn tin

đế nói chuyện với con người Nó có khả năng trả lời những câu hởi mà người dùng đưa ra, thông thường lúc ban đầu thì nó sẽ dựa vào nhừng từ khóa trong câu hỏi của người dùng đê trả lời và dần dần nó sè học hỏi được thêm từ trải nghiệm người dùng và làm nhừng cuộc trò chuyện tiếp xúc với con người trở nên cá nhân hơn, giống thật hơn Chatbot thường được chia thành 2 loại theo cách mà chúng tương tác với người dùng: âm thanh (Audiotory) và tin nhắn (Textual)

Chatbot đầu tiên ra đời năm 1966, tên là Eliza, và là một chương trình máy tính của Joseph Weizenbaum (Viện Công nghệ Massachusetts, Mỳ) Thực ra Eliza

là nồ lực của Joseph nhằm tạo ra một liệu pháp điều trị tâm lý mới bằng máy tính Đây là chương trình giả làm bác sĩ tâm lý, có thế trả lời những câu hỏi đơn giản Neu câu nào không hiếu, máy sẽ lấy một từ khóa trong câu cúa bệnh nhân và bảo

họ giải thích thêm Mặc dù có sự hạn chế về nhiều mặt, Eliza vần được xem là tiền đề đế có thể phát triên Chatbot như ngày nay

Neu năm 2016, mọi người vần còn khá bỡ ngỡ với Chatbot thì nay nó đã thật sự gây được tiếng vang và tạo nên một cơn sốt công nghệ chưa từng có trong

kỷ nguyên công nghệ 4.0 và trong thập niên kế tiếp hứa hẹn sè là một sự bức phá mạnh mè của Chatbot

Trang 19

2.3 Chatbot hoạt động như thế nào?

Chatbot tương tác với con người bằng âm thanh hoặc văn bản và qua các platform

- Translator: Dịch yêu cầu cùa user, giúp máy tính hiếu được yêu cầu mình cần thực hiện quyết định việc Chatbot có thông minh hay không

- Processor: Xử lý yêu cầu, thành phần này giúp khả năng của Chatbot không bị giới hạn, máy tính làm được gì thì Chatbot cũng làm được như vậy

- Respondent: Nhận output và đóng gói gửi trả lại kết quả cho người dùng

2.4.1 Microsoft Bot Framework [13]

Microsoft Bot Framework là một nền tảng đế xây dựng, kết nối, thử nghiệm

và triến khai những Chatbot mạnh mè và thông minh Microsoft Bot Framework bao gồm các phần sau:

- Bot Builder SDK: Bộ công cụ được chia sẻ trên GitHub dưới dạng mã nguồn mở theo giấy phép MIT này sẽ cung cấp tất cả mọi thứ bạn cần đê xây dựng Chatbot bằng Node.js, NET hay REST API - Bot Framework Developer Portal: Cho phép bạn kết noi Chatbot của mình tới Skype, Slack, Facebook Messenger, những kênh giao tiếp phố biến khác Đơn

Trang 20

giản chỉ việc đăng ký Bot, chọn kênh giao tiếp và đưa lên Bot Directory.

- Bot Emulator: là một ứng dụng cho phép các nhà phát triên Bot kiêm tra

và gờ lồi chương trình cùa họ, cục bộ hoặc từ xa Với Bot Framework Emulator, bạn có thê trò chuyện với Bot của mình và kiêm tra các thông điệp mà Bot của bạn gửi và nhận Bot Framework Emulator hiên thị các tin nhắn như khi người dùng chúng xuất hiện trên giao diện web chat và ghi lại các hoạt động khi bạn trao đổi với Bot

- Bot Connector Service: có service sè giúp bạn kết nối được với Bot cúa bạn thông qua việc thiết lập các kênh giao tiếp channel

- Bot Directory: là một thư mục cộng đồng chứa tất cả những Bot đã được kiếm duyệt đăng ký thông qua Developer Portal và người dùng có thế trải nghiệm, khám phá nhừng Bot có sẵn hoặc bô sung thêm Bot mà mình phát triên vào Bot Directory

(Postgress, Oracle, MySQL, ) đóng vai trò là nơi lưu trừ và truy vấn dữ liệu

2.4.2 Bot Framework Emulator

Bot Framework Emulator là một ứng dụng cho phép các nhà phát triến Bot kiêm tra và gờ lồi chương trình cùa họ, thuộc phạm vi cục bộ hoặc từ xa Với Bot Framework Emulator, bạn có the trò chuyện với Bot của mình và kiểm tra các thông điệp mà Bot của bạn gửi và nhận Bot Framework Emulator hiên thị các tin nhắn khi người dùng xuất hiện trên giao diện web chat và ghi lại các hoạt động khi bạn trao đối với Bot

Wit.ai (đà sáp nhập với Facebook) là một nền tảng ngôn ngừ tự nhiên cho các nhà phát triển Wit.ai cung cấp AI như một dịch vụ Ngoài việc sử dụng nó như là một nền tảng đe xây dựng Chatbot, các nhà phát triển cũng có thế sử dụng

Trang 21

nó đế xây dựng các ứng dụng cho thiết bị di động, các hệ thống tự động hóa trong nhà, thiết bị đeo và robot Wit.ai cho biết hãng hiện đang có 45.000 nhà phát triến

từ khắp nơi trên thế giới

So với các nền tảng khác, wit.ai nổi bật hơn nhờ việc đã hồ trợ 77 ngôn ngừ, trong đó có tiếng Việt, ngoài ra đây cũng là nền tảng hoàn toàn miễn phí và không có giới hạn sử dụng Hiện tại, wit.ai chi hồ trợ việc phân tích cú pháp ngữ nghĩa (Semantic parsing), tuy nhiên kết quả trả về sau phân tích đã chứa tất cả thông tin cần thiết đế Bot hiếu được yêu cầu của người dùng

Hình 2.2: Sơ đồhoạt động của Wit.ai

- Thư viện NLTK đe thực hiện bước tách từ và biểu diễn các câu hỏi theo

mô hình túi từ

- Thư viện LIBLINEAR được sứ dụng đế huấn luyện mô hình học máy SVM tuyến tính

- Thư viện Scikit-leam được sử dụng đế tạo bộ phân lớp kNN

- Chương trình huấn luyện mạng nơron nhiều tầng sứ dụng thư viện Tensorflow/Keras

việc nhận dạng chuyến đối câu hỏi dạng âm thanh ra câu hỏi dạng vãn bản và tông họp tiếng nói của câu trả lời dạng văn bản

- Ngôn ngừ lập trình c#, Java, Python dùng đế cài đặt mô hình huấn luyện

Trang 22

Chương 3: CÁC KỸ THUẬT - PHƯƠNG PHÁP VÀ MÔ HÌNH

THỰC NGHIỆM 3.1 Xử lý ngôn ngữ tự nhiên (NLP)

3.1.1 Khái niệm

Xử lý ngôn ngữ tự nhiên (NLP) ra đời từ những năm 1940, là một nhánh của Trí tuệ nhân tạo, tập trung vào việc nghiên cứu sự tương tác giữa máy tính và ngôn ngữ tự nhiên của con người Mục tiêu của lĩnh vực này là giúp máy tính hiếu

và thực hiện hiệu quả nhừng nhiệm vụ liên quan đến ngôn ngừ của con người như: tương tác giữa người và máy, cải thiện hiệu quả giao tiếp giừa con người với con người, hoặc đon giản là nâng cao hiệu quả xử lý văn bản và lời nói

3.1.2 Những bài toán cơ bản

Phân tích ngôn ngữ là bài toán cơ bản nhất trong quá trình xử lý ngôn ngừ

tự nhiên, phạm vi phân tích bao gồm:

hình vị trong một ngôn ngừ cho trước và các đơn vị ngôn ngừ khác, như từ gốc, biên từ, phụ tố, từ loại, Có hai loại bài toán điên hình trong phần này, bao gồm bài toán tách từ (word segmentation) và gán nhàn từ loại (POS)

ngôn ngữ tự nhiên hoặc ngôn ngữ máy tính, tuân theo văn phạm hình thức Văn phạm hình thức thường dùng trong phân tích cú pháp cùa ngôn ngừ tự nhiên bao gồm:

Đầu vào của quá trình phân tích là một câu gồm một chuồi từ và nhãn từ loại của chúng, và đầu ra là một cây phân tích thế hiện cấu trúc cú pháp của câu

Trang 23

đó Các thuật toán phân tích cú pháp phô biến bao gồm CKY, Earley, Chart, và GLR.

từ, mệnh đề, câu và đoạn đến cấp độ toàn bài viết, với ý nghĩa độc lập cũa chúng Nói cách khác, việc này nhằm tìm ra ngừ nghĩa của đầu vào ngôn từ Phân tích ngừ nghĩa bao gồm hai mức độ: Ngữ nghĩa từ vựng biếu hiện các ý nghĩa của nhùng từ thành phần, và phân biệt nghĩa của từ; Ngữ nghĩa thành phần liên quan đến cách thức các từ liên kết đê hình thành những nghĩa rộng hơn

- Phân tích diễn ngôn: Ngừ dụng học là môn nghiên cứu về mối quan hệ giữa ngôn ngừ và ngữ cảnh sử dụng (context-of-use) Ngừ cảnh sử dụng bao gồm danh tính cúa người hoặc vật, và vì thế ngữ dụng học bao gồm những nghiên cứu

về cách ngôn ngừ được dùng đế đề cập (hoặc tái đề cập) tới người hoặc vật Ngữ cảnh sử dụng bao gồm ngừ cảnh diền ngôn, vì vậy ngừ dụng học cũng bao gồm nhừng nghiên cứu về cách thức cấu tạo nên diễn ngôn, và cách người nghe hiếu người đang đối thoại với mình

Bài toán thứ hai của NLP là sinh ngôn ngừ tự nhiên (NLG) Đây là một nhiệm vụ trong quá trình xứ lý ngôn ngừ tự nhiên trong việc sinh ra ngôn ngữ tự nhiên từ một hệ thống máy biếu diễn như một cơ sở tri thức hoặc một dạng biểu diễn logic NLG đóng vai trò quan trọng trong rất nhiều ứng dụng NLP, bao gồm sinh hội thoại, tương tác người - máy, dịch thuật máy, và tóm tắt văn bản tự động

3.2 Một số ứng dụng của NLP

liệu dưới dạng không có cấu trúc (thường là văn bản) đáp ứng nhu cầu về thông tin từ nhừng nguồn tông hợp lớn Những hệ thống truy xuất thông tin phổ biến nhất bao gồm các công cụ tìm kiếm như Google, Yahoo, hoặc Bing search

dạng ngôn ngừ tự nhiên bằng cách truy xuất thông tin từ một tập hợp tài liệu Một

hệ thống QA đặc trưng thường bao gồm ba mô đun:

Trang 24

J Module xử lý truy vấn (Query Processing Module) - tiến hành phân loại câu hỏi và mở rộng truy vấn

xuất thông tin đế tìm ra tài liệu thích hợp

trả lời từ tài liệu đã được truy xuất

hóa một phần hoặc toàn bộ quá trình dịch từ ngôn ngừ này sang ngôn ngừ khác Các phương pháp dịch máy phổ biến bao gồm:

3.3 NLP trong Chatbot

3.3.1 Phân loại ý định người dùng

Thông thường, người dùng thường truy cập hệ thống Chatbot với mong muốn hệ thống sẽ đưa ra những hành động trợ giúp mình về một vấn đề nào đó

Ví dụ, người dùng của hệ thống Chatbot trả lời trực tuyến một cửa có thế đưa ra câu hỏi về một “thú tục hành chính” nào đó khi bắt đầu cuộc hội thoại Đe có thê đưa ra hồ trợ một cách chính xác, Chatbot cần xác định được ý định (intent) của người dùng Việc xác định ý định của người dùng sẽ quyết định hội thoại tiếp theo giữa người và Chatbot sè diền ra như thế nào Vì thế, nếu xác định sai ý định người dùng, Chatbot sẽ đưa ra nhừng phản hồi không đúng, không hợp ngữ cảnh

Vì vậy, bài toán xác định ỷ định người dùng đóng vai trò rất quan trọng trong hệ thống Chatbot Đe xây dựng một mô hình phân lớp intent, chúng ta cần một tập

dừ liệu huấn luyện bao gồm các cách diền đạt khác nhau cho mồi intent

Ví dụ, cùng một mục đích hỏi về quy trình “đăng ký học phần”, người dùng

có thể dùng nhừng cách diễn đạt sau:

Trang 25

- Quy trình đăng ký học phần có bao nhiêu thú tục?

- Quy trình đăng ký học phần gồm nhùng thú tục gì?

- Có những thú tục nào trong quy trình đăng ký học phần?

- Đăng ký học phần có những thủ tục nào?

- Đăng ký học phần có bao nhiêu thủ tục?

Có thế nói, bước tạo dừ liệu huấn luyện cho bài toán phân lóp intent là một

hưởng lớn tới chất lượng sản phẩm của hệ thống Chatbot về sau Công việc nàyđòi hỏi thời gian, công sức khá lớn

3.3.2 Trích xuất thông tin

Bên cạnh việc xác định intent trong câu hội thoại cúa người dùng, chúng ta cần trích xuất các thông tin cần thiết trong đó Các thông tin cần trích xuất trong một câu hội thoại thường là các thực thế thuộc về một loại nào đó

Đầu vào của một module trích xuất thông tin là một câu hội thoại Module trích xuất thông tin cần xác định vị trí cúa các thực thể trong câu (vị trí bắt đầu và

vị trí kết thúc của thực thế)

Ví dụ minh họa một câu hội thoại và các thực thế được trích xuất:

- Câu hội thoại: Quy trình đăng ký học phần có bao nhiêu bước thực hiện?

- Các thực thế được xác định: [Quy trình đăng ký học phần]quytrinh có [bao nhiêu]soiuong [bước thực hiện]cachthuc?

3.3.3 Quản lý hội thoại

Trong các cuộc hội thoại dài (long conversation) giừa người và Chatbot, Chatbot sè cần ghi nhớ nhừng thông tin về ngữ cảnh (context) hay quản lý các trạng thái hội thoại (dialog State), vấn đề quản lý hội thoại (dialoge management) khi đó là quan trọng đế đảm bảo việc trao đối giữa người và máy là thông suốt

Trang 26

Chức năng của thành phần quản lý hội thoại là nhận đầu vào từ thành phần NLU, quản lý các trạng thái hội thoại (dialogue State), ngữ cảnh hội thoại (dialogue context), và truyền đầu ra cho thành phần sinh ngôn ngừ NLG Ví dụ module quản lý dialogue trong một Chatbot trả lời trực tuyến một cửa cần biết khi nào người dùng đã cung cấp đủ thông tin để phản hồi lại người dùng Hiện nay, các sản pham Chatbot thường dùng mô hình máy trạng thái hừu hạn (Finite State Automata - FSA), mô hình Frame-based (Slot Filling), hoặc kết hợp hai mô hình này.

3.4 Phương pháp thực hiện

3.4.1 Tách từ

Tách từ là một bước quan trọng không thế thiếu trong việc tiền xứ lý dừ liệu, nhằm xác định các từ có trong văn bản Trong tiếng Anh, các từ được tách biệt với nhau bởi khoảng trắng, do đó việc tách từ rất đơn giản Trong tiếng Việt, các từ không được tách biệt bởi khoảng trắng mà phụ thuộc rất nhiều vào ngữ cảnh cua câu trong tiếng Việt và các từ đơn hay đa âm tiết Điều này gây khó khăn cho việc tách từ tự động một cách chính xác và làm ảnh hưởng đến kết quả của các bài toán phân tích dữ liệu văn bản

Sau khi tách từ trong từng văn bản, các từ viết hoa sè được chuân hóa thành các ký tự thường đê đông nhât cùng một dạng từ trong từng văn ban đê tăng độ chính xác trong việc tiền xứ lý dừ liệu Tần suất xuất hiện của từ được xác định bằng trọng số TF*IDF

Ví dụ minh họa tách từ trong văn bản

“Cấp giấy xác nhận sinh viên” -> cấp giấy xác nhận_sinh viên

Các từ trong văn bản có mức độ quan trọng khác nhau đối với văn bản và

cả trong phân loại văn bản Một số từ như từ nối giừa các câu, từ chỉ số lượng

dừng (stopword) không mang tính phân biệt trong khi phân loại cần được loại bỏ

Trang 27

trước khi xử lý.

Có nhiều phương pháp loại bỏ stopword như:

- Dùng một danh sách các stopword

Sau khi loại bỏ các stopword, văn bản có thê xem như là một tập hợp các đặc trưng gồm các từ “quan trọng” còn lại để biếu diễn văn bản

3.4.2 Mô hình túi từ

Túi từ (Bag of Words - BoW) là một mô hình được sử dụng trong xử lý ngôn ngừ tự nhiên với mục đích là phân loại tài liệu Đe xây dựng mô hình túi từ, các văn bản sau khi tách từ và được loại bỏ từ dừng phải được mô tả dưới dạng báng đế từ đó các giải thuật máy học có thê xử lý được Đồng thời câu hỏi được biếu diễn dạng véc-tơ (có n thành phần, chiều) mà giá trị thành phần thứ j là tần

số xuất hiện từ thứ j trong văn bán Neu xét tập Q có m thủ tục và từ dien D có n

từ vựng, thì Q có thế được biêu diễn thành bảng có kích thước mxn, dòng thứ i của bảng là véc-tơ biếu diễn văn bản thủ tục thứ i tương ứng

Báng 3.1: Biếu diễn tập dữ liệu văn bản bằng mô hình túi từ

Trang 28

bản có độ dài (tồng sổ từ) khác nhau và số lần xuất hiện của từ trong văn bản cũng khác nhau.

văn bán

văn bản Tính IDF đê giảm giá trị của nhùng từ thường xuyên xuất hiện trong văn bản Mồi từ chi có một giá trị IDF duy nhất trong tập văn bản

|D|

I {u E D: t G dji

Neu từ t không xuất hiện ở bất cứ một văn bản nào trong tập thì mẫu số

sẽ bằng 0 nên phép chia không họp lệ -> ỉ+{dED:tEd}

Trọng số cúa một từ trong văn bản thu được qua thống kê thê hiện mức độ quan trọng cùa từ này trong một văn bản và tạo ra tập các véc-tơ chứa chỉ số TF*IDF cho từng văn bản sau khi đã xác định được TF - IDF

Trang 29

ứng trong danh sách từ điển đã thu được từ quá trình tiền xử lý tài liệu Không gian véc-tơ hay số chiều của véc-tơ phải được chuẩn hóa kích thước bằng nhau

và bằng số từ điển trong danh sách Giá trị mỗi phần tứ của véc-to là trọng số mồi

từ trong câu

Trọng số cùa một từ được xác định thông qua việc tính TF - IDF và độ đo tưong đồng của hai véc-tơ được xác định bới:

cosine (x, y)

V Trong đó: Xýlà trọng so TF - IDF của từ j trong tài liệu X vàyy là trọng

so TF - IDF của từ j trong tài liệu V

Trong NLP, phân loại văn bản là một bài toán xử lí văn bản cô điên, gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự cúa văn bản đó

so với các văn bản đã được gán nhãn trong tập huấn luyện Các ứng dụng của phân lóp văn bán thường rất đa dạng như: lọc email spam, phân tích cảm xúc (sentiment analysis), phân loại tin tức,

Có rất nhiều phương pháp đe phân loại văn bản như: thuật toán Naive Bayes, ANN, Rừng ngầu nhiên (Random Forests - RF), Học máy véctơ hỗ trợ (SVM) và Mạng Neuron nhân tạo (Artificial Neural Network) Mồi phương pháp đều cho kết quả tương đương nhau, tuy nhiên phương pháp phân loại văn bản bằng thuật toán SVM được sứ dụng phô biến hơn cả

Trang 30

Hình 3.1: Phân lớp dừ liệu vớik láng giềng(Á' = 5)

Hình 3.2: Phân lớp rùng ngầu nhiên

Trang 31

(w.x) — h — n

optimal by per plane

Hình 3.4: Mạng nơron đa tầng cho phân lớp

3.4.6 Deep Learning trong NLP [14]

Vào những năm gần đây, Deep Learning trở nên phố biến, có thế xem là giải pháp tối ưu đế giải quyết các bài toán xứ lý và huấn luyện dữ liệu trong NLP Deep Learning dựa trên mô hình mạng nơ-ron nhân tạo, mô phỏng hoạt động bộ não người, các phương pháp phô biến có thế kế đến gồm:

- Mạng nơ-ron chuyển tiếp - FNN (Feed - Forward Neural Network)

- Mạng nơ-ron hồi quy hoặc tái diễn - RNN (Recurrent Neural Network)

- Mạng nơ-ron tích chập - CNN (Convolutional Neural Network)

Trang 32

Trong NLP, Mạng nơ-ron hồi quy - RNN được sứ dụng phố biến cho việc xây dựng mô hình huấn luyện.

- RNN được thiết kế như là 1 chuồi các module lặp đi lặp lại, module có cấu trúc đơn giản chỉ có 1 lớp mạng tanh, nó nhận một đầu vào Xt, tiến

- RNN học được các đặc trưng và các kết quả biết trước cho lần xứ lý tiếp theo Có thể coi một RNN là một chuồi những mạng con giống hệt nhau, mồi mạng sẽ truyền thông tin nó vừa xử lý cho mạng phía sau nó

- Công thức toán học dùng đế tính vector trạng thái h:

[16]

Trang 33

về cơ bản mô hình của LSTM không khác mô hình truyền thống của RNN, nhưng chúng sử dụng hàm tính toán khác ớ các trạng thái ân Bộ nhớ cúa LSTM được gọi là tế bào (Cell) và ta có thế hình dung chúng là các hộp đen nhận đầu

nhớ hoặc quên các giá trị, tham sổ dùng cho bước tiếp theo

- Công thức toán học dùng để tính các giá trị tại các cổng:

được “hạn chế” của one hot vector là các vector one-hot không thế biếu diễn một cách chính xác độ tương tự giữa các từ khác nhau khi độ tương đồng cosin cúa chúng đều bằng 0 Có thê hiểu một cách đơn giản

Trang 34

Word2Vector giải quyết được việc thể hiện mối tương quan giữa các từ với nhau Nó biểu diền mồi từ bằng một vector có độ dài cố định và sử dụng những vector này đế biếu thị tốt hơn độ tương đồng và các quan hệ loại suy (analogy relationship) giữa các từ.

- Công cụ Word2vector gồm hai mô hình: Skip-Gam và túi từ liên tục (Continuous Bag of Words - CBOW)

Hình 3.7: Word2Vector và 2 mô hình

Trang 35

❖ Mô hình sequence to sequence [18]

- Mô hình seq2seq 1 trong những kĩ thuật phổ biến trong dịch máy, áp dụng cho bài toán khi cần sinh chuồi đầu ra từ câu đầu vào cho trước

- Kiến trúc bao gồm: Bộ mà hóa (Encoder), vector mã hóa trung gian (Encoder vector) và bộ giải mà (Decoder)

LSTM Encoder LSTM Decoder

là kỳ thuật hiện đại được đề xuất nhằm làm giảm tải việc tìm kiếm trong quá trình Encoder - Decoder

V Tập trung vào những tham số, những đặc trưng có ảnh hưởng quan trọng trong câu (tập trung vào nhừng từ quan trọng trong câu input, từ đó

dự đoán chuồi đầu ra)

Trang 36

3A.1. NLU vói Chatbot

NLU (Natural Language Understanding) là phương pháp giúp Chatbot hiếu được các câu lệnh cúa người dùng mà không phải dựa trên bất kỳ ngôn ngừ, câu thoại, cấu trúc nào được format sẵn ở trong hệ thống, giúp Chatbot phản hồi nhanh chóng đến người dùng NLU thường được sử dụng cho các Chatbot nhận diện giọng nói

NLU giúp giải quyết một trong nhừng vấn đề mà bất kỳ công nghệ AI nào cũng gặp phải không chỉ riêng Chatbot đó chính là: làm thế nào đế xử lý những

dừ liệu đầu vào (input) không có cấu trúc cụ thể, không có định dạng rõ ràng, không có thuật toán, quy tắc quản lý chặt chẽ; biển chúng thành các nhóm cấu trúc nhất định để hệ thống có thê hiêu được và tương tác lại với con người

Đê so sánh hay đánh giá hiệu quả của một giải thuật hay phương pháp phân lóp học máy với một giải thuật phân lớp khác, trong học máy người ta thường sứ dụng nghi thức kiêm tra và các độ đo chính xác trên cùng tập dừ liệu mầu đe đánh giá Có hai nghi thức kiêm tra thường được sử dụng là:

- Nghi thức thứ nhất: Neu dừ liệu có một tập học và một tập kiếm tra sằn dùng, người ta sử dụng tập dừ liệu học đế xây dựng mô hình và sử dụng tập dừ liệu kiếm tra đế đánh giá hiệu quả cúa giải thuật học

- Nghi thức thứ hai: Neu dừ liệu không có sằn một tập kiểm tra, người ta

sứ dụng nghi thức k-fold hoặc hold-out đế đánh giá

Trang 37

3.6 Mô hình thực nghiệm

đến hệ thống NLP đế Chatbot phân tích và hiếu được ý định người dùng

và gửi đến cơ sớ thông tin (Information Sources} đế chọn ra các câu trả lời tương ứng, chính xác và ra lệnh (Actions} đế phản hồi lại người dùng

- Ngoài khả năng tự phân tích dựa vào NLP, Chatbot sẽ tự nhận dạng nhanh chóng các tin nhắn cùa người dùng và tạo khả năng tự học (Machine

Learning} thông qua các thuật toán được nhà phát triển áp dụng và quá

trình “huấn luyện lâu dài” trong tương lai

Trang 38

❖ Tiến trình thực hiện và các thành phần cơ bản của ML Chatbot

- NLP chuyên đôi văn bản đầu vào từ người dùng thành dừ liệu có cấu trúc

để máy có thể hiểu được Vì vậy, NLP sẽ thực hiện các tác vụ như: đọc văn bản nhập, nhận dạng giọng nói, mà hóa, phân tích cú pháp và trích xuất thông tin, v.v

- NLU sử dụng một thuật toán đế phân loại ý định (hoạt động) và nhận ra thực thê (danh từ hoặc nội dung hoạt động)

- NLG chuyến đôi dữ liệu có cấu trúc của máy thành văn bản đế người dùng có thế hiếu được

- Các phương pháp tiếp cận cho việc phân lớp văn bán trong NLP gồm:

V Neural Network (RNN, CNN)

Trang 39

Hình3.13: Hình ảnh minh họa hộp thoại Chatbot

Mô hình dừ liệu: Thực hiện việc thu thập, dự đoán, huấn luyện dữ liệu và đánh giá kết quả

Tiếp cận theo hướng Corpus-based bằng 2 phương pháp:

Mô hình dịch máy bằng mạng Nơ-ron nhân tạo

Mô hình phân loại câu hỏi bằng phương pháp học sâu

Trang 40

Chương 4: HỆ THỐNG TRẢ LỜI TỤ ĐỘNG CÁC DỊCH vụ CHĂM

SÓC SINH VIÊN BẰNG CÔNG NGHỆ CHATBOT

4 1.1 Mô tả bài toán

Bài toán tập trung vào thông tin mà hệ thống ứng dụng phải đáp ứng Tuy nhiên việc phân tích cụ thế hóa đánh giá bố sung có vai trò quan trọng trong việc quyết định hiệu quả của hệ thống Các luồng thông tin có thế phân loại thành:

- Các thông tin trả lời: nhừng thông tin loại này thường được lưu trữ thành nhừng cơ sở dữ liệu, quá trình tìm kiếm thông tin bằng phương pháp thú công đòi hởi phải mất nhiều thời gian công sức nhiều lúc còn không thế thực hiện được

- Các thông tin ứng dụng: phương thức to chức Ngoài ra còn có một số luồng thông tin khác áp dụng cho từng hệ thống cụ thế mà mồi hệ thống cần phải xác định riêng cho mình

Hoạt động của hệ thống:

- Gứi tin nhắn: cho phép sinh viên gửi câu hỏi đến hệ thống Chatbot

- Thêm, sửa, xóa: cho phép quản trị thêm, sửa, xóa thông tin lĩnh vực, thú tục, người dùng, tập huấn luyện

Phương pháp thực hiện:

- Thu nhập và biên tập dữ liệu văn bản (câu hỏi và câu trả lời)

- Tách từ và tiền xử lý dừ liệu: các câu hỏi được biếu diễn về dạng mô hình túi từ

- Huấn luyện mô hình phân lớp văn bản tự động (sử dụng các phương pháp phân loại văn bản)

- Đánh giá mô hình

Ngày đăng: 15/11/2022, 06:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] C.D. Manning, p. Raghavan and H. Schiitze, 2008, “ Introduction to Information Retrieval Introduction ”, Cambridge University Press Sách, tạp chí
Tiêu đề: Introduction to Information Retrieval
Tác giả: C. D. Manning, Prabhakar Raghavan, Hinrich Schütze
Nhà XB: Cambridge University Press
Năm: 2008
[2] D. Jurafsky, J-H. Martin, 2017, “Speech and Language Processing ” Second Edition, Pearson Education, Inc Sách, tạp chí
Tiêu đề: Speech and Language Processing
[3] D-D. Lewis, W-A. Gale, 1994, “ A sequential algorithm for training text classifiers ” Sách, tạp chí
Tiêu đề: A sequential algorithm for training text classifiers
Tác giả: D-D. Lewis, W-A. Gale
Năm: 1994
[5] s. Dumais, J. Platt, D. Heckerman, and M. Sahami, 1998, “Inductive learning algorithms and representations for text categorization ”, tr 148-155 Sách, tạp chí
Tiêu đề: Inductive learning algorithms and representations for text categorization
[6] s. Fabrizio, 2002, “Machine Learning in Automated Text Categorization ”, ACM Computing Surveys, 34, 1-47 Sách, tạp chí
Tiêu đề: Machine Learning in Automated Text Categorization
[7] X. Wu and VKumar, 2009, “ Top 10 Algorithms in Data Mining ”. Chapman &amp;Hall/CRC Sách, tạp chí
Tiêu đề: Top 10 Algorithms in Data Mining
[15] John J. Hopfield, 1982, “ Neural networks and physical systems with emergent collective computational abilities”, California Institute of Technology Sách, tạp chí
Tiêu đề: Neural networks and physical systems with emergentcollectivecomputational abilities
[16] Sepp Hochreiter and Jurgen Schmidhuber, 1997, “Long Short-Term Memory”, Neural Computation 9: 1735-1780, MIT Press Sách, tạp chí
Tiêu đề: Long Short-Term Memory
[17] Tomas Mikolov et al., 2013, “Efficient Estimation of Word Representations inVector Space ”, ResearchGate Sách, tạp chí
Tiêu đề: Efficient Estimation of Word Representations in Vector Space
Tác giả: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
Năm: 2013
[18] Kyunghyun Cho et al., 2014, “ Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation ”, ResearchGate Sách, tạp chí
Tiêu đề: Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
Tác giả: Kyunghyun Cho, Bart van Merriënboer, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio
Nhà XB: ResearchGate
Năm: 2014
[13] Bot Framework SDK for .NET. (2018, 11). Retrieved from https://docs.microsoft.com/en-us/azure/bot-service/dotnet/bot-builder-dotnet-overview?view=azure-bot-service-3.0.[accessedat: 12/2021] Link
[14] Đắm mình vào học sâu: https://d21.aivivn.com/ [accessed at: 12/2021] Link
[4] Nguyền Thanh Tuan, 2011, Xây dựng hệ thong hỏi đáp tự động cho câu hỏi định nghĩa trong Y khoa Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w