Addressing Inquiries about History An Efficient and Practical Framework for Evaluating Opendomain Chatbot Consistency

KPDL Giữa kỳ Nhóm 13 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN Addressing Inquiries about History An Efficient and Practical Framework for Evaluating Open domain Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU Ngành Công nghệ thông tin Giảng viên hướng dẫn PGS TS Hà Quang Thụy Nhóm thực hiện Nhóm 13 19020427 Đỗ Đức Tâm 19020232 Nguyễn Văn Chính 19020400 Nguyễn Khánh Quân Hà Nội – 2022 Lời cam đoan Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực h.

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN

KHOA CÔNG NGHỆ THÔNG TIN

Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain

Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU

Ngành: Công nghệ thông tin

Giảng viên hướng dẫn:

PGS.TS Hà Quang Thụy

Nhóm thực hiện: Nhóm 13

19020427 Đỗ Đức Tâm

19020232 Nguyễn Văn Chính

19020400 Nguyễn Khánh Quân

Hà Nội – 2022

Trang 2

Lời cam đoan

Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực hiện, không có sự sao chép sản phẩm của người khác Tất cả tài liệu tham khảo được liệt kê rõ ở phần cuối báo cáo và đều nằm trong giới hạn cho phép theo quy định Nếu sai sự thật, nhóm chúng tôi xin chịu hoàn toàn trách nhiệm

Nhóm sinh viên thực hiện

Đỗ Đức Tâm Nguyễn Văn Chính Nguyễn Khánh Quân

Trang 3

Bảng Mục Lục

Trang 4

1 Giới thiệu bài báo và các tác giả

1.1 Giới thiệu chung về bài báo

Bài báo nhóm em được giao phân tích có tên “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” , được

công bố trong Hội nghị Quản lý thông tin và tri thức 2013

1.2 Giới thiệu các tác giả

Theo như công bố của bài báo“Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency”, nghiên cứu liên

quan được thực hiện bởi 5 tác giả, làm việc tại Phòng nghiên cứu thông tin tri

thức(ICT/CAS), Đại học viện khoa học Trung Quốc (UCAS), Trung tâm nhận dạng mẫu của Wechat AI, công ty Tencent

1.2.1 Zekang Li

Thông tin chung về tác giả:

DBLP:https://dblp.org/pid/243/2436.html

Google Scholar:https://scholar.google.com/citations?hl=vi&user=ZmfOwN8AAAAJ

Số lượng công bố: 20 (Theo DBLP)

Tổng số trích dẫn: 311

h-index:5 | h-index (2017 - nay): 5

i10-index:5 | i10-index (2017 - nay): 5

Tóm tắt lý lịch khoa học: Hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng điểm về Xử lý Thông tin Thông minh, ICT, CAS, do Giáo sư Yang Feng cố vấn Trước đó

đã được bằng B.E tốt nghiệp tại Đại học Khoa học và Công nghệ Huazhong vào tháng 6 năm 2019

Mối quan tâm nghiên cứu nằm trong Xử lý ngôn ngữ tự nhiên, đặc biệt là trong các nhiệm vụ Hệ thống đối thoại và Thị giác-Ngôn ngữ Đồng thời tham gia vào Khoa học Nhận thức và ứng dụng của nó trong Hệ thống Đối thoại

1.2.1 Jinchao Zhang

DBLP: https://dblp.org/pid/127/3143.html

Trang 5

Google Scholar:https://scholar.google.com/citations?user=vH9YLsAAAAAJ&hl=en

h-index: 13 | h-index (2017 - nay): 12

i10-index: 15 | i10-index (2017 - nay): 14

Tóm tắt lý lịch khoa học: Bằng Tiến sĩ về lý thuyết phần mềm máy tính của Học viện Khoa học Trung Quốc, Trung Quốc, năm 2018 Hiện đang làm việc với Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd với tư cách là Nhà khoa học Nghiên cứu Cấp cao Các mối quan tâm nghiên cứu của anh ấy bao gồm học sâu để xử lý ngôn ngữ tự nhiên, đặc biệt là trong các hệ thống đối thoại và phiên dịch máy

1.2.1 Zhengcong Fei

DBLP: https://dblp.org/pid/267/2616.html

Google Scholar: https://scholar.google.com/citations?hl=en&user=_43YnBcAAAAJ

Tóm tắt lý lịch khoa học: Tốt nghiệp thủ khoa Đại học Khoa học và Công nghệ Nam Kinh, hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng điểm về Xử lý Thông tin Thông minh, ICT, CAS và là thực tập sinh tại Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd

1.2.1 Yang Feng

DBLP: https://dblp.org/pid/07/6095-4.html

Google Scholar:

https://scholar.google.com/citations?user=UYIw2qAAAAAJ&hl=en&oi=ao

Trang 6

Tóm tắt lý lịch khoa học: Yang Feng là giáo sư tại Viện Công nghệ Máy tính, Học viện Khoa học Trung Quốc, nơi cô nhận bằng phD vào năm 2011 Cô đã làm việc tại Đại học Sheffield và Viện Khoa học Thông tin, Đại học Nam California từ năm 2011 đến năm

2014 Hiện cô dẫn đầu về ngôn ngữ tự nhiên nhóm quy trình trong ICT / CAS và mối quan tâm nghiên cứu của cô là xử lý ngôn ngữ tự nhiên, chủ yếu tập trung vào dịch máy

và đối thoại Cô đã nhận được Giải thưởng Best Longest Paper của ACL 2019

1.2.1 Jie Zhou

DBLP: https://dblp.org/pid/00/5012-16.html

Semantic Scholar: https://www.semanticscholar.org/author/Jie-Zhou/49178343

Tổng số trích dẫn: 4442 (Theo Semantic Scholar)

h-index: 4 | h-index (2017 - nay): 4 (Theo Google Scholar)

Tóm tắt lý lịch khoa học: Jie Zhou nhận bằng cử nhân của USTC vào năm 2004 và bằng Tiến sĩ bằng cấp của Học viện Khoa học Trung Quốc năm 2009, và hiện là Giám đốc cấp cao của Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Inc Sở thích nghiên cứu của anh ấy bao gồm xử lý ngôn ngữ tự nhiên và học máy

2 Phân tích nội dung

2.1 Chủ đề

Trong những năm gần đây, chatbot thông minh miền mở đã đạt được những tiến bộ vượt bậc do sự phát triển của các phương pháp tiếp cận đào tạo large-scale (Devlin và cộng sự, 2019; Radford và cộng sự, 2019; Brown và cộng sự, 2020) và lượng lớn bộ dữ liệu đàm thoại chất lượng cao (Dinan và cộng sự, 2019; Baumgartner và cộng sự, 2020; Smith và cộng sự, 2020) Mặc dù những thành công đạt được là không thể chối cãi và có những kết quả thú vị, vẫn còn một chặng đường dài để xây dựng một chatbot miền mở thực sự giống con người

Trong bài báo này, nhóm tác giả đề xuất Giải quyết các thắc mắc về lịch sử (AIH), một framework hiệu quả và thiết thực để đánh giá tính nhất quán Ở giai đoạn trò chuyện, AIH

Trang 7

cố gắng giải quyết các câu hỏi thích hợp về lịch sử đối thoại để khiến chatbot khai báo lại các sự kiện hoặc ý kiến lịch sử Nhóm nghiên cứu thực hiện cuộc trò chuyện giữa các chatbot, điều này hiệu quả hơn tương tác giữa con người với bot và cũng có thể làm giảm bớt sự thiên vị chủ quan Bằng cách này nhanh chóng có được một phiên đối thoại chứa các câu trả lời có khả năng mâu thuẫn cao Ở giai đoạn nhận dạng mâu thuẫn có thể sử dụng các thẩm phán của con người hoặc mô hình suy luận ngôn ngữ tự nhiên (NLI) để nhận biết liệu câu trả lời cho các câu hỏi có mâu thuẫn với lịch sử hay không Cuối cùng,

có thể xếp hạng chatbot theo thống kê mâu thuẫn

2.2 Đóng góp chính của bài báo

Addressing Inquiries about History (AIH), một framework hiệu quả và thiết thực để đánh giá tính nhất quán của chatbot miền mở Framework có thể được sử dụng để xếp hạng các chatbot khác nhau liên quan đến khả năng nhất quán với chính họ trong cuộc trò chuyện

Những đóng góp của tác giả được tóm tắt như sau:

• Đề xuất Giải quyết thắc mắc về lịch sử (AIH), một framework hiệu quả và thiết thực

để đánh giá tính nhất quán của chatbot miền mở

• Các thử nghiệm cho thấy AIH có thể tạo ra đánh giá tính nhất quán hiệu quả, hiệu quả

và đáng tin cậy Framework được phát hành như một công cụ sẵn sàng sử dụng để đánh giá tính nhất quán của chatbot AIH có thể tạo điều kiện và cung cấp đánh giá tiêu chuẩn cho công việc phát triển chatbot miền mở tự nhất quán trong tương lai

2.3 Cấu trúc bài báo

Bài báo “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” được chia làm tổng cộng 9 mục chính,

được trình bày theo thứ tự sau:

1 Mở đầu: Tóm tắt chung về bối cảnh bài toán và vấn đề đặt ra

2 Giới thiệu: Nói lên những nhược điểm của những phương pháp ra đời trước đó, hướng giải quyết và giới thiệu về Framework AIH

3 Công việc liên quan: Nói về phương pháp đánh giá tĩnh và đánh giá tương tác

4 Cách tiếp cận: Cung cấp cái nhìn tổng quan về framework AIH, sau đó mô tả các giai đoạn tiến hành trong framework: Yêu cầu, nhận biết mâu thuẫn và xếp hạng chatbots

5 Thiết lập thử nghiệm: Liệt kê các hệ thống đối thoại được sử dụng trong các thử nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm

6 Kết quả thực nghiệm: Tiến hành các thí nghiệm để minh họa tính hiệu lực, hiệu quả

và tính ổn định của AIH framework được đề xuất

Trang 8

7 Nghiên cứu thêm: Thảo luận thêm về hiệu quả của ba phần trong framework của chúng tôi bao gồm tạo câu hỏi, phát hiện mâu thuẫn và đánh giá chú thích của con người

8 Kết luận và công việc trong tương lai

9 Tài liệu tham khảo

2.4 Phương pháp đề xuất

Để ước tính khả năng nhất quán, các câu hỏi về ý kiến và sự kiện trong lịch sử đối thoại được chèn vào cuộc trò chuyện bot-bot hiện tại Sau đó, các phản hồi tương ứng được thu thập và đánh giá bằng các công cụ tự động hoặc sự đánh giá của con người Quy trình làm việc của AIH Framework được thể hiện trong Hình 1

Cụ thể, có năm “tác nhân” trong framework: Chatbot1, Chatbot2, Người hỏi, Bộ đánh giá tự động và đánh giá từ con người Chatbot1 và Chatbot2 là những thực thể tham gia vào cuộc trò chuyện giữa bot-bot Inquirer trích xuất các thực thể liên quan đến quan điểm hoặc sự kiện và tạo các câu hỏi dựa trên các thực thể đó Trình đánh giá tự động nói chung là một mô hình phát hiện mâu thuẫn để tự động đánh giá xem các phản hồi từ Chatbot2 có nhất quán hay không Đánh giá từ con người được sử dụng để đánh giá chính xác hơn

Về mặt hình thức, giả sử một nhóm N chatbot {B1, , BN} đã sẵn sàng được đánh giá

về khả năng nhất quán Đối với mỗi cặp chatbot (được gọi là Chatbot1 và Chatbot2), chúng tôi để Chatbot1 nói chuyện với Chatbot2 trong K lượt Lưu ý rằng Chatbot2 là một trong những con cần được đánh giá (i) Trong giai đoạn tìm hiểu, trong cuộc trò chuyện giữa Chatbot1 và Chatbot2, đối với mỗi u2k phát ngôn do Chatbot2 tạo ra, Inquirer trích xuất các thực thể về ý kiến và sự kiện, sau đó hỏi Chatbot2 một câu hỏi qk về các thực thể này, trong đó k là số lượt Chatbot 2 trả lời câu hỏi qk và tạo ra câu trả lời tương ứng Lưu

ý rằng chúng tôi bỏ qua thao tác tạo câu hỏi khi không có thực thể nào có thể được trích xuất (ii) Trong giai đoạn nhận dạng mâu thuẫn, chúng tôi sử dụng mô hình nơ ron (ví dụ:

Trang 9

Mô hình suy luận ngôn ngữ tự nhiên) hoặc sử dụng các thẩm phán của con người để quyết định xem cặp phát ngôn {u2k, rk} có tồn tại vấn đề không nhất quán hay không Chúng tôi thu thập ít nhất M hội thoại từ mỗi cặp chatbot, sau đó tính toán thứ tự xếp hạng về tính nhất quán Bằng cách này, chúng ta có thể phân biệt khả năng nhất quán của chatbots một cách hiệu quả và nhanh chóng Sau đây, chúng tôi sẽ lần lượt giới thiệu giai đoạn điều tra và giai đoạn nhận biết mâu thuẫn

2.4.1 Giai đoạn đặt câu hỏi

Dựa trên quan sát của chúng tôi và công việc trước đây (Nie và cộng sự, 2020), trong cuộc trò chuyện giữa con người với bot hoặc bot tự nhiên, mâu thuẫn dễ xảy ra hơn khi trò chuyện về các sự kiện và ý kiến lặp đi lặp lại, đặc biệt là sau những câu hỏi tương tự

Do đó, để bắt chước quá trình xảy ra mâu thuẫn như vậy, chúng tôi tạo ra các chatbots để tạo ra các câu trả lời bằng cách đặt các câu hỏi liên quan đến chatbots về các sự kiện và ý kiến trước đó Trong điều kiện này, việc tạo ra các câu hỏi thích hợp là khá quan trọng

Do đó, trước tiên, chúng tôi trích xuất các thực thể về các sự kiện và ý kiến từ các phát ngôn trong lịch sử, sau đó sử dụng mô hình thần kinh để tạo ra các câu hỏi về các thực thể được trích xuất

Trích xuất thực thể

Xét rằng các chatbot thường tạo ra mâu thuẫn khi trò chuyện về các sự kiện và ý kiến, chúng tôi áp dụng các công cụ Nhận dạng đối tượng được đặt tên trong Stanza (Qi và cộng sự, 2020), một gói phân tích ngôn ngữ tự nhiên phổ biến, để trích xuất các thực thể được đặt tên từ u2k có chứa người, tổ chức , vị trí, v.v 2 Ví dụ: đối với câu nói “i would love to visit New York next year.”, chúng ta có thể trích xuất hai thực thể: “New York” và

“Next year”

Mô hình khởi tạo câu hỏi

Để khởi tạo câu hỏi, chúng tôi sử dụng mô hình UniLM (Dong et al., 2019) được tinh chỉnh trên tập dữ liệu SQuAD (Rajpurkar et al., 2016) với nhiệm vụ tạo câu hỏi

(Wangperawong, 2020) Chúng tôi tận dụng việc triển khai công khai và checkpoint

Trang 10

Trong framework của chúng tôi, với các thực thể được trích xuất trước và phát biểu,

UniLM tạo ra một câu hỏi phù hợp cho từng thực thể Ví dụ: với “New York” và “Tôi rất muốn đến thăm New York vào năm tới.”, Mô hình sẽ tạo ra “Where will you visit next year?” Sau đó, chúng tôi chọn ngẫu nhiên một câu hỏi và chèn nó vào cuộc trò chuyện giữa bot-bot

2.4.2 Giai đoạn nhận biết mâu thuẫn

Trong framework, vì câu hỏi qk dựa trên câu trả lời u2k của Chatbot2 trước đó, nên câu trả lời từ Chatbot2 phải nhất quán với câu trả lời u2k Do đó, bộ đánh giá tự động và đánh giá từ con người chỉ có thể xem xét câu trả lời rk và câu nói u2k

Trình đánh giá tự động

Để đánh giá tự động, Trình đánh giá tự động thường là một mô hình phát hiện mâu thuẫn Trình đánh giá tự động lấy câu trả lời rk được trả lời bởi Chatbot2 và câu nói trước

đó u2k làm đầu vào và xuất ra điểm số mâu thuẫn yk Nó có thể được xây dựng dưới dạng:

yk = fθ (rk, u2k), (1)

trong đó fθ là hàm phát hiện và θ là tham số So với các phương pháp phát hiện mâu thuẫn khác xem xét toàn bộ cuộc đối thoại, Trình đánh giá tự động có thể hạn chế tiếng ồn

có trong toàn bộ cuộc đối thoại Trên thực tế, chúng tôi chọn mô hình Roberta-large (Liu

và cộng sự, 2019) được tinh chỉnh trên bộ dữ liệu Suy luận ngôn ngữ tự nhiên đa thể loại (Williams và cộng sự, 2018) để triển khai Trình đánh giá tự động

Đánh giá từ con người

Trong truyền thống các phương pháp đánh giá tính nhất quán đối thoại, các thẩm phán con người được yêu cầu đọc toàn bộ cuộc đối thoại và đưa ra điểm số nhất quán tổng thể, thường là 0 hoặc 1 Theo chúng tôi, các phương pháp này có chi phí cao và sự thống nhất giữa các bên thấp vì không có hướng dẫn cụ thể, và nó quá khó để các thẩm phán con người đưa ra điểm tổng thể cho toàn bộ cuộc đối thoại (Mehri và Eskenazi ´, 2020)

Trang 11

Trong framework của chúng tôi, đánh giá từ con người chỉ được yêu cầu đưa ra quyết định nếu câu trả lời rk được Chatbot2 trả lời có nhất quán với câu trả lời trước đó u2k hay không, điều này cụ thể và dễ dàng hơn so với các phương pháp truyền thống Kết quả

là, chi phí giảm, và chất lượng đánh giá tăng lên Bên cạnh đó, chú thích của con người trong framework của chúng tôi chi tiết hơn nhiều so với các phương pháp truyền thống,

có thể cung cấp thêm thông tin cho chu trình phát triển của hệ thống đối thoại

2.4.3 Chỉ số nhất quán và xếp hạng bot

Dựa trên kết quả trước đó,chúng ta có thể có được danh sách xếp hạng của chatbots khác nhau về khả năng nhất quán Về mặt hình thức, đối với mỗi cặp chatbot {Bi, Bj}, chúng tôi thu thập M hội thoại Đối với mỗi cặp câu hỏi, việc phát hiện mâu thuẫn được thực hiện bằng cách so sánh yk với một ngưỡng τ:

(2)

Tỷ lệ mâu thuẫn của chatbot Bj trong cặp chatbot Bij có thể được tính như sau:

(3)

trong đó m là số câu hỏi trong mỗi cặp đối thoại và M là tổng số cặp câu hỏi Đối với

tỷ lệ mâu thuẫn tổng thể của chatbot Bj được tính như sau:

(4)

Cuối cùng, chúng ta có thể xếp hạng các chatbot bằng cách sử dụng tỷ lệ mâu thuẫn tổng thể

3 Quá trình thực nghiệm

Trong phần này, trước tiên liệt kê các hệ thống đối thoại được sử dụng trong các thử nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm

Tiêu đề	Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency
Tác giả	Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou
Người hướng dẫn	PGS.TS. Hà Quang Thụy
Trường học	Trường Đại Học Công Nghệ - ĐHQGHN
Chuyên ngành	Công nghệ thông tin
Thể loại	Báo cáo môn khai phá dữ liệu
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	18
Dung lượng	571,99 KB