KPDL Giữa kỳ Nhóm 13 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐHQGHN KHOA CÔNG NGHỆ THÔNG TIN Addressing Inquiries about History An Efficient and Practical Framework for Evaluating Open domain Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU Ngành Công nghệ thông tin Giảng viên hướng dẫn PGS TS Hà Quang Thụy Nhóm thực hiện Nhóm 13 19020427 Đỗ Đức Tâm 19020232 Nguyễn Văn Chính 19020400 Nguyễn Khánh Quân Hà Nội – 2022 Lời cam đoan Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực h.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN
KHOA CÔNG NGHỆ THÔNG TIN
Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain
Chatbot Consistency BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU
Ngành: Công nghệ thông tin
Giảng viên hướng dẫn:
PGS.TS Hà Quang Thụy
Nhóm thực hiện: Nhóm 13
19020427 Đỗ Đức Tâm
19020232 Nguyễn Văn Chính
19020400 Nguyễn Khánh Quân
Hà Nội – 2022
Trang 2Lời cam đoan
Chúng tôi xin cam đoan bài tập lớn này là do nhóm chúng tôi tự nghiên cứu và thực hiện, không có sự sao chép sản phẩm của người khác Tất cả tài liệu tham khảo được liệt kê rõ ở phần cuối báo cáo và đều nằm trong giới hạn cho phép theo quy định Nếu sai sự thật, nhóm chúng tôi xin chịu hoàn toàn trách nhiệm
Nhóm sinh viên thực hiện
Đỗ Đức Tâm Nguyễn Văn Chính Nguyễn Khánh Quân
Trang 3Bảng Mục Lục
Trang 41 Giới thiệu bài báo và các tác giả
1.1 Giới thiệu chung về bài báo
Bài báo nhóm em được giao phân tích có tên “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” , được
công bố trong Hội nghị Quản lý thông tin và tri thức 2013
1.2 Giới thiệu các tác giả
Theo như công bố của bài báo“Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency”, nghiên cứu liên
quan được thực hiện bởi 5 tác giả, làm việc tại Phòng nghiên cứu thông tin tri
thức(ICT/CAS), Đại học viện khoa học Trung Quốc (UCAS), Trung tâm nhận dạng mẫu của Wechat AI, công ty Tencent
1.2.1 Zekang Li
Thông tin chung về tác giả:
DBLP:https://dblp.org/pid/243/2436.html
Google Scholar:https://scholar.google.com/citations?hl=vi&user=ZmfOwN8AAAAJ
Số lượng công bố: 20 (Theo DBLP)
Tổng số trích dẫn: 311
h-index:5 | h-index (2017 - nay): 5
i10-index:5 | i10-index (2017 - nay): 5
Tóm tắt lý lịch khoa học: Hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng điểm về Xử lý Thông tin Thông minh, ICT, CAS, do Giáo sư Yang Feng cố vấn Trước đó
đã được bằng B.E tốt nghiệp tại Đại học Khoa học và Công nghệ Huazhong vào tháng 6 năm 2019
Mối quan tâm nghiên cứu nằm trong Xử lý ngôn ngữ tự nhiên, đặc biệt là trong các nhiệm vụ Hệ thống đối thoại và Thị giác-Ngôn ngữ Đồng thời tham gia vào Khoa học Nhận thức và ứng dụng của nó trong Hệ thống Đối thoại
1.2.1 Jinchao Zhang
Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/127/3143.html
Trang 5Google Scholar:https://scholar.google.com/citations?user=vH9YLsAAAAAJ&hl=en
Số lượng công bố: 82 (Theo DBLP)
Tổng số trích dẫn: 566
h-index: 13 | h-index (2017 - nay): 12
i10-index: 15 | i10-index (2017 - nay): 14
Tóm tắt lý lịch khoa học: Bằng Tiến sĩ về lý thuyết phần mềm máy tính của Học viện Khoa học Trung Quốc, Trung Quốc, năm 2018 Hiện đang làm việc với Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd với tư cách là Nhà khoa học Nghiên cứu Cấp cao Các mối quan tâm nghiên cứu của anh ấy bao gồm học sâu để xử lý ngôn ngữ tự nhiên, đặc biệt là trong các hệ thống đối thoại và phiên dịch máy
1.2.1 Zhengcong Fei
Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/267/2616.html
Google Scholar: https://scholar.google.com/citations?hl=en&user=_43YnBcAAAAJ
Số lượng công bố: 16 (Theo DBLP)
Tổng số trích dẫn: 69
h-index: 4 | h-index (2017 - nay): 4
i10-index: 2 | i10-index (2017 - nay): 2
Tóm tắt lý lịch khoa học: Tốt nghiệp thủ khoa Đại học Khoa học và Công nghệ Nam Kinh, hiện đang là Học viên Cao học tại Phòng nghiên cứu trọng điểm về Xử lý Thông tin Thông minh, ICT, CAS và là thực tập sinh tại Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Ltd
1.2.1 Yang Feng
Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/07/6095-4.html
Google Scholar:
https://scholar.google.com/citations?user=UYIw2qAAAAAJ&hl=en&oi=ao
Số lượng công bố: 77 (Theo DBLP)
Tổng số trích dẫn: 1157
h-index: 19 | h-index (2017 - nay): 15
i10-index: 27 | i10-index (2017 - nay): 24
Trang 6Tóm tắt lý lịch khoa học: Yang Feng là giáo sư tại Viện Công nghệ Máy tính, Học viện Khoa học Trung Quốc, nơi cô nhận bằng phD vào năm 2011 Cô đã làm việc tại Đại học Sheffield và Viện Khoa học Thông tin, Đại học Nam California từ năm 2011 đến năm
2014 Hiện cô dẫn đầu về ngôn ngữ tự nhiên nhóm quy trình trong ICT / CAS và mối quan tâm nghiên cứu của cô là xử lý ngôn ngữ tự nhiên, chủ yếu tập trung vào dịch máy
và đối thoại Cô đã nhận được Giải thưởng Best Longest Paper của ACL 2019
1.2.1 Jie Zhou
Thông tin chung về tác giả:
DBLP: https://dblp.org/pid/00/5012-16.html
Semantic Scholar: https://www.semanticscholar.org/author/Jie-Zhou/49178343
Số lượng công bố: 214 (Theo DBLP)
Tổng số trích dẫn: 4442 (Theo Semantic Scholar)
h-index: 4 | h-index (2017 - nay): 4 (Theo Google Scholar)
i10-index: 3 | i10-index (2017 - nay): 3
Tóm tắt lý lịch khoa học: Jie Zhou nhận bằng cử nhân của USTC vào năm 2004 và bằng Tiến sĩ bằng cấp của Học viện Khoa học Trung Quốc năm 2009, và hiện là Giám đốc cấp cao của Trung tâm Nhận dạng Mẫu, WeChat AI, Tencent Inc Sở thích nghiên cứu của anh ấy bao gồm xử lý ngôn ngữ tự nhiên và học máy
2 Phân tích nội dung
2.1 Chủ đề
Trong những năm gần đây, chatbot thông minh miền mở đã đạt được những tiến bộ vượt bậc do sự phát triển của các phương pháp tiếp cận đào tạo large-scale (Devlin và cộng sự, 2019; Radford và cộng sự, 2019; Brown và cộng sự, 2020) và lượng lớn bộ dữ liệu đàm thoại chất lượng cao (Dinan và cộng sự, 2019; Baumgartner và cộng sự, 2020; Smith và cộng sự, 2020) Mặc dù những thành công đạt được là không thể chối cãi và có những kết quả thú vị, vẫn còn một chặng đường dài để xây dựng một chatbot miền mở thực sự giống con người
Trong bài báo này, nhóm tác giả đề xuất Giải quyết các thắc mắc về lịch sử (AIH), một framework hiệu quả và thiết thực để đánh giá tính nhất quán Ở giai đoạn trò chuyện, AIH
Trang 7cố gắng giải quyết các câu hỏi thích hợp về lịch sử đối thoại để khiến chatbot khai báo lại các sự kiện hoặc ý kiến lịch sử Nhóm nghiên cứu thực hiện cuộc trò chuyện giữa các chatbot, điều này hiệu quả hơn tương tác giữa con người với bot và cũng có thể làm giảm bớt sự thiên vị chủ quan Bằng cách này nhanh chóng có được một phiên đối thoại chứa các câu trả lời có khả năng mâu thuẫn cao Ở giai đoạn nhận dạng mâu thuẫn có thể sử dụng các thẩm phán của con người hoặc mô hình suy luận ngôn ngữ tự nhiên (NLI) để nhận biết liệu câu trả lời cho các câu hỏi có mâu thuẫn với lịch sử hay không Cuối cùng,
có thể xếp hạng chatbot theo thống kê mâu thuẫn
2.2 Đóng góp chính của bài báo
Addressing Inquiries about History (AIH), một framework hiệu quả và thiết thực để đánh giá tính nhất quán của chatbot miền mở Framework có thể được sử dụng để xếp hạng các chatbot khác nhau liên quan đến khả năng nhất quán với chính họ trong cuộc trò chuyện
Những đóng góp của tác giả được tóm tắt như sau:
• Đề xuất Giải quyết thắc mắc về lịch sử (AIH), một framework hiệu quả và thiết thực
để đánh giá tính nhất quán của chatbot miền mở
• Các thử nghiệm cho thấy AIH có thể tạo ra đánh giá tính nhất quán hiệu quả, hiệu quả
và đáng tin cậy Framework được phát hành như một công cụ sẵn sàng sử dụng để đánh giá tính nhất quán của chatbot AIH có thể tạo điều kiện và cung cấp đánh giá tiêu chuẩn cho công việc phát triển chatbot miền mở tự nhất quán trong tương lai
2.3 Cấu trúc bài báo
Bài báo “Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency” được chia làm tổng cộng 9 mục chính,
được trình bày theo thứ tự sau:
1 Mở đầu: Tóm tắt chung về bối cảnh bài toán và vấn đề đặt ra
2 Giới thiệu: Nói lên những nhược điểm của những phương pháp ra đời trước đó, hướng giải quyết và giới thiệu về Framework AIH
3 Công việc liên quan: Nói về phương pháp đánh giá tĩnh và đánh giá tương tác
4 Cách tiếp cận: Cung cấp cái nhìn tổng quan về framework AIH, sau đó mô tả các giai đoạn tiến hành trong framework: Yêu cầu, nhận biết mâu thuẫn và xếp hạng chatbots
5 Thiết lập thử nghiệm: Liệt kê các hệ thống đối thoại được sử dụng trong các thử nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm
6 Kết quả thực nghiệm: Tiến hành các thí nghiệm để minh họa tính hiệu lực, hiệu quả
và tính ổn định của AIH framework được đề xuất
Trang 87 Nghiên cứu thêm: Thảo luận thêm về hiệu quả của ba phần trong framework của chúng tôi bao gồm tạo câu hỏi, phát hiện mâu thuẫn và đánh giá chú thích của con người
8 Kết luận và công việc trong tương lai
9 Tài liệu tham khảo
2.4 Phương pháp đề xuất
Để ước tính khả năng nhất quán, các câu hỏi về ý kiến và sự kiện trong lịch sử đối thoại được chèn vào cuộc trò chuyện bot-bot hiện tại Sau đó, các phản hồi tương ứng được thu thập và đánh giá bằng các công cụ tự động hoặc sự đánh giá của con người Quy trình làm việc của AIH Framework được thể hiện trong Hình 1
Cụ thể, có năm “tác nhân” trong framework: Chatbot1, Chatbot2, Người hỏi, Bộ đánh giá tự động và đánh giá từ con người Chatbot1 và Chatbot2 là những thực thể tham gia vào cuộc trò chuyện giữa bot-bot Inquirer trích xuất các thực thể liên quan đến quan điểm hoặc sự kiện và tạo các câu hỏi dựa trên các thực thể đó Trình đánh giá tự động nói chung là một mô hình phát hiện mâu thuẫn để tự động đánh giá xem các phản hồi từ Chatbot2 có nhất quán hay không Đánh giá từ con người được sử dụng để đánh giá chính xác hơn
Về mặt hình thức, giả sử một nhóm N chatbot {B1, , BN} đã sẵn sàng được đánh giá
về khả năng nhất quán Đối với mỗi cặp chatbot (được gọi là Chatbot1 và Chatbot2), chúng tôi để Chatbot1 nói chuyện với Chatbot2 trong K lượt Lưu ý rằng Chatbot2 là một trong những con cần được đánh giá (i) Trong giai đoạn tìm hiểu, trong cuộc trò chuyện giữa Chatbot1 và Chatbot2, đối với mỗi u2k phát ngôn do Chatbot2 tạo ra, Inquirer trích xuất các thực thể về ý kiến và sự kiện, sau đó hỏi Chatbot2 một câu hỏi qk về các thực thể này, trong đó k là số lượt Chatbot 2 trả lời câu hỏi qk và tạo ra câu trả lời tương ứng Lưu
ý rằng chúng tôi bỏ qua thao tác tạo câu hỏi khi không có thực thể nào có thể được trích xuất (ii) Trong giai đoạn nhận dạng mâu thuẫn, chúng tôi sử dụng mô hình nơ ron (ví dụ:
Trang 9Mô hình suy luận ngôn ngữ tự nhiên) hoặc sử dụng các thẩm phán của con người để quyết định xem cặp phát ngôn {u2k, rk} có tồn tại vấn đề không nhất quán hay không Chúng tôi thu thập ít nhất M hội thoại từ mỗi cặp chatbot, sau đó tính toán thứ tự xếp hạng về tính nhất quán Bằng cách này, chúng ta có thể phân biệt khả năng nhất quán của chatbots một cách hiệu quả và nhanh chóng Sau đây, chúng tôi sẽ lần lượt giới thiệu giai đoạn điều tra và giai đoạn nhận biết mâu thuẫn
2.4.1 Giai đoạn đặt câu hỏi
Dựa trên quan sát của chúng tôi và công việc trước đây (Nie và cộng sự, 2020), trong cuộc trò chuyện giữa con người với bot hoặc bot tự nhiên, mâu thuẫn dễ xảy ra hơn khi trò chuyện về các sự kiện và ý kiến lặp đi lặp lại, đặc biệt là sau những câu hỏi tương tự
Do đó, để bắt chước quá trình xảy ra mâu thuẫn như vậy, chúng tôi tạo ra các chatbots để tạo ra các câu trả lời bằng cách đặt các câu hỏi liên quan đến chatbots về các sự kiện và ý kiến trước đó Trong điều kiện này, việc tạo ra các câu hỏi thích hợp là khá quan trọng
Do đó, trước tiên, chúng tôi trích xuất các thực thể về các sự kiện và ý kiến từ các phát ngôn trong lịch sử, sau đó sử dụng mô hình thần kinh để tạo ra các câu hỏi về các thực thể được trích xuất
Trích xuất thực thể
Xét rằng các chatbot thường tạo ra mâu thuẫn khi trò chuyện về các sự kiện và ý kiến, chúng tôi áp dụng các công cụ Nhận dạng đối tượng được đặt tên trong Stanza (Qi và cộng sự, 2020), một gói phân tích ngôn ngữ tự nhiên phổ biến, để trích xuất các thực thể được đặt tên từ u2k có chứa người, tổ chức , vị trí, v.v 2 Ví dụ: đối với câu nói “i would love to visit New York next year.”, chúng ta có thể trích xuất hai thực thể: “New York” và
“Next year”
Mô hình khởi tạo câu hỏi
Để khởi tạo câu hỏi, chúng tôi sử dụng mô hình UniLM (Dong et al., 2019) được tinh chỉnh trên tập dữ liệu SQuAD (Rajpurkar et al., 2016) với nhiệm vụ tạo câu hỏi
(Wangperawong, 2020) Chúng tôi tận dụng việc triển khai công khai và checkpoint
Trang 10Trong framework của chúng tôi, với các thực thể được trích xuất trước và phát biểu,
UniLM tạo ra một câu hỏi phù hợp cho từng thực thể Ví dụ: với “New York” và “Tôi rất muốn đến thăm New York vào năm tới.”, Mô hình sẽ tạo ra “Where will you visit next year?” Sau đó, chúng tôi chọn ngẫu nhiên một câu hỏi và chèn nó vào cuộc trò chuyện giữa bot-bot
2.4.2 Giai đoạn nhận biết mâu thuẫn
Trong framework, vì câu hỏi qk dựa trên câu trả lời u2k của Chatbot2 trước đó, nên câu trả lời từ Chatbot2 phải nhất quán với câu trả lời u2k Do đó, bộ đánh giá tự động và đánh giá từ con người chỉ có thể xem xét câu trả lời rk và câu nói u2k
Trình đánh giá tự động
Để đánh giá tự động, Trình đánh giá tự động thường là một mô hình phát hiện mâu thuẫn Trình đánh giá tự động lấy câu trả lời rk được trả lời bởi Chatbot2 và câu nói trước
đó u2k làm đầu vào và xuất ra điểm số mâu thuẫn yk Nó có thể được xây dựng dưới dạng:
yk = fθ (rk, u2k), (1)
trong đó fθ là hàm phát hiện và θ là tham số So với các phương pháp phát hiện mâu thuẫn khác xem xét toàn bộ cuộc đối thoại, Trình đánh giá tự động có thể hạn chế tiếng ồn
có trong toàn bộ cuộc đối thoại Trên thực tế, chúng tôi chọn mô hình Roberta-large (Liu
và cộng sự, 2019) được tinh chỉnh trên bộ dữ liệu Suy luận ngôn ngữ tự nhiên đa thể loại (Williams và cộng sự, 2018) để triển khai Trình đánh giá tự động
Đánh giá từ con người
Trong truyền thống các phương pháp đánh giá tính nhất quán đối thoại, các thẩm phán con người được yêu cầu đọc toàn bộ cuộc đối thoại và đưa ra điểm số nhất quán tổng thể, thường là 0 hoặc 1 Theo chúng tôi, các phương pháp này có chi phí cao và sự thống nhất giữa các bên thấp vì không có hướng dẫn cụ thể, và nó quá khó để các thẩm phán con người đưa ra điểm tổng thể cho toàn bộ cuộc đối thoại (Mehri và Eskenazi ´, 2020)
Trang 11Trong framework của chúng tôi, đánh giá từ con người chỉ được yêu cầu đưa ra quyết định nếu câu trả lời rk được Chatbot2 trả lời có nhất quán với câu trả lời trước đó u2k hay không, điều này cụ thể và dễ dàng hơn so với các phương pháp truyền thống Kết quả
là, chi phí giảm, và chất lượng đánh giá tăng lên Bên cạnh đó, chú thích của con người trong framework của chúng tôi chi tiết hơn nhiều so với các phương pháp truyền thống,
có thể cung cấp thêm thông tin cho chu trình phát triển của hệ thống đối thoại
2.4.3 Chỉ số nhất quán và xếp hạng bot
Dựa trên kết quả trước đó,chúng ta có thể có được danh sách xếp hạng của chatbots khác nhau về khả năng nhất quán Về mặt hình thức, đối với mỗi cặp chatbot {Bi, Bj}, chúng tôi thu thập M hội thoại Đối với mỗi cặp câu hỏi, việc phát hiện mâu thuẫn được thực hiện bằng cách so sánh yk với một ngưỡng τ:
(2)
Tỷ lệ mâu thuẫn của chatbot Bj trong cặp chatbot Bij có thể được tính như sau:
(3)
trong đó m là số câu hỏi trong mỗi cặp đối thoại và M là tổng số cặp câu hỏi Đối với
tỷ lệ mâu thuẫn tổng thể của chatbot Bj được tính như sau:
(4)
Cuối cùng, chúng ta có thể xếp hạng các chatbot bằng cách sử dụng tỷ lệ mâu thuẫn tổng thể
3 Quá trình thực nghiệm
Trong phần này, trước tiên liệt kê các hệ thống đối thoại được sử dụng trong các thử nghiệm, sau đó mô tả chi tiết các cài đặt thử nghiệm