BÁO+CÁO+TÓM+TẮT+NỘI+DUNG+CHỦ+ĐỀ+BÀI+BÁO+NỘP

Nhiệm vụ Hệ thống trả lời câu hỏi hiệu quả QA là một nhiệm vụ của nghiên cứu về AI từ lâu đời, cấu trúc KBs đã được sử dụng thành công cho nhiệm vụ này Berant và cộng sự, 2013, Berant v

Trang 1

BÀI TẬP GIỮA KỲ

MÔN: XỬ LÝ NGÔN NGỮ TỰ NHIÊN

GV HƯỚNG DẪN: TS LÊ THỊ NGỌC THƠ NHÓM THỰC HIỆN: NGÔ HUYỀN TRANG - 1741860020

TRẦN THỊ CHĂM - 1741860026 THÁI HUỲNH DIỄM - 1741860027 LỚP: CAO HỌC CNTT - 17SCT12

KHÓA: 2017-2019

Bạc Liêu, 2018

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

KHOA CÔNG NGHỆ THÔNG TIN

Trang 2

MỤC LỤC

I TÓM TẮT CHỦ ĐỀ 3

II GIỚI THIỆU VỀ NỘI DUNG BÀI BÁO 3

1 Nhiệm vụ 3

2 Mục tiêu 3

3 Bài toán đặt ra và hướng giải quyết 3

III CÔNG VIỆC LIÊN QUAN 4

IV GIẢI THUẬT SUY LUẬN TUPLE 5

V THỬ NGHIỆM 8

VI KẾT QUẢ 9

VII PHÂN TÍCH LỖI 9

VIII KẾT LUẬN 10

Trang 3

NỘI DUNG BÀI BÁO Answering Complex Questions Using Open Information Extraction

Trả lời các câu hỏi phức tạp bằng cách sử dụng khai thác thông tin mở

Tushar Khot and Ashish Sabharwal and Peter Clark

Allen Institute for Artificial Intelligence, Seattle, WA, U.S.A

{tushark,ashishs,peterc}@allenai.org

I TÓM TẮT CHỦ ĐỀ

Trước những thách thức về việc trả lời các câu hỏi QA có mức độ phức tạp, nó đòi hỏi phải có kiến thức và kỹ thuật suy luận Khai thác thông tin mở (IE mở rộng) cung cấp cách để tạo ra kiến thức bán cấu trúc cho QA, nhưng đến nay kiến thức đó chỉ được sử dụng để trả lời những câu hỏi đơn giản với các phương pháp dựa trên truy vấn Trong bài báo trình bày một cách xây dựng hệ thống trả lời tự động tổng quát cho các câu hỏi factoid với nguồn dữ liệu web, họ đã đưa ra một phương pháp lý luận với kiến thức khai thác thông tin mở, cho phép xử lý các câu hỏi phức tạp hơn Trong phương pháp này sử dụng một khung tối ưu hóa đồ thị hỗ trợ đề xuất gần đây cho QA,

họ phát triển một mô hình suy luận mới cho việc khai thác thông tin mở, đặc biệt là có thể làm việc hiệu quả với nhiều việc nhỏ, có tính chất nhiễu và cấu trúc quan hệ của bộ đôi Mô hình của họ đưa ra có hiệu quả cao hơn một giải pháp xây dựng hiện đại về các câu hỏi phức tạp về những khó khăn khác nhau, đồng thời cũng loại bỏ sự tin cậy

về kiến thức được tổ chức theo cách thủ công

II GIỚI THIỆU VỀ NỘI DUNG BÀI BÁO

1 Nhiệm vụ

Hệ thống trả lời câu hỏi hiệu quả (QA) là một nhiệm vụ của nghiên cứu về AI

từ lâu đời, cấu trúc KBs đã được sử dụng thành công cho nhiệm vụ này (Berant và cộng sự, 2013, Berant và Liang, 2014) Tuy nhiên, các KB này rất tốn kém khi xây dựng và đặc trưng cho từng vùng kiến thức cụ thể Tự động xây dựng từ vựng mở rộng

(chủ ngữ, vị ngữ, tân ngữ) với nhiều kiểu có phạm vi rộng hơn, nhưng chỉ được sử dụng cho những câu hỏi đơn giản, nơi chỉ đủ một bộ đơn (Fader và cộng sự, 2014 Yin

và cộng sự, 2015)

2 Mục tiêu

Mục tiêu của nghiên cứu trong công việc này là phát triển một hệ thống QA

mà nó có thể thực hiện việc suy luận với việc khai thác thông tin mở (Bankoet cộng sự., 2007) cho các câu hỏi trắc nghiệm phức tạp đòi hỏi phải có bộ đôi từ nhiều câu Như là hệ thống có thể trả lời các câu hỏi phức tạp trong các lĩnh vực nghèo tài nguyên

và không có sẵn kiến thức cơ bản Các kỳ thi khoa học cấp cơ sở là một trong những lĩnh vực như vậy, đòi hỏi phải có những lập luận phức tạp (Clark, 2015) Bởi vì thiếu một KB có cấu trúc quy mô lớn, các hệ thống hiện đại cho nhiệm vụ này cũng trả lời cho những lý luận nông cạn với các tập tin văn bản lớn (Clark và cộng sự., 2016; Cheng và cộng sự, 2016) hoặc lý luận có cấu trúc sâu hơn, với một lượng nhỏ được tự động thu lại (Khot et al., 2015) hoặc kiến thức được hướng dẫn một cách thủ công (Khashabi và cộng sự., 2016)

3 Bài toán đặt ra và hướng giải quyết

Trang 4

Trong bài báo xem xét câu hỏi sau đây từ bài kiểm tra khoa học cấp 4 của tiểu bang Alaska:

Vật thể nào trong hệ mặt trời của chúng ta phản ánh ánh sáng và là vệ tinh

mà có quỹ đạo quanh một hành tinh?

(A) Trái Đất (B) Thủy ngân (C) Mặt trời (D) Mặt trăng

Câu hỏi này là thách thức đối với các hệ thống đảm bảo chất lượng bởi vì cấu trúc phức tạp của nó và sự cần thiết của lập luận đa nguyên Để trả lời nó một cách tự nhiên bằng việc kết hợp nhiều sự kiện như (mặt trăng; là; trong hệ mặt trời), (mặt trăng; phản chiếu; ánh sáng), (Mặt trăng; là;vệ tinh) và (Mặt trăng; quỹ đạo; xung quanh một hành tinh)

Một hệ thống ứng viên cho lý luận như vậy, họ rút ra từ nguồn cảm hứng, đó

là hệ thống TABLEILP của Khashabi và cộng sự (2016) Hệ thống TABLEILP như là một tìm kiếm tối ưu dưới một biểu đồ mà nó kết nối các thuật ngữ trong câu hỏi và trả lời thông qua các dòng trong một tập hợp các bảng được sắp xếp, và giải quyết vấn đề tối ưu bằng cách sử dụng Lập trình tuyến tính số nguyên (ILP) Họ cũng muốn tìm kiếm một đồ thị tối ưu tương tự Tuy nhiên, một tập hợp lớn, tự động trích xuất KB làm cho ngữ cảnh lập luận khác nhau trên ba mặt:

(a) Không giống như lập luận với TABLEILP, các bộ chuỗi không quan trọng và đáng tin cậy bởi vì không có sẵn các quy tắc kết hợp;

(b) Bằng chứng kết hợp trở nên quan trọng, không giống như một hàng trong bảng dài, một bộ đôi đơn lẻ ít có khả năng vượt qua toàn bộ câu hỏi;

(c) Không giống như các hàng của bảng, các bộ đôi có tính nhiễu, làm cho việc kết hợp các bằng chứng dư thừa Do đó, một mô hình suy luận trung tâm kiến thức bàn không phù hợp nhất cho các bộ nhiễu

Để giải quyết thách thức này, họ trình bày một mô hình dựa trên ILP của suy luận với các bộ đôi, được thực hiện bởi nhà lập luận có tên TUPLEINF Chúng tôi chứng minh rằng TUPLEINF đã thực hiện thành công TABLEILP lên 11,8% trên tổng

số hơn 1.300 câu hỏi khoa học mà không đòi hỏi phải có các bảng hướng dẫn sử dụng một công thức ILP đơn giản hơn và tổng quát hóa các cấp lớp cao hơn Những lợi ích tồn tại ngay cả khi cả hai nhà giải quyết được cung cấp kiến thức giống hệt nhau Điều này chứng tỏ lần đầu tiên khai thác thông tin mở dựa QA có thể được mở rộng từ các câu hỏi tra cứu đơn giản đến một hệ thống hiệu quả cho các câu hỏi phức tạp

Nghiên cứu của nhóm tác giả thảo luận về 2 công việc liên quan đó là: trả lời câu hỏi dựa trên web dựa trên truy vấn (lý do đơn giản với KB quy mô lớn) và trả lời câu hỏi khoa học (lập luận phức tạp với KB nhỏ)

- Trang Web QA: Có tồn tại một số hệ thống dựa trên truy vấn về Trang Web QA (Ferrucci và cộng sự., 2010 Brill và cộng sự, 2002) Trong khi cấu trúc KBs như Freebase đã được sử dụng ở nhiều nơi (Berant và cộng sự, 2013, Berant và Liang,

2014, Kwiatkowski và cộng sự, 2013), cách tiếp cận này bị giới hạn bởi phạm vi phủ sóng của dữ liệu Các hệ thống QA sử dụng các bộ khai thác dữ liệu mở chưa đủ cấu trúc (Fader và cộng sự, 2013, 2014, Yin và cộng sự, 2015) hoặc tự động trích xuất các bảng trang web (Sun và cộng sự, 2016, Pasupat and Liang, 2015) có phạm vi rộng hơn nhưng giới hạn trong các câu hỏi đơn giản với một truy vấn

Trang 5

- Khoa học QA: Các nhiệm vụ QA trong khoa học cấp cơ sở đòi hỏi phải có lý do để giải quyết các câu hỏi phức tạp Các Mạng logic Markov (Richardson and Dominogos, 2006) đã được sử dụng để thực hiện lý luận xác suất đối với một tập hợp nhỏ các quy tắc logic (Khot và cộng sự, 2015) Các kỹ thuật IR đơn giản cũng đã được đề xuất cho các bài kiểm tra khoa học (Clark và cộng sự, 2016) và các bài kiểm tra Gaokao (tương đương với kỳ thi SAT tại Trung Quốc) (Cheng và cộng sự, 2016)

Công việc liên quan nhất đến TUPLEINF là giải pháp TABLEILP Cách tiếp cận này tập trung vào xây dựng chuỗi suy luận bằng cách sử dụng các quy tắc kết hợp được xác định bởi con người cho một tập hợp các bảng được sắp xếp nhỏ Trong khi

nó cũng có thể sử dụng các từ vựng mở (như là chúng đã ta đánh giá trong các thí nghiệm của chúng ta), hiệu quả của nó bị hạn chế bởi sự khó khăn trong việc xác định các quy tắc kết nối tin cậy cho các bộ ký tự đó Hơn nữa, mỗi hàng trong một số bảng phức tạp bao gồm tất cả các thông tin liên quan liên quan (ví dụ, mỗi hàng của bảng thích ứng chứa (động vật, thích ứng, thách thức, kế hoạch)), trong khi khôi phục lại thông tin đó đòi hỏi phải kết hợp nhiều bộ nhớ để khai thác thông tin mở

Đầu tiên, họ mô tả về những bộ (tuples) được những người nghiên cứu sử dụng để giải quyết vấn đề Họ định nghĩa một bộ như là một đối tượng bao gồm (chủ ngữ, vị ngữ, tân ngữ) với không hoặc nhiều đối tượng Họ đề cập đến chủ ngữ, vị ngữ,

và các đối tượng như các trường của một bộ

Bộ KB (hình thành bộ KB)

Nhóm nghiên cứu sử dụng tập văn bản nguồn (S) từ Clark và các cộng sự vào năm 2016 để xây dựng bộ KB

Tập văn bản S chứa 5x1010

thẻ (280 GB văn bản thuần) được trích xuất từ các trang web và khoảng 80000 cặp câu theo nhiều nguồn mục tiêu nhắm đến

Mỗi một bài thử nghiệm, nhóm nghiên cứu sử dụng những câu hỏi tập luyện tương ứng Qtr để tìm lại cặp câu tương ứng từ tập văn bản S Đặc biệt với mỗi câu hỏi trắc nghiệm nhiều lựa chọn (q, A)Qtr và mỗi lựa chon qA họ sử dụng không ngừng lại tất cả các thẻ nguồn từ vùng liên quan trong q và a như là một truy vấn

ElasticSearch lần nữa đến tập văn bản S Họ chỉ lấy 200 lượt truy cập hàng đầu, chạy Open IE v4, và tổng hợp tất cả bộ kết quả kết thúc aA và kết thúc tất cả câu hỏi trong

Qtr để tạo một bộ KB (T)

Tuple Selection (Lựa chọn bộ)

Cho một câu hỏi trắc nghiệm nhiều lựa chọn qa, với câu hỏi văn bản và lựa chọn câu trả lời A={ai}, họ lựa chọn bộ thích hợp nhất từ T và S như sau

Sự chọn lựa bộ KB: Nhóm nghiên cứu sử dụng một sự đảo ngược mục lục để

tìm ra 1000 bộ mà những bộ đó phải có thẻ nối chồng chéo nhất với thẻ câu hỏi tok(qa) Họ cũng lọc ra bất kỳ bộ nào mà nó chỉ nối chồng chéo với tok(q) khi họ không có bất cứ thông tin nào về câu trả lời Họ tính điểm chuẩn TF-IDF bằng việc xử

lý những câu hỏi, q, nơi N là tổng số các bộ trong KB và nx là số các bộ chứa x Chúng ta sẽ bình thường hóa điểm số tf-idf bằng số lượng các token trong t và q, và lấy 50 bộ điểm cao nhất bộ Tqa

Trang 6

Hình 1: Một biểu đồ hỗ trợ ví dụ liên kết một câu hỏi (trên cùng),

hai bộ từ tùy chọn KB (màu) và một câu trả lời (nitơ)

Trên bộ từ văn bản: Để xử lý các câu hỏi từ các tên miền mới không được nhóm đào tạo bảo vệ, chúng tôi trích xuất các bộ đôi bổ sung trực tiếp từ S (tương tự như Sharma và cộng sự (2015)) Tác giả thực hiện cùng một truy vấn tìm kiếm được

mô tả trước đó để xây dựng T, và bỏ qua các câu không bao chọn câu trả lời vì chúng không phân biệt Bên cạnh cũng bỏ qua các câu dài (> 300 ký tự) và các câu với phủ nhận 5 vì chúng có xu hướng dẫn đến suy luận nhiễu Sau đó chúng ta chạy khai thác thông tin mở trên những câu này và lấy lại kết quả của các bộ xử lý bằng cách sử dụng điểm số Jaccard 6 đối với sự mất mát của việc khai thác thông tin mở, và cuối cùng lấy

50 bộ có điểm cao nhất T’qa

Tìm kiếm Biểu đồ hỗ trợ: Tương tự như TABLEILP, họ xem nhiệm vụ QA

như tìm kiếm một đồ thị kết nối tốt nhất các thuật ngữ trong câu hỏi (các thuật ngữ q) với một sự lựa chọn câu trả lời thông qua kiến thức; xem hình 1 cho một ví dụ minh họa đơn giản Không giống như các mô hình sắp xếp tiêu chuẩn được sử dụng cho các nhiệm vụ như Nhận thức về sự ngưng kết bằng văn bản (RTE) (Dagan và những đồng nghiệp, 2010), tuy nhiên, phải tính toán sự sắp xếp giữa một tập Tqa T’qa của bộ cấu trúc và một (có thể nhiều câu) câu hỏi trắc nghiệm qa

Các thuật ngữ q, lựa chọn câu trả lời, và những trường bộ tạo thành tập các

đỉnh có thể, V của biểu đồ hỗ trợ Khía cạnh kết nối thuật ngữ q tới các trường bộ và

trường bộ để trả lời các lực chọn tạo thành các cạnh có thể, E Đồ thị hỗ trợ, G (V, E),

là một đồ thị phụ của G (V, E) trong đó V và E biểu thị các nút "chủ động" và các cạnh,

resp Tác giả xác định một mô hình tối ưu hóa ILP để tìm kiếm đồ thị hỗ trợ tốt nhất (tức là các nút và cạnh hoạt động) như sau

- Biến số

ILP có một biến nhị phân cho mỗi thuật ngữ q (xq), bộ (xt), lĩnh vực bộ (xf),

và lựa chọn câu trả lời (xa), cho biết nút đồ thị tương ứng có hoạt động hay không Có một biến hoạt động nhị phân (xe) cho mỗi cạnh eE Để hiệu quả, chúng ta chỉ tạo ra một thuật ngữ q  lĩnh vực cạnh và một trường lựa  chọn cạnh nếu hệ số tương ứng không nhỏ hơn một ngưỡng nhất định (0.1 và 0.2, resp.)

- Chức năng khách quan

Hệ số chức năng khách quan c e của mỗi cạnh e (t, h) được xác định bởi điểm

số chồng chéo nhau

Trang 7

Trong khi TABLEILP sử dụng đường dẫn Word Net (Miller, 1995) để tính toán trọng số cạnh, kết quả đo lường này sẽ đạt được điểm không đáng tin cậy trong khi phải đối mặt với các cụm từ dài hơn được tìm thấy trong các bộ nhớ khai thác thông tin mở

So với KB được lưu trữ, bạn có thể dễ dàng tìm thấy các bộ nhớ khai thác thông tin mở phù hợp với các phần không liên quan của câu hỏi Để giảm nhẹ vấn đề này, Nhóm nghiên cứu đã quy mô các đồng nghiệp về các thuật ngữ q trong mục tiêu của ILP nhằm tập trung vào các thuật ngữ quan trọng Kể từ khi các thuật ngữ sau đó trong một câu hỏi có xu hướng cung cấp những thông tin quan trọng nhất, chúng tôi tính thuật ngữ q dựa trên vị trí của chúng trong câu hỏi Ngoài ra, các thuật ngữ q xuất hiện trong hầu hết tất cả các bộ đôi được chọn có khuynh hướng không phân biệt đối

xử vì bất kỳ bộ nào cũng hỗ trợ như vậy Do đó chúng tôi tính thuật ngữ q nghịch với tần số mà chúng xảy ra trong các bộ được chọn Phụ lục A mô tả hệ số cho thuật ngữ q cũng như các biến cụ thể khác

- Ràng buộc

Kể từ khi bộ khai thác thông tin mở không đi kèm với lược đồ và các quy tắc tham gia, chúng ta có thể xác định một mô hình cơ bản sim so với TABLEILP Điều này làm giảm khả năng suy luận nhưng cũng giúp loại bỏ sự tồn tại của các quy tắc kết hợp tay và các biểu hiện thường dùng được sử dụng trong TABLEILP Chúng tôi phát hiện ra (xem đánh giá thực nghiệm) rằng mô hình đơn giản này có thể đạt được cùng điểm số như TABLEILP đối với bài kiểm tra lại (đặt lại bài kiểm tra mục tiêu được TABLEILP sử dụng) và tổng quát hơn cho các cấp lớp khác nhau

Chúng ta bắt đầu với một vài ràng buộc xác định nút hoặc cạnh hoạt động là những cái gì, được thể hiện dưới dạng các nhóm đầu tiên của các ràng buộc trong Bảng 1

Nhóm nghiên cứu bắt đầu với một vài ràng buộc xác định một nút hoặc cạnh hoạt động, thể hiện dưới dạng các nhóm đầu tiên của các ràng buộc trong Bảng 1 Để tránh các hệ số cạnh tích cực trong hàm mục tiêu, họ hạn chế số lượng các cạnh hoạt động từ một bộ tích cực, lựa chọn câu hỏi, các trường bộ đếm và các thuật ngữ q (nhóm thứ hai của các ràng buộc trong Bảng 1) Mô hình có khả năng sử dụng nhiều

bộ để hỗ trợ các phần khác nhau của câu hỏi như minh họa trong Hình 1 Để tránh các

bộ giả mạo chỉ kết nối với câu hỏi (hoặc sự lựa chọn) hoặc bỏ qua mối quan hệ được thể hiện trong bộ này, họ thêm các ràng buộc yêu cầu mỗi bộ để kết nối thuật ngữ q với sự lựa chọn câu trả lời (nhóm thứ ba của các ràng buộc trong Bảng 1)

Trang 8

Họ cũng định nghĩa các ràng buộc mới dựa trên cấu trúc bộ đệm khai thác thông tin mở Kể từ khi một bộ giải mã khai thác thông tin mở thể hiện một thực tế về chủ đề của bộ phận, yêu cầu chủ thể phải hoạt động Để tránh các vấn đề như (Hành tinh, quỹ đạo, Mặt Trời) phù hợp với câu hỏi mẫu trong phần giới thiệu ("Đối tượng nào quay quanh một hành tinh"), chúng ta cũng thêm một ràng buộc có sắp xếp (nhóm thứ tư trong Bảng 1)

Mộ lưu ý là TUPLEINF chỉ kết hợp các bằng chứng song song, tức là, mỗi bộ phải kết nối các từ trong câu hỏi với sự lựa chọn câu trả lời Đối với lý thuyết nhiều loại đáng tin cậy bằng cách sử dụng bộ khai thác thông tin mở, có thể thêm các kết nối

bộ vào tìm kiếm đồ thị hỗ trợ, được kiểm soát bởi một số ít các quy tắc về các vị từ mở khai thác thông tin mở Học các quy tắc cho lĩnh vực Khoa học là mở ra một vấn đề và tiềm năng cho công việc trong tương lai

V THỬ NGHIỆM

Họ đưa ra so sánh giữa phương pháp họ đang nghiên cứu với hai hệ thống hiện đại nhất cho kỳ thi khoa học lớp 4 và lớp 8, chứng minh rằng (a) TUPLEINF chỉ

tự động trích các bộ TABLEILP thật sự hiệu quả hơn với kiến thức ban đầu cũng như các bộ bổ sung, và (b) cách tiếp cận bổ sung của TU- PLEINF đối với IR dẫn đến một đội ngũ được cải tiến Các số in đậm cho thấy ý nghĩa thống kê dựa trên kiểm tra chính

xác nhị thức (Howell, 2012) ở p = 0.05

Nhóm tác giả xem xét hai bộ câu hỏi

(1) Tập lớp 4 (1220 chuỗi, 1304 bài kiểm tra) là lớn hơn 10 lần các câu hỏi phụ của NY (Clark và cộng sự, 2016), và bao gồm các câu hỏi bằng văn bản được cấp phép chuyên nghiệp

(2) Tập lớp 8 (293, 282) bao gồm các câu hỏi lớp 8 từ các bang khác nhau Nhóm tác giả xem xét hai nguồn tri thức:

(1) Hệ thống văn bản (S) bao gồm 80 nghìn câu nhắm mục tiêu theo miền và

280 GB văn bản thuần túy được trích xuất từ các trang web được sử dụng bởi Clark và cộng sự (2016) Văn bản này được sử dụng như là một tập hợp các câu bởi người giải quyết vấn đề IR Nó cũng được sử dụng để tạo ra bộ KB T (Sec 3.1) và các bộ câu hỏi riêng biệt T’qa (Sec 3.2) cho TUPLEINF

(2) TABLEILP sử dụng 70 bảng phụ (C) chứa khoảng 7,600 hàng, được thiết

kế cho kỳ thi cấp 4 của NY

So sánh TUPLEINF với hai đường cơ sở tiên tiến nhất IR là một đường cơ sở truy hồi thông tin đơn giản nhưng mạnh mẽ (Clark và cộng sự., 2016) chọn lựa câu trả

Trang 9

lời với câu phù hợp nhất trong một tài liệu TABLEILP là đường cơ sở suy luận có cấu trúc hiện đại (Khashabi và cộng sự, 2016) được phát triển cho các câu hỏi khoa học

Các kết quả Bảng 2 cho thấy rằng TUPLEINF, không có kiến thức phụ, thực hiện TABLEILP trên cả hai bộ câu hỏi hơn 11% Nửa dưới của bảng cho thấy rằng ngay cả khi cả hai người giải quyết được cung cấp cùng một kiến thức (C + T), 10 sự lựa chọn và mô hình đơn giản hóa của TUPLEINF11 đã làm tăng đáng kể về mặt thống kê Mô hình đơn giản của chúng tôi, TUPLEINF (C + T), cũng đạt được điểm số tương đương với TABLEILP đối với mục tiêu của Đề án câu hỏi phụ (61,4% so với TABLEILP 61,5%) mà không có bất kỳ quy tắc chuyên môn nào

Bảng 3 cho thấy, mặc dù TUPLEINF đạt được điểm tương tự như người giải quyết vấn

đề IR, các phương pháp tiếp cận được bổ sung (lý luận kiến thức tổn hao có cấu trúc

và thu hồi câu không mất) Hai người giải quyết, trên thực tế, khác nhau về 47,3% các câu hỏi đào tạo Để khai thác tính bổ trợ này, nhóm nghiên cứu đào tạo một hệ thống toàn bộ (Clark và cộng sự., 2016), như thể hiện trong bảng, cung cấp một tăng cường

cơ bản cho người giải quyết cá nhân Hơn nữa, IR + TUPLEINF luôn tốt hơn IR + TABLEILP

Cuối cùng, kết hợp với IR và giải pháp PMI dựa trên hiệp hội thống kê (với điểm số 54,1% của chính nó) của Clark và cộng sự (2016), TUPLEINF đạt được điểm

số 58,2% cho bộ lớp 4 Điều này so sánh thuận lợi với điểm số đầy đủ của TABLEILP

là 56,7%, một lần nữa chứng thực cho sức mạnh của TUPLEINF

VII PHÂN TÍCH LỖI

Nội dung nghiên cứu mô tả bốn lớp thất bại của TUPLEINF và đề xuất công việc tương lai

- Các lớp thất bại:

+ Lỗi thiếu từ quan trọng: Vật chất nào sẽ trải ra để lấp đầy một thùng chứa lớn hơn?

(A) không khí (B) nước đá (C) cát (D) nước

Trong câu hỏi này, chúng ta có bộ đệm hỗ trợ nước sẽ lan ra và lấp đầy một thùng chứa lớn hơn, nhưng bỏ lỡ những từ quan trọng "hoàn toàn" Một phương pháp

để phát hiện các câu hỏi nổi bật sẽ giúp đỡ ở đây

- Mất truy xuất thông tin: Hành động nào là phương pháp tốt nhất để tách một hỗn hợp muối và nước?

Người giải quyết vấn đề IR trả lời chính xác câu hỏi này bằng cách sử dụng câu sau: Phân tách muối và nước trộn bằng cách làm bốc hơi nước Tuy nhiên, TUPLEINF không thể trả lời câu hỏi này vì Open IE không thể trích xuất các câu từ câu này Trong khi cấu trúc bổ sung từ khai thác thông tin mở thường hữu ích cho việc kết hợp nhiều vòng lặp hơn, việc chuyển đổi sang bộ đôi sẽ mất các thông tin quan trọng

- Sự sắp xếp sai: Loại khí nào dưới đây là cần thiết cho con người hít thở để sống?

(A) Ôxy (B) Carbon dioxide (C) Helium (D) Hơi nước

Trang 10

TUPLEINF trả về "Carbon dioxide" là câu trả lời vì các bộ (con người, thở ra, carbon dioxide) Cụm từ “to breathe” trong câu hỏi có một điểm kết hợp cao với

“breathe out” trong bộ, mặc dù chúng có ý nghĩa khác nhau hoàn toàn Một cải tiến mô-đun liên kết cụm từ có thể giảm thiểu vấn đề này

- Phạm vi ngoài: Hươu sống trong rừng để trú ẩn Nếu rừng bị chặt hạ, tình huống nào

sẽ xảy ra nhiều nhất?

Những câu hỏi như vậy đòi hỏi phải mô hình hóa một trạng thái được trình bày trong câu hỏi và lý luận về trạng thái này, mà nằm ngoài phạm vi của người giải quyết của chúng ta

VIII KẾT LUẬN

Nhóm tác giả đã trình bày một hệ thống QA mới, TUPLEINF, có thể lý giải trên một cơ sở tri thức rộng lớn, có tiềm năng nhiễu của các bộ mẫu (chủ đề, vị từ, đối tượng) để trả lời các câu hỏi phức tạp Kết quả của nhóm nghiên cứu thành lập TUPLEINF như là một nhà giải thuật lý luận có cấu trúc mới cho khoa học cấp cơ sở

mà không dựa vào kiến thức được lưu trữ và tổng quát cho các cấp lớp cao hơn Phân tích lỗi của họ chỉ ra rằng sự mất ổn định của IE và lỗi văn bản là hai nguyên nhân chính của sự thất bại, gợi ý công việc sắp tới trong tương lai bao gồm việc kết hợp các ngữ cảnh và các phép đo tương tự phân phối

Định dạng
Số trang	10
Dung lượng	580,79 KB