1. Trang chủ
  2. » Thể loại khác

Question Oriented Multi Docu ment Summarization

17 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 635,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Question Oriented Multi Docu ment Summarization Question Oriented Multi Docu ment Summarization Trần Mai Vũ Giới thiệu • Đặt vấn đề – Duc 2005 2007 – Hệ thống Q&A Start SYSTEM (MIT) Tài liệu • [1] A S[.]

Trang 1

Question-Oriented Multi Docu-

ment Summarization

Trần Mai Vũ

Trang 2

Giới thiệu

• Đặt vấn đề:

– Duc 2005-2007

– Hệ thống Q&A

Trang 3

Start SYSTEM (MIT)

Trang 4

Tài liệu

• [1] A Semantic Free-text Summarization System

Using Ontology Knowledge

R Verma, University of Houston

P Chen, University of Houston-Downtown

W Lu, University of Texas-Austin,DUC 07

• [2] Language Model Passage Retrieval for Quest

ion-Oriented Multi Document Summarization

J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C

Yang, National Central University,DUC 07

Trang 5

Mô hình đã áp dụng

Trang 6

Độ tương đồng ngữ nghĩa

• Sử dụng mạng ngữ nghĩa (Tri thức miền)

– Wordnet

– Wikipedia

• Phân tích chủ đề

– Hidden topic

– Phân tích chủ đề bằng Wordnet

-> Sử dụng các tri thức miền(Ontology) tương ứng với từng chủ đề cụ thể để tăng cường ngữ nghĩa

Trang 7

Sự tương đồng

• Sự tương đồng giữa các mạng ngữ nghĩa và kiến trúc của ontology.

– Tổ chức theo từng domain/class chủ đề

– Từng domain/class chứa nhiều các đối tượng

– Giữa các đối tượng của domain/class có mối liên

hệ với nhau

Trang 8

• Wordnet

• UMLS (Unified

Medical Language

System)

– Metathesaurus

– Semantic Network

– Specialist lexicon

Trang 9

• Quy trình của hệ thống

– Xây dựng bộ truy vấn các từ/khái niệm trên

Wordnet/UMLS

– Loại bỏ các câu gần nhau

– Xác định câu quan trọng bằng việc tính các độ đo tương đồng giữa các câu dựa vào độ tương đồng từ

Trang 10

Mô hình Q&A đơn giản

Trang 11

• Phân đoạn các đoạn văn bản/các câu

• Phân cụm các đoạn văn bản/các câu

• Trích chọn các đoạn văn bản/các câu tương

ứng với câu truy vấn

• Sinh tóm tắt cho cụm văn bản được trích chọn ra.

Trang 12

• Phân cụm các đoạn văn bản / các câu

– Sử dụng túi từ

– Sử dụng giải thuật Kmean

• Trích chọn các đoạn văn bản / các câu tương ứng với câu truy vấn

– Sử dụng mô hình ngôn ngữ n-gram (Chen &

Goodman 1998)

Trang 13

• Sinh tóm tắt cho cụm văn bản:

– Rút ra câu có độ tương đồng cao nhất với tâm

cụm đầu tiên (top-1) đưa vào văn bản tóm tắt

– Rút các câu có độ khác biệt nhất với văn bản tóm tắt trong các cụm văn bản tiếp theo để cho vào văn bản tóm tắt

Trang 14

Tài nguyên

• Tài nguyên

– Công cụ tính độ tương đồng ngữ nghĩa của

concept trên wikipedia

– Ontology y tế của nhóm Ngân

– Công cụ tóm tắt đa văn bản dựa vào giải thuật MMR và chủ đề ẩn

Trang 15

Mô hình

Trang 16

Các bước triển khai

• Phân đoạn các câu

• Trích chọn các câu có độ tương đồng ngữ

nghĩa với câu hỏi/câu truy vấn

– Sử dụng phương pháp kết hợp 2 độ đo tương

đồng về ngữ nghĩa trên wikipedia và ontology y tế – Dựa vào một ngưỡng xác định để đưa ra danh

sách các câu phù hợp

Trang 17

Các bước triển khai

• Phân cụm các câu trả về từ quá trình trước

– Sử dụng giải thuật KMEAN (Sử dụng bộ công cụ của chị Tú&Trang)

• Tóm tắt đa văn bản với các cụm dữ liệu.

– Sử dụng giải pháp bài báo [2]

– Sử dụng MMR

Ngày đăng: 20/04/2022, 14:21

HÌNH ẢNH LIÊN QUAN

Mô hình đã áp dụng - Question Oriented Multi Docu ment Summarization
h ình đã áp dụng (Trang 5)
Mô hình Q&A đơn giản - Question Oriented Multi Docu ment Summarization
h ình Q&A đơn giản (Trang 10)
– Sử dụng mô hình ngôn ngữ n-gram (Chen & - Question Oriented Multi Docu ment Summarization
d ụng mô hình ngôn ngữ n-gram (Chen & (Trang 12)
Mô hình - Question Oriented Multi Docu ment Summarization
h ình (Trang 15)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w