Question Oriented Multi Docu ment Summarization Question Oriented Multi Docu ment Summarization Trần Mai Vũ Giới thiệu • Đặt vấn đề – Duc 2005 2007 – Hệ thống Q&A Start SYSTEM (MIT) Tài liệu • [1] A S[.]
Trang 1Question-Oriented Multi Docu-
ment Summarization
Trần Mai Vũ
Trang 2Giới thiệu
• Đặt vấn đề:
– Duc 2005-2007
– Hệ thống Q&A
Trang 3Start SYSTEM (MIT)
Trang 4Tài liệu
• [1] A Semantic Free-text Summarization System
Using Ontology Knowledge
R Verma, University of Houston
P Chen, University of Houston-Downtown
W Lu, University of Texas-Austin,DUC 07
• [2] Language Model Passage Retrieval for Quest
ion-Oriented Multi Document Summarization
J.-C Ying, S.-J Yen, Y.-S Lee, Y.-C Wu, J.-C
Yang, National Central University,DUC 07
Trang 5Mô hình đã áp dụng
Trang 6Độ tương đồng ngữ nghĩa
• Sử dụng mạng ngữ nghĩa (Tri thức miền)
– Wordnet
– Wikipedia
• Phân tích chủ đề
– Hidden topic
– Phân tích chủ đề bằng Wordnet
-> Sử dụng các tri thức miền(Ontology) tương ứng với từng chủ đề cụ thể để tăng cường ngữ nghĩa
Trang 7Sự tương đồng
• Sự tương đồng giữa các mạng ngữ nghĩa và kiến trúc của ontology.
– Tổ chức theo từng domain/class chủ đề
– Từng domain/class chứa nhiều các đối tượng
– Giữa các đối tượng của domain/class có mối liên
hệ với nhau
Trang 8• Wordnet
• UMLS (Unified
Medical Language
System)
– Metathesaurus
– Semantic Network
– Specialist lexicon
Trang 9• Quy trình của hệ thống
– Xây dựng bộ truy vấn các từ/khái niệm trên
Wordnet/UMLS
– Loại bỏ các câu gần nhau
– Xác định câu quan trọng bằng việc tính các độ đo tương đồng giữa các câu dựa vào độ tương đồng từ
Trang 10Mô hình Q&A đơn giản
Trang 11• Phân đoạn các đoạn văn bản/các câu
• Phân cụm các đoạn văn bản/các câu
• Trích chọn các đoạn văn bản/các câu tương
ứng với câu truy vấn
• Sinh tóm tắt cho cụm văn bản được trích chọn ra.
Trang 12• Phân cụm các đoạn văn bản / các câu
– Sử dụng túi từ
– Sử dụng giải thuật Kmean
• Trích chọn các đoạn văn bản / các câu tương ứng với câu truy vấn
– Sử dụng mô hình ngôn ngữ n-gram (Chen &
Goodman 1998)
Trang 13• Sinh tóm tắt cho cụm văn bản:
– Rút ra câu có độ tương đồng cao nhất với tâm
cụm đầu tiên (top-1) đưa vào văn bản tóm tắt
– Rút các câu có độ khác biệt nhất với văn bản tóm tắt trong các cụm văn bản tiếp theo để cho vào văn bản tóm tắt
Trang 14Tài nguyên
• Tài nguyên
– Công cụ tính độ tương đồng ngữ nghĩa của
concept trên wikipedia
– Ontology y tế của nhóm Ngân
– Công cụ tóm tắt đa văn bản dựa vào giải thuật MMR và chủ đề ẩn
Trang 15Mô hình
Trang 16Các bước triển khai
• Phân đoạn các câu
• Trích chọn các câu có độ tương đồng ngữ
nghĩa với câu hỏi/câu truy vấn
– Sử dụng phương pháp kết hợp 2 độ đo tương
đồng về ngữ nghĩa trên wikipedia và ontology y tế – Dựa vào một ngưỡng xác định để đưa ra danh
sách các câu phù hợp
Trang 17Các bước triển khai
• Phân cụm các câu trả về từ quá trình trước
– Sử dụng giải thuật KMEAN (Sử dụng bộ công cụ của chị Tú&Trang)
• Tóm tắt đa văn bản với các cụm dữ liệu.
– Sử dụng giải pháp bài báo [2]
– Sử dụng MMR