Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt Người thực hiện: Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn: 1... Giới thiệu Vai trò độ tương đ
Trang 1Độ tương đồng ngữ nghĩa giữa
hai câu và ứng dụng trong
tóm tắt văn bản tiếng Việt
Người thực hiện:
Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn:
1
Trang 2Nội dung báo cáo
Trang 31 Giới thiệu
Vai trò độ tương đồng ngữ nghĩa giữa các
câu
• Sự quan tâm đặc biệt trong các hội nghị
quốc tế như: DUC…
• Áp dụng tốt độ đo này sẽ làm các ứng dụng trở nên “thông minh” hơn.
Tính cấp thiết của độ tương đồng ngữ nghĩa trong tiếng Việt
Trang 42 Độ tương đồng câu
Độ tương đồng câu là gì?
Ví dụ: Xét hai câu sau:
“Tôi là nam sinh” và “Tôi là nữ sinh”
ta thấy hai câu trên có sự tương đồng cao.
Một tài liệu d gồm có n câu: d = s1, s2, , sn
Mục tiêu của bài toán là tìm ra một giá trị
Trang 63 Phương pháp tính độ tương đồng câu
Mô hình của phương pháp [LLB06]
Trang 73 Phương pháp tính độ tương đồng câu
Thực hiện qua 5 bước :
a Tiền xử lý
b Tính độ tương tự từ dựa trên Wordnet
c Độ tương đồng về ngữ nghĩa giữa hai câu
d Độ tương đồng về thứ tự của các từ trong câu
e Tính độ tương đồng cho toàn bộ câu
Trang 83a Tính độ tương tự từ dựa trên wordnet
Trang 93a Tính độ tương tự từ dựa trên Wordnet
Kết quả thực nghiệm
trên 7 độ đo về độ
tương tự từ dựa trên
Wordnet cho thấy độ
Ex Gloss Overlaps 0.43 0.34
Hirst-St.Onge 0.33 0.23
Trang 10Độ đo JCN
JCN sử dụng nội dung thông tin (Information Content) của
các khái niệm (concept)
IC(concept) = –log(P(concept))
với: P(concept) = freq(concept)/N
Công thức tính khoảng cách ngữ nghĩa giữa hai từ:
distance = IC(c1) + IC(c2) – 2 IC(lcs(c1, c2))
Trang 113b Độ tương đồng về ngữ nghĩa giữa hai câu
Gọi s i là vector ngữ nghĩa của mỗi câu.
Sự giống nhau về ngữ nghĩa giữa hai
câu là hệ số cosin giữa hai vector:
2 1
s s
s s
S s
Trang 123c.Độ tương đồng về thứ tự các từ trong câu
Ví dụ:
T1: A quick brown dog jumps over the lazy fox.
T2: A quick brown fox jumps over the lazy dog.
Gọi r là vector thứ tự từ trong câu Công thức để tính độ tương đồng về thứ tự của từ trong câu
như sau:
Trang 133d Độ tương đồng về toàn bộ câu
Sự giống nhau về toàn bộ câu là sự kết hơp
giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu
Trang 144 Áp dụng độ tương đồng câu cho
tóm tắt văn bản tiếng Việt
Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng
Trang 15 Xếp hạng kết quả
Trang 18Kết quả thực nghiệm
Kết quả tóm tắt Google trả về:
Kết quả:
Trang 195 Kết luận và hướng phát triển tiếp
Nghiên cứu và áp dụng độ đo tương đồng
câu vào trong xử lý ngôn ngữ tiếng Việt.
Thử nghiệm thành công độ đo này trong bài
toán tóm tắt trang web tiếng Việt trên máy tìm kiếm
Cải thiện kết quả tính toán các độ đo bằng
việc xây dựng bộ corpus tiếng Việt (kiểu
WordNet) đầy đủ hơn.
Trang 20Tài liệu tham khảo
[LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị
Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây
dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của
công nghệ thông tin, 2006, 413-421
[MB06] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt trong
công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt",
Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,
2006
[PT05] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang
web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22
[BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C
(2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,
Trang 21Tài liệu tham khảo
[LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea,
Keeley A Crockett (2006) Sentence Similarity Based on Semantic
Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8):
1138-1150
[MR06] A A Mohamed, S Rajasekaran, (2006) Query-Based
Summarization Based on Document Graphs, Document
Understanding Workshop, June 8-9, 2006 (DUC2006),New York
Marriott, Brooklyn, New York USA
[NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan,
Le-Minh Nguyen and Quang-Thuy Ha (2006) Vietnamese Word
Segmentation with CRFs and SVMs: An Investigation The 20th
Pacific Asia Conference on Language, Information and Computation
(PACLIC20), November 1-3, 2006, Wuhan, China, 215-222
[Pad03] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic
Relatedness MSc Thesis, University of Minnesota, Duluth, MN
Trang 22Tài liệu tham khảo
[SB08] P Senellart and V D Blondel (2008) Automatic discovery of
similar words, Survey of Text Mining II: Clustering, Classification and
Springer-Verlag, January 2008
[Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD
thesis in Computer science, Université Paris-Sud, Orsay, France,
December 2007
[STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey
(2006) Efficient Information Retrieval Using Measures of Semantic
Similarity, Conference on Software, Knowledge, Information
Management and Applications, Chiang Mai, Thailand, December 2006,
94-98
[1] Nguyễn Cẩm Tú, Phan Xuân Hiếu JvnSegmenter
Trang 23Thanks for your listening