1. Trang chủ
  2. » Công Nghệ Thông Tin

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

23 986 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 463,59 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt Người thực hiện: Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn: 1... Giới thiệu Vai trò độ tương đ

Trang 1

Độ tương đồng ngữ nghĩa giữa

hai câu và ứng dụng trong

tóm tắt văn bản tiếng Việt

Người thực hiện:

Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn:

1

Trang 2

Nội dung báo cáo

Trang 3

1 Giới thiệu

 Vai trò độ tương đồng ngữ nghĩa giữa các

câu

• Sự quan tâm đặc biệt trong các hội nghị

quốc tế như: DUC…

• Áp dụng tốt độ đo này sẽ làm các ứng dụng trở nên “thông minh” hơn.

 Tính cấp thiết của độ tương đồng ngữ nghĩa trong tiếng Việt

Trang 4

2 Độ tương đồng câu

Độ tương đồng câu là gì?

 Ví dụ: Xét hai câu sau:

“Tôi là nam sinh” và “Tôi là nữ sinh”

ta thấy hai câu trên có sự tương đồng cao.

 Một tài liệu d gồm có n câu: d = s1, s2, , sn

Mục tiêu của bài toán là tìm ra một giá trị

Trang 6

3 Phương pháp tính độ tương đồng câu

Mô hình của phương pháp [LLB06]

Trang 7

3 Phương pháp tính độ tương đồng câu

Thực hiện qua 5 bước :

a Tiền xử lý

b Tính độ tương tự từ dựa trên Wordnet

c Độ tương đồng về ngữ nghĩa giữa hai câu

d Độ tương đồng về thứ tự của các từ trong câu

e Tính độ tương đồng cho toàn bộ câu

Trang 8

3a Tính độ tương tự từ dựa trên wordnet

Trang 9

3a Tính độ tương tự từ dựa trên Wordnet

Kết quả thực nghiệm

trên 7 độ đo về độ

tương tự từ dựa trên

Wordnet cho thấy độ

Ex Gloss Overlaps 0.43 0.34

Hirst-St.Onge 0.33 0.23

Trang 10

Độ đo JCN

JCN sử dụng nội dung thông tin (Information Content) của

các khái niệm (concept)

IC(concept) = –log(P(concept))

với: P(concept) = freq(concept)/N

Công thức tính khoảng cách ngữ nghĩa giữa hai từ:

distance = IC(c1) + IC(c2) – 2 IC(lcs(c1, c2))

Trang 11

3b Độ tương đồng về ngữ nghĩa giữa hai câu

 Gọi s i là vector ngữ nghĩa của mỗi câu.

 Sự giống nhau về ngữ nghĩa giữa hai

câu là hệ số cosin giữa hai vector:

2 1

s s

s s

S s

Trang 12

3c.Độ tương đồng về thứ tự các từ trong câu

 Ví dụ:

 T1: A quick brown dog jumps over the lazy fox.

 T2: A quick brown fox jumps over the lazy dog.

 Gọi r là vector thứ tự từ trong câu Công thức để tính độ tương đồng về thứ tự của từ trong câu

như sau:

Trang 13

3d Độ tương đồng về toàn bộ câu

 Sự giống nhau về toàn bộ câu là sự kết hơp

giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu

Trang 14

4 Áp dụng độ tương đồng câu cho

tóm tắt văn bản tiếng Việt

 Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng

Trang 15

 Xếp hạng kết quả

Trang 18

Kết quả thực nghiệm

Kết quả tóm tắt Google trả về:

Kết quả:

Trang 19

5 Kết luận và hướng phát triển tiếp

 Nghiên cứu và áp dụng độ đo tương đồng

câu vào trong xử lý ngôn ngữ tiếng Việt.

 Thử nghiệm thành công độ đo này trong bài

toán tóm tắt trang web tiếng Việt trên máy tìm kiếm

 Cải thiện kết quả tính toán các độ đo bằng

việc xây dựng bộ corpus tiếng Việt (kiểu

WordNet) đầy đủ hơn.

Trang 20

Tài liệu tham khảo

 [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị

Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây

dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của

công nghệ thông tin, 2006, 413-421

 [MB06] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt trong

công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát

triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt",

Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,

2006

 [PT05] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang

web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22

 [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C

(2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,

Trang 21

Tài liệu tham khảo

 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea,

Keeley A Crockett (2006) Sentence Similarity Based on Semantic

Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8):

1138-1150

 [MR06] A A Mohamed, S Rajasekaran, (2006) Query-Based

Summarization Based on Document Graphs, Document

Understanding Workshop, June 8-9, 2006 (DUC2006),New York

Marriott, Brooklyn, New York USA

 [NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan,

Le-Minh Nguyen and Quang-Thuy Ha (2006) Vietnamese Word

Segmentation with CRFs and SVMs: An Investigation The 20th

Pacific Asia Conference on Language, Information and Computation

(PACLIC20), November 1-3, 2006, Wuhan, China, 215-222

 [Pad03] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic

Relatedness MSc Thesis, University of Minnesota, Duluth, MN

Trang 22

Tài liệu tham khảo

 [SB08] P Senellart and V D Blondel (2008) Automatic discovery of

similar words, Survey of Text Mining II: Clustering, Classification and

Springer-Verlag, January 2008

[Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD

thesis in Computer science, Université Paris-Sud, Orsay, France,

December 2007

 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey

(2006) Efficient Information Retrieval Using Measures of Semantic

Similarity, Conference on Software, Knowledge, Information

Management and Applications, Chiang Mai, Thailand, December 2006,

94-98

[1] Nguyễn Cẩm Tú, Phan Xuân Hiếu JvnSegmenter

Trang 23

Thanks for your listening

Ngày đăng: 18/10/2014, 21:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm