1. Trang chủ
  2. » Tất cả

Báo cáo độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

22 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Xử lý ngôn ngữ tự nhiên
Thể loại Báo cáo
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 22
Dung lượng 443,71 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

2 Nội dung báo cáo 1 Giới thiệu 2 Độ tương đồng câu 3 Phương pháp tính độ tương đồng câu 4 Áp dụng và kết quả thực nghiệm 5 Kết luận và hướng nghiên cứu tiếp 3 1 Giới thiệu  Vai trò độ tương đồng ngữ[.]

Trang 1

Nội dung báo cáo

1 Giới thiệu

Trang 2

1 Giới thiệu

 Vai trò độ tương đồng ngữ nghĩa giữa các

câu

• Sự quan tâm đặc biệt trong các hội nghị

quốc tế như: DUC…

• Áp dụng tốt độ đo này sẽ làm các ứng dụng trở nên “thông minh” hơn.

 Tính cấp thiết của độ tương đồng ngữ nghĩa trong tiếng Việt

• Được nêu ra trong đề tài cấp nhà nước

KC.01.01.06-10 2

Trang 3

2 Độ tương đồng câu

Độ tương đồng câu là gì?

 Ví dụ: Xét hai câu sau:

“Tôi là nam sinh” và “Tôi là nữ sinh”

ta thấy hai câu trên có sự tương đồng cao.

 Một tài liệu d gồm có n câu: d = s1, s2, , sn

Mục tiêu của bài toán là tìm ra một giá trị

Trang 5

3 Phương pháp tính độ tương đồng câu

Mô hình của phương pháp [LLB06]

Trang 6

3 Phương pháp tính độ tương đồng câu

Thực hiện qua 5 bước :

a Tiền xử lý

b Tính độ tương tự từ dựa trên Wordnet

c Độ tương đồng về ngữ nghĩa giữa hai câu

d Độ tương đồng về thứ tự của các từ trong câu

e Tính độ tương đồng cho toàn bộ câu

Trang 7

3a Tính độ tương tự từ dựa trên wordnet

Trang 8

3a Tính độ tương tự từ dựa trên Wordnet

Kết quả thực nghiệm

trên 7 độ đo về độ

tương tự từ dựa trên

Wordnet cho thấy độ

Ex Gloss Overlaps 0.43 0.34

Trang 9

Độ đo JCN

JCN sử dụng nội dung thông tin (Information Content) của

các khái niệm (concept)

IC(concept) = –log(P(concept))

với: P(concept) = freq(concept)/N

Công thức tính khoảng cách ngữ nghĩa giữa hai từ:

distance = IC(c1) + IC(c2) – 2 IC(lcs(c1, c2))

Trang 10

3b Độ tương đồng về ngữ nghĩa giữa hai câu

 Gọi s i là vector ngữ nghĩa của mỗi câu.

 Sự giống nhau về ngữ nghĩa giữa hai

câu là hệ số cosin giữa hai vector:

2 1

s s

s s

S s

Trang 11

3c.Độ tương đồng về thứ tự các từ trong câu

 Ví dụ:

 T1: A quick brown dog jumps over the lazy fox.

 T2: A quick brown fox jumps over the lazy dog.

 Gọi r là vector thứ tự từ trong câu Công thức để tính độ tương đồng về thứ tự của từ trong câu

như sau:

Trang 12

3d Độ tương đồng về toàn bộ câu

 Sự giống nhau về toàn bộ câu là sự kết hơp

giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu

Trang 13

4 Áp dụng độ tương đồng câu cho

tóm tắt văn bản tiếng Việt

 Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng

Trang 14

 Xếp hạng kết quả

 Chọn ra các câu với tỷ lệ xác định trước

Trang 17

Kết quả thực nghiệm

Kết quả tóm tắt Google trả về:

Kết quả:

Trang 18

5 Kết luận và hướng phát triển tiếp

 Nghiên cứu và áp dụng độ đo tương đồng

câu vào trong xử lý ngôn ngữ tiếng Việt.

 Thử nghiệm thành công độ đo này trong bài

toán tóm tắt trang web tiếng Việt trên máy tìm kiếm

 Cải thiện kết quả tính toán các độ đo bằng

việc xây dựng bộ corpus tiếng Việt (kiểu

WordNet) đầy đủ hơn.

Trang 19

Tài liệu tham khảo

 [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị

Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây

dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của

công nghệ thông tin, 2006, 413-421

 [MB06] Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt trong

công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát

triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt",

Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,

2006

 [PT05] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang

web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22

 [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C

(2007) UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,

Trang 20

Tài liệu tham khảo

 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea,

Keeley A Crockett (2006) Sentence Similarity Based on Semantic

Nets and Corpus Statistics IEEE Trans Knowl Data Eng 18(8):

1138-1150

 [MR06] A A Mohamed, S Rajasekaran, (2006) Query-Based

Summarization Based on Document Graphs, Document

Understanding Workshop, June 8-9, 2006 (DUC2006),New York

Marriott, Brooklyn, New York USA

 [NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan,

Le-Minh Nguyen and Quang-Thuy Ha (2006) Vietnamese Word

Segmentation with CRFs and SVMs: An Investigation The 20th

Pacific Asia Conference on Language, Information and Computation

(PACLIC20), November 1-3, 2006, Wuhan, China, 215-222

 [Pad03] Siddharth Patwardhan (2003) Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic

Relatedness MSc Thesis, University of Minnesota, Duluth, MN

 [RFF05] Francisco J Ribadas, Manuel Vilares Ferro, Jesús Vilares

Ferro (2005) Semantic Similarity Between Sentences Through

Approximate Tree Matching IbPRIA (2) 2005: 638-646

Trang 21

Tài liệu tham khảo

 [SB08] P Senellart and V D Blondel (2008) Automatic discovery of

similar words, Survey of Text Mining II: Clustering, Classification and

Springer-Verlag, January 2008

[Sen07] Pierre Senellart (2007) Understanding the Hidden Web, PhD

thesis in Computer science, Université Paris-Sud, Orsay, France,

December 2007

 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey

(2006) Efficient Information Retrieval Using Measures of Semantic

Similarity, Conference on Software, Knowledge, Information

Management and Applications, Chiang Mai, Thailand, December 2006,

94-98

[1] Nguyễn Cẩm Tú, Phan Xuân Hiếu JvnSegmenter

Trang 22

Thanks for your listening

23

Ngày đăng: 10/03/2023, 13:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w