PHÁT HIỆN câu TƯƠNG ĐỒNG TRONG TIẾNG VIỆTpdf

Trên cơ sở đó, trong khuôn khổ đề tài này luận văn muốn đề xuất hướng giải quyết bằng phương pháp sử dụng độ đo tương đồng để đánh giá độ tương đồng ngữ nghĩa giữa hai câu tiếng Việt..

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



NGUYỄN XUÂN TOÀN

PHÁT HIỆN CÂU TƯƠNG ĐỒNG TRONG TIẾNG VIỆT

LUẬN VĂN THẠC SĨ: NGÀNH KHOA HỌC MÁY TÍNH

Tp Hồ Chí Minh, Năm 2018

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



NGUYỄN XUÂN TOÀN

PHÁT HIỆN CÂU TƯƠNG ĐỒNG TRONG TIẾNG VIỆT

LUẬN VĂN THẠC SĨ: NGÀNH KHOA HỌC MÁY TÍNH

Mã số chuyên ngành: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS TS ĐINH ĐIỀN

Tp Hồ Chí Minh, Năm 2018

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu khoa học độc lập của riêng tôi và được sự hướng dẫn khoa học của PGS.TS Đinh Điền Các nội dung nghiên cứu, kết quả trong luận văn này là trung thực Mọi sự tham khảo sử dụng trong luận văn đều được trích dẫn các nguồn tài liệu trong báo cáo và danh mục tài liệu tham khảo Luận văn có sử dụng các thuật toán, công thức của các tác giả khác đều có trích dẫn và chú thích nguồn gốc Các kết quả nghiên cứu và thử nghiệm trong luận văn do tôi tự tìm hiểu, xây dựng, phân tích một cách trung thực, khách quan đúng như hướng dẫn của giảng viên hướng dẫn Mọi sao chép không hợp lệ,

vi phạm quy chế nhà trường, tôi xin chịu hoàn toàn trách nhiệm

Học Viên Nguyễn Xuân Toàn

Tp Hồ Chí Minh, tháng 12 năm 2018

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, cho tôi xin gửi lời cảm ơn chân thành đến Quý Thầy Cô, cán

bộ nhân viên của Trường Đại học Công nghệ Thông tin đã chỉ dạy những kiến thức bổ ích và tạo mọi điều kiện thuận lợi cho tôi trong quá trình học tập tại trường Đặc biệt, em xin gửi lời cảm ơn sâu sắc đến Thầy PGS TS Đinh Điền, cảm ơn Thầy đã tận tình hướng dẫn em thực hiện luân văn này Em xin kính chúc Thầy luôn dồi dào sức khỏe để tiếp tục nghiên cứu khoa học và giảng dạy

Cuối cùng tôi xin gởi lời cảm ơn đến Cha Mẹ, gia đình, người thân, bạn bè

và đồng nghiệp đã quan tâm, ủng hộ trong suốt quá trình học tập cao học

Học Viên Nguyễn Xuân Toàn

Tp Hồ Chí Minh, tháng 12 năm 2018

Trang 5

MỤC LỤC

LỜI CAM ĐOAN iii

LỜI CẢM ƠN iv

MỤC LỤC v

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH viii

DANH SÁCH CÁC TỪ VIẾT TẮT ix

MỞ ĐẦU 1

Chương 1 Tổng quan 3

1.1 Tổng quan độ đo tương đồng ngữ nghĩa 3

1.2 Các công trình có liên quan 4

Chương 2 Cơ sở lý thuyết 7

2.1 Độ tương đồng câu 7

2.2 Các độ đo tương đồng dựa trên thống kê 7

2.2.1 Độ tương đồng Cosine 8

2.2.2 Độ đo khoảng cách Euclide 9

2.2.3 Độ đo khoảng cách Manhattan 9

2.2.4 Độ đo Jaccard 10

2.2.5 Độ đo Dice 11

2.3 Độ đo tương đồng ngữ nghĩa dựa trên Wordnet 11

2.3.1 Khái quát về từ điển Wordnet 11

2.3.2 WordNet Tiếng Việt 13

2.3.3 Các độ đo tương đồng ngữ nghĩa dựa trên WordNet 13

2.3.3.1 Độ đo Path-length 13

Trang 6

2.3.3.2 Độ đo Leacock và Chodorow 14

2.3.3.3 Độ đo Wu và Palmer 14

2.3.3.4 Độ đo Resnik 15

2.3.3.5 Độ đo Lin 15

2.3.3.6 Độ đo Jiang-Conrath 15

Chương 3 Phương pháp nghiên cứu 17

3.1 Mô hình so sánh câu tương đồng 17

3.2 Kiến trúc hệ thống đề xuất 19

3.3 So sánh độ tương đồng hai câu tiếng Việt 21

3.3.1 Tiền xử lý 21

3.3.2 Xác định các cụm từ chung 22

3.3.3 Loại bỏ các từ dừng 25

3.3.4 Xác định các cặp từ tương đồng 26

3.3.5 Tính độ tương đồng câu 28

Chương 4 Thực nghiệm và ứng dụng 30

4.1 Môi trường thực nghiệm 30

4.1.1 Môi trường thực nghiệm 30

4.1.2 Ngữ liệu thực nghiệm 31

4.1.3 Độ đo đánh giá 31

4.2 Đánh giá và thảo luận kết quả 32

4.3 Chương trình ứng dụng thử nghiệm 33

KẾT LUẬN 38

CÔNG TRÌNH CỦA TÁC GIẢ 40

TÀI LIỆU THAM KHẢO 41

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2.1: Vector mô tả tần suất xuất hiện 8

Bảng 3.1: Danh sách các dấu câu cần loại bỏ trong tiếng Việt 22

Bảng 4.1: Danh sách các công cụ hỗ trợ dùng trong hệ thống 30

Bảng 4.2 Kết quả chạy mô hình thử nghiệm 33

Bảng 4.3: Kết quả đánh giá mô hình 33

Trang 8

DANH MỤC CÁC HÌNH

Hình 2-1: Ví dụ một nhánh cây WordNet tiếng Anh 12

Hình 3-1 Kiến trúc mô hình so sánh tương đồng tác giả Ngô Xuân Bách 17

Hình 3-2: Mô hình hệ thống phát hiện câu tương đồng tiếng Việt 20

Hình 4-1: Kết quả khảo sát ngưỡng 𝛼 trong khoảng từ 0 đến 1 32

Hình 4-2: Giao diện hệ thống phát hiện câu tương đồng tiếng Việt 34

Hình 4-3: Giao diện nhập liệu đầu vào 35

Hình 4-4: kết quả khi thực hiện thao tác tách từ 35

Hình 4-5: Kết quả thực hiện thao tác so sánh hai câu 36

Hình 4-6: So sánh nhiều câu tiếng Việt 36

Hình 4-7: Kết quả so sánh nhiều câu 37

Trang 9

DANH SÁCH CÁC TỪ VIẾT TẮT

Simmat Similarity Matching Metric

JPPF Java Parallel Processing Framework

Trang 10

MỞ ĐẦU

Trong những năm gần đây, Internet ngày càng phát triển và bùng nổ làm cho nguồn thông tin, dữ liệu, văn bản được sản sinh liên tục và ngày càng phong phú hơn Vì vậy, việc sử dụng, tra cứu thông tin càng trở nên khó khăn hơn bởi người dùng thường trở nên bối rối và dễ lạc vào ma trận thông tin, khó phân biệt và sàng lọc, đánh giá được những văn bản tương đồng để thuận tiện cho việc sử dụng Trong kho dữ liệu ấy, bao gồm một lượng lớn thông tin là các văn bản được viết bằng Tiếng việt chưa được kiểm duyệt, xử lý

Đánh giá độ tương đồng ngữ nghĩa là một vấn đề đã xuất hiện từ rất lâu và khá quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt trong các lĩnh vực phát hiện đạo văn, phân cụm, tóm tắt văn bản và trong các lĩnh vực dịch máy Tuy nhiên, việc đánh giá độ tương đồng ngữ nghĩa cho tiếng Việt còn gặp nhiều khó khăn Nguyên nhân chủ yếu là do đặc điểm ngôn ngữ tiếng Việt có nhiều điểm khác nhau so với các ngôn ngữ khác Tiếng Việt thuộc nhóm ngôn ngữ nghèo tài nguyên, chưa có ngữ liệu tốt như WordNet tiếng Việt, nên việc áp dụng các phương pháp khai thác thông tin còn nhiều hạn chế Vì vậy, cần có các nghiên cứu giúp khai thác hiệu quả nguồn tài nguyên này Trên cơ sở đó, trong khuôn khổ đề tài này luận văn muốn đề xuất hướng giải quyết bằng phương pháp sử dụng độ đo tương đồng để đánh giá độ tương đồng ngữ nghĩa giữa hai câu tiếng Việt

Mục tiêu của đề tài “Phát hiện câu tương đồng tiếng Việt” là tập trung vào khảo sát, nghiên cứu và đề xuất một mô hình so sánh độ tương đồng ngữ nghĩa tiếng Việt một cách có hiệu quả nhằm cải tiến các phép đo tương đồng và ứng dụng vào trong thiết kế, xây dựng thử nghiệm trong hệ thống phát hiện câu tương đồng tiếng Việt

Nội dung luận văn gồm những phần sau:

Chương 1: Giới thiệu tổng quan độ tương đồng ngữ nghĩa và các công trình

có liên quan

Chương 2: Trình bày cơ sở lý thuyết về các độ đo tương đồng

Trang 11

Chương 3: Trình bày mô hình và phương pháp tính toán độ tương đồng giữa hai câu văn tiếng Việt

Chương 4: Trình bày quá trình thực nghiệm và đánh giá kết quả so sánh độ tương đồng hai câu tiếng Việt

Cuối cùng đề tài đưa ra một số kết luận về kết quả thực nghiệm và đề xuất các hướng nghiên cứu trong tương lai

Trang 12

Chương 1 Tổng quan

Tóm tắt: chương này trình bày về tổng quan độ đo tương đồng ngữ nghĩa, các hướng tiếp cận và các công trình có liên quan đến đề tài

1.1 Tổng quan độ đo tương đồng ngữ nghĩa

Bài toán phát hiện câu tương đồng là một trong những bài toán khá phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên và được nghiên cứu, phát triển rất sớm trong thế giới công nghệ hiện nay Một trong những ứng dụng phổ biến của bài toán này

đó là trong các hệ thống phát hiện đạo văn, các hệ thống tìm kiếm văn bản, hệ thống rút trích văn bản, tìm kiếm chuyên gia, so khớp hồ sơ cá nhân…

Từ nhu cầu thực tế, bài toán so sánh tương đồng nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học, các nhóm nghiên cứu cũng như các công ty hàng đầu trên thế giới Các bài báo liên quan đến tương đồng văn bản thường được xuất hiện trong hội nghị khoa học quốc tế DUC (Document Understanding Workshop) 2001-2007

Phát hiện câu tương đồng là quá trình tính toán độ tương đồng giữa các từ với

từ có trong hai câu để từ đó tính toán được sự tương đồng của cả câu văn nhằm mục đích xác định xem hai câu văn có cùng ý nghĩa hay không Hiện nay, để tính độ tương đồng ngữ nghĩa của hai câu, người ta chia làm hai nhóm phương pháp chính: nhóm phương pháp dựa trên thống kê và nhóm dựa trên tri thức

- Nhóm phương pháp dựa trên thống kê: độ tương đồng được tính dựa

trên tần xuất xuất hiện của các từ trong câu, tiêu biểu là các phương pháp sử dụng độ đo khoảng cách Cosine, Manhattan….phương pháp này cho chi phí thấp, tốc độ xử lý nhanh nhưng độ chính xác chưa cao khi xét về mặt ngữ nghĩa

- Nhóm phương pháp dựa trên tri thức: các hướng tiếp cận chủ yếu dựa

trên phân tích cấu trúc ngữ pháp, mạng ngữ nghĩa đối với từ như Wordnet Phương pháp này cho kết quả chính xác tốt hơn nhưng xử lý chưa nhanh, đòi hỏi sự phức tạp cao và tốn chi phí lớn để xây dựng các kho ngữ liệu

Trang 13

Tuy nhiên, các nghiên cứu, khai thác về so sánh độ tương đồng giữa hai câu trong tiếng Việt còn chưa thật sự phổ biến và có chiều sâu so với các tài liệu tiếng Anh Nguyên nhân chủ yếu là do đặc điểm ngôn ngữ tiếng Việt có nhiều điểm khác nhau so với tiếng Anh nên việc áp dụng các phương pháp xử ly còn nhiều hạn chế

và tài nguyên tiếng Việt còn nhiều thiếu thốn Vì vậy, cần có nhiều nghiên cứu hơn hướng đến việc nghiên cứu, lựa chọn một phương pháp trong việc so sánh câu tương đồng tiếng Việt Trên cơ sở đó, trong khuôn khổ đề tài này em muốn đề xuất hướng giải quyết bài toán phát hiện câu tương đồng trong tiếng Việt

Mục tiêu chính của luận văn này là giúp đề xuất một mô hình so sánh hai câu tương đồng tiếng Việt có hiệu quả, giúp có thêm một lựa chọn về độ đo tương đồng khi sử lý câu tương đông tiếng Việt Đồng thời luận văn còn phát triển ứng dụng phát hiện câu tương đồng trong tiếng Việt trên môi trường Website giúp cho người sử dụng có thể tra cưu, so sánh độ tương đồng giữa hai câu tiếng Việt

Trong khuôn khổ đề tài này, hệ thống đề xuất sử dụng phương pháp xử lý dựa trên tri thức, tính toán dựa trên bộ ngữ liệu WordNet tiếng Việt để cải thiện độ chính xác trong quá trình so sánh tương đồng giữa hai câu văn tiếng Việt

1.2 Các công trình có liên quan

Hiện nay, trên thế giới có nhiều hướng tiếp cận được đề xuất trong việc xác định độ tương đồng giữa hai câu Tiêu biểu là nghiên cứu của nhóm tác giả Mihalcea

et al [12], và Blacoe and Lapata [16], lựa chọn hướng tiếp cận dựa trên việc so sánh các vector tương đồng Đây là phương pháp tính toán độ tương đồng của hai câu sử dụng hệ số tương tự vector (vector similarity coefficients), trong đó mỗi vector có thành phần là tần số xuất hiện của các từ, các n-gram trong chuỗi cần so sánh Sau

đó, độ tương đồng của hai chuỗi được tính toán bằng cách sử dụng các độ đo Jaccard, Cosine, Euclidean hoặc Manhattan Phương pháp này có hiệu quả đối với các trường hợp hai câu văn sử dụng cấu trúc và từ tương tự nhau và ít có sự chỉnh sửa về mặt ngữ nghĩa

Một hướng tiếp cận khác dựa trên việc phân tích cây cú pháp do tác giả Socher [13] thực hiện phân tích sự khác nhau về mặt ngữ nghĩa của hai câu dựa trên phân

Trang 14

tích cây cú pháp của hai câu đó Cấu trúc của cây được sử dụng thông qua một thuật toán tự động mã hóa đệ quy (recursive autoencoders) Tuy nhiên, thuật toán này bị ảnh hưởng bởi các thao tác thêm, xóa, chỉnh sửa…các từ trong câu Những thay đổi này có thể làm thay đổi cấu trúc của cây cú pháp

Ngoài ra, độ đo dịch máy thường được sử dụng để đánh giá chất lượng của văn bản dịch, chúng còn được sử dụng để đánh giá hai văn bản trong cũng một ngôn ngữ Do sự tương tự nhau giữa dịch máy và so sánh độ tương đồng, nhiều độ đo dịch máy được áp dụng trong việc đánh giá độ tương đồng câu Như nghiên cứu của Madnani [11] đã sử dụng kết hợp 8 chuẩn độ đo dịch máy tạo một cách tiếp cận mới trong viết đánh giá viết lại văn Tuy nhiên, đối tượng giữa dịch máy và so sánh tương đồng là khác nhau, dịch máy cố gắng để dịch văn bản hiệu quả từ ngôn ngữ ngày sang ngôn ngữ khác, còn so sánh độ tương đồng dùng để xác định sự tương đồng giữa hai văn bản với nhau Sự khác biệt ảnh hưởng đến việc áp dụng độ đo của dịch máy vào so sánh tương đồng văn bản

Các hướng nghiên cứu trong nước hiện nay cũng đang bắt đầu quan tâm đến lĩnh vực so sánh tương đồng này, có nhiều nhóm tác giả nghiên cứu và có những đóng góp khả quan, tuy nhiên số lượng còn chưa lớn và chưa thực sự phổ biến, một

số có các công trình tiêu biểu như sau:

Nhóm tác giả Ngo Xuan Bach, Tran Thi Oanh, Nguyen Trung Hai và Tu Minh

Phuong trong công trình “Paraphrase Identification in Vietnamese Documents” [8]

sử dụng 9 độ đo khoản cách để đưa ra đưa ra phương pháp xác định đạo văn cho tiếng Việt Mô hình SVM (Support Vector Machines) được sử dụng để huấn luyện

bộ ngữ liệu vnPara nhằm xác định hai câu tương đồng tiếng Việt Phương pháp này cho hiệu quả khả quan hơn so với sử dụng các phương pháp MEM (Maximum Entropy Model), Naive Bayes, and KNN (K-Nearest Neighbor), tuy nhiên, còn bỏ sót nhiều trường hợp tương đồng ngữ nghĩa, chỉ so sánh tốt các trường hợp tương đồng hình thái từ

Tác giả Nguyễn Xuân Tới [10] đã đề xuất mô hình phát hiện đạo văn kết hợp

ba độ đo phổ biến là Overlap, Cosine và LCS (Longest Common Subsequence) để xác định độ tương đồng Tác giả tiến hành thực nghiệm trên 800 mẫu tin tức online

Trang 15

thu thập thông qua báo chí phân chia theo 5 lĩnh vực chính bao gồm Kinh tế, Thể thao, Pháp luật, Y và tin tức tổng hợp Kết quả cho thấy trong tiếng Việt, với các tin tức trong lĩnh vực Pháp luật thì phương pháp phù hợp nhất là LCS, còn các lĩnh vực khác thì phương pháp phù hợp nhất là Cosine Ngoài ra, phương pháp này chỉ mới bao quát được các trường hợp tương đồng ở mức từ mà chưa bao quát hết về mặt ngữ nghĩa câu

Tác giả Trần Cao Đệ [15] đã áp dụng phương pháp phát hiện đạo văn của Kasprzak và Brandejs [5], theo phương pháp này, tài liệu được phân chia thành một danh sách các từ n-gram, sau đó, so sánh từng từ n-gram trong văn bản cần so sánh với tất cả các văn bản trong tập ngữ liệu được lưu trữ Tuy nhiên, khi áp dụng phương pháp này, tác giả Trần Cao Đệ đã tiến hành một số thay đổi để hoạt động tốt hơn trong môi trường tiếng Việt như thay đổi chiều dài từ (2 ký tự thay vì 3 ký tự), chiều dài của n-gram (4-gram thay vì 5-gram) và sử dụng JPPF (Java Parallel Processing Framework) để tính toán song song nhằm đạt hiệu năng về thời gian tính toán mong đợi Phương pháp tiến hành so sánh độ tương đồng giữa hai câu bằng cách tính toán dựa vào số lượng các tập con chung có ở hai tài liệu mà không quan tâm đến so sánh ngữ nghĩa của từ

Trang 16

Chương 2 Cơ sở lý thuyết

Tóm tắt: chương này trình bày về cơ sở lý thuyết độ tương đồng câu, các độ

đo tương đồng tiêu biểu theo hai nhóm tiếp cận dựa trên nhóm phương pháp xử lý thống kê và nhóm phương pháp dựa trên tri thức

2.1 Độ tương đồng câu

Giữa hai câu văn bất kỳ luôn tồn tại một mối quan hệ tương quan giữa chúng, quan hệ này có thể là liên quan về mặt từ hoặc là về mặt ngữ nghĩa hay là cấu trúc

câu Chẳng hạn khi ta xét ví dụ gồm hai câu “Tôi đi học” và “Tôi đi đến trường”

Ta có thể thấy được hai câu trên có sự liên quan với nhau, đó là sự tương đồng cao giữa hai câu Tuy nhiên, để xác định mối liên quan này, chúng ta cần có một độ đo cụ thể để xác định sư tương đồng giữa hai câu

Bài toán so sánh độ tương đồng giữa hai câu có thể phát biểu như sau: Xét hai câu s1 và s2 Mục tiêu của bài toán là tìm ra một giá trị của hàm S(s1, s2) Hàm S(s1 s2) được gọi là độ tương đồng giữa hai câu s1 s2 Giá trị hàm S càng cao thì sự giống nhau về mặt ngữ nghĩa của hai cau càng lớn

Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu Như đã đề cập ở mục 1.1, Để đo độ tương đồng giữa hai câu, có hai nhóm phương pháp tiêu biểu là nhóm phương pháp dựa trên thống kê và nhóm phương pháp dựa trên tri thức

2.2 Các độ đo tương đồng dựa trên thống kê

Với phương pháp thống kê, có một số phương pháp sử dụng các độ đo tương đồng dựa vào tần số xuất hiện của từ trong câu, tiêu biểu là độ đo tương đồng Cosine, Euclide, Manhattan… Hay các phương pháp dựa vào tập từ chung như độ

đo tương đồng Jaccard, Dice Mỗi phương đều có ưu khuyết điểm riêng nên tùy theo đối tượng so sánh mà sử dụng độ đo thích hợp

Trang 17

2.2.1 Độ tương đồng Cosine

Đây là hương pháp sử dụng mô hình không gian vector (vector-based) để tính toán độ tương đồng giữa hai câu S1 và S2 dựa trên số lượng từ cùng xuất hiện ở cả hai câu

Mỗi câu được biểu diễn dưới dạng một vector có số lượng chiều đúng bằng số lượng từ có ở trong câu S1 và câu S2 Trọng lượng của mỗi thành phần trong vector

là số lần xuất hiện của từ tương ứng trong tưng câu

Theo đó, công thức tính độ tương đồng Cosine của hai câu A và B gọi tắt là CS(S1, S2) có dạng sau:

CS(S1, S2) = ∑ 𝑊𝑠1,𝑊𝑠2

𝑚 1

√∑ 𝑊𝑠 𝑚 1

1 √∑ 𝑊𝑠𝑚1 2Trong đó:

 m là số chiều của vector

 𝑊𝑠1là trọng lượng của từ trong câu S1

 𝑊𝑠2 là trọng lượng của từ trong câu S2

Ví dụ áp dụng thuật toán Cosine để tính toán độ tương đồng giữa hai câu Câu S1: “tôi đi học”

Câu S2: “tôi đi đến trường”

Vector mô tả số lần xuất hiện các từ trong câu S1và S2 như sau:

Bảng 2.1: Vector mô tả tần suất xuất hiện

Trang 18

CS(S1, S2) = 1∗1+1∗1+1∗0+0∗1+0∗1

√12+ 12+12+02+02 √12+ 12+02+12+12 = 0,57

2.2.2 Độ đo khoảng cách Euclide

Là phương pháp tính độ tương đồng dựa trên hai vector đặc trưng của hai văn bản, Khoản cách Euclide được tính bới công thức sau:

𝐷𝑖𝑠𝑡( 𝑣⃑ 𝑎 ,𝑣⃑ 𝑏) = √∑𝑛 (𝑤𝑎𝑖 − 𝑤𝑏𝑖)2

𝑖=1Trong đó:

 n là tổng số chiều của cả hai vector a và b

 𝑣 𝑎 , 𝑣 𝑏 là hai vector đặc trưng đại diện cho câu a và b

 𝑊𝑎𝑖 là trọng lượng của từ trong câu a trong không gian thứ i

 𝑊𝑏𝑖 là trọng lượng của từ trong câu b không gian thứ i

Công thức tính mức độ tương đồng giữa hai vector:

⁄

Ví dụ áp dụng khoảng cách Euclide để tính toán độ tương đồng giữa hai câu Câu S1: “tôi đi học”

Theo bảng 2.1, độ tương đồng Euclide được tính:

𝑆𝑖𝑚( 𝑣⃑ 𝑠1 ,𝑣⃑ 𝑠2) = 1 - √(1 − 1)2+ (1 − 1)2+ (1 − 0)2+ (0 − 1)2+ (0 − 1)2

1 5

= 0,58

2.2.3 Độ đo khoảng cách Manhattan

Tương tự giống như khoảng cách Euclide, khoảng cách được tính bởi công thức sau:

𝐷𝑖𝑠𝑡( 𝑣⃑ 𝑎 ,𝑣⃑ 𝑏) = ∑𝑛𝑖=0| 𝑊𝑎𝑖 − 𝑊𝑏𝑖|

Trang 19

Trong đó:

 n là tổng số chiều của cả hai vector a và b

 𝑊𝑎𝑖 là trọng lượng của từ trong câu a trong không gian thứ i

 𝑊𝑏𝑖 là trọng lượng của từ trong câu b không gian thứ i

Công thức độ đo khoản cách Manhattan:

Câu S1: “tôi đi học”

Theo bảng 2.1, độ tương đồng Manhattan được tính:

Sim( v⃑⃑ s1 ,v⃑⃑ s2) = 1 - |1−1|+|1−1|+|1−0|+|0−1|+|0−1|

5 = 0,4

2.2.4 Độ đo Jaccard

Độ đo Jaccard hay còn gọi hệ số tương đồng Jaccard là một độ đo tương đồng dựa trên phương pháp thống kê Nó là kết quả của phép chia giữa phần giao nhau giữa hai tập dữ liệu cho tất cả các đặc trưng của hai tập dữ liệu Thông thường, độ

đo này thường kết hợp với n-gram để tạo ra tập các phần tử thứ tự đặc trưng cho mỗi chuỗi

Công thức:

Simjaccard(S1, S2) = | S1∩ S2|

| S 1 ∪ S 2 |Trong đó:

 S1, S2 là hai câu cần so sánh

Ví dụ áp dụng độ đo Jaccard để tính toán độ tương đồng giữa hai câu

Trang 20

Độ tương đồng Jaccard được tính:

Sim(S1, S2) = 1∗1+1∗1+1∗0+0∗1+0∗1

1+1+1+0+0+1+1 = 0,4

Ví dụ áp dụng độ đo Dice để tính toán độ tương đồng giữa hai câu

Độ tương đồng Dice được tính:

Sim(s1, s2) = 2∗ |1∗1+1∗1+1∗0+0∗1+0∗1|

|1+1+1+0+0| +| 1+1+0+1+1|

= 0,57

2.3 Độ đo tương đồng ngữ nghĩa dựa trên Wordnet

2.3.1 Khái quát về từ điển Wordnet

WordNet là một hệ thống ý niệm từ vựng được ứng dụng nhiều trong xử lý ngữ nghĩa, được tạo ra bởi các nhà nghiên cứu tại Đại học Princeton Trong WordNet, các từ được sắp xếp vào các nhóm đồng nghĩa, trái nghĩa, chúng liên kết với nhau thông qua các quan hệ ngữ nghĩa được xây dựng dựa trên những nghiên cứu về các tri thức ngôn ngữ con người

WordNet bao gồm các loại từ vựng danh từ, động từ, tính từ và trạng từ Các

từ có cùng loại từ và đồng nghĩa với nhau được gom thành một nhóm từ đồng nghĩa với nhau hay còn gọi là một synset

Trang 21

Mối quan hệ giữa nghĩa và từ tạo thành cấu trúc ma trận từ vựng trong Wordnet, một từ có nhiều nghĩa nên góp mặt trong nhiều synset nhưng mỗi synset chỉ đại diện cho một khái niệm cụ thể

Hiện nay, dữ liệu WordNet tiếng Anh đã được phát triển đến phiên bản 3.1 gồm có 155.287 từ được tổ chức thành 117.659 synset, chúng tạo thành 206.941 cặp nghĩa với từ

Hình 2-1: Ví dụ một nhánh cây WordNet tiếng Anh

Juvenile, Juvenile person

male, male person

professional,

professional person

male child,

boy, child

female child, girl,

child, little girl

Trang 22

2.3.2 WordNet Tiếng Việt

WordNet tiếng Việt là một cơ sở dữ liệu các từ tiếng Việt (danh từ, động từ, tính từ, trạng từ) được nhóm lại theo từng tập hợp từ đồng nghĩa synset, được xây dựng tương tự như mô hình của WordNet [6]

Dữ liệu WordNet tiếng Việt được xây dựng bởi Trung Tâm Ngôn ngữ học Tính toán CLC) phát triển thủ công bán tự động Hiện nay có khoảng 213.637 từ tiếng Việt với khoảng 106.965 synset trải rộng trên các lĩnh vực khác nhau, là một kho ngữ liệu quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Việt Dựa trên WordNet tiếng Việt, có thể tính toán độ tương đồng giữa hai từ bất kỳ, kết quả thu được là một trọng số nằm trong khoảng [0, 1] để phản ánh mức độ tương đồng giữa hai từ

so sánh

Ví dụ:

path_similarity(“việc_làm”, “công_việc”) = 1

path_similarity(“sinh_viên”, “giảng_viên”) = 0,14

2.3.3 Các độ đo tương đồng ngữ nghĩa dựa trên WordNet

Có khá nhiều độ đo tương đồng ngữ nghĩa dựa trên từ điển WordNet Tuy nhiên, trong phạm vi nghiên cứu của đề tài này chỉ giới thiệu khái quát đến một số

độ đo phổ biến trong các độ đo tương đồng dựa trên WordNet

2.3.3.1 Độ đo Path-length

Độ đo tương đồng Path-length là đường đi ngắn nhất giữa hai synset trong tập

từ điển WordNet Đường đi càng ngắn thì hai từ càng tương đồng, nếu đường đi bằng 0 thì hai từ đồng nghĩa nhau, thuộc cùng một synset, ngươc lại, nếu hai từ càng

it tương đồng thì đường đi càng xa

Độ tương đồng Path-length giữa hai node C1 và C2 được kí hiệu: Simpath(C1, C2)

Trang 23

Công thức tính:

Simpath(C1, C2) = 1

𝑝𝑎𝑡ℎ𝑙𝑒𝑛(C1,C2)+1Trong đó:

 pathlen(C1, C2) là độ dài đường đi ngắn nhất của của hai node C1và C2

2.3.3.2 Độ đo Leacock và Chodorow

Độ đo Leacock và Chodorow cũng dùng khoảng cách các synset trên WordNet, được xác định bởi công thức:

SimLch(C1, C2) = -log (𝑝𝑎𝑡ℎ𝑙𝑒𝑛(C1,C2)

2∗𝐷 ) Trong đó:

 pathlen(C1, C2) là độ dài đường đi ngắn nhất của của hai node C1

Công thức:

SimWup(C1, C2) = 2∗𝑑𝑒𝑝𝑡ℎ(𝐿𝑆𝐶(C1,C2))

𝑑𝑒𝑝𝑡ℎ(C1)+𝑑𝑒𝑡𝑝ℎ(C2)Trong đó:

 Depth là độ sau của node trên cây phân cấp

 LSC là node cha chung gần nhất giữa hai node

Trang 24

Công thức:

SimRenisk(C1, C2) = IC(LCS(C1, C2)) Trong đó:

 LSC: node cha chung gần nhất giữa hai node

 IC = -logP(c) với P(c) là xác xuất của khái niệm C trong tập dữ liệu

2.3.3.5 Độ đo Lin

Độ đo Lin là phiên bản cải tiến của độ đo Renisk Lin cho rằng giữa hai khái niệm cần nhiều thông tin hơn ngoài các thông tin giống nhau, còn có các thông tin khác Thông tin giữa hai khái niệm càng khác thì chúng càng ít tương đồng

Công thức:

SimLin(C1, C2) = 2∗ 𝐼𝐶(𝐿𝐶𝑆(C1,C2))

𝐼𝐶(C1)+ 𝐼𝐶(C2)Trong đó:

 IC : là nội dung thông tin

 LCS : là node cha chung gần nhất

2.3.3.6 Độ đo Jiang-Conrath

Cùng với nhóm độ đo sử dụng thông tin, nhưng độ đo Jiang – Conrath sử dụng những thông tin khác nhau giữa hai khái niệm để tính khoảng cách

Trang 25

Công thức:

SimJC(C1, C2) = 1

𝑑𝑖𝑠𝑡 𝐽𝐶 (C1,C2)Trong đó distJC được tính bằng công thức:

 distJC (C1, C2) = IC(C1) + IC(C2) – 2* IC(LCS(C1, C2))

 IC : là nội dung thông tin

 LCS : là node cha chung gần nhất

Định dạng
Số trang	51
Dung lượng	5,62 MB