1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Đánh giá bộ nhãn ngữ nghĩa LLOCE

6 11 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 307,51 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng bộ ngữ liệu bằng phương pháp thủ công sẽ tốn nhiều thời gian và công sức. Vì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động đang được các nước quan tâm. Tuy nhiên đối với Tiếng Việt thì vấn đề này chưa được giải quyết. Bài viết trình bày mô hình khảo sát tính hiệu quả của bộ nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon Of Contemporary English) trong quá trình gán nhãn ngữ nghĩa tự động cho ngữ liệu song ngữ Anh-Việt. Mời các bạn cùng tham khảo!

Trang 1

Đánh giá bộ nhãn ngữ nghĩa LLOCE

Hồ Xuân Vinh, Nguyễn Thị Thanh Thảo, Đinh Điền

∗‡ Khoa Công nghệ thông tin - Đại Học Khoa Học Tự Nhiên TP Hồ Chí Minh

Khoa Công nghệ thông tin - Cao Đẳng Kinh Tế Kỹ Thuật TP Hồ Chí Minh Email: hovinh39@gmail.com,nguyenthithanhthao@hotec.edu.vn, ddien@fit.hcmus.edu.vn

Tóm tắt—Theo đà phát triển của các phương pháp dịch

máy, dịch máy thống kê dựa trên ngữ nghĩa

(semantics-based Statistical Machine Translation) được đánh giá là

sẽ có triển vọng nhiều nhất Tuy nhiên, phương pháp này

đòi hỏi bộ ngữ liệu song ngữ lớn mà có gán nhãn ngữ

nghĩa (semantic-tag) Xây dựng bộ ngữ liệu như thế bằng

phương pháp thủ công sẽ tốn nhiều thời gian và công sức.

Vì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động

đang được các nước quan tâm Tuy nhiên đối với Tiếng

Việt thì vấn đề này chưa được giải quyết Trong bài báo,

chúng tôi trình bày mô hình khảo sát tính hiệu quả của bộ

nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon

Of Contemporary English) trong quá trình gán nhãn ngữ

nghĩa tự động cho ngữ liệu song ngữ Anh-Việt.

Từ khóa—LLOCE, sense tag, semantic annotation, nhãn

ngữ nghĩa

I GIỚI THIỆU

Xử lý ngôn ngữ tự nhiên(Natural Language

Processing-NLP) là lĩnh vực quan tâm đến tương tác

người máy về mặt ngôn ngữ Khởi động từ năm 1950

với phép thử Turing và bài toán dịch máy, nhiều bài toán

mới đã được phát hiện và nghiên cứu Độ khó cũng tỉ lệ

thuận theo thời gian, nhiều vấn đề không có thuật toán

tối ưu tồn tại, đơn giản vì ngôn ngữ luôn mang tính

nhập nhằng và dường như không thể tìm được một bộ

luật tổng quát nào cho máy có thể tra cứu và thực hiện

Riêng đối với bài toán dịch máy, hướng tiếp cận được

mô hình hóa theo dạng kim tự tháp từ thấp lên cao: dựa

trên từ (word-based), dựa trên cụm từ (phrase-based),

dựa trên cú pháp (syntax-based) và dựa trên ngữ nghĩa

(semantic-based) Người ta nhận thấy rằng, càng lên cao

thì độ chính xác càng tăng, tuy nhiên hiện nay phát triển

sôi động nhất chỉ mới ở tầng phrase-based Sẽ cực kì

hiệu quả nếu chúng ta nằm ở đỉnh trên cùng của tháp,

khi đó đồng nghĩa với việc tồn tại bộ ngữ liệu song ngữ

được gán nhãn ngữ nghĩa toàn bộ Độ hiệu quả của các

phương pháp trước đây sẽ được đẩy lên một giới hạn

mới Để có ngữ liệu gán nhãn quý giá đó, cần có bộ

nhãn để gán Do đó, chúng tôi quan tâm đến tầng ngữ

nghĩa với 2 câu hỏi chính: cần chọn bộ nhãn ngữ nghĩa

nào để gán nhãn và liệu nó có đạt được những đặc tính

Nói đến các bộ nhãn ngữ nghĩa ta có thể liệt kê như sau:

LLOCE (Longman Lexicon of Contemporary En-glish): từ điển về chủ đề, mỗi chủ đề được chia thành nhiều nhóm, mỗi nhóm chứa nhiều lớp ngữ nghĩa với từ thuộc lớp nghĩa đó Tên của mỗi lớp cũng chính là nhãn ngữ nghĩa Từ điển bao gồm

14 chủ đề, 129 nhóm, 2.449 lớp ngữ nghĩa với hơn 16.000 mục từ

LDOCE (Longman Dictionary of Contemporary English): mỗi từ được phân loại dựa trên từ loại, mã

cú pháp, mã ngữ nghĩa, mã chủ đề và mã phong cách Từ điển bao gồm 100 chủ đề, 19 mã ngữ nghĩa, 13 mã ngữ nghĩa phái sinh, 45.000 mục từ với hơn 65.000 nghĩa

WordNet: hệ thống tri thức khổng lồ về ngữ nghĩa trong Tiếng Anh với 117.000 ý niệm khác nhau Được xây dựng bởi đơn vị cơ bản là các tập từ đồng nghĩa, nó chứa đựng cả những quan hệ ngôn ngữ phức tạp tương tác đa chiều

Ngoại trừ những ngôn ngữ giàu tài nguyên như Tiếng Anh (đơn cử là Wordnet [1], [2], [3], [4]), hầu hết các ngôn ngữ còn lại không có bộ nhãn ngữ nghĩa cho riêng mình Những năm gần đây, nhiều nỗ lực từ phía ngôn ngữ học lẫn tin học đã xây dựng những bộ nhãn riêng dựa trên WordNet như EuroWordNet [5] (khối Châu Âu), Japanese Wordnet [6](Nhật) Như liệt kê ở trên, ngoài Wordnet với bộ nhãn khá mịn (ngay cả con người cũng khó phân biệt một số nhãn trong từ điển này) và

có chi phí xây dựng cực kì mắc, có những bộ nhãn tiềm năng khác có thể phục vụ cho mục đích gán nhãn Không phổ biến như Wordnet, tuy nhiên LLOCE có bộ nhãn không quá thô cùng bộ từ vựng tương đối lớn, do

đó chúng tôi chọn bộ nhãn này làm đối tượng khảo sát

và đặt ra những tiêu chí mà bộ nhãn cần đạt yêu cầu Sau khi tiến hành thí nghiệm, kết quả thống kê sẽ được đối chứng với điều kiện ban đầu, giúp ta có những nhận xét về tính thực tiễn của bộ nhãn và các ứng dụng phù hợp

Trang 2

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

nhằng( hay tính đa nghĩa) của từ trong 90.000 cặp câu

song ngữ Anh –Việt Ngữ liệu trong 2 ngôn ngữ được

xử lý tách từ độc lập, sau đó đưa qua từ điển LLOCE

để xử lý một lần nữa Sử dụng toolkit GIZA++ (Och

và Ney, 2003[7]) với 60.000 cặp câu đầu làm hạt giống,

30.000 cặp câu còn lại làm đối tượng khảo sát chính,

chúng tôi kì vọng độ chính xác khi gióng hàng sẽ tăng

cao với ngữ liệu này Dữ liệu sau gióng hàng sẽ được

gán nhãn độc lập và giao với nhau Chúng tôi thống kê

các kết quả giao bộ nhãn của các từ được gióng, đặc

biệt quan tâm đến các cặp có chung từ 2 bộ nhãn trở

lên Theo như hiểu biết của chúng tôi, hiện tại chưa có

khảo sát tương tự đối với các bộ nhãn khác, do đó các

đánh giá chỉ dựa trên số liệu, chưa có đối tượng so sánh

Chúng tôi đưa ra các nhận xét, đánh giá kết quả và đưa

ra các định hướng tương lai áp dụng kết quả này Trong

phần còn lại của bài báo, chúng tôi sẽ giới thiệu cấu

trúc từ điển LLOCE và tính chất cần khảo sát Chúng

tôi cũng trình bày bộ ngữ liệu song ngữ Anh - Việt sử

dụng và mô hình khảo sát tính hiệu quả bộ nhãn Cuối

cùng, kết quả sau thí nghiệm được đánh giá, lý giải và

chúng tôi sẽ đề xuất các hướng phát triển tương lai cho

bộ nhãn này

II NGỮ LIỆU VÀ TÀI NGUYÊN

Wordnet là hệ thống nhãn ngữ nghĩa lớn nhất hiện

nay, tuy nhiên chi phí xây dựng cực kì tốn kém Chúng

tôi tiến hành khảo sát các tính chất của bộ nhãn LLOCE

để tìm hiểu xem nó có thể là giải pháp thay thế được hay

không Chúng tôi phỏng đoán đối với các cặp từ được

gióng, nếu chúng tồn tại trong bộ từ vựng của LLOCE,

khả năng khử nhập nhằng, tức có một nhãn đồng nhất

trong cặp từ là từ 70% trở lên Nếu đúng, đây có thể là

đối tượng phù hợp cho các ngôn ngữ nghèo tài nguyên

xây dựng bộ nhãn ngữ nghĩa cho riêng mình

A Từ điển LLOCE và tính chất của bộ nhãn phù hợp

1) Từ điển LLOCE: LLOCE (Longman Lexicon Of

Contemporary English)[8] là một từ điển ý niệm được

xây dựng dựa trên từ điển ý niệm LDOCE Từ điển

LLOCE không sắp xếp các mục từ tiếng Anh theo thứ

tự từ điển, mà sắp xếp thành các chủ đề, mỗi chủ đề

được chia thành nhiều nhóm, mỗi nhóm được chia thành

nhiều lớp (tạm gọi là lớp ngữ nghĩa) và mỗi lớp gồm các

mục từ có quan hệ về nghĩa (nghĩa biểu vật hay nghĩa

biểu niệm) với nhau (như: đồng nghĩa, gần nghĩa, ) Tên

của mỗi lớp chính là nhãn ngữ nghĩa và các lớp này có

mối liên hệ ngữ nghĩa (qua đường kết nối bên trong) với

các lớp khác (có thể thuộc chủ đề khác) trong từ điển

Tổng số LLOCE gồm 14 chủ đề, 129 nhóm, 2449 lớp

ngữ nghĩa với hơn 16.000 mục từ Ví dụ: chủ đề A là về

“Sự sống và vật thể sống” (Life and living things); chủ

đề B là về “Cơ thể: chức năng và sự chăm sóc” (The Body: its Functions and Welfare); chủ đề L là “Không gian và thời gian” Chủ đề A được tiếp tục phân thành

10 nhóm con: “Sự sống và sự chết” chứa các lớp từ A1 đến A20; “Các sinh vật nói chung”, có chứa các lớp từ A30 đến A43; “Động vật và động vật có vú” chứa các lớp từ A50 đến A61

Mỗi lớp ngữ nghĩa trong LLOCE thường gắn với một

từ loại và mang một ý nghĩa cụ thể nào đó Trong mỗi lớp này sẽ chứa một số từ thoả điều kiện từ loại và ngữ nghĩa chung của lớp Trong LLOCE sử dụng 3 từ loại chính là: danh từ, động từ và tính từ Ví dụ: Lớp A1 gắn với động từ, có ý nghĩa: “Tồn tại và tạo sự tồn tại”, lớp này bao gồm các động từ sau: exist, be(tồn tại), create(tạo ra), animate(tạo sự sống),

Mỗi lớp thường được liên kết chéo (cross-reference) với các lớp ngữ nghĩa khác theo các quan hệ logic – ngữ nghĩa Từ điển LLOCE đã được dịch sang tiếng Việt[9], do đó tồn tại bộ nhãn cho cả hai ngôn ngữ Anh và Việt

2) Tính chất của bộ nhãn phù hợp: Từ những năm

2010 trở đi, cách tiếp cận thông dụng nhất trong NLP

là Máy học, do đó bộ nhãn phải phù hợp với việc huấn luyện Một bộ nhãn tốt không nên quá nhỏ vì sẽ làm mất mát đi nhiều thông tin về nghĩa hữu ích Tuy nhiên nếu quá lớn, cần phải có một ngữ liệu lớn tương ứng

để huấn luyện, hơn nữa phải được đánh nhãn bằng tay

để đảm bảo độ chính xác Bên cạnh đó, ta cũng quan tâm đến khả năng khử nhập nhằng của bộ nhãn bằng

sử dụng lợi thế ràng buộc song ngữ với giả định: giao

bộ nhãn của cùng một từ ở hai ngôn ngữ luôn là 1 Hai yếu tố then chốt kích thước và khả năng khử nhập nhằng là lý do chúng tôi chọn LLOCE tiếng Anh trong các bộ nhãn bởi nó không quá mịn như Wordnet (2.449

so với 117.000 nhãn), cộng với bộ từ điển Tiếng Việt tương ứng, phù hợp cho việc gán nhãn bằng tay Câu hỏi còn để ngỏ chính là nó có đủ chi tiết để khử nhập nhằng trong các trường hợp song ngữ hay không Đây

là tính chất quan trọng nhất và cần quan tâm sau thí nghiệm Với đặc trưng bộ nhãn LLOCE, chúng tôi kì vọng khoảng 70% cặp từ sau khi gióng sẽ được gán nhãn

B Ngữ liệu song ngữ

91.983 cặp câu song ngữ Anh-Việt được trích từ 2 ngữ liệu sau:

60.032 cặp lấy từ Trung tâm Dữ liệu Đa ngữ Kim

từ điển (KMDC)

Trang 3

Hình 1 Sơ đồ mô hình khảo sát bộ nhãn LLOCE.

31.951 cặp lấy từ những câu ví dụ vốn trong từ điển

LLOCE Tiếng Anh, sau đó được dịch thủ công bởi

Bộ môn Phiên dịch- Khoa Ngữ văn Anh trường

Đại học Khoa học xã hội và nhân văn TP.HCM

với chính bộ từ vựng tương ứng trong từ điển Do

đó ngữ liệu này chính xác hơn so với 60.032 câu

III MÔ HÌNH Mục tiêu của mô hình là gióng hàng từng từ trong

song ngữ với nhau và gán nhãn độc lập cho từng ngôn

ngữ Kết quả được đánh giá bằng việc kiểm tra bao

nhiêu từ không được gán nhãn, bao nhiêu từ được gán

nhãn và khả năng khử nhập nhằng Hình 1 mô tả các

bước chính của mô hình:

Tiền xử lý ngữ liệu Anh – Việt bằng công cụ tách

từ và từ điển LLOCE

Gióng hàng bằng GIZA++

Gán nhãn cho từng cặp từ được gióng và thống kê

kết quả

A Tiền xử lý tách từ

Để đạt hiệu quả cao khi gióng hàng, cần thực hiện

tách từ trong ngữ liệu trước Tách từ tức nối những

chữ thuộc cùng một từ bằng dấu ‘_’ Ví dụ: ‘họa

phẩm’ thành ‘họa_ phẩm’, ‘khách sạn’ thành ‘khách_

sạn’ Với Tiếng Việt, chúng tôi sử dụng công cụ

tách từ được nhóm phát triển riêng áp dụng cả 5 đặc

trưng để tách: BMM: Backward-Maximum Matching,

FMM: Forward-Maximum Matching, ORTH:

Ortho-graphic Feature, STL: Surface Token Lower-case và

mỗi chữ cũng là từ nên chúng tôi không thực hiện tách Sau đó, chúng tôi tách từ một lần nữa bằng kĩ thuật tham lam LRMM (Left Right Maximum Matching) với LLOCE: duyệt các chữ trong câu, ở mỗi chữ tìm từ vựng dài nhất trong từ điển LLOCE bắt đầu bởi chữ này và chứa những từ liền nó Ngữ liệu sẽ nối các chữ cấu thành

từ bởi dấu ‘_’ Ví dụ: ‘có thể’ thành ‘có_ thể’, ‘tam thừa’ thành ‘tam_thừa’ Để thực hiện bước lọc này, chúng tôi đã thống kê từ vựng dài nhất trong từ điển LLOCE

ở cả 2 ngôn ngữ Kết quả như sau:

LLOCE Tiếng Anh: “come down on smb like a ton of bricks” với 9 chữ, tỉ lệ từ cấu tạo từ 2 chữ trở lên chiếm 29,83%

LLOCE Tiếng Việt: “thay đổi từ một trạng thái sang một trạng thái khác theo một trình tự đều đều” với 17 chữ, tỉ lệ từ cấu tạo từ 2 chữ trở lên chiếm 92,44%

Có thể thấy “từ vựng” trong cả 2 từ điển khác với quan niệm thông thường Đối với từ điển gốc, nó cũng chứa

cả những cụm từ và thành ngữ Với Tiếng Việt, có những khái niệm không được từ vựng hóa, khiến người dịch phải giải thích bằng một cụm từ do không có từ vựng tương ứng trong Tiếng Việt, đây là khác biệt đặc trưng văn hóa giữa các ngôn ngữ, chẳng hạn “Ông Táo” trong Tiếng Việt không tồn tại trong Tiếng Anh Bảng I cho thấy 1 cặp câu song ngữ đã biến đổi như thế nào sau khi qua 2 lớp tách từ Nếu làm ngược lại, tách từ bằng LLOCE trước kết quả sẽ không cao, ví như trường hợp

‘của chúng tôi’ sẽ tách thành ‘của_chúng tôi’ thay vì

‘của chúng_tôi’

B Gióng hàng song ngữ

Mô hình IBM là mô hình dịch thống kê được đề

xuất để tính xác suất P (f|e) và P (a|f, e) thông qua

P (f, a |e) với e, f, a lần lượt là ngôn ngữ đích, ngôn

ngữ nguồn và kết quả được gióng giữa 2 bên Hoàn toàn dựa trên thống kê, mô hình không cần cung cấp các tri thức đặc thù của mỗi ngôn ngữ để giải quyết bài toán

dịch Đặc biệt, xác suất P (f, a|e) có thể được dùng như

mô hình dịch hoặc mô hình gióng hàng Lưu ý mô hình chỉ giải quyết các trường hợp gióng 0:1, 1:0, 1:1 và 1:n

Mô hình dịch:

P (f |e) =

a

Mô hình gióng hàng:

P (a |e, f) = P (f, a P (f |e)

|e) =

P (f, a |e)



a  P (f, a  |e) (2)

Mô hình IBM gồm IBM1, IBM2, IBM3, IBM4 và

Trang 4

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Bảng I

V Í DỤ MỘT CẶP CÂU T IẾNG A NH VÀ T IẾNG V IỆT QUA 2 LẦN TÁCH

TỪ

Nguyên mẫu Công cụ tách từ LLOCE LRMM

An articulated

ve-hicle is usually a

large one in which

the front part with

the engine can be

separated from the

large carrying part

and which can bend

or turn easily where

the two parts join

An articulated ve-hicle is usually a large one in which the front part with the engine can be separated from the large carrying part and which can bend

or turn easily where the two parts join

An articulated ve-hicle is usually a large one in which the front part_with the engine can_be separated from the large carrying part and which can bend

or turn easily where the two parts join Một xe có khớp nối

thường là một xe

lớn phần phía trước

chứa động cơ có thể

tách khỏi bộ phận

lớn dùng để chở

và dễ dàng rẽ được

hoặc quay lại được

nhờ ở hai bộ phận

nối lại với nhau đó

.

Một xe có khớp nối thường là một

xe lớn phần phía trước chứa động_cơ có_thể tách khỏi bộ_phận lớn dùng

để chở và dễ_dàng

rẽ được hoặc quay lại được nhờ ở hai bộ_phận nối lại với nhau đó

có_khớp_nối thường là một xe_lớn phần phía_trước chứa động_cơ có_thể tách_khỏi bộ_phận lớn dùng để chở và dễ_dàng rẽ được hoặc quay_lại được nhờ ở hai_bộ_phận nối_lại_với_nhau

đó

thiếu sót của phiên bản trước đó

P (f, a |e) = P (J|I)

j

P (a j )P (f j |e a j)

= 

j

P (a j )P (f j |e a j)

= 

j

1

I + 1 P (f j |e a j)

(I + 1) J



j

P (f j |e a j)

(3)

IBM1 – sử dụng xác suất từ vựng (thông số trong

công thức 3)

IBM2 – bổ sung từ vựng kết hợp vị trí tuyệt đối

của từ

IBM3 – bổ sung fertilities(khả năng mà 1 từ có thể

gióng được với các từ khác)

IBM4 – bổ sung gióng hàng theo vị trí ngược tương

đối

IBM5 – phiên bản gióng hàng đầy đủ của IBM4

Với các mô hình xác suất, độ chính xác phụ thuộc vào

độ sạch cũng như độ lớn của dữ liệu, dữ liệu càng nhiều

thì độ chính xác càng cao Khi chạy GIZA++, chúng tôi

sử dụng mô hình IBM4 đã được cài đặt sẵn 60.000 cặp

câu được sử dụng làm hạt giống, kết hợp với 30.000 cặp

câu sạch lấy từ LLOCE, tập hợp 90.000 cặp câu sẽ đạt

Bảng II

K ẾT QUẢ MẪU SAU KHI GIÓNG HÀNG NGỮ LIỆU SONG NGỮ BẰNG

GIZA++

10 bảng Anh là đủ tiền xăng cho cuộc_hành_trình của_chúng_tôi

NULL £ 10 will cover our petrol for the journey {NULL là}, {£ bảng Anh}, {10 10}, {our

-của_chúng_tôi}, {petrol - đủ, tiền, xăng}, {for - cho}, {jour-ney - cuộc_hành_trình}, { - }

Bảng III

K ẾT QUẢ MẪU SAU KHI GIAO BỘ NHÃN CỦA CÁC CẶP TỪ GIÓNG HÀNG TRONG TRƯỜNG HỢP CÓ 1 NHÃN CHUNG VÀ 2 NHÃN CHUNG

TRỞ LÊN

1 Nhãn chung 2 Nhãn chung trở lên

family – gia đình(C11) view – thấy(F263),- cảnh(F265) journey - cuộc hành trình(M75) page – trang(G153),- giấy(G153) official – chính thức(C189) bankrupt – phá sản(J120),- mất(N105)

if – nếu(G288) lucid – dễ hiểu(F270),-có thể hiểu được(G40) area – vùng(C79) a lot – nhiều(N96),- quá(N96)

được kết quả tốt hơn so với chỉ huấn luyện bằng 30.000 câu sạch Kết quả thu được có dạng như Bảng II Những

từ Tiếng Việt không có từ tương ứng với Tiếng Anh sẽ được nối với NULL Hầu hết các từ này là hư từ

C Gán nhãn cho từng cặp từ gióng và thống kê 1) Tiền xử lý: Trong từ điển LLOCE Tiếng Anh và

Tiếng Việt, bộ nhãn có định dạng:

<nhãn i > # <từ 1 >,<từ 2 >, ., <từ n >

Trường hợp một từ đa nghĩa khá cao trong bộ từ vựng của từ điển (Tiếng Anh: 1,673 nhãn/từ, Tiếng Việt: 1,715 nhãn/từ) do đó nếu tìm đủ tập nhãn của một từ, bắt buộc phải duyệt hết từ điển, dẫn đến thời gian chạy tăng cao

Do đó chúng tôi sắp xếp chúng theo định dạng khác

để việc tìm bộ nhãn của 1 từ có chi phí tuyến tính:

<từ i > # <nhãn 1 >,<nhãn 2 >, ,<nhãn m >

2) Gán nhãn: Chúng tôi tiến hành duyệt từng cặp

từ đã được gióng hàng và liệt kê nhãn tương ứng của chúng Sau đó tiến hành giao 2 tập hợp và đếm số bộ nhãn chung cũng như đếm số trường hợp các từ không thuộc từ vựng trong từ điển Bảng III cho 1 số ví dụ về các cặp từ có 1 nhãn chung và 2 nhãn chung trở lên Trong Bảng III, ở trường hợp 2 nhãn chung trở lên, lấy ví dụ đầu tiên, thì sau khi gióng hàng, ‘view’ được gióng với 2 từ ‘thấy’ và ‘cảnh’ Cặp ‘view-thấy’ có nhãn chung là F263, cặp ‘view-cảnh’ có nhãn chung là F265 Như vậy ta không tìm được một nhãn duy nhất cho cặp từ được gióng này, đồng nghĩa tính nhập nhằng của

Trang 5

‘view’ chưa được giải quyết Xét thêm ví dụ cuối: cặp

‘a lot-nhiều’ và ‘a lot-quá’ đều có chung 1 nhãn là N96,

như vậy ‘a lot’ tuy gióng hàng với 2 từ nhưng vẫn giữ

lại 1 nhãn duy nhất, như vậy tính nhập nhằng của từ ‘a

lot’ đã được giải quyết

IV KẾT QUẢ - THẢO LUẬN

Ở bước tiền xử lý tách từ, ta gọi mỗi đơn vị từ cách

nhau bởi khoảng trắng là token Nếu 2 token được nối

với nhau bởi dấu ‘_’ thì trở thành 1 token Bảng IV cho

thấy tỉ lệ token đạt được ở mỗi bước tách từ so với số

token gốc Đối với Tiếng Anh, các từ đa phần là từ đơn,

cộng với tỉ lệ từ có 2 tiếng trở lên trong từ vựng của

từ điển chỉ chiếm 29,83%, do đó sau khi tách từ, không

có thay đổi lớn Tiếng Việt ngược lại, tỉ lệ từ ghép lớn,

tỉ lệ từ vựng có 2 tiếng trở lên trong từ điển là 92,44%

nên đến 25,34% token bị mất đi so với số token gốc

Bảng IV

S Ố LƯỢNG VÀ TỈ LỆ CÁC TOKEN SAU KHI THỰC HIỆN 2 BƯỚC TÁCH

TỪ

Nguyên mẫu Công cụ tách từ LLOCE LRMM

Token Tỉ lệ Token Tỉ lệ Token Tỉ lệ

30k-Eng 276.927 100% 276.927 100% 271.892 99,18%

30k-Viet 371.663 100% 324.618 81,34% 294.027 79,11%

90k-Eng 873.804 100% 873.804 100% 858.179 99,21%

90k-Viet 1.135.844 100% 948.064 83,47% 847.356 74,66%

Kết quả thu được sau khi gióng hàng và gán nhãn

khá thú vị Bảng V cho thấy 40,17% cặp từ trong bộ

90.000 câu song ngữ không tồn tại trong từ điển nên

không được gán nhãn Trung bình có 9,3 token/cặp câu,

giả sử dấu câu chiếm 1 token, thì số lượng từ không

tồn tại trong LLOCE chiếm 29,41% Con số này cho

thấy từ điển có vẻ không chứa đựng đầy đủ những từ

vựng thông dụng Hơn nữa, LLOCE khi được dịch sang

Tiếng Việt chưa chắc liệt kê hết tất cả những từ tương

ứng, như trường hợp từ A bên Tiếng Anh có thể dịch

sang từ B hay C bên Tiếng Việt, nhưng người dịch chỉ

chọn B mà thôi Một số khái niệm không tồn tại trong

Tiếng Việt cũng giới hạn lại tính khả dụng của bộ từ

vựng trong LLOCE Tiếng Việt

Bảng V

S Ố LƯỢNG VÀ TỈ LỆ CÁC CẶP SAU KHI GIÓNG HÀNG ĐƯỢC GÁN

NHÃN VÀ KHÔNG GÁN NHÃN

90.000 Anh-Việt 30.000 Anh-Việt Cặp từ không có nhãn 344.746(40.17%) 104.783(38,54%)

Cặp từ có nhãn 513.433(59,83%) 167.109(61,46%)

Bảng VI

S Ố LƯỢNG VÀ TỈ LỆ CÁC CẶP ĐƯỢC GÁN NHÃN XẾP THEO SỐ LOẠI

NHÃN CHUNG TĂNG DẦN

90.000 Anh-Việt 30.000 Anh-Việt Cặp từ 2 phía có nhãn

khác nhau hoặc chỉ 1 phía có nhãn

334.019 (65,06%) 109.179 (65,33%)

Cặp từ có 1 nhãn chung 178.215(34.71%) 57.348(34,32%) Cặp từ có 2 nhãn

chung trở lên 1.199 (0,23%) 582 (0,35%)

Bảng VII

T HỐNG KÊ TỈ LỆ CẶP TỪ CÓ 2 NHÃN TRỞ LÊN CÓ CHUNG 1 LOẠI VÀ

CÓ CHUNG TỪ 2 LOẠI TRỞ LÊN SO VỚI TỔNG SỐ CẶP TỪ ĐƯỢC GÁN

NHÃN

90.000 Anh-Việt 30.000 Anh-Việt Cặp từ 2 phía có 2

nhãn chung trở lên 1.199 (0,23%) 582 (0,35%) Cặp từ có 2 nhãn

chung trở lên cùng 1 loại

595 (0,11%) 278 (0,17%)

Cặp từ có 2 nhãn chung trở lên lớn hơn

1 loại

604 (0,12%) 304 (0,18%)

Theo phân tích ở đầu bài báo, chúng tôi quan tâm đến khả năng khử nhập nhằng của bộ nhãn ngữ nghĩa Kết hợp số liệu Bảng VI và Bảng VII, nếu tạm thời không xét đến các cặp không được gán nhãn, thì ta có 34,82% số cặp không nhập nhằng(34.71% cặp từ có 1 nhãn chung và 0.11% cặp từ có 2 nhãn chung nhưng chỉ cùng 1 loại)

Các trường hợp khác đều không phân định được nhãn,

do đó xem như thất bại trong việc khử nhập nhằng Bộ 30.000 câu lấy từ chính LLOCE có tỉ lệ cặp được gán nhãn không những thấp, mà còn thấp hơn bộ 60.000 câu (34,49% so với 35,00%) Tổng quan hơn, nếu tính đến toàn bộ cặp từ được gióng thì tỉ lệ không gán nhãn của 90.000 câu lên đến 79,17%, cho thấy độ bao phủ cực kì thấp trong từ điển, mặc dù trong đó có 30.000 câu sạch thuộc cùng lĩnh vực Tuy nhiên, theo hiểu biết hiện tại của chúng tôi, chưa có kết quả khảo sát với các bộ nhãn khác nên chưa thể kết luận kết quả này phản ánh tính chất bộ nhãn, hay là tình hình chung của hầu hết các bộ nhãn Trong tương lai, quy trình này cần được áp dụng với các bộ nhãn như LDOCE, WordNet với cùng bộ dữ liệu song ngữ để ta có góc nhìn tổng quát và có cơ sở

so sánh các bộ nhãn Để lý giải cho kết quả thu được, chúng tôi kiểm tra lại toàn bộ quy trình và có một số

Trang 6

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Nhiều trường hợp từ điển không phủ hết những từ

tương ứng trong Tiếng Việt Từ “sinh học” không

có trong bộ từ vựng, nhưng “bộ môn sinh học” lại

có, mặc dù chúng là như nhau

Tiếng Việt với đặc trưng nhiều từ ghép trở thành

trở ngại lớn khi tra từ điển “Run machine”E không

thể chia thành “run/chạy” và “machine/máy” bởi

không tìm được từ “máy” trong từ điển Tuy nhiên,

lại xuất hiện cụm “cho chạy máy”

Một số từ Tiếng Anh không có từ Tiếng Việt tương

ứng, dẫn đến phải dùng một cụm từ thay thế để giải

nghĩa, làm giảm số từ khả dụng trong bộ từ vựng

Tiếng Việt

Bộ từ vựng trong 2 từ điển không chính xác là từ

vựng khi nó bao gồm cả các cụm từ, thành ngữ

cộng với số lượng mục từ chỉ có 16.000 khiến cho

gần 1 nửa các cặp từ được gióng không có nhãn

tương ứng để gán

Việc áp dụng kĩ thuật tham lam cho bước tách từ

thứ hai có thể làm cho kết quả bị sai lệch

Số lượng cặp từ phụ thuộc vào chất lượng và số

lượng của ngữ liệu tham gia gióng hàng Có thể

90.000 cặp câu vẫn chưa đủ lớn để có kết quả chính

xác

LLOCE là bộ nhãn kích cỡ trung bình so với các

bộ nhãn đã giới thiệu ở phần đầu Tuy nhiên, kết quả

thu được sau thí nghiệm thấp hơn kì vọng ban đầu khá

nhiều Trong tương lai, để giải quyết những vấn đề trên,

chúng tôi đề nghị những hướng sau:

Xây dựng bộ ngữ liệu song ngữ lớn hơn

Thêm từ vựng cho cả 2 từ điển để phục vụ cho việc

gán nhãn Có thể bổ sung dựa theo 2 hướng: một

là bộ từ vựng và nhãn của LDOCE hoặc WordNet,

hai là dựa trên từ điển Hoàng Phê để tìm danh sách

các từ chưa được đánh nhãn, sau đó gán nhãn dựa

trên bộ nhãn có sẵn hoặc bổ sung bộ nhãn mới dựa

trên quy định phân loại nhãn của LLOCE

Xây dựng một dữ liệu lớn nếu chọn WordNet làm

bộ nhãn thay thế

Phát triển các bộ phân lớp xác định cặp từ nhập

nhằng và lựa chọn bộ nhãn chung ở các cặp có từ

2 nhãn chung trở lên

Kiểm tra bộ dữ liệu song ngữ 90.000 cặp câu với

các bộ nhãn như LDOCE, WordNet để có cơ sở

đánh giá khả năng bao phủ và khả năng khử nhập

nhằng của từng bộ nhãn

V KẾT LUẬN – ĐỀ NGHỊ

Chúng tôi đã trình bày mục tiêu của bộ nhãn ngữ

nghĩa và lý do lựa chọn LLOCE làm đối tượng thử

nghiệm Mô hình kiểm nghiệm khả năng gán nhãn được

đề xuất với 2 lớp tách từ, gióng hàng bằng GIZA++ và thống kê tỉ lệ các cặp từ có nhãn chung Kết quả thu được thấp hơn dự đoán ban đầu khi xét khả năng khử nhập nhằng (34,82% so với dự đoán 70%), đặc biệt hiệu suất còn thấp hơn nữa với ngữ liệu song ngữ trích xuất

từ trong chính từ điển Chúng tôi chưa kết luận khả năng của LLOCE do không có các dữ liệu tương ứng ở các bộ nhãn còn lại để đối xứng Tuy nhiên có thể nói LLOCE

tỏ ra yếu kém cho việc gán nhãn các câu thông dụng bởi số lượng từ vựng khiêm tốn cũng như sự khác biệt trong hai phiên bản Tiếng Việt và Tiếng Anh Trong tương lai, quy trình cơ bản này cần được thử nghiệm với WordNet, LDOCE để có cái nhìn tổng quan hơn

về độ bao phủ và khả năng khử nhập nhằng của các tập nhãn

TÀI LIỆU THAM KHẢO

[1] G A Miller et al., “Five papers on wordnet,” 1993 [Online].

Available: /bib/miller/Miller1993/5papers.pdf [2] E Niemann and I Gurevych, “The people’s web meets linguistic knowledge: Automatic sense alignment of

wikipedia and wordnet,” in Proceedings of the Ninth International Conference on Computational Semantics, ser.

IWCS ’11 Stroudsburg, PA, USA: Association for Computational Linguistics, 2011, pp 205–214 [Online] Available: http://dl.acm.org/citation.cfm?id=2002669.2002691 [3] F M Suchanek, G Kasneci, and G Weikum, “Yago: A

large ontology from wikipedia and wordnet,” Web Semantics: Science, Services and Agents on the World Wide Web,

vol 6, no 3, pp 203 – 217, 2008, world Wide Web Conference 2007Semantic Web Track [Online] Available: http://www.sciencedirect.com/science/article/pii/S1570826808000437 [4] E Agirre, E Alfonseca, K Hall, J Kravalova, M Pas¸ca, and A Soroa, “A study on similarity and relatedness using

distributional and wordnet-based approaches,” in Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, ser NAACL ’09 Stroudsburg, PA, USA: Association

for Computational Linguistics, 2009, pp 19–27 [Online] Available: http://dl.acm.org/citation.cfm?id=1620754.1620758 [5] P Vossen, “Eurowordnet: A multilingual database of autonomous and language-specific wordnets connected via

an inter-lingualindex,” International Journal of Lexicography,

vol 17, no 2, pp 161–173, 2004 [Online] Available: http://ijl.oxfordjournals.org/content/17/2/161.abstract

[6] F Bond, H Isahara, S Fujita, K Uchimoto, T Kuribayashi, and K Kanzaki, “Enhancing the japanese wordnet,” in

Proceedings of the 7th Workshop on Asian Language Resources, ser ALR7 Stroudsburg, PA, USA: Association for

Computational Linguistics, 2009, pp 1–8 [Online] Available: http://dl.acm.org/citation.cfm?id=1690299.1690300

[7] F J Och and H Ney, “A systematic comparison of

various statistical alignment models,” Comput Linguist.,

vol 29, no 1, pp 19–51, Mar 2003 [Online] Available: http://dx.doi.org/10.1162/089120103321337421

[8] Đinh Điền, “Xây dựng và khai thác ngữ liệu song ngữ anh việt,” Ph.D dissertation, ĐH Khoa học Xã hội & Nhân văn - ĐHQG Tp.HCM, 2005.

[9] T M Arthur, Longman Lexicon Of Contemporary English (bản dịch tiếng Việt: “từ vựng tiếng Anh hiện đại” do Trần Tất Thắng chủ biên) NXB Giaó Dục, 1997.

Ngày đăng: 27/04/2022, 10:16

HÌNH ẢNH LIÊN QUAN

Hình 1. Sơ đồ mô hình khảo sát bộ nhãn LLOCE. - Đánh giá bộ nhãn ngữ nghĩa LLOCE
Hình 1. Sơ đồ mô hình khảo sát bộ nhãn LLOCE (Trang 3)
Bảng II - Đánh giá bộ nhãn ngữ nghĩa LLOCE
ng II (Trang 4)
10 bảng Anh là đủ tiền xăng cho cuộc_hành_trình của_chúng_tôi . - Đánh giá bộ nhãn ngữ nghĩa LLOCE
10 bảng Anh là đủ tiền xăng cho cuộc_hành_trình của_chúng_tôi (Trang 4)
{NULL - là}, {£ - bảng Anh}, {10 - 10}, {ou r- -của_chúng_tôi}, {petrol - đủ, tiền, xăng}, {for - cho},  {jour-ney - cuộc_hành_trình}, { - Đánh giá bộ nhãn ngữ nghĩa LLOCE
l à}, {£ - bảng Anh}, {10 - 10}, {ou r- -của_chúng_tôi}, {petrol - đủ, tiền, xăng}, {for - cho}, {jour-ney - cuộc_hành_trình}, { (Trang 4)
IV. KẾT QUẢ - THẢO LUẬN - Đánh giá bộ nhãn ngữ nghĩa LLOCE
IV. KẾT QUẢ - THẢO LUẬN (Trang 5)
Bảng VI - Đánh giá bộ nhãn ngữ nghĩa LLOCE
ng VI (Trang 5)
Bảng IV - Đánh giá bộ nhãn ngữ nghĩa LLOCE
ng IV (Trang 5)

🧩 Sản phẩm bạn có thể quan tâm