1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích cú pháp phụ thuộc tiếng việt

81 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 738,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Gần đây, phân tích cú phápphụ thuộc thu hút được sự quan tâm của nhiều nhóm nghiên cứu ngôn ngữ tựnhiên trên thế giới bởi quan hệ phụ thuộc giữa hai từ trong câu nghiên cứukhử nhập nhằng

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương

Hà Nội - 2015

Trang 3

Lời cảm ơn

Em xin gửi lời cảm ơn tới các thầy giáo, cô giáo, cán bộ khoa Toán Cơ Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội đã tậntình dạy dỗ và giúp đỡ em trong suốt thời gian học cao học và làm việc tại Bộmôn Tin học

-Trong quá trình thực hiện luận văn này cũng như trong suốt những năm họcvừa qua, em đã nhận được sự chỉ bảo và hướng dẫn nhiệt tình của TS Lê HồngPhương và TS Nguyễn Thị Minh Huyền Em xin gửi tới Thầy Cô lời cảm ơnchân thành nhất

Em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, khuyến khích

và tạo điều kiện cho em trong quá trình học tập và thực hiện luận văn này.Mặc dù đã cố gắng để hoàn thành luận văn, nhưng do hạn chế về kinh nghiệm

và thời gian, nên luận văn không thể tránh khỏi những thiếu sót Em mong nhậnđược sự cảm thông và những ý kiến đóng góp của các thầy cô và các bạn

Hà Nội, tháng 9 năm 2015

Học viên

Hà Mỹ Linh

Trang 4

Mục lục

1.1 Cú pháp phụ thuộc 3

1.1.1 Định nghĩa cú pháp phụ thuộc 3

1.1.2 Biểu diễn cú pháp phụ thuộc 5

1.2 Các thuật toán phân tích cú pháp phụ thuộc 7

1.2.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị 9

1.2.2 Phân tích cú pháp phụ thuộc dựa trên các bước chuyển 11 2 Xây dựng tập nhãn phụ thuộc cho tiếng Việt 16 2.1 Kho ngữ liệu tiếng Việt - Viettreebank 16

2.2 Tập nhãn quan hệ phụ thuộc đa ngôn ngữ 19

2.3 Tập nhãn quan hệ phụ thuộc cho tiếng Việt 23

3 Thực nghiệm 33 3.1 Các công cụ phân tích cú pháp phụ thuộc 33

3.1.1 MSTParser 33

3.1.2 MaltParser 35

3.2 Thuật toán xây dựng tài nguyên tiếng Việt tự động 39

3.2.1 Tập luật tìm phần tử trung tâm 40

Trang 5

3.2.2 Thuật toán chuyển tự động từ Viettreebank sang cú pháp

phụ thuộc 413.3 Kết quả thực nghiệm 45

Trang 6

Danh sách bảng

1.1 Kết quả phân tích cú pháp phụ thuộc của hai mô hình cho hệ

thống CoNLL-X (Buchholz và Marsi 2006) 8

1.2 Các đặc trưng dùng trong MSTParser 10

1.3 Các đặc trưng dùng trong MaltParser 14

1.4 Ví dụ về phân tích cú pháp dựa vào các bước chuyển 15

2.1 Tập nhãn từ loại tiếng Việt 18

2.2 Tập nhãn cụm từ tiếng Việt 19

2.3 Tập nhãn mệnh đề tiếng Việt 19

2.4 Tập nhãn chức năng cú pháp tiếng Việt 20

2.5 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD) 32

3.1 Kết quả của MSTParser 35

3.2 Kết quả của MaltParser 39

3.3 Tập quy tắc xác định phần tử trung tâm 40

3.4 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích 45

3.5 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc 46

3.6 Kết quả phân tích cú pháp phụ thuộc với tập dữ liệu 2700 46 3.7 Kết quả phân tích cú pháp phụ thuộc với tập dữ liệu 6546 câu 47

Trang 7

Danh sách hình vẽ

1.1 Cấu trúc cụm từ 4

1.2 Đồ thị phụ thuộc của một câu tiếng Anh 6

1.3 Ví dụ về phân tích cú pháp dựa trên đồ thị 11

3.1 Cú pháp thành phần của một câu tiếng Việt 41

Trang 8

Lời mở đầu

Xử lí ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một nhánhtrong trí tuệ nhân tạo, tập trung các ứng dụng nhằm giúp các hệ thống máytính hiểu và xử lí được ngôn ngữ của con người Xử lí ngôn ngữ tự nhiên là mộttrong những vấn đề khó và thu hút rất nhiều nhóm nghiên cứu vì nó liên quanđến việc phải hiểu ý nghĩa ngôn ngữ - là công cụ hoàn hảo nhất của tư duy vàgiao tiếp Phân tích cú pháp là một trong những vấn đề quan trọng trong lĩnhvực xử lí ngôn ngữ tự nhiên Với một bộ phân tích cú pháp tốt, chúng ta có thểtích hợp vào nhiều ứng dụng trong xử lí ngôn ngữ tự nhiên như dịch máy, tómtắt văn bản, các hệ thống hỏi đáp, trích chọn thông tin, để tăng tính chínhxác của các ứng dụng đó

Trong phân tích cú pháp, phân tích cú pháp phụ thuộc nghiên cứu về sự phụthuộc giữa các từ trong câu dựa trên ngữ nghĩa Gần đây, phân tích cú phápphụ thuộc thu hút được sự quan tâm của nhiều nhóm nghiên cứu ngôn ngữ tựnhiên trên thế giới bởi quan hệ phụ thuộc giữa hai từ trong câu nghiên cứukhử nhập nhằng ngữ nghĩa của câu và cú pháp này có khả năng mô hình hóacác ngôn ngữ có trật tự từ tự do Đối với nhiều ngôn ngữ như tiếng Anh, tiếngPháp, tiếng Trung, đã có rất nhiều nghiên cứu và các công cụ phân tích cúpháp phụ thuộc với hiệu quả cao Tuy nhiên, các tiếp cận cho bài toán này hầuhết dựa trên học máy và đòi hỏi kho ngữ liệu với nhiều thông tin về từ loại vàquan hệ phụ thuộc nên có rất ít công bố nghiên cứu về phân tích cú pháp phụthuộc tiếng Việt

Hiện nay, các công cụ phân tích cú pháp phụ thuộc cho tiếng Việt đã đạtđược một số kết quả nhất định Nhóm tác giả Nguyễn Lê Minh và cộng sự [1]

sử dụng thuật toán phân tích cú pháp dựa vào đồ thị, thực nghiệm với công cụ

Trang 9

MSTParser và bộ dữ liệu khá hạn chế gồm 450 câu làm bằng tay với độ chínhxác là 63.11% Nhóm tác giả Lê Hồng Phương và cộng sự [20] nghiên cứu phântích cú pháp phụ thuộc dựa vào văn phạm kết nối cây từ vựng hóa, thực nghiệmhuấn luyện với 8637 câu trong kho ngữ liệu cú pháp thành phần tiếng Việt, phântích 441 câu có độ dài nhỏ hơn 30 từ và đạt độ chính xác là 73.21% Gần đâynhất là công bố của nhóm nghiên cứu của tác giả Nguyễn Quốc Đạt và cộng sự[7], tác giả đã chuyển tự động kho ngữ liệu cú pháp thành phần sang kho ngữliệu cú pháp phụ thuộc, cùng với tập 33 nhãn quan hệ phụ thuộc với độ chínhxác là 71.66% Tuy nhiên, hầu hết các nghiên cứu đối với tiếng Việt đều chưathống nhất được tập nhãn phụ thuộc, các nhãn phụ thuộc chưa được mô tả mộtcách rõ ràng và hiệu quả phân tích còn khá hạn chế.

Luận văn sẽ trình bày về vấn đề phân tích cú pháp phụ thuộc, tập trung vàoviệc xây dựng tập nhãn phụ thuộc cho tiếng Việt và thử nghiệm trên hai công

cụ phân tích cú pháp là MaltParser và MSTParser Nội dung chính của luậnvăn gồm có 3 chương:

• Chương 1 Tổng quan: Chương này trình bày những vấn đề liên quan tới

cú pháp phụ thuộc, các khái niệm cơ bản về phân tích cú pháp phụ thuộc

Và một số những thuật toán phân tích cú pháp phụ thuộc tốt nhất hiệnnay

• Chương 2 Xây dựng tập nhãn phụ thuộc cho tiếng Việt: Chươngnày trình bày về việc nghiên cứu và xây dựng tập nhãn phụ thuộc cho tiếngViệt có đối sánh với tập nhãn phụ thuộc đa ngôn ngữ của nhóm nghiên cứutrường Đại học Stanford Ngoài ra, Chương này cũng so sánh sự khác nhaugiữa hai bộ nhãn để thấy được những đặc trưng trong tiếng Việt

• Chương 3: Thực nghiệm: Chương này trình bày về một số công cụ phântích cú pháp phụ thuộc hiệu quả nhất hiện nay: MSTParser và MaltParser.Tiếp theo là thuật toán chuyển tự động từ kho ngữ liệu cú pháp thành phầnViettreebank sang kho ngữ liệu cú pháp phụ thuộc Tiến hành thực nghiệmphân tích cú pháp phụ thuộc cho tiếng Việt với hai công cụ trên, sau đó

so sánh kết quả đạt được giữa những tập dữ liệu khác nhau và đưa ra kếtluận

Trang 10

Chương 1

Tổng quan về cú pháp phụ thuộc

Chương này sẽ trình bày các kiến thức cơ sở sử dụng trong các phần sau, đặcbiệt là khái niệm liên quan tới phân tích cú pháp phụ thuộc và các thuật toánphân tích cú pháp phụ thuộc điển hình

Cú pháp là chủ đề nghiên cứu của hai cộng đồng gồm những người làm ngônngữ và những người làm tin học Cú pháp vừa là đối tượng nghiên cứu, vừa làmột trong các cấp độ cần mô tả đối với cộng đồng những người làm ngôn ngữ.Đối với cộng đồng những người làm tin học, cần làm cho máy tính phân tíchđược cú pháp với hai mục tiêu là xây dựng các ứng dụng, giải quyết một số bàitoán thực tế, đối tượng nghiên cứu của họ là các hệ hình thức và các thuật toán

Với một câu có thể có hai cách phân tích cú pháp: phân tích cú pháp thành

Trang 11

phần và phân tích cú pháp phụ thuộc.

Định nghĩa 1.1.1 (Cú pháp thành phần) Cú pháp thành phần là cấu trúc câutheo thứ bậc các thành phần của câu, sử dụng cấu trúc cụm từ Ví dụ: Hình1.1

từ tự do, như tiếng Séc hay Thổ Nhĩ Kì Tuy nhiên, không phải vì thế mà cácngôn ngữ có trật tự từ tự do thì luôn dùng cú pháp phụ thuộc và ngược lại.Bài toán phân tích cú pháp phụ thuộc

Trang 12

Phân tích cú pháp phụ thuộc đưa ra mô tả về quan hệ và vai trò ngữ phápcủa các từ trong câu, đồng thời đưa ra hình thái của câu Bài toán phân tích cúpháp phụ thuộc là tìm đồ thị phụ thuộc cho một câu Đầu vào của bài toán làcâu đã được tách từ và gán nhãn từ loại, trong đó mỗi từ có đặc điểm hình tháixác định Mục tiêu của bài toán là tìm ra phương pháp sinh đồ thị phụ thuộcchính xác nhất cho một câu đầu vào, nghĩa là làm cực đại số cung chính xáctrong đồ thị và số nhãn gán đúng cho các cung Ta có:

• Đầu vào:

– Câu x = w1, w2, , wn đã được tiền xử lý, tách từ và gán nhãn từ loại.– Kho ngữ liệu gồm các câu đã được gán nhãn phụ thuộc (phục vụ choquá trình huấn luyện trong các thuật toán)

• Đầu ra: Đồ thị phụ thuộc của câu x

1.1.2 Biểu diễn cú pháp phụ thuộc

Cho một câu x gồm n từ w1, w2, , wn, khi đó ta sẽ kí hiệu x như sau:

x = (w1, w2, , wn)

Trong phân tích cú pháp phụ thuộc, cú pháp phụ thuộc của một câu được biểudiễn bởi một đồ thị có hướng, các đỉnh trong đồ thị tương ứng với các từ củamột câu, các cung trong đồ thị được gán nhãn, các nhãn của cung tương ứngvới loại phụ thuộc giữa hai từ

Định nghĩa 1.1.3 (Đồ thị phụ thuộc) Cho một tập L = {r1, , r|L|} các loạiphụ thuộc (các nhãn cung), đồ thị phụ thuộc của một câu x = (w1, , wn) làmột đồ thị có hướng được gán nhãn G = (V, E, R), trong đó:

1 V = Zn+1

2 E ⊆ V × V

3 R là một hàm xác định nhãn cung

Trang 13

Tập đỉnh V là một tập Zn+1 = {0, 1, 2, , n}, n ∈ Z+, là tập số nguyên không

âm tăng dần tới n Điều này có nghĩa là tất cả các từ trong câu là một đỉnh(1 ≤ i ≤ n) và có một đỉnh đặc biệt 0, không tương ứng với bất kỳ từ nào củacâu và luôn là gốc của đồ thị phụ thuộc Sử dụng V+ là tập tất cả các đỉnhtương ứng với các từ của câu cụ thể x = (w1, , wn) Thỏa mãn: |V+| = n và

|V | = n + 1

Tập hợp các cung E là một cặp (i, j), trong đó i, j là các đỉnh, kí hiệu i → j

có nghĩa là một cung nối giữa đỉnh i và đỉnh j, khi đó ta có: (i, j) ∈ E Kí hiệu

i →∗ j khi và chỉ khi i = j hoặc có một cung nối từ đỉnh i đến đỉnh j

Hàm R chỉ một loại phụ thuộc r ∈ L tới mỗi cung e ∈ E Kí hiệu i →r j

có nghĩa là có một cung có nhãn r kết nối đỉnh i với đỉnh j (ví dụ i → j vàR((i, j)) = r)

Từ w0 là từ được thêm vào ngay đầu của câu và không bổ nghĩa cho bất cứ

từ nào trong câu, đó chính là đỉnh gốc của đồ thị Mỗi wi biểu diễn cho một từ,một dấu câu, một phụ tố, tiền tố hoặc bất cứ hình vị nào trong câu Quy ước 0(tương ứng với từ w0) luôn là gốc của đồ thị phụ thuộc của câu cần phân tích

Ví dụ: Đồ thị phụ thuộc của câu "Bills on ports and immigration were mitted by Senator Brownback, Republican of Kansas" trong Hình 1.2

sub-Hình 1.2: Đồ thị phụ thuộc của một câu tiếng Anh.

Trong ví dụ trên, tập L = {nsubjpass, auxpass, prep, pobj, nn, cc, conj, appos}

Trang 14

là các quan hệ phụ thuộc của các từ trong câu, và cũng là các nhãn cung của đồthị phụ thuộc Các từ ở gốc mũi tên là các từ trung tâm, các từ ở đầu mũi tên

là các từ phụ thuộc Với một cung: “submitted −→ Bills”, thì “submitted” là từtrung tâm, “Bills” là từ phụ thuộc và quan hệ phụ thuộc giữa hai từ này đượcbiểu thị bằng nhãn phụ thuộc nsubjpass

Định nghĩa 1.1.4 (Đồ thị phụ thuộc xây dựng đúng) Một đồ thị phụ thuộc

G xây dựng đúng nếu và chỉ nếu:

1 Đỉnh 0 là gốc (ROOT )

2 G liên thông yếu (CONNECTEDNESS )

3 Mọi đỉnh đều có nhiều nhất một từ trung tâm, tức là nếu i → j thì với một

từ bất kì khác trong câu, @ k thỏa mãn k 6= i và k → j (SINGLE-HEAD)

4 Các đồ thị G là không có chu trình, tức là có i → j thì @j →∗ i ITY )

(ACYCLIC-Ngoài các tính chất trên của một đồ thị phụ thuộc, hầu hết các đồ thị cònthỏa mãn điều kiện xạ ảnh Các đồ thị là xạ ảnh, nếu như có i → j thì i →∗ k,

∀k thỏa mãn i ≤ k ≤ j hoặc j ≤ k ≤ i (PROJECTIVITY ) Tuy nhiên, khôngphải tất cả các câu đều thỏa mãn điều kiện này nên một số thuật toán được pháttriển để giải quyết vấn đề không xạ ảnh trong phân tích cú pháp phụ thuộc.Nhờ cách mô hình hóa như trên, cú pháp phụ thuộc biểu diễn được nhữngngôn ngữ có trật tự từ tự do, đây là điều mà cú pháp cấu trúc cụm (vốn phùhợp với những ngôn ngữ có nhiều quy tắc chặt chẽ trong cấu thành câu) khônglàm được Tuy vậy, không có nghĩa là phân tích ngôn ngữ có trật tự từ xác địnhthì chỉ dùng cấu trúc cụm hay phân tích ngôn ngữ có trật tự từ tự do thì chỉdùng cấu trúc phụ thuộc

1.2 Các thuật toán phân tích cú pháp phụ thuộc

Kiến thức trong phần này trình bày theo tài liệu của các tác giả Joakim Nivre

và Johan Hall cùng cộng sự [9], Ryan McDonald cùng cộng sự [21], [22]

Có hai phương pháp phân tích cú pháp phụ thuộc cơ bản sau:

Trang 15

• Phân tích cú pháp phụ thuộc dựa vào đồ thị: phân tích cú pháp phụ thuộcthông qua tham số hóa mô hình phụ thuộc dựa vào các đồ thị con và huấnluyện các tham số trên toàn bộ các đồ thị Sử dụng suy luận toàn cục trong

hệ thống để tìm những đồ thị có trọng số cao nhất trong số các cách thiếtlập tất cả các đồ thị Mô hình phân tích cú pháp phụ thuộc dựa trên đồ thịđược Eisner (1996), McDonald cùng cộng sự (2005) phát triển

• Phân tích cú pháp phụ thuộc dựa vào bước chuyển: phân tích cú pháp phụthuộc thông qua các bước chuyển từ trạng thái phân tích này tới trạng tháiphân tích khác Các tham số trong mô hình thường được huấn luyện sửdụng kĩ thuật phân lớp chuẩn để dự đoán bước chuyển tiếp theo từ một tậphợp các bước chuyển trước đó Sử dụng suy luận cục bộ, hệ thống bắt đầu

từ một trạng thái ban đầu cố định và xây dựng các đồ thị bằng hàm điểmchuyển đổi cao nhất tại mỗi trạng thái cho đến khi một điều kiện được đápứng Mô hình phân tích cú pháp phụ thuộc dựa trên các bước chuyển đượcNivre cùng cộng sự (2004), Yamada và cộng sự (2003) phát triển

Cả hai phương pháp đều đưa ra kết quả phân tích với độ chính xác tươngđương nhau, như đưa ra trong Bảng 1.1 một số ngôn ngữ khác nhau

Bảng 1.1: Kết quả phân tích cú pháp phụ thuộc của hai mô hình cho hệ thống CoNLL-X (Buchholz

và Marsi 2006).

Ngôn ngữ Graph-based Transition-based Số câu Số nhãn

(McDonald cùng cộng sự) (Nivre cùng cộng sự) tập huấn luyện phụ thuộc

Trang 16

trên, phân tích cú pháp phụ thuộc còn được phát triển dựa vào một phươngpháp mới, được tác giả Danqi Chen và Christopher D Manning xây dựng vàthử nghiệm vào năm vào năm 2014 Phương pháp này mang lại hiệu quả khácao (92.00%) khi thử nghiệm với Penntreebank [6] Kết quả của phương phápnày đối với tiếng Anh tốt hơn 2% so với phân tích cú pháp phụ thuộc dựa vàobước chuyển và khoảng 0.2% với thuật toán phân tích cú pháp phụ thuộc dựavào đồ thị Tuy nhiên, luận văn tập trung trình bày hai phương pháp dựa trên

đồ thị và dựa trên các bước chuyển, thực nghiệm với hai công cụ tương ứng vớihai phương pháp này và đưa ra so sánh, nhận xét trong Chương 3

1.2.1 Phân tích cú pháp phụ thuộc dựa trên đồ thị

Cho một câu đầu vào x = w0, w1, , wn có tập đỉnh là Vx, ta định nghĩa lạitập cung Ex của đồ thị phụ thuộc cho câu x như sau:

Ex = {(i, j, r)|i, j ∈ Vx và r ∈ L}

Gx là những đồ thị phụ thuộc đúng của câu x D(Gx) là những đồ thị concủa Gx Vì Gx chứa tất cả những cung được gán nhãn, tập D(Gx) phải chứa tất

cả những đồ thị phụ thuộc của x

Giả sử đã tồn tại một hàm tính trọng số của cạnh phụ thuộc, s : V ×V ×L −→

R Định nghĩa trọng số của một đồ thị là tổng các trọng số của cạnh trong đồthị đó:

s(Gx = (Vx, Ex)) =P

(i,j,r)∈E xs(i, j, r)

Trọng số của một cạnh, s(i, j, r) biểu diễn khả năng tạo ra quan hệ phụ thuộc

r giữa từ trung tâm wi với từ phụ thuộc wj trong đồ thị phụ thuộc Trọng sốcủa cạnh được định nghĩa là tích của véc-tơ đặc trưng f với véc-tơ tham số w:s(i, j, r) = w.f (i, j, r)

Các đặc trưng đại diện f (i, j) được trình bày trong Bảng 1.2 cho một cungkhông được gán nhãn (i, j) Những đặc trưng này đại diện cho các thông tin liênquan đến từ trung tâm trong quan hệ phụ thuộc, nhãn phụ thuộc Ngoài ra còn

có cả những đặc trưng về nhãn từ loại của các từ kế tiếp (bao gồm cả nhãn thô

và nhãn mịn) Cụ thể với một cung (i, j), ta có:

• Nhóm đặc trưng (a) và (b): xét cho từ loại và từ vựng của cung (i, j) trong

Trang 17

Bảng 1.2: Các đặc trưng dùng trong MSTParser

xi− word, x i − pos xi− word, x i − pos, x j − pos, x j − word xi− pos, x b − pos, x j − pos

xi− word xi− pos, xj− pos, xj− word xi− pos, xi+1− pos, xj−1− pos, xj− pos

x i − pos x i − word, x j − pos, x j − word x i−1 − pos, x i − pos, x j−1 − pos, x j − pos

xj− word, x j − pos xi− word, x i − pos, x j − pos xi− pos, x i+1 − pos, x j − pos, x j+1 − pos

x j − word x i − word, x i − pos, x j − word x i−1 − pos, x i − pos, x j − pos, x j+1 − pos

xi− pos, xj− pos

ngữ cảnh Uni-gram và Bi-gram

• Nếu từ i hay j có nhiều hơn 5 kí tự thì xét thêm đặc trưng 5-gram phía

trước từ đó

• Nhóm (c): bổ sung cho bối cảnh đồ thị phụ thuộc (nhóm (a) và (b)), ta xét

các từ trong bối cảnh câu, cụ thể là thông qua từ loại của các từ nằm giữa

từ i và j, cùng với từ loại của các từ nằm bên trái và bên phải từ i và từ j

Các tác giả đã thử thêm bớt hoặc thay đổi nhiều lần các đặc trưng và chứng

minh bằng thực nghiệm rằng các đặc trưng này là hiệu quả nhất đối với phân

tích cú pháp phụ thuộc cho tiếng Anh

Véc-tơ w là một véc-tơ trọng số được đưa ra cho mỗi câu bằng phương pháp

học máy (MIRA - Margin Infused Relaxed Algorithm) [13] Phương pháp học

máy MIRA được lựa chọn vì nó có nhiều những đặc tính phù hợp với bài toán

McDonald cùng cộng sự (2005) chỉ ra vấn đề này là tương đương với việc tìm

ra cây bao trùm cực đại có hướng của đồ thị Gx ban đầu

Thuật toán Chu-Liu-Edmonds được sử dụng để tìm ra cây bao trùm lớn nhất

trong đồ thị có hướng với trường hợp không xạ ảnh Thuật toán Eisner cũng

được sử dụng để tìm ra cây bao trùm lớn nhất trong đồ thị có hướng với trường

hợp xạ ảnh

Trang 18

Một ví dụ của đồ thị đầy đủ Gx và đồ thị phụ thuộc có hàm trọng số caonhất được đưa ra trong Hình 1.3 cho câu “John saw Mary” Hình 1.3 gồm đồthị đầy đủ Gx chứa trọng số trên các cạnh, sau đó dựa vào thuật toán phân tích

cú pháp phụ thuộc trên đồ thị để chuyển thành đồ thị phụ thuộc chính xác củacâu

Hình 1.3: Ví dụ về phân tích cú pháp dựa trên đồ thị.

1.2.2 Phân tích cú pháp phụ thuộc dựa trên các bước chuyển

Thuật toán Shift - Reduce (phân tích cú pháp phụ thuộc dựa vào các bướcchuyển) là một thuật toán cơ bản và có hiệu quả cao với rất nhiều các ngôn ngữkhác nhau Thuật toán này phân tích câu đầu vào từ bên trái sang bên phải sửdụng hai cấu trúc dữ liệu chính: một vùng đệm lưu trữ những dữ liệu đầu vàocòn lại và một ngăn xếp lưu trữ những dữ liệu đã xử lý một phần Giống nhưhầu hết các thuật toán sử dụng cho phân tích cú pháp phụ thuộc trong thực tế,thuật toán này thường sử dụng với đồ thị phụ thuộc xạ ảnh Chúng ta bắt đầubằng cách xác định một cấu hình phân tích cú pháp cho một câu x = (w1, , wn)liên quan tới tập L các loại phụ thuộc (bao gồm cả một kí hiệu đặc biệt r0 lànhãn phụ thuộc của gốc) Một trong những thuật toán dựa vào bước chuyển tốtnhất hiện nay là thuật toán arc-eager được phát triển bởi Nivre.J và cộng sự(2003)

Thuật toán được mô tả như sau:

Trong một hệ thống arc-eager, cho tập L = (r0, , rm) là tập nhãn phụ thuộc

và một câu x = (w0, , wn), một cấu hình phân tích cú pháp phụ thuộc là một

Trang 19

bộ ba: c = {σ, β, A} Trong đó, c chứa một ngăn xếp σ, một vùng đệm β và mộttập các cung phụ thuộc A.

Cấu hình ban đầu của một câu s = w1, w2, , wn là:

để chỉ ra tập cung phụ thuộc của một cấu hình c

Thuật toán phân tích cú pháp phụ thuộc arc-eager định nghĩa bốn loại hàmchuyển như sau:

Bốn hàm chuyển trên có thể được giải thích một cách rõ ràng như sau:

• Bước chuyển LEF T − ARC(r) : u ← v là nếu không tồn tại bất kì cungnào đi đến u hay nói cách khác u không phải là phụ thuộc của bất cứ từnào thì phân tích của u sẽ được thực hiện, có một cung đi từ v đến u vớinhãn r Khi đó u sẽ được lấy ra khỏi ngăn xếp

Trang 20

• Bước chuyển RIGHT − ARC(r) : u → v là nếu không tồn tại bất kì cungnào đến v thì v được đưa vào trong ngăn xếp để xét các từ tiếp theo Chú

ý rằng có thể có nhiều cung đi ra từ u

• Bước chuyển REDU CE: Là bước lấy một từ u ra khỏi ngăn xếp nếu như cómột quan hệ phụ thuộc giữa từ u và từ v trong bước chuyển RIGHT −ARCtrước đó

• Bước chuyển SHIF T : Là bước lấy phần tử đầu tiên của vùng đệm và đẩy

nó vào trong ngăn xếp Quá trình chuyển này không đòi hỏi bất cứ điềukiện tiên quyết nào

Hệ thống bước chuyển được xác định là không đơn định, vì thế thường cónhiều hơn một bước chuyển đối với một cấu hình nhất định Để thực hiện phântích cú pháp đơn định, hệ thống các bước chuyển cần phải bổ sung một kĩ thuật

để dự đoán bước chuyển tiếp theo ở mỗi lựa chọn không đơn định, cũng như lựachọn một loại phụ thuộc r cho quá trình chuyển đổi LEFT-ARC(r) và RIGHT-ARC(r) Nếu trạng thái phân tích cú pháp chưa phải là trạng thái kết, thì hệthống sẽ tiếp tục thực hiện các trạng thái tiếp theo, nếu ngăn xếp rỗng thì sẽthực hiện bước chuyển SHIFT, ngược lại sẽ thực hiện một hàm chức năng đểđưa ra bước chuyển kế tiếp, hàm này được dự đoán bằng các thuật toán huấnluyện dựa vào các đặc trưng của mô hình Khi thực hiện đến cấu hình kết, thì

ta thu được đồ thị phụ thuộc của câu đầu vào Đồ thị phụ thuộc được đưa racuối cùng đảm bảo không có chu trình và không xạ ảnh

Các mô hình đặc trưng cho phân tích cú pháp phụ thuộc dựa vào bước chuyểnthường kết hợp các đặc trưng từ loại, từ vựng với các đặc trưng phụ thuộc nhưnhãn phụ thuộc hay từ trung tâm trong quan hệ phụ thuộc của các từ trongngăn xếp hay trong bộ đệm Mô hình đặc trưng chuẩn là mô hình kết hợp cácđặc trưng từ loại, từ vựng và loại phụ thuộc, theo Bảng 1.3

Mô hình này chứa 6 đặc trưng từ loại, là từ loại của hai từ trên cùng của ngănxếp là (p(σ0), p(σ1)) và 4 từ đầu tiên của đầu vào là p(τ0), p(τ1), p(τ2), p(τ3) Cácđặc tính loại phụ thuộc bao gồm từ trên đầu của ngăn xếp d(σ0), và con tráinhất, con phải nhất của nó là (d(r(σ0), d(l(σ0))) và con trái nhất của từ tiếp

Trang 21

Bảng 1.3: Các đặc trưng dùng trong MaltParser

p(σ 1 ) w(h(σ 0 )) d(l(σ 0 )) p(σ 0 ) w(σ 0 ) d(σ 0 ) p(τ0) w(τ0) d(r(σ0)) p(τ1) w(τ1) d(l(τ0)) p(τ 2 )

p(τ 3 )

theo của đầu vào là d(l(τ0)) Cuối cùng, mô hình chuẩn chứa 4 đặc tính từ vựng,

là dạng từ của từ đầu tiên trong ngăn xếp w(σ0), đầu của từ đầu tiên trongngăn xếp w(h(σ0)), và hai từ tiếp theo ở đầu vào là (w(τ0), w(τ1))

Khi dùng các đặc trưng này, các từ trong câu thường được mã hóa và biểudiễn bằng một véc-tơ nóng (one-hot vector ) hay cũng được gọi là véc-tơ chỉ sốvới các giá trị trong véc-tơ là 0 hoặc 1 Đây là cách biểu diễn này khá đơn giản

và dễ hiểu, được áp dụng trong rất nhiều những hệ thống của xử lý ngôn ngữ

tự nhiên Tuy nhiên, biểu diễn theo dạng này gặp phải hai vấn đề lớn Một là,

dữ liệu thưa, các thông số tương ứng với các từ hiếm hoặc các từ không xácđịnh thường được ước tính kém Hai là, nó không có khả năng nắm bắt sự giốngnhau về ngữ nghĩa giữa các từ có liên quan chặt chẽ đến nhau Sự hạn chế này

đã thúc đẩy các phương pháp giám sát để tạo ra một biểu diễn từ tốt hơn Gầnđây, biểu diễn phân tán từ được chứng minh là đã đạt được nhiều kết quả tốttrong các bài toán xử lý ngôn ngữ tự nhiên Biểu diễn phân tán (hay còn đượcgọi là nhúng từ - Word embedding) có thể được sử dụng cho các đơn vị khácnhau của ngôn ngữ như từ, cụm từ, câu và các tài liệu Sử dụng biểu diễn phântán, các đơn vị ngôn ngữ được nhúng trong một không gian ít chiều và liên tục.Mỗi chiều của biểu diễn phân tán đại diện cho một tính năng tiềm ẩn của từ

và hi vọng có thể nắm bắt được các đặc tính về cú pháp và tương đồng ngữnghĩa [23] Thông thường, các biểu diễn phân tán từ thường được tạo ra bằngcách sử dụng mô hình mạng nơ-ron, trong đó các mạng nơ-ron được sử dụng để

dự đoán Một số những mô hình đã được phát triển để tạo ra biểu diễn phântán từ như: mô hình skip-gram và mô hình bag-of-word [24] Phương pháp này

đã và đang được sử dụng trong nhiều vấn đề liên quan đến phân tích cú phápphụ thuộc Nó được chứng minh rằng đã đạt được hiệu quả cao và có thể áp

Trang 22

dụng cho nhiều ngộn ngữ khác nhau Ngoài ra, biểu diễn phân tán còn được sửdụng để phân tích cú pháp phụ thuộc đa ngôn ngữ [8] Phương pháp này cũng

đã được nhóm tác giả Lê Hồng Phương và cộng sự sử dụng và đem lại kết quảkhá khả quan đối với tiếng Việt [14]

Dựa vào các đặc trưng, vấn đề huấn luyện được chuyển thành vấn đề phânloại, trong đó đầu vào là các véc-tơ đặc trưng và các lớp đầu ra là những quyếtđịnh trong phân tích cú pháp Huấn luyện mô hình phân tích cú pháp phụ thuộc

là bước quan trọng để có một kết quả tốt Việc phân lớp từ dữ liệu đã được gánnhãn sử dụng bài toán phân lớp dựa vào một số thư viện có sẵn như LIBSVM(Support Vector Machine), TiMBL (K - láng giềng gần nhất) và LibLinear

Ví dụ phân tích cú pháp phụ thuộc dựa vào các bước chuyển đối với câu: "Hehad good control." [6] trong Bảng 1.4

Bảng 1.4: Ví dụ về phân tích cú pháp dựa vào các bước chuyển.

[ROOT] [He has good control ] ∅ SHIFT [ROOT He] [has good control ]

SHIFT [ROOT He has] [good control ]

LEFT-ARC(nsubj) [ROOT has] [good control ] A ∪ nsubj(has, He) SHIFT [ROOT has good] [control ]

SHIFT [ROOT has good control] [.]

LEFT-ARC(amod) [ROOT has control] [.] A ∪ amod(control, good) RIGHT-ARC(dobj) [ROOT has] [.] A ∪ dobj(has, control)

RIGHT-ARC(root) [ROOT] [] A ∪ root(ROOT, has)

Như vậy, trong Chương 1, luận văn đã trình bày những kiến thức tổng quátliên quan đến phân tích cú pháp phụ thuộc, các thuật toán để giải quyết bàitoán phân tích cú pháp phụ thuộc Tiếp theo trong Chương 2, luận văn sẽ trìnhbày về các tập nhãn quan hệ phụ thuộc và cách xây dựng tập nhãn quan hệ phụthuộc đối với tiếng Việt

Trang 23

và cách xây dựng nhãn quan hệ phụ thuộc cho tiếng Việt dựa vào kho ngữ liệuVietTreebank và bộ nhãn chuẩn trên Sau đó đưa ra sự so sánh giữa hai tậpnhãn để thấy được những đặc trưng của tiếng Việt.

2.1 Kho ngữ liệu tiếng Việt - Viettreebank

Kiến thức trong phần này trình bày theo tài liệu của tác giả Nguyễn PhươngThái cùng cộng sự [3]

Trong các phương pháp giải các bài toán cơ bản của phân tích ngôn ngữ thì

Trang 24

phương pháp thống kê trên một tập dữ liệu mẫu được các nhà nghiên cứu đặcbiệt quan tâm hơn cả Các phương pháp thống kê trong phân tích cú pháp sẽcho kết quả ổn định và độ chính xác cao nếu có tập dữ liệu mẫu đủ lớn Tập

dữ liệu mẫu này chính là kho ngữ liệu Kho ngữ liệu mà trong đó mỗi câu đượcchú giải cấu trúc cú pháp là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lýngôn ngữ tự nhiên Kho ngữ liệu này được gọi là treebank Treebank có nhiềuứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lí ngôn ngữ tựđộng, các phần mềm dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp, Các hệthống treebank cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Trungquốc, đã được xây dựng từ lâu

Đối với tiếng Việt, việc xây dựng treebank cũng đã có một số kết quả nhấtđịnh Với tiếng Việt, treebank được nghiên cứu xây dựng trong khuôn khổ đềtài VLSP và có tên là Vietreebank Mục tiêu của Vietreebank là xây dựng đượclược đồ giải thích cú pháp với hơn 10000 câu

Tập nhãn của Vietreebank được thiết kế gồm có:

• Tập nhãn từ loại: Về nguyên tắc, các thông tin về từ có thể được chứa trongnhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ, ), thông tin hìnhthái (số ít, số nhiều, thì, ngôi, ), thông tin về phân loại con (ví dụ động

từ đi với danh từ, động từ đi với mệnh đề, ), thông tin ngữ nghĩa, haymột số thông tin cú pháp khác Với đặc điểm của tiếng Việt, tập nhãn từloại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tinnhư hình thái, phân loại con,

Tiếng Việt có hệ thống từ loại được đưa ra trong Bảng 2.1

• Tập nhãn các thành phần cú pháp: Tập nhãn này chứa các nhãn mô tả cácthành phần cú pháp cơ bản là cụm từ và mệnh đề Nhãn thành phần cúpháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sốngcủa cây cú pháp

Các nhãn cụm từ của tiếng Việt được đưa ra trong Bảng 2.2

Các nhãn mệnh đề của tiếng Việt được đưa ra trong Bảng 2.3

Trang 25

Bảng 2.1: Tập nhãn từ loại tiếng Việt.

17 X Các từ không phân loại được

• Tập nhãn chức năng ngữ pháp: Nhãn chức năng của một thành phần cúpháp cho biết vai trò của nó trong thành phần cú pháp mức cao hơn Nhãnchức năng cú pháp được gán cho các thành phần chính trong câu như chủngữ, vị ngữ, tân ngữ Nhờ thông tin do nhãn chức năng cung cấp ta có thểxác định các loại quan hệ ngữ pháp cơ bản sau đây:

Trang 26

8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, )

9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, )

10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn,

11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, )

Bảng 2.3: Tập nhãn mệnh đề tiếng Việt.

STT Tên Chú thích

1 S Câu trần thuật (khẳng định hoặc phủ định)

2 SQ Câu hỏi

3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ)

Kho ngữ liệu rất quan trọng trong việc tạo nên tài nguyên cho phân tích cúpháp phụ thuộc cho tiếng Việt Dựa vào kho ngữ liệu để xác định các quan hệ

và tên quan hệ giữa các từ trong câu Ngoài ra, kho ngữ liệu cũng được sử dụngtrong chuyển tự động từ treebank sang định dạng dữ liệu của từng công cụ,phục vụ để giải quyết từng bài toán khác nhau trong xử lí ngôn ngữ tự nhiên

Nhãn quan hệ phụ thuộc thể hiện sự phụ thuộc giữa hai từ trong câu vớinhau Mỗi cặp từ loại khác nhau, ở những vị trí khác nhau thì sẽ có tên quan

hệ phụ thuộc là khác nhau Đây là cách làm tốt nhất và hiệu quả nhất để hiểuđược mối quan hệ giữa hai từ Nhãn quan hệ phụ thuộc được đồng nhất trongtoàn bộ ngôn ngữ, và có một quy tắc chuyển đổi chung để làm điều đó Có nhiều

bộ nhãn quan hệ dùng cho một ngôn ngữ và độ chi tiết giữa các bộ nhãn là khácnhau

Trang 27

Bảng 2.4: Tập nhãn chức năng cú pháp tiếng Việt.

STT Tên Chú thích

1 SUB Nhãn chức năng chủ ngữ

2 DOB Nhãn chức năng tân ngữ trực tiếp

3 IOB Nhãn chức năng tân ngữ gián tiếp

4 TPC Nhãn chức năng chủ đề

5 PRD Nhãn chức năng vị ngữ không phải cụm động từ

6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8 H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)

9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt

13 TTL Tít báo hay tiêu đề

14 VOC Thành phần than gọi

Tập nhãn quan hệ phụ thuộc đa ngôn ngữ (Universal Dependency - UD ) đượcxây dựng bởi nhóm nghiên cứu của trường đại học Stanford là Marneffe và cộng

sự [18] Đây là một dự án được phát triển dựa vào chú giải treebank cho đa ngônngữ, với mục tiêu tạo điều kiện thuận lợi cho sự phát triển phân tích cú pháp

đa ngôn ngữ, học chéo giữa các ngôn ngữ, nghiên cứu và phân tích từ góc độloại hình ngôn ngữ Tập nhãn phụ thuộc này được phát triển, cải tiến dựa vàotập nhãn phụ thuộc cho tiếng Anh (Stanford Dependency - SD ) cũng do nhómnghiên cứu trường đại học Stanford (Marneffe và cộng sự, 2006, 2008, và 2012)xây dựng dựa vào các nhãn từ loại đa ngôn ngữ (Petrov và cộng sự, 2012) vàtập từ loại hình thái từ (Zeman, 2008)

Mục tiêu chung của việc phát triển một bộ nhãn phụ thuộc đa ngôn ngữ là

để có thể cung cấp một kho ngữ liệu chung về các nhãn, các hướng dẫn tạo điềukiện thuận lợi cho việc xây dựng những công trình tương tự đối với các ngônngữ khác, cho phép mở rộng đối với một ngôn ngữ mới khi cần thiết Nhómnghiên cứu xây dựng nhãn phụ thuộc đa ngôn ngữ đã quyết định phát triển mộtphần nhãn từ loại được mở rộng từ tập nhãn từ loại chung Các đặc tính hìnhthái của tập nhãn phụ thuộc đa ngôn ngữ nhằm mục đích cung cấp một tập cơbản các đặc trưng quan trọng để có thể phân tích và những đặc trưng này phân

bố rộng rãi trên các ngôn ngữ khác nhau Các phụ thuộc được mô tả trong tậpquan hệ phụ thuộc đa ngôn ngữ rút ra từ tập quan hệ phụ thuộc Stanford

Trang 28

Tập nhãn phụ thuộc Stanford đã được xây dựng dựa vào những ý tưởng mô tảmối quan hệ ngữ pháp chung có thể thấy trong nhiều ngôn ngữ khác nhau Tậpnhãn này được tổ chức theo các nhóm về chủ ngữ, tân ngữ, các mệnh đề, từ hạnđịnh của danh từ, hoặc các từ bổ nghĩa cho danh từ, Stanford đưa ra gần 50loại quan hệ phụ thuộc cho tiếng Anh dựa vào kho ngữ liệu PennTreebank [17].Tất cả các quan hệ phụ thuộc đó đều là quan hệ hai ngôi: giữa một từ trungtâm và từ phụ thuộc của nó Các quan hệ phụ thuộc trong tập nhãn phụ thuộcStanford được thiết kế một cách dễ hiểu và rõ ràng Mỗi một quan hệ được đưa

ra bởi ba thành phần: tên quan hệ phụ thuộc, từ trung tâm và từ phụ thuộc

Ví dụ: [26] Bell, based in Los Angeles, makes and distributes electronic, puter and building products

com-Các quan hệ phụ thuộc của Stanford đưa ra cho câu trên là:

nsubj(makes-8, Bell-1)nsubj(distributes-10, Bell-1)vmod(Bell-1, based-3)

nn(Angeles-6, Los-5)prep in(based-3, Angeles-6)root(ROOT-0, makes-8)

conj and(makes-8, distributes-10)amod(products-16, electronic-11)conj and(electronic-11, computer-13)amod(products-16, computer-13)

conj and(electronic-11, building-15)amod(products-16, building-15)

dobj(makes-8, products-16)dobj(distributes-10, products-16)Mỗi nhãn quan hệ trong câu trên đều thể hiện một ý nghĩa nhất định Nhữngnhãn quan hệ này rất dễ hiểu cho hai từ phụ thuộc nhau trong câu Ví dụ: quan

hệ phụ thuộc dobj(makes-8, products-16) có nghĩa là: products là tân ngữ trựctiếp của makes

Các định nghĩa trong tập nhãn phụ thuộc Stanford đã được thay đổi theo các

Trang 29

phiên bản khác nhau trong những năm gần đây, để có thể định nghĩa một cách

rõ ràng và phù hợp hơn đối với tiếng Anh Phiên bản mới nhất được thay đổi đểphù hợp hơn trong việc xây dựng tập nhãn phụ thuộc đa ngôn ngữ, vào tháng

4 năm 2015 Ngoài ra, một số phiên bản của nhãn quan hệ phụ thuộc Stanford

đã được xây dựng và phát triển đối với một số ngôn ngữ khác như tiếng Trungquốc, tiếng Phần Lan [28], tiếng Ba tư [29],

Để xây dựng được tập nhãn phụ thuộc đa ngôn ngữ, nhóm nghiên cứu đãthiết kế lại các nhãn cơ bản của tập nhãn phụ thuộc Stanford, cung cấp một cáinhìn sâu sắc và bao quát đối với nhiều ngôn ngữ khác nhau Tập nhãn đa ngônngữ này được xây dựng dựa vào hai bước chính:

• Thêm hoặc tinh chỉnh các quan hệ trong SD để có thể đáp ứng tốt hơn đốivới nhiều ngôn ngữ khác nhau

• Bỏ bớt một số những đặc tính đặc trưng của tiếng Anh, để phù hợp vớinhiều ngôn ngữ so với tập SD ban đầu

Tập nhãn đa ngôn ngữ có thể được áp dụng cho nhiều ngôn ngữ khác nhau,

có thể dùng để đề xuất những cải tiến trong phân tích cú pháp phụ thuộc, ngay

cả đối với tiếng Anh Nhóm nghiên cứu đã đưa ra được một tập nhãn cốt lõigồm các quan hệ ngữ pháp đã được kiểm chứng một cách rộng rãi trên nhiềungôn ngữ, có nghĩa là có thể áp dụng tập nhãn lõi này cho nhiều ngôn ngữ khácnhau Ngoài ra còn có thể bổ sung các nhãn mới khi cần thiết bằng cách phânnhóm cho các quan hệ ngôn ngữ đặc biệt, hay đối với những trường hợp riêng

lẻ của một hoặc một nhóm các ngôn ngữ Tập nhãn này có thể tương ứng vớinhiều ngôn ngữ khác nhau như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Trungquốc, vì các ngôn ngữ hầu hết đều có những đặc điểm chung nên các tác giả

đã tổng hợp những đặc điểm chung của các ngôn ngữ và đưa ra tập nhãn đangôn ngữ Tập nhãn này rất có ích vì có thể chỉ ra một quan hệ phụ thuộc đốivới cùng một câu, bằng các ngôn ngữ khác nhau

Nhóm tác giả đã xây dựng một tập nhãn đa ngôn ngữ gồm có 40 nhãn Đượcchia thành các nhóm sau:

• Những phụ thuộc cốt lõi của vị từ: nsubj, csubj, nsubjpass, csubjpass, dobj,

Trang 30

ccomp, xcomp, iobj.

• Những phụ thuộc không cốt lõi của vị từ: nmod, advcl, advmod, neg

• Những phụ thuộc mệnh đề đặc biệt: vocative, aux, mark, discourse, auxpass,punct, expl, cop

• Những phụ thuộc danh từ: nummod, acl, amod, appos, det, nmod, neg

• Những phụ thuộc về các từ không thể phân tích và các nhóm từ ghép:compound, mwe, goeswith, name, foreign

• Những phụ thuộc về sự liên hợp: conj, cc, punct

• Những phụ thuộc về sợ sở hữu, các giới từ, hoặc các trường hợp đặc biệtđược đánh dấu: case

• Những phụ thuộc về các thành phần tham gia: list, parataxis, remnant,dislocated, reparandum

• Và những phụ thuộc khác: root, dep

Tất cả những phụ thuộc này đều được định nghĩa và có ví dụ cụ thể trongtài liệu tham khảo [30] Dựa vào tập nhãn đa ngôn ngữ chuẩn này, các nhómnghiên cứu về các ngôn ngữ khác có thể sử dụng để phát triển, xây dựng mộttập nhãn hoàn chỉnh cho ngôn ngữ của mình

2.3 Tập nhãn quan hệ phụ thuộc cho tiếng Việt

Nghiên cứu về tập nhãn quan hệ phụ thuộc đa ngôn ngữ, cùng với bank, chúng tôi đã xây dựng một bộ nhãn cho tiếng Việt Bộ nhãn này có nhữngnhãn trùng với các nhãn trong tập nhãn phụ thuộc đa ngôn ngữ và một số nhãnmới Bộ nhãn quan hệ phụ thuộc tiếng Việt gồm có 46 nhãn

Viettree-Những nhãn tiếng Việt có mà trong tập nhãn phụ thuộc đa ngôn ngữ không

có là:

• cmpobj: Quan hệ so sánh

Quan hệ cmpobj mô tả liên hệ so sánh khi có các phó từ so sánh như “hơn”,

“kém”, “nhất”, với danh từ đi sau Ví dụ:

Trang 31

– Tôi giỏi hơn bạn → cmpobj(giỏi, bạn)

root

psubj apredmod

cmpobj punct

• nc: bổ nghĩa danh từ cho danh từ chỉ loại

Quan hệ nc biểu diễn mối liên hệ giữa danh từ chỉ loại với danh từ chung,trong đó danh từ chung bổ nghĩa cho danh từ chỉ loại Các danh từ chỉ loạiluôn đứng trước danh từ chung, ví dụ “cái”, “con”, Chú ý rằng từ trungtâm của một cụm danh từ là danh từ chỉ loại

– Hai con mèo đen đang ăn cá → nc(con, mèo)

• ref: tham chiếu

Tham chiếu của một cụm danh từ là từ quan hệ liên kết mệnh đề quan hệ

bổ nghĩa cho cụm danh từ đó Từ quan hệ trong tiếng Việt là đại từ “mà”.– Tôi nhìn thấy cuốn sách mà bạn mua → ref(cuốn, mà)

– Người mà anh nói đến là bố tôi → ref(người, mà)

Trang 32

Chú ý rằng từ “mà” còn có thể là liên từ hoặc trợ từ Trong những trườnghợp này thì nó không phải là từ tham chiếu Khi sử dụng như liên từ, từ

“mà” diễn đạt các loại ý nghĩa sau:

1 Liên từ biểu thị một kết quả: “Biết tay ăn mặn thì chừa, đừng trêu mẹmướp mà xơ có ngày; Non kia ai đắp mà cao, sông kia, biển nọ ai đào

• question: từ để hỏi

Quan hệ này mô tả phụ thuộc giữa từ chính và từ để hỏi, thường là “sao”,

“tại sao”, “vì sao”,

– Sao người dân phải gánh chịu hậu quả → question(phải, sao)

Sao người dân phải gánh_chịu hậu_quả ?

root nsubj

question

dobj punct

• vcomp: bổ ngữ động từ của động từ

Quan hệ vcomp được sử dụng để chỉ định quan hệ giữa động từ chính vàđộng từ phụ

– Tôi chuyển tiền nộp học phí → vcomp(chuyển, nộp)

Tôi chuyển tiền nộp học_phí

Trang 33

– có vốn mở cơ sở → vcomp(có, mở)

– tăng vốn làm ăn → vcomp(tăng, làm ăn)

• vnom: danh từ hóa động từ

Động từ được danh từ hóa bằng một từ chỉ loại đứng trước nó Ví dụ như

“cái”, “sự”, “việc”,

– Cái ăn khan hiếm quá! → vnom(cái, ăn)

– Sự học ngày càng phát triển trên quê hương tôi → vnom(sự, học)

– Nói chuyện với họ chán phè → vsubj(chán phè, Nói chuyện)

– Viết tiểu thuyết đã trở thành hẳn một nghề riêng → vsubj(trở thành,viết)

• xsubj: chủ ngữ kiểm soát

Quan hệ xsubj mô tả quan hệ giữa chủ ngữ của câu và một vị từ

– Tôi thích ăn thịt → xsubj(ăn, tôi)

– Tôi phải đi ngay đây → xsubj(đi, tôi)

Trang 34

Những nhãn quan hệ phụ thuộc mà tập nhãn phụ thuộc đa ngôn ngữ có còntiếng Việt không có là:

• aux: là quan hệ giữa một trợ động từ của một mệnh đề với động từ mà nó

• advcl: Mô tả quan hệ giữa một mệnh đề trạng ngữ bổ nghĩa cho một cụmđộng từ hoặc một câu Ví dụ: If you know who did it, you should tell theteacher → advcl(know, tell)

If you know should tell the teacher

advcl

• cop: Quan hệ giữa hệ từ với root của câu (ví dụ: is, are, )

Ví dụ: Bill is honest → cop(honest, is)

root nsubj

Trang 35

That she lied was suspected by everyone

Ví dụ: It must not it eat, the playdough → dislocated(eat, playdough)

dobj

dislocated

• expl: Là quan hệ giữa từ “there” với một động từ chính trong câu

Ví dụ: There is a girl in the room → expl(is, There)

Trang 36

They come here with out legal permission

goeswith

• name: Là quan hệ giữa các từ trong một tên riêng hoặc các từ trong mộtcụm từ luôn đi cùng nhau

Ví dụ: Carl XVI Gustaf → name(Carl, Gustaf)

Carl XVI Gustaf

name name

• foreign: là quan hệ giữa một chuỗi các từ nước ngoài (từ gốc) với thànhphần đầu tiên của cụm từ nó Nhãn này không áp dụng cho các từ vaymượn hoặc cho tên riêng Nó áp dụng cho các văn bản trích dẫn nước ngoàikết hợp với một câu hay một bài giảng của các ngôn ngữ chính

Ví dụ: I guess that c’ est la vie → foreign(c’, est)

nsubj

ccomp mark foreign

foreign foreign punct

• list: Là quan hệ được sử dụng cho các chuỗi danh sách các mục được liệt

kê với nhau Trong chuỗi danh sách này, các mục sau sẽ bổ nghĩa cho mụcđầu tiên Các chữ kí trong thư điện tử (email ) thường chứa các quan hệnày Các thông tin liên lạc khác nhau được gán nhãn là list, còn các quan

hệ trong từng cụm sẽ được gán nhãn appos Ngoài ra, quan hệ này còn được

sử dụng cho một chuỗi các thuộc tính hoặc các mô tả được sử dụng trongmột dòng tiêu đề hoặc một đánh giá nào đó (có thể về một sản phẩm hoặcmột đánh giá cho cửa hàng, )

Trang 37

Ví dụ: Steve Jones Phone: 559814 Email: jones@abc.com → appos(Phone,559814), list(Steve, Phone).

Steve Jones Phone: 559814 Email: jones@abc.com

Ví dụ: Marie went to Paris and Miriam to Prague → remnant(Paris,Prague)

remnant

nsubj

nmod cc case

punct

• reparandum: Là quan hệ chỉ ra sự không trôi chảy trong một sự sửa chữalời nói Sự không trôi chảy này dùng để sửa sai, và phụ thuộc vào sự sửachữa

Ví dụ: Go to the righ- to the left → reparandum(left, righ-)

nmod

case det

reparandum

case det punct

Trang 38

• vocative: Là các mối quan hệ xưng hô được sử dụng để chỉ ra người thamgia đối thoại được đề cập trong văn bản (thường gặp ở các cuộc hội thoại,email, và các nhóm tin) Mối quan hệ này liên kết giữa tên của người thamgia đối thoại và hành động của người đó.

Ví dụ: Guys, take it easy! → vocative(take, Guys)

vocative

Ngoài tập nhãn phụ thuộc đa ngôn ngữ được so sánh bên trên, luận văn cũng sosánh giữa tập nhãn mà nhóm nghiên cứu của chúng tôi xây dựng được với tậpnhãn phụ thuộc đa ngôn ngữ và tập nhãn phụ thuộc tiếng Anh do nhóm nghiêncứu trường Đại học Stanford xây dựng trong Bảng 2.5

Cuối cùng, sau khi đã xây dựng được một tập nhãn chuẩn, chúng tôi tiến hànhchuyển tự động từ Viettreebank sang kho ngữ liệu cú pháp phụ thuộc và thựcnghiệm với các công cụ, so sánh kết quả trong Chương 3

Trang 39

Bảng 2.5: So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD).

nsubj nsubj nsubj, asubj, psubj Chủ ngữ của câu là các cụm danh từ, tính từ, đại từ

quantmod tmod

Trang 40

ra đồ thị phụ thuộc đúng nhất cho một câu đầu vào MSTParser là một trongnhững công cụ phân tích cú pháp phụ thuộc tốt nhất trong Hội thảo về Xử lýngôn ngữ tự nhiên (CoNLL-2006 ), công cụ đã được thử nghiệm cho rất nhiềungôn ngữ khác nhau.

Định dạng đầu ra và đầu vào

Định dạng dữ liệu của MSTParser theo mẫu sau:

Ngày đăng: 10/03/2021, 22:36

TỪ KHÓA LIÊN QUAN