Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt: Luận văn ThS. Công nghệ thông tin: 60 48 01 04

Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện nay các nhà nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn.. Trong luận văn này, tôi xây dựng côn

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

ĐẶNG HỒNG HẠNH

KIỂM TRA LỖI TỰ ĐỘNG TỪ DỮ LIỆU ĐƯỢC

GÁN NHÃN TRONG TIẾNG VIỆT Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Trang 2

LỜI CẢM ƠN

Lời cảm ơn đầu tiên tôi xin gửi đến đến TS Nguyễn Phương Thái Thầy là người đưa ra ý tưởng chọn đề tài và cung cấp cho tôi phương pháp khi nghiên cứu một vấn đề mang tính khoa học Thầy thường xuyên đưa ra và giúp tôi có những ý tưởng khi làm luận văn Tôi xin chân thành cảm ơn NCS.Nguyễn Hồng Quân về sự hỗ trợ nhiệt tình của anh trong suốt thời gian qua

Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học - Nghiên cứu Khoa học, Trường Đại học Công nghệ

- Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn

Hà Nội, ngày … tháng … năm 2014

Học viên

Đặng Hồng Hạnh

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Phương Thái, không sao chép ở bất kỳ một công trình hoặc một luận văn, luận án của các tác giả khác Các số liệu, kết quả nêu trong luận văn này là trung thực và chưa được công bố trong bất kỳ công trình nào khác Các trích dẫn, các số liệu và kết quả tham khảo dùng để so sánh đều có nguồn trích dẫn rõ ràng

Hà Nội, ngày … tháng … năm 2014

Tác giả

Đặng Hồng Hạnh

Trang 4

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 3

MỤC LỤC 4

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT 6

DANH MỤC HÌNH VẼ 7

DANH MỤC BẢNG 8

MỞ ĐẦU 9

CHƯƠNG 1: GIỚI THIỆU CHUNG 11

1.1 Khái quát về gán nhãn dữ liệu 11

1.1.1 Khái niệm về Dữ liệu được gán nhãn 11

1.1.2 Giới thiệu bài toán gán nhãn cú pháp 12

1.2 Khái quát về lỗi trong gãn nhãn dữ liệu 12

1.2.1 Nhập nhằng ở mức từ loại 12

1.2.2 Nhập nhằng ở mức phân tích cú pháp 13

1.3 Giới thiệu bài toán Kiểm tra lỗi tự động từ dữ liệu được gán nhãn 15

CHƯƠNG 2: GIỚI THIỆU VỀ TREEBANK 17

2.1 Giới thiệu về Penn Treebank 17

2.1.1 Các lược đồ chú giải 17

2.1.2 Phương pháp 22

2.2 Treebank tiếng Việt 24

2.2.1 Các đặc trưng tiếng Việt 24

2.2.2 Treebank tiếng Việt 25

2.2.3 Một số hướng dẫn gán nhãn cụm trong tiếng Việt 29

2.2.4 Công cụ gán nhãn 31

2.2.4 Quá trình gán nhãn 31

CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN LỖI DICKINSON 34

3.1 Lớp tương đương 34

3.2 Các bước xác định lớp tương đương 34

3.3 Tính điểm theo vế phải (Whole daughters scoring - WDS) 35

3.4 Tính điểm theo Bigram (Bigram scoring- BGS) 36

3.5 Đánh giá 36

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38

Trang 5

4.1 Thực nghiệm 38

4.1.1 Tiền xử lý 38

4.1.2 Trích rút luật từ bộ dữ liệu 38

4.1.3 Thực hiện tính điểm của luật theo phương pháp WDS 39

4.1.4 Thực hiện tính điểm của luật theo phương pháp BGS 39

4.2 Đánh giá kết quả 39

4.2.1 Một số ví dụ 40

4.2.2 Đánh giá kết quả 45

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 46

5.1 Kết luận 46

5.2 Hướng phát triển tiếp theo của đề tài 47

TÀI LIỆU THAM KHẢO 48

Trang 6

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT

Từ/cụm từ Từ viết tắt Từ tiếng Anh

Gán nhãn từ loại POS part-of-speech

Treebank tiếng Việt VTB Việt Treebank

Luật dị thường Adhoc

Tính điểm Bigram BGS Bigram Scoring

Tính điểm theo toàn vế phải WDS Whole daughters scoring

Trang 7

DANH MỤC HÌNH VẼ

Hình 1.1 Giới từ bổ nghĩa cho động từ 12 Hình 1.2 Giới từ bổ nghĩa cho danh từ “cô gái” 13 Hình 1.3 Các cây cú pháp của câu “Hôm nay trời mƣa” 14 Hình 2.1 Quá trình gán nhãn từ loại 31 Hình 4.1 Mối quan hệ giữa câu và luật trích rút đƣợc 37

Trang 8

DANH MỤC BẢNG

Bảng 2.1 Tập nhãn POS của Penn Treebank 17 Bảng 2.2 Tập nhãn cú pháp của Penn Treebank 19 Bảng 2.3 Nhãn chức năng 20 Bảng 2.4 Bốn nhãn đính kèm 20 Bảng 2.5 Chú giải gián đoạn 21 Bảng 2.6 Nhãn từ loại Việt Treebank 25

Bảng 2.9 Nhãn chức năng cú pháp 26 Bảng 2.10 Nhãn phân loại phụ ngữ của động từ 27 Bảng 2.11 Nhãn thành phần rỗng 28 Bảng 3.1 Áp dụng tính điểm WDS trên Penn Treebank 36 Bảng 3.2 Áp dụng tính điểm BGS trên Penn Treebank 36 Bảng 4.1 Kết quả khi áp dụng tính điểm WDS 38 Bảng 4.2 Kết quả khi áp dụng tính điểm BGS 38 Bảng 4.3 Một số lỗi tìm thấy trong tập ứng viên B3 43 Bảng 4.4 Một số lỗi tìm thấy trong tập ứng viên T2 43 Bảng 4.5 Kết quả đánh giá lỗi 37

Trang 9

MỞ ĐẦU

1 ĐẶT VẤN ĐỀ

Phân tích cú pháp là nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tự nhiên Trong đó, việc gán nhãn từ loại là trọng tâm hơn cả Kho dữ liệu tiếng Anh được gán nhãn thành công là kho dữ liệu Peen Treebank Kho dữ liệu này

đã được gán nhãn nhờ sử dụng ba lược đồ chú thích cơ bản: Gán nhãn từ loại, Gán nhãn cú pháp, Gán nhãn gián đoạn Tuy đã sử dụng nhiều hình thức gán nhãn để đảm bảo độ chính xác cao, nhưng vẫn không thể tránh việc xảy ra lỗi Đối với văn bản tiếng Việt, ngày nay cũng đã có nhiều đề tài nghiên cứu phục vụ cho việc gán nhãn tiếng Việt Đề tài phân tích cú pháp tiếng Việt được nhiều người biết đến là Đề tài VLSP của nhóm tác giả Hồ Tú Bảo, Nguyễn Phương Thái và các đồng nghiệp

Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện nay các nhà nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn Những lỗi này có thể là lỗi do nhận dạng từ vựng sai, lỗi do cú pháp Kho dữ liệu cần nghiên cứu là rất lớn nên việc phát hiện lỗi bằng phương pháp thủ công

là rất khó khăn

2 MỤC ĐÍCH CỦA LUẬN VĂN

Từ các đặc điểm nguyên nhân gây lỗi đa dạng, tập luật trong văn bản là rất lớn, ta thấy việc phát hiện lỗi bằng phương pháp thủ công là vô cùng khó khăn

Do đó cần có những phương pháp phát hiện lỗi tự động hỗ trợ con người tìm ra lỗi, từ đó tìm cách khắc phục lỗi làm cho tập nhãn ngày càng chính xác

Theo Dickinson, khi xem xét văn phạm, có những luật không có trong treebank, chúng là những luật lạ - gọi là những luật adhoc Những luật này kỳ lạ

vì nó không giống các luật trong treebank nhưng nó chưa chắc đã là lỗi, chúng được xếp vào cùng lớp khi nghiên cứu Trong nghiên cứu của mình, Dickinson đưa ra hai phương pháp tính điểm cho các luật, từ những điểm số được tính toán

sẽ xác định những luật có nguy cơ chứa lỗi – là những luật có tần suất xuất hiện thấp

Trong luận văn này, tôi xây dựng công cụ phát hiện lỗi tự động dựa trên việc phát hiện các luật Adhoc áp dụng cho treebank tiếng Việt theo hai phương pháp tính điểm cho tập luật của Dickinson đề xuất

Trang 10

3 BỐ CỤC CỦA LUẬN VĂN

Luận văn được trình bày trong 5 chương, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:

Chương 1: Giới thiệu chung

Trong chương này, trình bày các khái niệm cơ bản: Dữ liệu được gán nhãn, Lỗi trong gán nhãn dữ liệu Bên cạnh đó, cũng trình bày chi tiết các nguyên nhân gây ra lỗi trong gán nhãn dữ liệu Đồng thời, chúng tôi giới thiệu bài toán Kiểm tra lỗi dữ liệu được gán nhãn

Chương 2: Giới thiệu về Treebank

Trong chương 2, giới thiệu cụ thể Penn Treebank và VietTreebank Với Penn Treebank, trình bày khái quát khái niệm và phương pháp thực hiện đối với

ba kiểu lược đồ chú giải Cùng với việc giới thiệu tổng quan về VietTreebank, chúng tôi cũng trình bày chi tiết bảng nhãn và hướng dẫn gán nhãn cho VietTreebank

Chương 3: Phương pháp phát hiện lỗi của Dickinson

Đây là chương trình bày cơ sở để giải quyết bài toán đặt ra Đầu tiên, chúng tôi trình bày các khái niệm của Dickinson về Lớp tương đương, Lớp tương đương hẹp Tiếp theo là hai phương pháp tính điểm cho các luật trong tập dữ liệu do Dickinson đề xuất lần lượt được trình bày cụ thể

Chương 4: Kết quả thực nghiệm

Trong chương này, trình bày quá trình chúng tôi thực nghiệm trên bộ dữ liệu VietTreebank và kết quả thu được sau khi thực nghiệm

Chương 5: Kết luận và hướng phát triển

Kết luận đánh giá về phương pháp phát hiện lỗi do Dickinson đề xuất và nêu hướng phát triển tiếp theo của đề tài

Trang 11

CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Khái quát về gán nhãn dữ liệu

1.1.1 Khái niệm về Dữ liệu được gán nhãn

Dữ liệu trong xử lý ngôn ngữ tự nhiên là tập các văn bản của một ngôn ngữ nào đó được lấy từ nhiều nguồn khác nhau: báo chí, các tác phẩm, ấn phẩm được phát hành, ngoài ra còn có dữ liệu được xây dựng từ các cuộc hội thoại Công việc quan trọng của xử lý ngôn ngữ tự nhiên là gán nhãn cho nội dung dữ liệu nghiên cứu để tạo ra dữ liệu được gán nhãn

Dữ liệu được gán nhãn là tập các văn bản, trong đó mỗi từ, cụm từ đều được chú giải với một nhãn từ loại hoặc nhãn chức năng tương ứng

Nhãn từ loại là gì? Trong một câu, mỗi từ đóng một vai trò nhất định Để thể hiện chức năng ngữ pháp của mỗi từ, người ta xác định cho mỗi từ đó một nhãn thuộc một từ loại xác định như tính từ, danh từ, động từ, đại từ,

Các nhãn trong ví dụ 1.2 được chú thích trong phần 2.2.2.2

Trong luận văn này, chúng tôi nghiên cứu trên bộ dữ liệu đã được gán nhãn

cú pháp

Trang 12

1.1.2 Giới thiệu bài toán gán nhãn cú pháp

Công việc gán nhãn cú pháp cho một văn bản là xác định từ loại và chức năng cú pháp của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ

+ Input: Câu hoặc chuỗi câu văn bản chưa gán nhãn và tập nhãn

Ví dụ: Có thể người yêu Liên sẽ bỏ cô ta

+ Output: Các cây cú pháp tốt, các từ trong chuỗi đều được gán nhãn

Ví dụ 1.3: (S (R Có thể)

(NP-SUB (N-H người yêu)

(Np Liên)) (VP (R sẽ)

(V-H bỏ) (NP-DOB (N-H cô) (P ta))))

1.2 Khái quát về lỗi trong gãn nhãn dữ liệu

Khi xem xét tập dữ liệu được gán nhãn, ta gặp phải các loại lỗi phổ biến sau:

- Lỗi chính tả: đây là những lỗi do đánh máy gây ra Ví dụ: Eb, F, Vb,… các lỗi này thường được phát hiện và sửa dễ dàng

- Lỗi từ vựng: những lỗi gán nhãn sai loại từ Ví dụ: gán nhãn động từ cho danh từ, gán nhãn danh từ cho tính từ, …

- Lỗi cú pháp: là những lỗi sinh ra do việc xác định sai cây cú pháp

Trong các lỗi trên, ngoài Lỗi chính tả do quá trình đánh máy gây ra, còn lại xảy ra do các nguyên nhân sau:

1.2.1 Nhập nhằng ở mức từ loại

Nhập nhằng trong việc phân đoạn từ: Việc phân đoạn từ trong tiếng Anh dựa vào khoảng trống giữa 2 từ, nhưng trong tiếng Việt, khoảng trống không xác định sự phân đoạn của từ Ví dụ trong câu “học sinh học sinh học”, các từ được xác định: học_sinh học sinh_học nhưng cũng có thể được xác định: học_sinh học_sinh học [6]

Nhập nhằng do sự đa nghĩa của từ Bất kỳ ngôn ngữ nào cũng có từ đa nghĩa, một từ có thể hiểu theo nhiều nghĩa khác nhau dẫn đến nghĩa của câu khác nhau Ví dụ “ông cụ đi nhanh quá”, từ “đi” có thể hiểu là bước đi hoặc cũng có thể hiểu là chết

Trang 13

Nhập nhằng ở ngữ nghĩa khi sử dụng các từ đồng âm: Từ đồng âm là những từ có cùng âm tiết nhƣng ngữ nghĩa và chức năng khác nhau Ví dụ “Con ngựa đá đá con ngựa đá”, từ “đá” thứ nhất và thứ ba có cùng chức năng ngữ pháp, cùng là danh từ, từ “đá” thứ hai lại là động từ Sự nhập nhằng này là một trong những nguyên nhân gây lỗi trong hệ thống gán nhãn tự động từ loại

1.2.2 Nhập nhằng ở mức phân tích cú pháp

Ở mức phân tích cú pháp, chúng ta xem xét hai loại nhập nhằng chính Loại thứ nhất, nhập nhằng do câu có thể hiểu theo nhiều nghĩa khác nhau dẫn đến các cây cú pháp khác nhau Ví dụ câu “Tôi mua căn hộ đắt” có thể hiểu: tôi mua căn hộ với giá đắt hoặc cũng có thể hiểu: tôi mua căn hộ loại đắt tiền Với cách hiểu thứ nhất, tính từ “đắt” bổ nghĩa cho “tôi mua” Cách hiểu thứ 2, tính từ “đắt” bổ nghĩa cho “căn hộ”

Một câu có thể hiểu theo nhiều cách khác nhau nên một câu cũng có thể có nhiều cây cú pháp đúng

Ví dụ 1.4: Tôi nhìn cô gái với ống nhòm

Với ví dụ trên, có thể sinh ra hai cây cú pháp đúng:

Trang 14

Cả hai cây cú pháp trên đều đúng

Loại nhập nhằng thứ hai, câu chỉ có một nghĩa nhƣng bộ phân tích cú pháp vẫn tạo ra nhiều cây cú pháp, trong đó chỉ có một cây đúng Lý do của sự nhập nhằng này là quá trình phân tích cú pháp đã lƣợc bỏ ngữ nghĩa từ/ngữ mà chỉ quan tâm đến nhãn cú pháp của chúng, dẫn đến nhiều luật cú pháp có thể áp dụng để phân tích câu

Ví dụ 1.5: Hôm nay trời mƣa

Tập luật cú pháp thuộc văn phạm phi ngữ cảnh (Context Free Grammar – CFG) cần để phân tích câu này là:

10 <Danh từ> → Hôm nay

Hình 1.2: cây (2)- Giới từ bổ nghĩa cho danh từ “cô gái”

Trang 15

11 <Phó từ> → Hôm nay

12 <Động từ> → mưa

Trong từ điển từ, Hôm nay là danh từ hoặc phó từ, trời là danh từ, còn mưa

là động từ Với tập luật cú pháp trên, các cây cú pháp có thể sinh ra cho câu này được biểu diễn ở hình 1.3

Trong hai cây trên, cây (a) đúng, cây (b) cần được loại bỏ hoặc không sinh

ra trong quá trình phân tích cú pháp

1.3 Giới thiệu bài toán Kiểm tra lỗi tự động từ dữ liệu được gán nhãn

Bài toán Kiểm tra lỗi tự động dữ liệu được gán nhãn được nghiên cứu nhằm giải quyết việc phát lỗi trên kho dữ liệu lớn, khó có thể làm thủ công + Input: kho dữ liệu đã được gán nhãn

+ Output: tập ứng viên chứa lỗi

Đối với ngữ liệu tiếng Anh, nghiên cứu của Gertjan van Noord đã thực nghiệm trên kho dữ liệu lớn [10] Năm 2004, Gertjan van Noord thực hiện trên kho ngữ liệu Twente Nieuws Corpus chứa một bộ sưu tập lớn các bài bài báo tin tức từ báo chí Hà Lan khác nhau trong giai đoạn 1994-2001 Ngoài ra, tác giả cũng sử dụng tất cả các tin tức bài viết từ Volkskrant 1997 (có sẵn trên đĩa CD-ROM) Ý tưởng của ông là sau khi đưa ngữ liệu vào phân tích cú pháp, thực hiện phân tích cú pháp những câu mà chương trình không phân tích thành công Nhóm tác giả so sánh các chuỗi từ và câu trong những câu không phân tích thành công với chuỗi những từ và câu tương tự trong những câu đã phân tích thành công Kết quả mang lại rất hữu ích cho các kho ngữ liệu lớn

Câu

Vị ngữ Chủ ngữ

Trang 16

Đối với tiếng Việt, nhóm tác giả Nguyễn Phương Thái đã sử dụng entropy của nhãn để phát hiện lỗi trên Treebank Phương pháp của nhóm tác giả thực hiện xếp hạng theo tên và tìm kiếm chùm để từ đó phát hiện ra những trường hợp lỗi trong từng biến thể n-gram trong dữ liệu Treebank Kết quả của nghiên cứu áp dụng cho bộ dữ liệu VietTreebank đã cho thấy entropy của nhãn được giảm xuống sau khi lỗi được sửa Và bằng hai phương pháp sử dụng xếp hạng theo tên và tìm kiếm chùm thì các trường hợp được kiểm tra có thể được giảm mạnh Với việc áp dụng phương pháp phát hiện lỗi dựa trên entropy của nhãn, việc thử nghiệm trên bộ dữ liệu VietTreebank đã thể hiện phương pháp này hiệu quả Đặc biệt, với phương pháp này có thể giảm hai phần ba kích thước ứng viên lỗi và entropy thực sự giảm sau mỗi lần sửa lỗi Nhóm tác giả có dự định sử dụng phương pháp này áp dụng cho các bộ dữ liệu khác trong tương lai

Trong luận văn này, chúng tôi nghiên cứu một phương pháp Kiểm tra lỗi tự động dựa trên đề xuất của Dickinson về các luật dị thường Adhoc Như chúng ta

đã biết, dữ liệu được sinh ra bởi tập các quy tắc (luật), các luật này có thể được

sử dụng một hay nhiều lần trong cùng bộ dữ liệu Theo Dickinson, các luật ít xuất hiện là những luật có hai khả năng xảy ra: có thể nó đơn giản chỉ là một luật đặc biệt, nhưng cũng có thể nó là một luật lỗi Vì vậy, tư tưởng của Dickinson là tập trung khai thác các luật ít xuất hiện (dị thường) Dựa trên tư tưởng này, cùng với các khái niệm và đề xuất của Dickinson, chúng tôi áp dụng thực nghiệm trên bộ dữ liệu đã gán nhãn tiếng Việt

Kết quả sau khi áp dụng thực nghiệm, chúng tôi thu được tập các ứng viên lỗi Những ứng viên này để kiểm tra xem có phải là lỗi thực sự hay không thì chúng tôi đã tiến hành khảo sát bằng tay Kết quả được trình bày cụ thể trong chương 4 của luận văn

Trang 17

CHƯƠNG 2: GIỚI THIỆU VỀ TREEBANK 2.1 Giới thiệu về Penn Treebank

Dự án Penn Treebank là dự án xây dựng với bộ ngữ liệu tiếng Anh, được thực hiện trong bảy năm (1989-1996), xây dựng được khoảng bảy triệu từ gán nhãn từ loại (POS), ba triệu từ của văn bản gán nhãn cú pháp, hơn hai triệu từ của văn bản phân tích cú pháp cho cấu trúc ngữ đối số, và 1,6 triệu từ được gán nhãn dựa trên phương pháp phân tích gián đoạn từ văn nói

2.1.1 Các lược đồ chú giải

2.1.1.1 Gán nhãn từ loại (POS)

Gán nhãn từ loại được sử dụng gán nhãn cho văn bản trước khi Penn Treebank được đưa vào sử dụng Lý do đằng sau sự phát triền to lớn với tập nhãn khổng lồ đó là để tiếp cận “ý tưởng của sự cung cấp những mã khác nhau cho tất cả các từ có ngữ pháp khác nhau” (Garside, Leech, and Sampson 1987) Tập nhãn của Penn Treebank giống với nhiều tập nhãn khác, về cơ bản nó dựa trên Brown Corpus nhưng khác ở một số điểm cơ bản:

Đầu tiên, định hướng ngẫu nhiên của Penn Treebank và kết quả cùng với

dữ liệu ban đầu khiến nhóm tác giả thay đổi gán nhãn Brown Corpus (Francis,

1964, Francis và Kucera, 1982) bằng cách tinh giản nó xuống đáng kể Các chiến lược quan trọng trong việc giảm này là để loại bỏ dư thừa từ vựng và cú pháp Vì vậy, trong khi nhiều thẻ POS trong tập nhãn Brown Corpus là duy nhất cho một loại từ vựng thì gán nhãn Penn Treebank phấn đấu để loại bỏ trường hợp làm dư thừa từ vựng Ví dụ, Brown Corpus phân biệt các hình thức của động từ đã, được, và làm từ động từ chính khác bằng thẻ khác nhau Ngược lại, khi sự phân biệt giữa các hình thức của những động từ này là từ vựng phục hồi,

nó được loại bỏ trong Penn Treebank và tất cả các động từ chính nhận được cùng một bộ thẻ Phân biệt phục hồi có sử dụng cấu trúc cú pháp cũng đã được loại bỏ Ví dụ, gán nhãn Penn Treebank không phân biệt đại từ chủ đề từ đại từ đối tượng ngay cả trong trường hợp sự khác biệt là không thể phục hồi từ hình

thức của đại từ, như với từ “you”, vì sự khác biệt là thu hồi trên cơ sở vị trí của

đại từ trong cây phân tích cú pháp trong phiên bản phân tích của đoạn văn

Một sự khác biệt thứ hai giữa Penn Treebank và Brown Corpus liên quan đến tầm quan trọng dành cho bối cảnh cú pháp Trong Brown Corpus, từ có khuynh hướng được gắn độc lập với chức năng cú pháp của chúng Ví dụ, trong

các cụm từ the one, one luôn luôn gắn thẻ như là CD (số đếm), trong khi trong

số nhiều cụm từ tương ứng với the ones, ones luôn luôn gắn thẻ như là NNS (số nhiều danh từ chung), mặc dù chức năng song song của one và ones là cụm danh

Trang 18

từ đầu tiên Ngược lại, khi một trong những vai trò chính của phiên bản được gắn thẻ của corpus Penn Treebank là để phục vụ cho một phiên bản ngoặc của corpus, chúng ta mã hóa chức năng cú pháp của một từ trong thẻ POS của mình

bất cứ khi nào có thể Vì vậy, one được gắn thẻ như NN (số ít danh từ chung) chứ không phải là CD (số đếm) khi đó là ones đứng đầu của một cụm danh từ

Thứ ba, vì một mối quan tâm lớn của Treebank là để tránh yêu cầu chú thích đưa ra quyết định tùy ý, chúng ta cho phép từ có liên quan đến nhiều hơn một thẻ POS Nhiều gắn thẻ như vậy chỉ có thể là một phần của lời phát biểu đơn giản là không thể được quyết định hoặc là chú thích không chắc chắn mà các thẻ thay thế là đúng

Các gán nhãn Penn Treebank được đưa ra trong Bảng 2.1 Nó bao gồm 36 thẻ POS và 12 thẻ khác (đối với dấu chấm câu và biểu tượng tiền tệ) Mô tả chi tiết các hướng dẫn về việc sử dụng các gán nhãn có thể được tìm thấy ở Santorini (1990) hoặc trên trang web Penn Treebank

Bảng 2.1: Tập nhãn POS của Penn Treebank

CC Coordinating conj TO inﬁnitival to

CD Cardinal number UH Interjection

DT Determiner VB Verb, base form

EX Existential there VBD Verb, past tense

FW Foreign word VBG Verb, gerund/present pple

IN Preposition VBN Verb, past participle

JJ Adjective VBP Verb, non-3rd ps sg

present JJR Adjective, comparative VBZ Verb, 3rd ps sg present

JJS Adjective, superlative WDT Wh-determiner

LS List item marker WP Wh-pronoun

MD Modal WP$ Possessive wh-pronoun

NN Noun, singular or mass WRB Wh-adverb

NNS Noun, plural # Pound sign

NNP Proper noun, singular $ Dollar sign

NNPS Proper noun, plural

Sentence-ﬁnal

punctuation PDT Predeterminer , Comma

POS Possessive ending : Colon, semi-colon

PRP Personal pronoun ( Left bracket character

PP$ Possessive pronoun ) Right bracket character

RB Adverb Straight double quote

RBR Adverb, comparative „ Left open single quote

RBS Adverb, superlative “ Left open double quote

RP Particle ‟ Right close single quote

SYM Symbol ” Right close double quote

Trang 19

$ 29.9 million Air Force contract

(PP for

(NP low-altitude navigation and

targeting equipment))))) )

Tập nhãn cú pháp và những phần tử kết thúc được sử dụng trong dấu ngoặc được mô tả trong bảng 2.2 Thông tin chi tiết gán nhãn cú pháp và hướng dẫn sử dụng

Theo đó, liên quan đến bộ dữ liệu đầu tiên của Penn Treebank, nhiều người

sử dụng đã chỉ ra rằng họ mong muốn những dạng chú thích phong phú hơn kết quả của pha đầu tiên của dự án cũng như tính thống nhất của các cụm tiền đề Một vài người cũng thể hiện sự quan tâm đến một dạng khung yếu của sự chú giải, mở rộng cho việc phân tích bản chất văn phạm phi ngữ cảnh của treebank

để chỉ ra những cấu trúc không liền kề và phần phụ thuộc Điều quan trọng nhất

là có một sự cảm nhận rằng Treebank có thể được sử dụng nhiều hơn nếu nó cung cấp nhiều hơn các dạng cấu trúc đối số vị ngữ Ở mức mong muốn của dạng thể hiện sẽ làm rõ hơn ít nhất ở chủ ngữ logic và tân ngữ logic của động từ

và chỉ ra ít nhất trong các trường hợp chính xác, các thành phần ngữ nghĩa học liên quan với vị ngữ như thế nào? Vì vậy trong giai đoạn thứ hai của dự án, một kiểu chú giải mới - Treebank II đã được giới thiệu

Trang 20

Bảng 2.2: Tập nhãn chức năng cú pháp của Penn Treebank

ADJP Adjective phrase

ADVP Adverb phrase

NP Noun phrase

PP Prepositional phrase

S Simple declarative clause

SBAR Subordinate clause

SBARQ Direct question introduced by wh – element

SINV Declartavie sentence with subject- auxinversion

SQ Yes/no questions and subconstituent of SBARQ

X Constituent of unknown or uncertain category

* “understood” subject of infinitive or imperative

0 Zezo variant of that in subordinate clause

T Trace of wh-Contituent

Cấu trúc đối số vị ngữ: Đây là kiểu chú giải mới cung cấp ba loại thông

tin không có trong pha đầu tiên của dự án

1 Thể hiện rõ ràng sự khác biệt giữa đối số động từ và bổ ngữ

2 Một cơ chế chú giải cho phép cấu trúc của những thành phần không liên tục trở nên dễ khôi phục

3 Một tập các phần tử rỗng nằm trong các cấu trúc cơ bản như câu hỏi bắt đầu wh, bị động, và các đối tượng khởi tạo cấu trúc, tổ hợp chỉ dẫn với các thành phần ngôn ngữ thích đáng

Mục tiêu của giải pháp vị ngữ chuẩn được khai triển để gán nhãn cho mỗi đối số của vị ngữ với một nhãn ngữ nghĩa thích hợp để xác định vai trò của nó đối với

vị ngữ (chủ ngữ, bổ ngữ, vv), cũng như phân biệt các vị ngữ chuẩn, và bổ ngữ của vị ngữ Thật không may, trong khi nó rất dễ dàng để phân biệt cặp đối và bổ ngữ trong các trường hợp đơn giản, nó cũng tỏ ra là rất khó khăn để phân biệt hai loại này cho nhiều động từ trong các ngữ cảnh thực tế Vì vậy, nhóm xây dựng Treebank quyết định đặt tên một tập nhỏ các vai trò khác biệt rõ ràng, xây dựng dựa trên sự phân biệt cú pháp chỉ khi trực giác về ngữ nghĩa là rõ ràng Trong phương pháp Treebank II, mỗi thành phần có ít nhất một nhãn hiệu nhưng

có đến bốn thẻ, bao gồm các chỉ số số, lấy từ bộ các thẻ chức năng được đưa ra

Trang 21

NOM non NPs that function as NPs

ADV clausal and NP adverbials

LGS logical subjects in passives

PRD non VP predicates

SBJ surface subject

TPC topicalized and fronted constituents

CLR closely related -see text

*ICH* Interpret Constituent Here

*PPA* Permarent Predictable Ambiguity

*RNR* Right Node Raising

*EXP* Expletive

2.1.1.3 Chú giải gián đoạn

Các công việc cuối cùng của dự án Treebank (1995-1996) là sản xuất một phiên bản gán nhãn và phân tích cú pháp của các cụm từ nhận đƣợc từ các cuộc điện đàm thông qua tổng đài Đặc điểm của các cuộc hội thoại này cùng đặc điểm chung của văn nói: nói tắt, câu không hoàn chỉnh, ngắt quãng, nhấn

Trang 22

mạnh… Vì thế khi gán nhãn những cụm từ thu được, người ta đã sử dụng kiểu chú giải gián đoạn

Hệ thống chú thích gián đoạn (dựa trên Shriberg (1994)) đưa ra cách nói hoàn thiện, rõ ràng từ những câu không đầy đủ, gán nhãn một loạt các câu không hoàn thiện dựa vào việc lọc và chú thích từ đầu Bảng 2.5 giải thích các chú giải gián đoạn

Bảng 2.5: Chú giải gián đoạn

F ﬁllers (uh, um, huh, oh, etc.)

E explicit editing term (I mean, sorry, etc.)

D discourse marker (you know, well, etc.)

C coordinating conjunction (and, and then, but, etc.)

A aside

Restarts

[RM +RR] restart with repair (see text)

[RM++] restart without repair

2.1.2 Phương pháp

Ba kiểu chú giải của Treebank: gán nhãn từ loại (POS), Gán nhãn cú pháp

và Chú giải gián đoạn, tất cả đều được thực hiện với hai bước: chú giải tự động

và hiệu chỉnh thủ công Việc hiệu chỉnh lại từng loại chú giải được thực hiện với

sự trợ giúp của một gói mouse-base được viết bằng GNU Emacs Lisp nhúng trong trình soạn thảo GNU Emacs (Lewis và Laliberte 1990) Gán nhãn POS và chú giải gián đoạn cung cấp đầu vào cho Dấu ngoặc cú pháp, nhưng hai công việc đầu tiên độc lập với nhau và có thể được thực hiện song song, với hai dòng kết quả sau đó có thể tự động sát nhập

2.1.2.1 Gán nhãn từ loại (POS)

Trong những năm đầu của dự án Penn Treebank, nhãn POS khởi tạo được cung cấp bởi PARTS (Church 1988) nhờ thuật toán ngẫu nhiên xây dựng tại phòng thí nghiệm AT&T Bell PARTS thực hiện sử đổi các thẻ Brown Corpus gán nhãn cho POS với tỉ lệ lỗi 3-5% Kết quả của PARTS tự động được gán nhãn và nhãn được gán bởi PARTS được tự động ánh xạ lên tập nhãn của Penn Treebank có tỷ lệ lỗi là 4% Sau đó, việc gán nhãn POS tự động được cung cấp bởi một chuỗi các ngẫu nhiên và quy tắc gán nhãn định hướng phát triển trên cơ

sở kinh nghiệm có trước của nhóm tác giả, việc này làm giảm tỷ lệ lỗi xuống còn 2-6% Cuối cùng, khi thực hiện gán nhãn cho các cuộc điện đàm tách từ tổng đài, nhóm tác giả thực hiện gán nhãn theo Brill (Brill 1993)

Kết quả của giai đoạn trên sẽ được chuyển cho bộ phận chú giải để kiểm tra

và sửa lỗi Giao diện của phần mềm cho phép trỏ chuột vào những nhãn chưa

Trang 23

chính xác, cho phép sửa nhãn mới Phần mềm này cho phép tự động kiểm tra các nhãn chính xác, nếu chính xác thì gán thêm dấu hoa thị, còn lại các thẻ chưa chính xác được phát hiện và cho phép sửa lại

Ta xem xét ví 2.2:

Kết quả của quá trình gán nhãn tự động

Battle-tested/NNP Japanese/NNP industrial/JJ managers/NNS here/RB always/RB buck/VB up/IN nervous/JJ newcomers/NNS with/IN the/DT tale/NN of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS to/TO visit/VB Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/NNS warriors/NNS blown/VBN ashore/RB 375/CD years/NNS ago/RB /

Chính xác hóa bằng tay trên bộ chú giải

Battle-tested/NNP*/JJ Japanese/NNP*/JJ industrial/JJ managers/NNS here/RB always/RB buck/VB*/VBP up/IN*/RP nervous/JJ newcomers/NNS with/IN the/DT tale/NN of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS to/TO visit/VB Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/NNS*/FW warriors/NNS blown/VBN ashore/RB 375/CD years/NNS ago/RB /

Kết quả cuối cùng

Battle-tested/JJ Japanese/JJ industrial/JJ managers/NNS here/RB always/RB buck/VBP up/RP nervous/JJ newcomers/NNS with/IN the/DT tale/NN of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS to/TO visit/VB Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/FW warriors/NNS blown/VBN ashore/RB 375/CD years/NNS ago/RB /

2.1.2.2 Gán nhãn cú pháp

Các phương pháp đóng ngoặc ngữ liệu là hoàn toàn song song giữa hai việc: kiểm tra thủ công và xử lý tự động Một công cụ phân tích cú pháp Fidditch đã được phát triển đầu tiên bởi Donald Hindle tại Đại học Pennsylvania

và sau đó tại AT & T Bell Labs (Hindle 1988, Hindle 1989) Công cụ này sử dụng để cung cấp một phân tích ban đầu của dữ liệu Bộ phận chú giải sẽ thực hiện chỉnh sửa thủ công kết quả bằng giao diện mouse-base nhúng trong GNU Emacs Lisp Fidditch có ba đặc tính mà làm cho nó lý tưởng để đóng vai trò như một tiền xử lý được điều chỉnh tay:

- Nó luôn luôn cung cấp một cách chính xác việc phân tích cho bất kỳ câu nào, để bộ phận chú giải không cần phải tìm kiếm thông qua nhiều phân tích

- Nó không bao giờ gắn bất kỳ thành phần có vai trò trong cấu trúc lớn hơn

mà nó có thể không xác định một cách chắc chắn Trong trường hợp không chắc chắn, Fidditch nhóm đầu vào thành một chuỗi cây, chỉ cung cấp một cấu trúc cho một phần với mỗi câu

Trang 24

- Nó có phạm vi ngữ pháp khá tốt, do đó các khối ngữ pháp mà nó xây dựng thường khá chính xác

Tuy nhiên, kết quả của Fidditch khá phức tạp với từ X-bar và ở mức các cụm từ đại diện Do đó, nó đã được trình bày với một phân tích của pháp đơn giản chỉ chứa các nhãn cụm từ đã được chính xác hóa

see (NP *RNR*-1)) (NP-1 him)))))))

Đầu tiên, tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và thể hiện bằng một chữ viết Đặc điểm này thể hiện ở tất cả các mặt từ vựng, ngữ pháp

Thứ hai, đặc điểm từ vựng: trong tiếng Việt, mỗi tiếng là một yếu tố có nghĩa và được viết bằng một chữ, các chữ được phân tách nhau bởi khoảng

Định dạng
Số trang	49
Dung lượng	791,07 KB