xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm

Trang 1

KHUẤT THỊ THỦY

XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH

CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC

VĂN PHẠM TAG

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Khuất Thị Thủy

XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH

CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC

VĂN PHẠM TAG

Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán

Mã số : 60.46.35

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Nguyễn Thị Minh Huyền

Hà Nội – 2012

Trang 3

DANH MỤC HÌNH 3

MỞ ĐẦU 4

Chương 1 Hệ hình thức văn phạm TAG 6

1.1 Văn phạm phi ngữ cảnh 6

1.2 Văn phạm TAG 7

1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG 16

1.4 Định dạng TAGML cho cơ sở dữ liệu TAG 19

Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp 24

2.1 Giới thiệu về từ điển 24

2.2 Xây dựng cơ sở dữ liệu 26

Chương 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32

3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32

3.2 Đánh giá kết quả của hai phương pháp 39

KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 43

PHỤ LỤC 45

Trang 4

DANH MỤC CHỮ VIẾT TẮT

API Application Programming Interface

LMF Lexical Markup Framework

LLP2 Loria LTAG Parser 2

LTAG Lexicalized Tree Adjoining Grammar

TAG Tree Adjoining Grammar

TAGML Tree Adjoining Grammars Markup Language

XML eXtensible Markup Language

Trang 5

Hình 1.9 Sơ đồ phép thế cây với cấu trúc đặc trưng 12

Hình 1.10 Sơ đồ phép kết nối cây với cấu trúc đặc trưng 13

Hình 1.11 Các cây cơ sở của câu “Yesterday John saw

Hình 1.12 Dẫn xuất của câu “Yesterday John saw Marry” 14

Hình 1.13 Cây cú pháp của câu “Yesterday John saw

Hình 1.14 cây dẫn xuất của câu “Yesterday John saw

Hình 1.15 Cây minh họa cho họ cây nội động từ 18

Hình 1.16 Cây minh họa cho họ cây ngoại động từ 18

Hình 1.17 Cây minh họa cho họ cây mà động từ có chính

Trang 6

MỞ ĐẦU

Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên Kết quả của phân tích cú pháp được sử dụng trong rất nhiều ứng dụng như dịch máy, hỏi đáp, trích chọn thông tin…

Phân tích cú pháp đưa ra các mô tả về quan hệ giữa các thành phần trong câu Bài toán phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ nhất là phân tích cú pháp thành phần tức là xác định các thành phần ngữ đoạn trong câu; khía cạnh thứ hai là phân tích cú pháp phụ thuộc tức là xác định sự phụ thuộc về ngữ nghĩa giữa các từ trong câu

Mỗi bộ phân tích cú pháp đều cần tập các quy tắc của ngôn ngữ (chính

là các đặc tả hình thức của ngôn ngữ đang xét), các quy tắc này thì được biểu diễn bởi một hệ hình thức văn phạm cụ thể nào đó Các hình thức văn phạm thường được sử dụng trong phân tích cú pháp là văn phạm phi ngữ cảnh và các văn phạm hợp nhất Hợp nhất văn phạm TAG là một trong những văn phạm được sử dụng phổ biến hiện nay Đầu vào của bài toán phân tích cú pháp là câu đã được phân tách thành các từ, trong đó mỗi từ có đặc điểm hình thái xác định Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ

ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp (cây cú pháp) của câu Kết quả cần đạt được là hình thái của câu Do đó, để bộ phân tích cú pháp hoạt động được thì cần có cơ sở dữ liệu là một văn phạm theo một hệ hình thức văn phạm cụ thể nên việc xây dựng cơ sở dữ liệu cho phân tích cú pháp là việc làm hết sức quan trọng Trong khuôn khổ của luận văn tốt nghiệp cao học em xin trình bày nghiên cứu của mình với đề tài: “Xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG” Nội dung của luận văn được bố cục như sau:

Trang 7

Chương 1 trình bày tổng quan về hệ hình thức văn phạm TAG: Các cây

cơ sở, các thao tác trong TAG, cây dẫn xuất; cơ sở dữ liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa dữ liệu cho TAG

Đóng góp của luận văn được trình bày ở chương 2 Chương này trình bày thuật toán để xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với

hệ hình thức văn phạm TAG bằng phương pháp dựa trên từ điển và quy tắc ngữ pháp

Chương 3 của luận văn trình bày một phương pháp xây dựng cơ sở dữ liệu khác là trích rút tự động văn phạm TAG từ Treebank tiếng Việt và đưa ra các đánh giá đối với kết quả xây dựng cơ sở dữ liệu của hai phương pháp trên

Trang 8

Chương 1

Hệ hình thức văn phạm TAG

Trước khi trình bày về cơ sở dữ liệu cho phân tích cú pháp với hệ hình thức TAG thì chương này trình bày các kiến thức cơ sở về hình thức văn phạm TAG

1.1 Văn phạm phi ngữ cảnh

Văn phạm hay văn phạm sinh là một bộ bốn (Σ, V, σ, P) trong đó:

- Σ: Bảng chữ cái chính hay bảng chữ cái từ của văn phạm;

- V: Bảng chữ cái phụ hay bảng chữ cái hỗ trợ của văn phạm;

r = φ → ψ được gọi là quy tắc (hay quy tắc thế hoặc quy tắc sinh) của văn phạm; φ - vế trái, ψ - vế phải của quy tắc r Quy tắc r được gọi là quy tắc kết (hoặc quy tắc kết thúc) nếu ψ   và không một ký hiệu nào thuộc ψ mà lại xuất hiện ở vế trái của quy tắc trong P ([6])

Văn phạm phi ngữ cảnh là văn phạm mà mọi quy tắc đều có dạng A →

α, trong đó A là ký hiệu không kết và α là xâu bất kỳ

Văn phạm phi ngữ cảnh thường được lựa chọn để biểu diễn cấu trúc cú pháp của các ngôn ngữ tự nhiên vì nó đủ mạnh để mô tả hầu hết những cấu trúc của ngôn ngữ tự nhiên Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn

Trang 9

ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ loại) Tiên đề biểu diễn phân loại "câu" Các quy tắc sinh biểu diễn các quy tắc ngữ pháp Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong

vế phải Tuy nhiên văn phạm phi ngữ cảnh vẫn còn nhiều mặt hạn chế (sẽ được trình bày rõ trong phần ưu điểm của TAG) nên trên thực tế cần phát triển những văn phạm có khả năng thể hiện ý nghĩa ngôn ngữ học tốt hơn TAG là một hình thức văn phạm như thế

1.2 Văn pha ̣m TAG

Văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là hệ hình thức viết lại dạng cây, được đưa ra nửa cuối thập kỷ 80 Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với các đối tượng

cơ bản là các đối tượng có cấu trúc (cây) Vì vậy, TAG cho phép sinh ra các

mô tả cấu trúc chứ không phải tập các xâu TAG sử dụng hai loại cây cơ bản

để biểu diễn các cấu trúc tương ứng với các đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc của câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào các thành phần phụ của câu

1.2.1 Đi ̣nh nghĩa hình thức của văn phạm TAG

Văn phạm TAG gồm 5 thành phần (N, Σ, I, A, S) trong đó ([7]):

N: tập hữu hạn các kí hiệu không kết thúc

Trang 10

Hình 1.1: Mô tả cây khởi tạo

A: tập hữu hạn các cây phụ trợ Cây phụ trợ có chứa một nút lá trùng tên với nút gốc (mang kí hiệu không kết thúc) Ở nút lá này được đánh dấu với kí hiệu * ở bên cạnh và được gọi là nút chân của cây phụ trợ (xem hình 1.2) Mỗi cây phụ trợ chỉ có một nút chân

Hình 1.2 : Mô tả cây phụ trợ

Ví dụ cây khởi tạo (xem hình 1.3)

Hình 1.3: Cây khơ ̉ i ta ̣o

NP↓

Hình 1.4: Cây phu ̣ trơ ̣

Trang 11

S: tiên đề, S  N

Tập các cây thuộc tập I  A được gọi là cây cơ sở

1.2.2 Các phép toán của TAG

Một cây (tương ứng với một cấu trúc câu) trong văn phạm TAG được tạo thành từ sự kết hợp các cây cơ sở của TAG bằng hai phép toán là phép thế

và phép kết nối cây, trong đó phép kết nối cây giữ vai trò quan trọng trong TAG

1.2.2.1 Phép thế

Các nút tại đó thực hiện phép thế được bổ sung thêm ký hiệu ↓ Phép thế thực hiê ̣n viê ̣c thay t hế một cây có nhãn Y vào một cây có nhãn Y ↓ Phép thế là bắt buộc tại các nút có ký hiệu thế Phép thế được minh họa bởi hình 1.5

Hinh 1.5: Phép thế

saw

Trang 12

1.2.2.2 Phép kết nối cây

Phép kết nối cây dùng để xây dựng một cây mới γ từ một cây phụ trợ β (nút gốc của β được đánh nhãn là X) và một cây α khác (cây α có thể là cây khởi tạo, hoặc cây phụ trợ hoặc cây dẫn được từ các cây ban đầu bằng các phép toán) Phép toán có thể xem như là hai lần thực hiện sự thay thế như sau: Cây con tại nút X của cây α bị gỡ bỏ, cây β được thay thế vào nút X và cây con gỡ bỏ lúc trước thì được thế vào nút chân của cây β Phép toán được minh họa như trong hình 1.7

Hình 1.7: Phép kết nối cây

Ví dụ được minh họa trong hình 1.8

Khả năng thực hiện của hai phép toán kết nối và thế trên các cây còn bị ràng buộc bởi cấu trúc đặc trưng gắn trên mỗi nút của cây Cấu trúc đặc trưng của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn với đối tượng đó Trong TAG thì các thuộc tính được phân thành hai loại: thuộc tính trên và thuộc tính dưới Các thuộc tính trên chứa các thông tin liên quan tới nút cha, các thuộc tính dưới chứa các thông tin liên quan tới các nút con Khi thực hiện phép kết nối hay phép thế thì phép hợp nhất các cấu trúc đặc trưng cũng được thực hiện trên các nút mà tại đó phép thế và phép kết nối được thực hiện Nếu phép hợp nhất không thực hiện được (khi các thuộc tính

Trang 13

sinh ra không thống nhất) thì thao tác (kết nối hoặc thế) không được phép thực hiện Phép thế, phép kết nối với các nút được gắn thêm cấu trúc đặc trưng lần lượt được minh họa trong hình 1.9 và 1.10

Hình 1.8: Minh ho ̣a cho phép kết nối cây

Hình 1.9: Sơ đồ phép thế cây với cấu trúc đặc trƣng

Trang 14

Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng

1.2.3 Cây dẫn xuất trong TAG

Sự tạo thành một cây từ các cây cơ sở thông qua 2 phép toán thế và kết nối cây được go ̣i là một cây dẫn được Cây cú pháp là cây dẫn được mà mọi nút lá đều là kí hiệu kết Ví dụ, cho các cây cơ sở sau:

Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”

Thực hiện quá trình dẫn xuất để được cây cú pháp của câu “Yesterday John saw Marry” được minh họa trong hình với biểu diễn cho phép

nối, biểu diễn cho phép thế

NP Marry

NP John

VP

S NP↓

saw

S

Yesterday

Trang 15

Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”

Và cây cú pháp của câu trên là cây sau:

Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”

Đối với văn phạm phi ngữ cảnh, cho một cây dẫn được ở một thời điểm

là đủ để xác định ngay các quy tắc dẫn xuất đã thực hiện Ví dụ với cây ở hình 1.13 ta suy ra dẫn xuất thực hiện là:

Trang 16

 Mỗi nút là tên của một cây cơ sở

 Các cung biểu diễn phép toán: nét liền biểu diễn phép nối, nét đứt biểu diễn phép thế

 Mỗi nút gán một địa chỉ: Nút gốc có địa chỉ 0, nút con thứ k của nút có địa chỉ j thì sẽ có địa chỉ là j.k

Ví dụ cây dẫn xuất của câu “Yesterday John saw Marry” được biểu

diễn trong hình 1.14

Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”

1.2.4 Ưu điểm của văn phạm TAG

Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ

(domain of locality), đó là phạm vi mà trong đó các phụ thuộc khác nhau (về

saw

John (1.1) Marry (2.2) Yesterday (0)

Trang 17

cú pháp và ngữ nghĩa) có thể được mô tả Trong văn phạm phi ngữ cảnh thì miền xác định phụ thuộc là một mức trên cây tương ứng với một quy tắc sinh

Một hệ hình thức gồm các quy tắc cú pháp từ vựng hoá sẽ có tính mô tả ngôn ngữ học cao, làm cho các quy tắc gắn với các từ mô tả được đặc trưng

riêng của từ đó Cần chú ý rằng không phải tất cả các quy tắc của CFG đều từ vựng hoá được Trong ví dụ trên, bốn quy tắc (4), (5), (6), (7) đã được từ

vựng hóa vì chúng là các quy tắc si nh từ vựng Ba quy tắc (1), (2), (3) không phải là các quy tắc sinh từ vựng Nhưng hai quy tắc (2), (3) sẽ được từ vựng hóa khi thay thế V bởi likes và thay ADV bởi passionately, còn quy tắc (1) thì không thể từ vựng hóa được

Như vậy, so với văn phạm phi ngữ cảnh thì văn phạm TAG có những

ưu điểm sau:

Miền phụ thuộc được mở rộng do đó TAG có khả năng mô tả phụ thuộc ngữ nghĩa giữa các thành phần

Văn phạm TAG có khả năng biểu diễn mạnh hơn văn phạm phi ngữ cảnh Tất cả các văn phạm phi ngữ cảnh đều có thể chuyển thành TAG, điều ngược lại không đúng

Trang 18

Văn phạm TAG có thể từ vựng hóa được còn văn phạm phi ngữ cảnh thì không

Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ

1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG

XTAG là một dự án sử dụng hệ hình thức văn phạm TAG dùng cho tiếng Anh, được nghiên cứu bởi các nhà khoa học thuộc Viện Nghiên cứu khoa học nhận dạng, Đại học Pennsylvania (Institute for Research in Cognitive Science, University of Pennsylvania)

Nhóm XTAG đã xây dựng được một lượng lớn các cây cơ sở dùng cho phân tích cú pháp tiếng Anh Các cây này được đặt trong cơ sở dữ liệu cây trong hê ̣ thống phân tích XTAG Cơ sở dữ liệu này chứa các cây đã được từ vựng hóa với các nút neo và quy tắc ngữ pháp có thể kết hợp với cây khác Tuy nhiên để giảm bớt công việc tìm kiếm khi phân tích thì các cây có đặc điểm chung được xếp thành một nhóm Mỗi nhóm này gọi là một họ cây Các cây này được phân xếp thành các họ cây theo các khung phân loại và quy tắc ngữ pháp, ví dụ như ho ̣ các cây ngoa ̣i đô ̣ng từ chỉ có mô ̣t đối số là cu ̣m danh từ làm bổ ngữ , họ cây ngoại động từ có hai đối số là hai cụm danh từ làm bổ ngữ, họ cây nội động từ không có bổ ngữ, …

Với tiếng Anh thì cấu trúc cú pháp của câu là có động từ làm trung tâm nên các tập các cây khởi tạo chứa cấu trúc cú pháp của câu sẽ là cây có gắn với một nút neo là động từ Các cây phụ trợ được xây dựng có thể từ danh từ,

bổ ngữ, định ngữ, giới từ ,

Trang 19

Ví dụ về một số họ cây thuộc lớp động từ:

Nội động từ: Tnx0V

Đây là họ cây của các động từ mà không cần có bổ ngữ Cụm trạng từ, cụm giới từ và các định ngữ khác có thể được thêm vào trong câu nhưng không nhất thiết phải có Ví dụ như eat, sleep, dance,… Cây mô tả cho lớp động từ này minh họa trong hình 1.15

Hình 1.15: Cây minh họa cho họ cây nội động từ

Ngoại động từ: Tnx0Vnx1

Đây là họ cây được chọn bởi các động từ mà chỉ yêu cầu một đối tượng

NP làm bổ ngữ NP có thể là một cấu trúc đầy đủ, bao gồm các danh động từ hay là một câu đầy đủ Điều này không bao gồm quan điểm xây dựng động

từ Ví dụ eat, dance, take, …Cây mô tả lớp động từ này minh họa trong hình 1.16

Hình 1.16: Cây minh họa cho họ cây ngoại động từ

Trang 21

động từ làm trung tâm thì còn có cú pháp câu với danh từ, tính từ làm trung tâm Việc xây dựng các cây cơ sở cho phân tích cú pháp tiếng Việt sẽ được trình bày cụ thể trong chương 2

1.4 Định dạng TAGML cho cơ sở dữ liệu TAG

Cũng như với mọi dữ liệu khác có yêu cầu lưu trữ, trao đổi cao thì người ta luôn quan tâm tới vấn đề chuẩn hóa mã hóa dữ liệu TAGML chính

là một chuẩn mô tả XML các tài nguyên cần thiết cho một bộ phân tích cú pháp LTAG Các đặc tả dữ liệu mô tả các tài nguyên cú pháp và từ vựng dùng cho phân tích cú pháp TAG được chi tiết trong phụ lục

Có hai dạng thông tin cần mô tả khi sử dụng TAGML để đặc tả dữ liệu dùng cho TAG đó là:

– Hình vị gốc (thuộc tính lex) của thẻ morph

– Thông tin cú pháp (thẻ <lemmaref>) với phạm trù ngữ pháp của

nó (thuộc tính cat) và giá trị (thuộc tính name)

– Các thông tin hình thái khác dưới dạng cấu trúc đặc trưng (thẻ

Trang 22

Và tính từ “thông minh” sẽ được mô tả như sau:

Thẻ <lexicalization> chứa một danh sách các cây (<tree>) cùng họ và các neo (<anchor>) có thể

Trong mỗi cây <tree> có mô tả từng nút trên cây bằng thẻ <node> Thẻ

<node> có ba thuộc tính: cat chứa phạm trù ngữ pháp của nút, type chứa kiểu của nút, name (không bắt buộc) chứa định danh của nút trong cây, dùng cho

việc tham khảo đến từ neo Các thẻ <node> có thể lồng nhau

Thẻ <anchor> có thuộc tính noderef dùng để tham khảo tới tên (name)

Trang 23

của nút neo Trong thẻ này sử dụng thẻ <lemmaref> chứa danh sách các từ có

thể gắn vào nút neo

Cấu trúc đặc trưng của mỗi nút được mô tả bằng thẻ <narg> với thuộc

tính type chứa thuộc tính trong cấu trúc đặc trưng của nút có giá trị thuộc tập

{top, bot} Trong thẻ <narg> còn có thẻ <fs> với các đặc trưng trong thẻ <f>,

Thẻ <f> có thuộc tính name chứa tên đặc trưng, và thuộc tính varname cho

phép đặt tên biến để chia sẻ giá trị đặc trưng đó với các nút khác

Ví dụ mô tả cây mà vị ngữ là một tính ngữ (tính ngữ này chỉ có một tính

từ)

Trang 24

TAGML cũng cho phép định nghĩa các thư viện (lib) của các cây

<treeLib>, các hình vị <morphLib>, các từ vựng hoá <lexicalisationLib>, các họ cây <familyLib> và các cấu trúc đặc trưng <fsLib> Phần khai báo thư viện này nằm ở đầu tệp Khi đó mỗi thành phần trong thư viện được khai báo một tên trong thuộc tính id của thẻ tương ứng Các mô tả dùng đến các thành phần trong thư viện này sau đó sẽ tham khảo tới thành phần tương ứng qua

thuộc tính copyof

Một trong những bộ phân tích cú pháp sử dụng dữ liệu được mã hóa dưới dạng chuẩn TAGML là bộ công cụ LLP2 (Loria LTAG Parser 2) LLP2 được phát triển tại Trung tâm nghiên cứu LORIA, Cộng hoà Pháp dùng cho phân tích cú pháp với hệ hình thức LTAG Bộ công cụ này được viết bằng Java bao gồm các thành phần:

 parser: Chương tŕnh phân tích cú pháp LTAG

 tagviewer: Giao diện hiển thị cây cú pháp LTAG

 graphtag: quản lí việc hiển thị các cây LTAG

 tagml2: API quản lí vào/ra theo khuôn dạng TAGML2 cho các tài nguyên từ vựng/cú pháp

Trang 25

 segment: API quản lí vào ra khuôn dạng XML cho việc tiền xử lí văn bản

 FeatureStructure: API quản lí các cấu trúc đặc trưng

 Và một số API khác quản lí các loại cây (cây cơ bản, cây ngữ pháp được dẫn, cây dẫn xuất)

Trong chương này luận văn đã trình bày những kiến thức chung về hệ hình thức văn phạm TAG, cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh với hệ hình thức TAG và chuẩn mã hóa dữ liệu dùng cho bộ phân tích Hai chương tiếp theo sẽ trình bày cách xây dựng cơ sở dữ liệu cho phân tích

cú pháp tiếng Việt với hệ hình thức văn phạm TAG

Trang 26

Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp

Chương này sẽ trình bày phương pháp xây dựng cơ sở dữ liệu dựa trên

từ điển và quy tắc ngữ pháp Phần thứ nhất của chương sẽ giới thiệu về từ điển cũng như cách mã hóa từ điển dưới dạng XML, phần tiếp sẽ là phương pháp xây dựng các cây khởi tạo dựa trên từ điển được mã hóa dưới dạng XML và quy tắc ngữ pháp

2.1 Giới thiệu về từ điển

Trong khuôn khổ đề tài KC.01.01/06-10 ([3]), nhóm các chuyên gia ngôn ngữ học đã xây dựng một kho từ vựng gồm khoảng hơn 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lí tiếng Việt Mô hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF (Lexical Markup Framework) do tiểu ban kĩ thuật ISO/TC 37/SC 4 (http://tc37sc4.org) phát triển LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ

Mỗi mục từ của từ điển đưa ra ba loại thông tin mô tả: thông tin hình thái,

cú pháp, ngữ nghĩa

Thông tin hình thái cho phép mô tả cấu tạo từ

Thông tin cú pháp mô tả thông tin về từ loại, tiểu từ loại; thông tin về khung vị từ; thông tin về các tham tố của vị từ, chức năng cú pháp và thành phần cú pháp của các tham tố

Gói thông tin ngữ nghĩa mô tả các thông tin về ràng buộc logic bao gồm

ý nghĩa phạm trù, từ đồng nghĩa, từ trái nghĩa; thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ

Từ điển được triển khai dưới hai dạng là tra cứu trên Web và mã hóa XML Chương trình xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt

sẽ sử dụng từ điển ở dạng mã hóa XML Dưới đây là một minh họa của từ

Định dạng
Số trang	52
Dung lượng	920,7 KB