ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm
Trang 1KHUẤT THỊ THỦY
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Khuất Thị Thủy
XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH
CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC
VĂN PHẠM TAG
Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số : 60.46.35
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Nguyễn Thị Minh Huyền
Hà Nội – 2012
Trang 3DANH MỤC HÌNH 3
MỞ ĐẦU 4
Chương 1 Hệ hình thức văn phạm TAG 6
1.1 Văn phạm phi ngữ cảnh 6
1.2 Văn phạm TAG 7
1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG 16
1.4 Định dạng TAGML cho cơ sở dữ liệu TAG 19
Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp 24
2.1 Giới thiệu về từ điển 24
2.2 Xây dựng cơ sở dữ liệu 26
Chương 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32
3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32
3.2 Đánh giá kết quả của hai phương pháp 39
KẾT LUẬN 42
TÀI LIỆU THAM KHẢO 43
PHỤ LỤC 45
Trang 4DANH MỤC CHỮ VIẾT TẮT
API Application Programming Interface
LMF Lexical Markup Framework
LLP2 Loria LTAG Parser 2
LTAG Lexicalized Tree Adjoining Grammar
TAG Tree Adjoining Grammar
TAGML Tree Adjoining Grammars Markup Language
XML eXtensible Markup Language
Trang 5Hình 1.9 Sơ đồ phép thế cây với cấu trúc đặc trưng 12
Hình 1.10 Sơ đồ phép kết nối cây với cấu trúc đặc trưng 13
Hình 1.11 Các cây cơ sở của câu “Yesterday John saw
Hình 1.12 Dẫn xuất của câu “Yesterday John saw Marry” 14
Hình 1.13 Cây cú pháp của câu “Yesterday John saw
Hình 1.14 cây dẫn xuất của câu “Yesterday John saw
Hình 1.15 Cây minh họa cho họ cây nội động từ 18
Hình 1.16 Cây minh họa cho họ cây ngoại động từ 18
Hình 1.17 Cây minh họa cho họ cây mà động từ có chính
Trang 6MỞ ĐẦU
Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên Kết quả của phân tích cú pháp được sử dụng trong rất nhiều ứng dụng như dịch máy, hỏi đáp, trích chọn thông tin…
Phân tích cú pháp đưa ra các mô tả về quan hệ giữa các thành phần trong câu Bài toán phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ nhất là phân tích cú pháp thành phần tức là xác định các thành phần ngữ đoạn trong câu; khía cạnh thứ hai là phân tích cú pháp phụ thuộc tức là xác định sự phụ thuộc về ngữ nghĩa giữa các từ trong câu
Mỗi bộ phân tích cú pháp đều cần tập các quy tắc của ngôn ngữ (chính
là các đặc tả hình thức của ngôn ngữ đang xét), các quy tắc này thì được biểu diễn bởi một hệ hình thức văn phạm cụ thể nào đó Các hình thức văn phạm thường được sử dụng trong phân tích cú pháp là văn phạm phi ngữ cảnh và các văn phạm hợp nhất Hợp nhất văn phạm TAG là một trong những văn phạm được sử dụng phổ biến hiện nay Đầu vào của bài toán phân tích cú pháp là câu đã được phân tách thành các từ, trong đó mỗi từ có đặc điểm hình thái xác định Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ
ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp (cây cú pháp) của câu Kết quả cần đạt được là hình thái của câu Do đó, để bộ phân tích cú pháp hoạt động được thì cần có cơ sở dữ liệu là một văn phạm theo một hệ hình thức văn phạm cụ thể nên việc xây dựng cơ sở dữ liệu cho phân tích cú pháp là việc làm hết sức quan trọng Trong khuôn khổ của luận văn tốt nghiệp cao học em xin trình bày nghiên cứu của mình với đề tài: “Xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG” Nội dung của luận văn được bố cục như sau:
Trang 7Chương 1 trình bày tổng quan về hệ hình thức văn phạm TAG: Các cây
cơ sở, các thao tác trong TAG, cây dẫn xuất; cơ sở dữ liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa dữ liệu cho TAG
Đóng góp của luận văn được trình bày ở chương 2 Chương này trình bày thuật toán để xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với
hệ hình thức văn phạm TAG bằng phương pháp dựa trên từ điển và quy tắc ngữ pháp
Chương 3 của luận văn trình bày một phương pháp xây dựng cơ sở dữ liệu khác là trích rút tự động văn phạm TAG từ Treebank tiếng Việt và đưa ra các đánh giá đối với kết quả xây dựng cơ sở dữ liệu của hai phương pháp trên
Trang 8Chương 1
Hệ hình thức văn phạm TAG
Trước khi trình bày về cơ sở dữ liệu cho phân tích cú pháp với hệ hình thức TAG thì chương này trình bày các kiến thức cơ sở về hình thức văn phạm TAG
1.1 Văn phạm phi ngữ cảnh
Văn phạm hay văn phạm sinh là một bộ bốn (Σ, V, σ, P) trong đó:
- Σ: Bảng chữ cái chính hay bảng chữ cái từ của văn phạm;
- V: Bảng chữ cái phụ hay bảng chữ cái hỗ trợ của văn phạm;
r = φ → ψ được gọi là quy tắc (hay quy tắc thế hoặc quy tắc sinh) của văn phạm; φ - vế trái, ψ - vế phải của quy tắc r Quy tắc r được gọi là quy tắc kết (hoặc quy tắc kết thúc) nếu ψ và không một ký hiệu nào thuộc ψ mà lại xuất hiện ở vế trái của quy tắc trong P ([6])
Văn phạm phi ngữ cảnh là văn phạm mà mọi quy tắc đều có dạng A →
α, trong đó A là ký hiệu không kết và α là xâu bất kỳ
Văn phạm phi ngữ cảnh thường được lựa chọn để biểu diễn cấu trúc cú pháp của các ngôn ngữ tự nhiên vì nó đủ mạnh để mô tả hầu hết những cấu trúc của ngôn ngữ tự nhiên Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn
Trang 9ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ loại) Tiên đề biểu diễn phân loại "câu" Các quy tắc sinh biểu diễn các quy tắc ngữ pháp Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong
vế phải Tuy nhiên văn phạm phi ngữ cảnh vẫn còn nhiều mặt hạn chế (sẽ được trình bày rõ trong phần ưu điểm của TAG) nên trên thực tế cần phát triển những văn phạm có khả năng thể hiện ý nghĩa ngôn ngữ học tốt hơn TAG là một hình thức văn phạm như thế
1.2 Văn pha ̣m TAG
Văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là hệ hình thức viết lại dạng cây, được đưa ra nửa cuối thập kỷ 80 Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với các đối tượng
cơ bản là các đối tượng có cấu trúc (cây) Vì vậy, TAG cho phép sinh ra các
mô tả cấu trúc chứ không phải tập các xâu TAG sử dụng hai loại cây cơ bản
để biểu diễn các cấu trúc tương ứng với các đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc của câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào các thành phần phụ của câu
1.2.1 Đi ̣nh nghĩa hình thức của văn phạm TAG
Văn phạm TAG gồm 5 thành phần (N, Σ, I, A, S) trong đó ([7]):
N: tập hữu hạn các kí hiệu không kết thúc
Trang 10Hình 1.1: Mô tả cây khởi tạo
A: tập hữu hạn các cây phụ trợ Cây phụ trợ có chứa một nút lá trùng tên với nút gốc (mang kí hiệu không kết thúc) Ở nút lá này được đánh dấu với kí hiệu * ở bên cạnh và được gọi là nút chân của cây phụ trợ (xem hình 1.2) Mỗi cây phụ trợ chỉ có một nút chân
Hình 1.2 : Mô tả cây phụ trợ
Ví dụ cây khởi tạo (xem hình 1.3)
Hình 1.3: Cây khơ ̉ i ta ̣o
NP↓
Hình 1.4: Cây phu ̣ trơ ̣
Trang 11S: tiên đề, S N
Tập các cây thuộc tập I A được gọi là cây cơ sở
1.2.2 Các phép toán của TAG
Một cây (tương ứng với một cấu trúc câu) trong văn phạm TAG được tạo thành từ sự kết hợp các cây cơ sở của TAG bằng hai phép toán là phép thế
và phép kết nối cây, trong đó phép kết nối cây giữ vai trò quan trọng trong TAG
1.2.2.1 Phép thế
Các nút tại đó thực hiện phép thế được bổ sung thêm ký hiệu ↓ Phép thế thực hiê ̣n viê ̣c thay t hế một cây có nhãn Y vào một cây có nhãn Y ↓ Phép thế là bắt buộc tại các nút có ký hiệu thế Phép thế được minh họa bởi hình 1.5
Hinh 1.5: Phép thế
saw
Trang 121.2.2.2 Phép kết nối cây
Phép kết nối cây dùng để xây dựng một cây mới γ từ một cây phụ trợ β (nút gốc của β được đánh nhãn là X) và một cây α khác (cây α có thể là cây khởi tạo, hoặc cây phụ trợ hoặc cây dẫn được từ các cây ban đầu bằng các phép toán) Phép toán có thể xem như là hai lần thực hiện sự thay thế như sau: Cây con tại nút X của cây α bị gỡ bỏ, cây β được thay thế vào nút X và cây con gỡ bỏ lúc trước thì được thế vào nút chân của cây β Phép toán được minh họa như trong hình 1.7
Hình 1.7: Phép kết nối cây
Ví dụ được minh họa trong hình 1.8
Khả năng thực hiện của hai phép toán kết nối và thế trên các cây còn bị ràng buộc bởi cấu trúc đặc trưng gắn trên mỗi nút của cây Cấu trúc đặc trưng của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn với đối tượng đó Trong TAG thì các thuộc tính được phân thành hai loại: thuộc tính trên và thuộc tính dưới Các thuộc tính trên chứa các thông tin liên quan tới nút cha, các thuộc tính dưới chứa các thông tin liên quan tới các nút con Khi thực hiện phép kết nối hay phép thế thì phép hợp nhất các cấu trúc đặc trưng cũng được thực hiện trên các nút mà tại đó phép thế và phép kết nối được thực hiện Nếu phép hợp nhất không thực hiện được (khi các thuộc tính
Trang 13sinh ra không thống nhất) thì thao tác (kết nối hoặc thế) không được phép thực hiện Phép thế, phép kết nối với các nút được gắn thêm cấu trúc đặc trưng lần lượt được minh họa trong hình 1.9 và 1.10
Hình 1.8: Minh ho ̣a cho phép kết nối cây
Hình 1.9: Sơ đồ phép thế cây với cấu trúc đặc trƣng
Trang 14Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng
1.2.3 Cây dẫn xuất trong TAG
Sự tạo thành một cây từ các cây cơ sở thông qua 2 phép toán thế và kết nối cây được go ̣i là một cây dẫn được Cây cú pháp là cây dẫn được mà mọi nút lá đều là kí hiệu kết Ví dụ, cho các cây cơ sở sau:
Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”
Thực hiện quá trình dẫn xuất để được cây cú pháp của câu “Yesterday John saw Marry” được minh họa trong hình với biểu diễn cho phép
nối, biểu diễn cho phép thế
NP Marry
NP John
VP
S NP↓
saw
S
Yesterday
Trang 15Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”
Và cây cú pháp của câu trên là cây sau:
Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”
Đối với văn phạm phi ngữ cảnh, cho một cây dẫn được ở một thời điểm
là đủ để xác định ngay các quy tắc dẫn xuất đã thực hiện Ví dụ với cây ở hình 1.13 ta suy ra dẫn xuất thực hiện là:
Trang 16 Mỗi nút là tên của một cây cơ sở
Các cung biểu diễn phép toán: nét liền biểu diễn phép nối, nét đứt biểu diễn phép thế
Mỗi nút gán một địa chỉ: Nút gốc có địa chỉ 0, nút con thứ k của nút có địa chỉ j thì sẽ có địa chỉ là j.k
Ví dụ cây dẫn xuất của câu “Yesterday John saw Marry” được biểu
diễn trong hình 1.14
Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”
1.2.4 Ưu điểm của văn phạm TAG
Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ
(domain of locality), đó là phạm vi mà trong đó các phụ thuộc khác nhau (về
saw
John (1.1) Marry (2.2) Yesterday (0)
Trang 17cú pháp và ngữ nghĩa) có thể được mô tả Trong văn phạm phi ngữ cảnh thì miền xác định phụ thuộc là một mức trên cây tương ứng với một quy tắc sinh
Một hệ hình thức gồm các quy tắc cú pháp từ vựng hoá sẽ có tính mô tả ngôn ngữ học cao, làm cho các quy tắc gắn với các từ mô tả được đặc trưng
riêng của từ đó Cần chú ý rằng không phải tất cả các quy tắc của CFG đều từ vựng hoá được Trong ví dụ trên, bốn quy tắc (4), (5), (6), (7) đã được từ
vựng hóa vì chúng là các quy tắc si nh từ vựng Ba quy tắc (1), (2), (3) không phải là các quy tắc sinh từ vựng Nhưng hai quy tắc (2), (3) sẽ được từ vựng hóa khi thay thế V bởi likes và thay ADV bởi passionately, còn quy tắc (1) thì không thể từ vựng hóa được
Như vậy, so với văn phạm phi ngữ cảnh thì văn phạm TAG có những
ưu điểm sau:
Miền phụ thuộc được mở rộng do đó TAG có khả năng mô tả phụ thuộc ngữ nghĩa giữa các thành phần
Văn phạm TAG có khả năng biểu diễn mạnh hơn văn phạm phi ngữ cảnh Tất cả các văn phạm phi ngữ cảnh đều có thể chuyển thành TAG, điều ngược lại không đúng
Trang 18Văn phạm TAG có thể từ vựng hóa được còn văn phạm phi ngữ cảnh thì không
Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ
1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG
XTAG là một dự án sử dụng hệ hình thức văn phạm TAG dùng cho tiếng Anh, được nghiên cứu bởi các nhà khoa học thuộc Viện Nghiên cứu khoa học nhận dạng, Đại học Pennsylvania (Institute for Research in Cognitive Science, University of Pennsylvania)
Nhóm XTAG đã xây dựng được một lượng lớn các cây cơ sở dùng cho phân tích cú pháp tiếng Anh Các cây này được đặt trong cơ sở dữ liệu cây trong hê ̣ thống phân tích XTAG Cơ sở dữ liệu này chứa các cây đã được từ vựng hóa với các nút neo và quy tắc ngữ pháp có thể kết hợp với cây khác Tuy nhiên để giảm bớt công việc tìm kiếm khi phân tích thì các cây có đặc điểm chung được xếp thành một nhóm Mỗi nhóm này gọi là một họ cây Các cây này được phân xếp thành các họ cây theo các khung phân loại và quy tắc ngữ pháp, ví dụ như ho ̣ các cây ngoa ̣i đô ̣ng từ chỉ có mô ̣t đối số là cu ̣m danh từ làm bổ ngữ , họ cây ngoại động từ có hai đối số là hai cụm danh từ làm bổ ngữ, họ cây nội động từ không có bổ ngữ, …
Với tiếng Anh thì cấu trúc cú pháp của câu là có động từ làm trung tâm nên các tập các cây khởi tạo chứa cấu trúc cú pháp của câu sẽ là cây có gắn với một nút neo là động từ Các cây phụ trợ được xây dựng có thể từ danh từ,
bổ ngữ, định ngữ, giới từ ,
Trang 19Ví dụ về một số họ cây thuộc lớp động từ:
Nội động từ: Tnx0V
Đây là họ cây của các động từ mà không cần có bổ ngữ Cụm trạng từ, cụm giới từ và các định ngữ khác có thể được thêm vào trong câu nhưng không nhất thiết phải có Ví dụ như eat, sleep, dance,… Cây mô tả cho lớp động từ này minh họa trong hình 1.15
Hình 1.15: Cây minh họa cho họ cây nội động từ
Ngoại động từ: Tnx0Vnx1
Đây là họ cây được chọn bởi các động từ mà chỉ yêu cầu một đối tượng
NP làm bổ ngữ NP có thể là một cấu trúc đầy đủ, bao gồm các danh động từ hay là một câu đầy đủ Điều này không bao gồm quan điểm xây dựng động
từ Ví dụ eat, dance, take, …Cây mô tả lớp động từ này minh họa trong hình 1.16
Hình 1.16: Cây minh họa cho họ cây ngoại động từ
Trang 21động từ làm trung tâm thì còn có cú pháp câu với danh từ, tính từ làm trung tâm Việc xây dựng các cây cơ sở cho phân tích cú pháp tiếng Việt sẽ được trình bày cụ thể trong chương 2
1.4 Định dạng TAGML cho cơ sở dữ liệu TAG
Cũng như với mọi dữ liệu khác có yêu cầu lưu trữ, trao đổi cao thì người ta luôn quan tâm tới vấn đề chuẩn hóa mã hóa dữ liệu TAGML chính
là một chuẩn mô tả XML các tài nguyên cần thiết cho một bộ phân tích cú pháp LTAG Các đặc tả dữ liệu mô tả các tài nguyên cú pháp và từ vựng dùng cho phân tích cú pháp TAG được chi tiết trong phụ lục
Có hai dạng thông tin cần mô tả khi sử dụng TAGML để đặc tả dữ liệu dùng cho TAG đó là:
– Hình vị gốc (thuộc tính lex) của thẻ morph
– Thông tin cú pháp (thẻ <lemmaref>) với phạm trù ngữ pháp của
nó (thuộc tính cat) và giá trị (thuộc tính name)
– Các thông tin hình thái khác dưới dạng cấu trúc đặc trưng (thẻ
Trang 22Và tính từ “thông minh” sẽ được mô tả như sau:
<morph lex="thông minh">
Thẻ <lexicalization> chứa một danh sách các cây (<tree>) cùng họ và các neo (<anchor>) có thể
Trong mỗi cây <tree> có mô tả từng nút trên cây bằng thẻ <node> Thẻ
<node> có ba thuộc tính: cat chứa phạm trù ngữ pháp của nút, type chứa kiểu của nút, name (không bắt buộc) chứa định danh của nút trong cây, dùng cho
việc tham khảo đến từ neo Các thẻ <node> có thể lồng nhau
Thẻ <anchor> có thuộc tính noderef dùng để tham khảo tới tên (name)
Trang 23của nút neo Trong thẻ này sử dụng thẻ <lemmaref> chứa danh sách các từ có
thể gắn vào nút neo
Cấu trúc đặc trưng của mỗi nút được mô tả bằng thẻ <narg> với thuộc
tính type chứa thuộc tính trong cấu trúc đặc trưng của nút có giá trị thuộc tập
{top, bot} Trong thẻ <narg> còn có thẻ <fs> với các đặc trưng trong thẻ <f>,
Thẻ <f> có thuộc tính name chứa tên đặc trưng, và thuộc tính varname cho
phép đặt tên biến để chia sẻ giá trị đặc trưng đó với các nút khác
Ví dụ mô tả cây mà vị ngữ là một tính ngữ (tính ngữ này chỉ có một tính
từ)
<tree id="Aql">
<node cat="S" name="S">
<node cat="NP" name="NP" type="subst"/>
<node cat="PredP" name="PredP">
<node cat="A" name="A" type="anchor">
Trang 24TAGML cũng cho phép định nghĩa các thư viện (lib) của các cây
<treeLib>, các hình vị <morphLib>, các từ vựng hoá <lexicalisationLib>, các họ cây <familyLib> và các cấu trúc đặc trưng <fsLib> Phần khai báo thư viện này nằm ở đầu tệp Khi đó mỗi thành phần trong thư viện được khai báo một tên trong thuộc tính id của thẻ tương ứng Các mô tả dùng đến các thành phần trong thư viện này sau đó sẽ tham khảo tới thành phần tương ứng qua
thuộc tính copyof
Một trong những bộ phân tích cú pháp sử dụng dữ liệu được mã hóa dưới dạng chuẩn TAGML là bộ công cụ LLP2 (Loria LTAG Parser 2) LLP2 được phát triển tại Trung tâm nghiên cứu LORIA, Cộng hoà Pháp dùng cho phân tích cú pháp với hệ hình thức LTAG Bộ công cụ này được viết bằng Java bao gồm các thành phần:
parser: Chương tŕnh phân tích cú pháp LTAG
tagviewer: Giao diện hiển thị cây cú pháp LTAG
graphtag: quản lí việc hiển thị các cây LTAG
tagml2: API quản lí vào/ra theo khuôn dạng TAGML2 cho các tài nguyên từ vựng/cú pháp
Trang 25 segment: API quản lí vào ra khuôn dạng XML cho việc tiền xử lí văn bản
FeatureStructure: API quản lí các cấu trúc đặc trưng
Và một số API khác quản lí các loại cây (cây cơ bản, cây ngữ pháp được dẫn, cây dẫn xuất)
Trong chương này luận văn đã trình bày những kiến thức chung về hệ hình thức văn phạm TAG, cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh với hệ hình thức TAG và chuẩn mã hóa dữ liệu dùng cho bộ phân tích Hai chương tiếp theo sẽ trình bày cách xây dựng cơ sở dữ liệu cho phân tích
cú pháp tiếng Việt với hệ hình thức văn phạm TAG
Trang 26Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp
Chương này sẽ trình bày phương pháp xây dựng cơ sở dữ liệu dựa trên
từ điển và quy tắc ngữ pháp Phần thứ nhất của chương sẽ giới thiệu về từ điển cũng như cách mã hóa từ điển dưới dạng XML, phần tiếp sẽ là phương pháp xây dựng các cây khởi tạo dựa trên từ điển được mã hóa dưới dạng XML và quy tắc ngữ pháp
2.1 Giới thiệu về từ điển
Trong khuôn khổ đề tài KC.01.01/06-10 ([3]), nhóm các chuyên gia ngôn ngữ học đã xây dựng một kho từ vựng gồm khoảng hơn 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lí tiếng Việt Mô hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF (Lexical Markup Framework) do tiểu ban kĩ thuật ISO/TC 37/SC 4 (http://tc37sc4.org) phát triển LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ
Mỗi mục từ của từ điển đưa ra ba loại thông tin mô tả: thông tin hình thái,
cú pháp, ngữ nghĩa
Thông tin hình thái cho phép mô tả cấu tạo từ
Thông tin cú pháp mô tả thông tin về từ loại, tiểu từ loại; thông tin về khung vị từ; thông tin về các tham tố của vị từ, chức năng cú pháp và thành phần cú pháp của các tham tố
Gói thông tin ngữ nghĩa mô tả các thông tin về ràng buộc logic bao gồm
ý nghĩa phạm trù, từ đồng nghĩa, từ trái nghĩa; thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ
Từ điển được triển khai dưới hai dạng là tra cứu trên Web và mã hóa XML Chương trình xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt
sẽ sử dụng từ điển ở dạng mã hóa XML Dưới đây là một minh họa của từ