1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

52 544 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 920,7 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm

Trang 1

KHUẤT THỊ THỦY

XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH

CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC

VĂN PHẠM TAG

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Khuất Thị Thủy

XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH

CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC

VĂN PHẠM TAG

Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán

Mã số : 60.46.35

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Nguyễn Thị Minh Huyền

Hà Nội – 2012

Trang 3

DANH MỤC HÌNH 3

MỞ ĐẦU 4

Chương 1 Hệ hình thức văn phạm TAG 6

1.1 Văn phạm phi ngữ cảnh 6

1.2 Văn phạm TAG 7

1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG 16

1.4 Định dạng TAGML cho cơ sở dữ liệu TAG 19

Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp 24

2.1 Giới thiệu về từ điển 24

2.2 Xây dựng cơ sở dữ liệu 26

Chương 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32

3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt 32

3.2 Đánh giá kết quả của hai phương pháp 39

KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 43

PHỤ LỤC 45

Trang 4

DANH MỤC CHỮ VIẾT TẮT

API Application Programming Interface

LMF Lexical Markup Framework

LLP2 Loria LTAG Parser 2

LTAG Lexicalized Tree Adjoining Grammar

TAG Tree Adjoining Grammar

TAGML Tree Adjoining Grammars Markup Language

XML eXtensible Markup Language

Trang 5

Hình 1.9 Sơ đồ phép thế cây với cấu trúc đặc trưng 12

Hình 1.10 Sơ đồ phép kết nối cây với cấu trúc đặc trưng 13

Hình 1.11 Các cây cơ sở của câu “Yesterday John saw

Hình 1.12 Dẫn xuất của câu “Yesterday John saw Marry” 14

Hình 1.13 Cây cú pháp của câu “Yesterday John saw

Hình 1.14 cây dẫn xuất của câu “Yesterday John saw

Hình 1.15 Cây minh họa cho họ cây nội động từ 18

Hình 1.16 Cây minh họa cho họ cây ngoại động từ 18

Hình 1.17 Cây minh họa cho họ cây mà động từ có chính

Trang 6

MỞ ĐẦU

Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên Kết quả của phân tích cú pháp được sử dụng trong rất nhiều ứng dụng như dịch máy, hỏi đáp, trích chọn thông tin…

Phân tích cú pháp đưa ra các mô tả về quan hệ giữa các thành phần trong câu Bài toán phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ nhất là phân tích cú pháp thành phần tức là xác định các thành phần ngữ đoạn trong câu; khía cạnh thứ hai là phân tích cú pháp phụ thuộc tức là xác định sự phụ thuộc về ngữ nghĩa giữa các từ trong câu

Mỗi bộ phân tích cú pháp đều cần tập các quy tắc của ngôn ngữ (chính

là các đặc tả hình thức của ngôn ngữ đang xét), các quy tắc này thì được biểu diễn bởi một hệ hình thức văn phạm cụ thể nào đó Các hình thức văn phạm thường được sử dụng trong phân tích cú pháp là văn phạm phi ngữ cảnh và các văn phạm hợp nhất Hợp nhất văn phạm TAG là một trong những văn phạm được sử dụng phổ biến hiện nay Đầu vào của bài toán phân tích cú pháp là câu đã được phân tách thành các từ, trong đó mỗi từ có đặc điểm hình thái xác định Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ

ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp (cây cú pháp) của câu Kết quả cần đạt được là hình thái của câu Do đó, để bộ phân tích cú pháp hoạt động được thì cần có cơ sở dữ liệu là một văn phạm theo một hệ hình thức văn phạm cụ thể nên việc xây dựng cơ sở dữ liệu cho phân tích cú pháp là việc làm hết sức quan trọng Trong khuôn khổ của luận văn tốt nghiệp cao học em xin trình bày nghiên cứu của mình với đề tài: “Xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG” Nội dung của luận văn được bố cục như sau:

Trang 7

Chương 1 trình bày tổng quan về hệ hình thức văn phạm TAG: Các cây

cơ sở, các thao tác trong TAG, cây dẫn xuất; cơ sở dữ liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa dữ liệu cho TAG

Đóng góp của luận văn được trình bày ở chương 2 Chương này trình bày thuật toán để xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với

hệ hình thức văn phạm TAG bằng phương pháp dựa trên từ điển và quy tắc ngữ pháp

Chương 3 của luận văn trình bày một phương pháp xây dựng cơ sở dữ liệu khác là trích rút tự động văn phạm TAG từ Treebank tiếng Việt và đưa ra các đánh giá đối với kết quả xây dựng cơ sở dữ liệu của hai phương pháp trên

Trang 8

Chương 1

Hệ hình thức văn phạm TAG

Trước khi trình bày về cơ sở dữ liệu cho phân tích cú pháp với hệ hình thức TAG thì chương này trình bày các kiến thức cơ sở về hình thức văn phạm TAG

1.1 Văn phạm phi ngữ cảnh

Văn phạm hay văn phạm sinh là một bộ bốn (Σ, V, σ, P) trong đó:

- Σ: Bảng chữ cái chính hay bảng chữ cái từ của văn phạm;

- V: Bảng chữ cái phụ hay bảng chữ cái hỗ trợ của văn phạm;

r = φ → ψ được gọi là quy tắc (hay quy tắc thế hoặc quy tắc sinh) của văn phạm; φ - vế trái, ψ - vế phải của quy tắc r Quy tắc r được gọi là quy tắc kết (hoặc quy tắc kết thúc) nếu ψ   và không một ký hiệu nào thuộc ψ mà lại xuất hiện ở vế trái của quy tắc trong P ([6])

Văn phạm phi ngữ cảnh là văn phạm mà mọi quy tắc đều có dạng A →

α, trong đó A là ký hiệu không kết và α là xâu bất kỳ

Văn phạm phi ngữ cảnh thường được lựa chọn để biểu diễn cấu trúc cú pháp của các ngôn ngữ tự nhiên vì nó đủ mạnh để mô tả hầu hết những cấu trúc của ngôn ngữ tự nhiên Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn

Trang 9

ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ loại) Tiên đề biểu diễn phân loại "câu" Các quy tắc sinh biểu diễn các quy tắc ngữ pháp Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào) Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong

vế phải Tuy nhiên văn phạm phi ngữ cảnh vẫn còn nhiều mặt hạn chế (sẽ được trình bày rõ trong phần ưu điểm của TAG) nên trên thực tế cần phát triển những văn phạm có khả năng thể hiện ý nghĩa ngôn ngữ học tốt hơn TAG là một hình thức văn phạm như thế

1.2 Văn pha ̣m TAG

Văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là hệ hình thức viết lại dạng cây, được đưa ra nửa cuối thập kỷ 80 Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với các đối tượng

cơ bản là các đối tượng có cấu trúc (cây) Vì vậy, TAG cho phép sinh ra các

mô tả cấu trúc chứ không phải tập các xâu TAG sử dụng hai loại cây cơ bản

để biểu diễn các cấu trúc tương ứng với các đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc của câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào các thành phần phụ của câu

1.2.1 Đi ̣nh nghĩa hình thức của văn phạm TAG

Văn phạm TAG gồm 5 thành phần (N, Σ, I, A, S) trong đó ([7]):

N: tập hữu hạn các kí hiệu không kết thúc

Trang 10

Hình 1.1: Mô tả cây khởi tạo

A: tập hữu hạn các cây phụ trợ Cây phụ trợ có chứa một nút lá trùng tên với nút gốc (mang kí hiệu không kết thúc) Ở nút lá này được đánh dấu với kí hiệu * ở bên cạnh và được gọi là nút chân của cây phụ trợ (xem hình 1.2) Mỗi cây phụ trợ chỉ có một nút chân

Hình 1.2 : Mô tả cây phụ trợ

Ví dụ cây khởi tạo (xem hình 1.3)

Hình 1.3: Cây khơ ̉ i ta ̣o

NP↓

Hình 1.4: Cây phu ̣ trơ ̣

Trang 11

S: tiên đề, S  N

Tập các cây thuộc tập I  A được gọi là cây cơ sở

1.2.2 Các phép toán của TAG

Một cây (tương ứng với một cấu trúc câu) trong văn phạm TAG được tạo thành từ sự kết hợp các cây cơ sở của TAG bằng hai phép toán là phép thế

và phép kết nối cây, trong đó phép kết nối cây giữ vai trò quan trọng trong TAG

1.2.2.1 Phép thế

Các nút tại đó thực hiện phép thế được bổ sung thêm ký hiệu ↓ Phép thế thực hiê ̣n viê ̣c thay t hế một cây có nhãn Y vào một cây có nhãn Y ↓ Phép thế là bắt buộc tại các nút có ký hiệu thế Phép thế được minh họa bởi hình 1.5

Hinh 1.5: Phép thế

saw

Trang 12

1.2.2.2 Phép kết nối cây

Phép kết nối cây dùng để xây dựng một cây mới γ từ một cây phụ trợ β (nút gốc của β được đánh nhãn là X) và một cây α khác (cây α có thể là cây khởi tạo, hoặc cây phụ trợ hoặc cây dẫn được từ các cây ban đầu bằng các phép toán) Phép toán có thể xem như là hai lần thực hiện sự thay thế như sau: Cây con tại nút X của cây α bị gỡ bỏ, cây β được thay thế vào nút X và cây con gỡ bỏ lúc trước thì được thế vào nút chân của cây β Phép toán được minh họa như trong hình 1.7

Hình 1.7: Phép kết nối cây

Ví dụ được minh họa trong hình 1.8

Khả năng thực hiện của hai phép toán kết nối và thế trên các cây còn bị ràng buộc bởi cấu trúc đặc trưng gắn trên mỗi nút của cây Cấu trúc đặc trưng của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn với đối tượng đó Trong TAG thì các thuộc tính được phân thành hai loại: thuộc tính trên và thuộc tính dưới Các thuộc tính trên chứa các thông tin liên quan tới nút cha, các thuộc tính dưới chứa các thông tin liên quan tới các nút con Khi thực hiện phép kết nối hay phép thế thì phép hợp nhất các cấu trúc đặc trưng cũng được thực hiện trên các nút mà tại đó phép thế và phép kết nối được thực hiện Nếu phép hợp nhất không thực hiện được (khi các thuộc tính

Trang 13

sinh ra không thống nhất) thì thao tác (kết nối hoặc thế) không được phép thực hiện Phép thế, phép kết nối với các nút được gắn thêm cấu trúc đặc trưng lần lượt được minh họa trong hình 1.9 và 1.10

Hình 1.8: Minh ho ̣a cho phép kết nối cây

Hình 1.9: Sơ đồ phép thế cây với cấu trúc đặc trƣng

Trang 14

Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng

1.2.3 Cây dẫn xuất trong TAG

Sự tạo thành một cây từ các cây cơ sở thông qua 2 phép toán thế và kết nối cây được go ̣i là một cây dẫn được Cây cú pháp là cây dẫn được mà mọi nút lá đều là kí hiệu kết Ví dụ, cho các cây cơ sở sau:

Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry”

Thực hiện quá trình dẫn xuất để được cây cú pháp của câu “Yesterday John saw Marry” được minh họa trong hình với biểu diễn cho phép

nối, biểu diễn cho phép thế

NP Marry

NP John

VP

S NP↓

saw

S

Yesterday

Trang 15

Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry”

Và cây cú pháp của câu trên là cây sau:

Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry”

Đối với văn phạm phi ngữ cảnh, cho một cây dẫn được ở một thời điểm

là đủ để xác định ngay các quy tắc dẫn xuất đã thực hiện Ví dụ với cây ở hình 1.13 ta suy ra dẫn xuất thực hiện là:

Trang 16

 Mỗi nút là tên của một cây cơ sở

 Các cung biểu diễn phép toán: nét liền biểu diễn phép nối, nét đứt biểu diễn phép thế

 Mỗi nút gán một địa chỉ: Nút gốc có địa chỉ 0, nút con thứ k của nút có địa chỉ j thì sẽ có địa chỉ là j.k

Ví dụ cây dẫn xuất của câu “Yesterday John saw Marry” được biểu

diễn trong hình 1.14

Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry”

1.2.4 Ưu điểm của văn phạm TAG

Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ

(domain of locality), đó là phạm vi mà trong đó các phụ thuộc khác nhau (về

saw

John (1.1) Marry (2.2) Yesterday (0)

Trang 17

cú pháp và ngữ nghĩa) có thể được mô tả Trong văn phạm phi ngữ cảnh thì miền xác định phụ thuộc là một mức trên cây tương ứng với một quy tắc sinh

Một hệ hình thức gồm các quy tắc cú pháp từ vựng hoá sẽ có tính mô tả ngôn ngữ học cao, làm cho các quy tắc gắn với các từ mô tả được đặc trưng

riêng của từ đó Cần chú ý rằng không phải tất cả các quy tắc của CFG đều từ vựng hoá được Trong ví dụ trên, bốn quy tắc (4), (5), (6), (7) đã được từ

vựng hóa vì chúng là các quy tắc si nh từ vựng Ba quy tắc (1), (2), (3) không phải là các quy tắc sinh từ vựng Nhưng hai quy tắc (2), (3) sẽ được từ vựng hóa khi thay thế V bởi likes và thay ADV bởi passionately, còn quy tắc (1) thì không thể từ vựng hóa được

Như vậy, so với văn phạm phi ngữ cảnh thì văn phạm TAG có những

ưu điểm sau:

Miền phụ thuộc được mở rộng do đó TAG có khả năng mô tả phụ thuộc ngữ nghĩa giữa các thành phần

Văn phạm TAG có khả năng biểu diễn mạnh hơn văn phạm phi ngữ cảnh Tất cả các văn phạm phi ngữ cảnh đều có thể chuyển thành TAG, điều ngược lại không đúng

Trang 18

Văn phạm TAG có thể từ vựng hóa được còn văn phạm phi ngữ cảnh thì không

Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ

1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG

XTAG là một dự án sử dụng hệ hình thức văn phạm TAG dùng cho tiếng Anh, được nghiên cứu bởi các nhà khoa học thuộc Viện Nghiên cứu khoa học nhận dạng, Đại học Pennsylvania (Institute for Research in Cognitive Science, University of Pennsylvania)

Nhóm XTAG đã xây dựng được một lượng lớn các cây cơ sở dùng cho phân tích cú pháp tiếng Anh Các cây này được đặt trong cơ sở dữ liệu cây trong hê ̣ thống phân tích XTAG Cơ sở dữ liệu này chứa các cây đã được từ vựng hóa với các nút neo và quy tắc ngữ pháp có thể kết hợp với cây khác Tuy nhiên để giảm bớt công việc tìm kiếm khi phân tích thì các cây có đặc điểm chung được xếp thành một nhóm Mỗi nhóm này gọi là một họ cây Các cây này được phân xếp thành các họ cây theo các khung phân loại và quy tắc ngữ pháp, ví dụ như ho ̣ các cây ngoa ̣i đô ̣ng từ chỉ có mô ̣t đối số là cu ̣m danh từ làm bổ ngữ , họ cây ngoại động từ có hai đối số là hai cụm danh từ làm bổ ngữ, họ cây nội động từ không có bổ ngữ, …

Với tiếng Anh thì cấu trúc cú pháp của câu là có động từ làm trung tâm nên các tập các cây khởi tạo chứa cấu trúc cú pháp của câu sẽ là cây có gắn với một nút neo là động từ Các cây phụ trợ được xây dựng có thể từ danh từ,

bổ ngữ, định ngữ, giới từ ,

Trang 19

Ví dụ về một số họ cây thuộc lớp động từ:

Nội động từ: Tnx0V

Đây là họ cây của các động từ mà không cần có bổ ngữ Cụm trạng từ, cụm giới từ và các định ngữ khác có thể được thêm vào trong câu nhưng không nhất thiết phải có Ví dụ như eat, sleep, dance,… Cây mô tả cho lớp động từ này minh họa trong hình 1.15

Hình 1.15: Cây minh họa cho họ cây nội động từ

Ngoại động từ: Tnx0Vnx1

Đây là họ cây được chọn bởi các động từ mà chỉ yêu cầu một đối tượng

NP làm bổ ngữ NP có thể là một cấu trúc đầy đủ, bao gồm các danh động từ hay là một câu đầy đủ Điều này không bao gồm quan điểm xây dựng động

từ Ví dụ eat, dance, take, …Cây mô tả lớp động từ này minh họa trong hình 1.16

Hình 1.16: Cây minh họa cho họ cây ngoại động từ

Trang 21

động từ làm trung tâm thì còn có cú pháp câu với danh từ, tính từ làm trung tâm Việc xây dựng các cây cơ sở cho phân tích cú pháp tiếng Việt sẽ được trình bày cụ thể trong chương 2

1.4 Định dạng TAGML cho cơ sở dữ liệu TAG

Cũng như với mọi dữ liệu khác có yêu cầu lưu trữ, trao đổi cao thì người ta luôn quan tâm tới vấn đề chuẩn hóa mã hóa dữ liệu TAGML chính

là một chuẩn mô tả XML các tài nguyên cần thiết cho một bộ phân tích cú pháp LTAG Các đặc tả dữ liệu mô tả các tài nguyên cú pháp và từ vựng dùng cho phân tích cú pháp TAG được chi tiết trong phụ lục

Có hai dạng thông tin cần mô tả khi sử dụng TAGML để đặc tả dữ liệu dùng cho TAG đó là:

– Hình vị gốc (thuộc tính lex) của thẻ morph

– Thông tin cú pháp (thẻ <lemmaref>) với phạm trù ngữ pháp của

nó (thuộc tính cat) và giá trị (thuộc tính name)

– Các thông tin hình thái khác dưới dạng cấu trúc đặc trưng (thẻ

Trang 22

Và tính từ “thông minh” sẽ được mô tả như sau:

<morph lex="thông minh">

Thẻ <lexicalization> chứa một danh sách các cây (<tree>) cùng họ và các neo (<anchor>) có thể

Trong mỗi cây <tree> có mô tả từng nút trên cây bằng thẻ <node> Thẻ

<node> có ba thuộc tính: cat chứa phạm trù ngữ pháp của nút, type chứa kiểu của nút, name (không bắt buộc) chứa định danh của nút trong cây, dùng cho

việc tham khảo đến từ neo Các thẻ <node> có thể lồng nhau

Thẻ <anchor> có thuộc tính noderef dùng để tham khảo tới tên (name)

Trang 23

của nút neo Trong thẻ này sử dụng thẻ <lemmaref> chứa danh sách các từ có

thể gắn vào nút neo

Cấu trúc đặc trưng của mỗi nút được mô tả bằng thẻ <narg> với thuộc

tính type chứa thuộc tính trong cấu trúc đặc trưng của nút có giá trị thuộc tập

{top, bot} Trong thẻ <narg> còn có thẻ <fs> với các đặc trưng trong thẻ <f>,

Thẻ <f> có thuộc tính name chứa tên đặc trưng, và thuộc tính varname cho

phép đặt tên biến để chia sẻ giá trị đặc trưng đó với các nút khác

Ví dụ mô tả cây mà vị ngữ là một tính ngữ (tính ngữ này chỉ có một tính

từ)

<tree id="Aql">

<node cat="S" name="S">

<node cat="NP" name="NP" type="subst"/>

<node cat="PredP" name="PredP">

<node cat="A" name="A" type="anchor">

Trang 24

TAGML cũng cho phép định nghĩa các thư viện (lib) của các cây

<treeLib>, các hình vị <morphLib>, các từ vựng hoá <lexicalisationLib>, các họ cây <familyLib> và các cấu trúc đặc trưng <fsLib> Phần khai báo thư viện này nằm ở đầu tệp Khi đó mỗi thành phần trong thư viện được khai báo một tên trong thuộc tính id của thẻ tương ứng Các mô tả dùng đến các thành phần trong thư viện này sau đó sẽ tham khảo tới thành phần tương ứng qua

thuộc tính copyof

Một trong những bộ phân tích cú pháp sử dụng dữ liệu được mã hóa dưới dạng chuẩn TAGML là bộ công cụ LLP2 (Loria LTAG Parser 2) LLP2 được phát triển tại Trung tâm nghiên cứu LORIA, Cộng hoà Pháp dùng cho phân tích cú pháp với hệ hình thức LTAG Bộ công cụ này được viết bằng Java bao gồm các thành phần:

 parser: Chương tŕnh phân tích cú pháp LTAG

 tagviewer: Giao diện hiển thị cây cú pháp LTAG

 graphtag: quản lí việc hiển thị các cây LTAG

 tagml2: API quản lí vào/ra theo khuôn dạng TAGML2 cho các tài nguyên từ vựng/cú pháp

Trang 25

 segment: API quản lí vào ra khuôn dạng XML cho việc tiền xử lí văn bản

 FeatureStructure: API quản lí các cấu trúc đặc trưng

 Và một số API khác quản lí các loại cây (cây cơ bản, cây ngữ pháp được dẫn, cây dẫn xuất)

Trong chương này luận văn đã trình bày những kiến thức chung về hệ hình thức văn phạm TAG, cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh với hệ hình thức TAG và chuẩn mã hóa dữ liệu dùng cho bộ phân tích Hai chương tiếp theo sẽ trình bày cách xây dựng cơ sở dữ liệu cho phân tích

cú pháp tiếng Việt với hệ hình thức văn phạm TAG

Trang 26

Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp

Chương này sẽ trình bày phương pháp xây dựng cơ sở dữ liệu dựa trên

từ điển và quy tắc ngữ pháp Phần thứ nhất của chương sẽ giới thiệu về từ điển cũng như cách mã hóa từ điển dưới dạng XML, phần tiếp sẽ là phương pháp xây dựng các cây khởi tạo dựa trên từ điển được mã hóa dưới dạng XML và quy tắc ngữ pháp

2.1 Giới thiệu về từ điển

Trong khuôn khổ đề tài KC.01.01/06-10 ([3]), nhóm các chuyên gia ngôn ngữ học đã xây dựng một kho từ vựng gồm khoảng hơn 41700 nghĩa từ nhằm phục vụ cho các ứng dụng xử lí tiếng Việt Mô hình ngữ liệu của kho từ vựng được xây dựng theo chuẩn LMF (Lexical Markup Framework) do tiểu ban kĩ thuật ISO/TC 37/SC 4 (http://tc37sc4.org) phát triển LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ

Mỗi mục từ của từ điển đưa ra ba loại thông tin mô tả: thông tin hình thái,

cú pháp, ngữ nghĩa

Thông tin hình thái cho phép mô tả cấu tạo từ

Thông tin cú pháp mô tả thông tin về từ loại, tiểu từ loại; thông tin về khung vị từ; thông tin về các tham tố của vị từ, chức năng cú pháp và thành phần cú pháp của các tham tố

Gói thông tin ngữ nghĩa mô tả các thông tin về ràng buộc logic bao gồm

ý nghĩa phạm trù, từ đồng nghĩa, từ trái nghĩa; thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ

Từ điển được triển khai dưới hai dạng là tra cứu trên Web và mã hóa XML Chương trình xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt

sẽ sử dụng từ điển ở dạng mã hóa XML Dưới đây là một minh họa của từ

Ngày đăng: 08/01/2015, 08:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái (2008), Xây dựng treebank tiếng Việt, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Xây dựng treebank tiếng Việt
Tác giả: Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái
Năm: 2008
2. Đỗ Bá Lâm, Lê Thanh Hương (2008), Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG
Tác giả: Đỗ Bá Lâm, Lê Thanh Hương
Năm: 2008
3. Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính
Tác giả: Vũ Xuân Lương, Nguyễn Thị Minh Huyền
Năm: 2008
4. Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Hồ Tú Bảo (2009), báo cáo kỹ thuật “hướng dẫn mô tả thông tin từ vựng trong từ điển dùng cho máy tính” , SP7.2 - Đề tài KC.01.01.05/06-10 Sách, tạp chí
Tiêu đề: báo cáo kỹ thuật “hướng dẫn mô tả thông tin từ vựng trong từ điển dùng cho máy tính”
Tác giả: Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Hồ Tú Bảo
Năm: 2009
5. Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010), Trích rút tự động văn phạm TAG cho tiếng Việt , Tạp chí Tin học và Điều khiển học, vol. 26, no. 2, p. 153-171 Sách, tạp chí
Tiêu đề: Trích rút tự động văn phạm TAG cho tiếng Việ
Tác giả: Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà
Năm: 2010
7. Aravind K. Joshi and Yves Schabes (1997), Tree-adjoining grammars, Handbook of formal languages, vol. 3, pg 69 – 123 Sách, tạp chí
Tiêu đề: Tree-adjoining grammars
Tác giả: Aravind K. Joshi and Yves Schabes
Năm: 1997
8. John Chen and K. Vijay-Shanker (2000), Automated extraction of TAGs from the Penn treebank, Proceedings of the Sixth International Workshop on Parsing Technologies Sách, tạp chí
Tiêu đề: Automated extraction of TAGs from the Penn treebank
Tác giả: John Chen and K. Vijay-Shanker
Năm: 2000
10. Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly (2012), Vietnamese parsing with an automatically extracted tree-adjoining grammar, Proceedings of IEEE International Sách, tạp chí
Tiêu đề: Vietnamese parsing with an automatically extracted tree-adjoining grammar
Tác giả: Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly
Năm: 2012
11. Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Nguyen Phuong Thai (2010), Automated extraction of tree adjoining grammars from a treebank for Vietnamese, Proceedings of The 10th International Conference on Tree Adjoining Grammars and Related Formalisms, Yale University, New Haven, USA Sách, tạp chí
Tiêu đề: Automated extraction of tree adjoining grammars from a treebank for Vietnamese
Tác giả: Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Nguyen Phuong Thai
Năm: 2010
12. Patrice Bonhomme, Patrice Lopez (2000), Resources for Lexicalized Tree Adjoining Grammars and XML encoding: TagML, Proceedings of the 2nd International Conference on Language Resources and Evaluation Sách, tạp chí
Tiêu đề: Resources for Lexicalized Tree Adjoining Grammars and XML encoding: TagML
Tác giả: Patrice Bonhomme, Patrice Lopez
Năm: 2000
13. XTAG-Research-Group, (2001), A lexicalized tree adjoining grammar for English, Technical report, Institute for Research in Cognitive Science, University of Pennsylvania Sách, tạp chí
Tiêu đề: A lexicalized tree adjoining grammar for English
Tác giả: XTAG-Research-Group
Năm: 2001
14. Tài liệu kỹ thuật của bộ công cụ LLP2 tại http://www.loria.fr/~azim/LLP2/help/fr/ Link
9. Le Hong Phuong, Laurent Romary, Azim Roussanaly, Nguyen Thi Minh Huyen (2006), A lexicalized tree adjoining grammar for Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Mô tả cây khởi tạo - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.1 Mô tả cây khởi tạo (Trang 10)
Hình 1.6: Minh ho ̣a cho phép thế - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.6 Minh ho ̣a cho phép thế (Trang 11)
Hình 1.7: Phép kết nối cây - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.7 Phép kết nối cây (Trang 12)
Hình 1.8: Minh ho ̣a cho phép kết nối cây - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.8 Minh ho ̣a cho phép kết nối cây (Trang 13)
Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.10 Sơ đồ phép kết nối cây với cấu trúc đặc trƣng (Trang 14)
Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry” - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.11 Các cây cơ sở của câu “Yesterday John saw Marry” (Trang 14)
Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry” - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.12 Dẫn xuất của câu “Yesterday John saw Marry” (Trang 15)
Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry” - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.13 Cây cú pháp của câu “Yesterday John saw Marry” (Trang 15)
Hình 1.17: Cây minh họa cho họ cây mà động từ có chính xác hai  bổ ngữ - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Hình 1.17 Cây minh họa cho họ cây mà động từ có chính xác hai bổ ngữ (Trang 20)
Bảng 1: Bảng ánh xạ nhãn từ loại thành nhãn thành phần cú pháp  Bước 3: Xây dựng cây dựa trên các thuộc tính đọc ở bước 2 - xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag
Bảng 1 Bảng ánh xạ nhãn từ loại thành nhãn thành phần cú pháp Bước 3: Xây dựng cây dựa trên các thuộc tính đọc ở bước 2 (Trang 31)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w