Nghiên cứu phân tích cú pháp bằng phương pháp xác xuất và ứng dụng cho phân tích cú pháp các câu đơn giản của tiếng anh

Đề tài này vận dụng mô hình xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp với dữ liệu thống kê là tập văn phạm được rút trích trực tiếp từ Penn treebank tập các cây phân t

Trang 1

Lời cám ơn

-o0o -

Tôi xin gửi lời cám ơn chân thành nhất đến cô PGS.TS Phan Thị Tươi, cô đã tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên tôi hoàn thành luận văn này Tôi xin chân thành cám ơn tất cả các thầy cô và phòng Sau đại học trường đại học Bách Khoa đã giúp đỡ, dạy dỗ nhiệt tình trong thời gian tôi theo học và nghiên cứu tại trường Và tôi cũng xin gửi lời cám ơn đến thầy Dương Tuấn Anh đã tận tình chỉ dẫn cách nghiên cứu và trình bày luận văn Cám ơn anh Nguyễn Chí Hiếu, anh Nguyễn Anh Tuấn đã truyền đạt kinh nghiệm để tôi học hỏi hoàn thành luận văn

Xin chân thành cám ơn lãnh đạo Văn phòng HĐND và UBND tỉnh Khánh Hoà cùng các đồng nghiệp đã tạo điều kiện thuận lợi để tôi theo học và nghiên cứu tại trường

Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình, bạn bè và những người thân đã luôn động viên, khuyến khích giúp tôi hoànthành nhiệm vụ học tập

Ngoài ra, luận văn này hoàn thành cũng nhờ nguồn dữ liệu chủ yếu lấy từ Penn Treebank

Trong thời gian có hạn, luận văn hoàn thành chắc chắn không tránh khỏi những sai sót, rất mong được sự chỉ dẫn và góp ý thêm của quí thầy cô và các bạn

Nguyễn Thị Thanh Tâm

Trang 2

Tóm tắt

-o0o -

Phân tích cú pháp là một vấn đề cơ sở và đóng vai trò rất quan trọng trong tiến trình xử lý ngôn ngữ tự nhiên Hầu hết các ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích thông tin, nhận dạng văn bản, bắt lỗi chính tả,… sẽ đạt chất lượng cao nếu có một hệ thống phân tích cú pháp có độ chính xác cao Một trong những khó khăn chính của quá trình xử lý ngôn ngữ tự nhiên là phân

tích cú pháp thể hiện ở sự “nhập nhằng” (ambiguation) Sự nhập nhằng trong

phân tích cú pháp thường dẫn đến có nhiều cây phân tích phù hợp với một câu đầu vào

Trước đây, việc phân tích cú pháp thường được xây dựng dựa trên tập văn phạm được tạo bằng tay trên một phạm vi thông tin nhỏ, điều này đòi hỏi mất nhiều công sức và thiếu chính xác, vấn đề nhập nhằng chưa được giải quyết thoả đáng

Đề tài này vận dụng mô hình xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp với dữ liệu thống kê là tập văn phạm được rút trích trực tiếp từ Penn treebank (tập các cây phân tích cú pháp mẫu của tiếng Anh được làm bằng tay bởi các nhà ngôn ngữ học) nhằm tìm ra một cây phân tích cú pháp phù hợp nhất với mỗi câu đầu vào

Sự biểu diễn của các cây trong treebank cũng có một ảnh hưởng đáng kể đến hiệu suất của quá trình phân tích cú pháp dựa trên PCFG được ước lượng từ treebank đó Vì vậy, trong quá trình xây dựng tập văn phạm, tác giả đã nghiên cứu cách chuyển đổi những cây “flat trees” trong treebank sang dạng các cây có gắn thêm vào nút con thông tin của nút cha (parent anotation trees) Kết quả đạt được đã cải tiến giá trị trung bình của các thông số kiểm định Precision từ 78% lên 85.25% và Recall từ 73% lên 84.40% so với việc biểu diễn các cây dạng binary thông thường

Trang 3

Tác giả đã sử dụng giải thuật CKY mở rộng, gọi là CKY+ cho việc tìm kiếm cây phân tích cú pháp phù hợp nhất (có xác suất lớn nhất) Đây là một trong những giải thuật có độ chính xác cao, thời gian phân tích nhanh Thời gian trung bình khi thực hiện giải thuật CKY+ cho quá trình phân tích cú pháp thực hiện trên máy Pentium III, 500mhz, 128Mb RAM cho các câu có chiều dài dưới 25 từ khoảng 0.28giây, các câu có chiều dài từ 25 đến 40 từ khoảng 3giây và các câu

từ 40 từ trở lên là 6.21giây

Trang 4

Abstract

Parsing is a fundamental problem in language processing for both machines and humans Most natural language applications such as Information Extraction, Machine Translation, Speech Recognition or Spelling Correction would almost certainly benefit from high-accuracy parsing Ambiguity is a major problem in parsing Ambiguity often leads to an input sentence having many possible parse trees

In previous approaches, the parsing problem is base on a grammar which is crafted, often in some small subcategorization information It cost a lot of time and effort and often inaccurately Ambiguity is not to slove satisfactorily

hand-This thesis uses statistical models base on PCFG estimate from treebank to solve ambiguity problem in parsing natural language; statistical approaches assign a probability to each tree, thereby ranking competing trees in order of plausibility The kinds of tree representations used in a treebank corpus can have a dramatic effect on performance of a parser based on PCFG estimate from that corpus So

in this thesis, we studied to transform the original trees in the treebank to parent anotation trees This kind of tree representations have improved a treebank PCFG

based parser’s average precision from 78% to 85.25% and recall from 73% to

84.40% in compare with normal binarize tree representations

The algorithm has been selected to find the most likely parsed tree is an extension of the CKY algorithm, call CKY+ This algorithm is accurate and fast for parsing based on PCFG The average time need to run CKY+ algorithm in parsing process on Pentium III, 500mhz, 18Mb RAM is around 0.28 second for the under 25 word sentence length; 3 second for sentences being over 25 words

in length and 6.21 second for sentences being over 40 words

Trang 5

CHƯƠNG 1 PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề

Trong lĩnh vực khoa học máy tính, xử lý ngôn ngữ tự nhiên (NLP: Nature Language Processing) ẩn chứa nhiều thách thức nên luôn là mục tiêu nghiên cứu của các nhà khoa học, với mong muốn máy tính từng bước hiểu được ngôn ngữ con người

Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tìm kiếm bằng ngôn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi chính tả (SC: Spelling Correction), v.v… Trong đó, phân tích cú pháp là một vấn đề cơ sở và đóng một vai trò rất quan trọng trong tiến trình xử lý cả cho ngôn ngữ máy và ngôn ngữ tự nhiên

Hầu hết các ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích thông tin, nhận dạng văn bản, bắt lỗi chính tả,… sẽ đạt chất lượng cao nếu có một hệ thống phân tích cú pháp có độ chính xác cao Từ quan điểm trên, tìm hiểu một phương pháp phân tích cú pháp tốt là điều rất cần thiết

Một trong những khó khăn chính của phân tích cú pháp là sự “nhập nhằng”

(ambiguation) Sự nhập nhằng xảy ra khi văn phạm đó cho kết quả là nhiều cây

phân tích cú pháp với cùng một câu dữ liệu nhập

Hầu hết các giải thuật phân tích cú pháp đã được phát triển từ giữa những năm

1960 và đã được ứng dụng rất nhiều trong xử lý ngôn ngữ tự nhiên Tuy nhiên, các phương pháp trước đây còn tồn tại một số khuyết điểm như: chưa giải quyết được sự “nhập nhằng” của ngôn ngữ tự nhiên và phụ thuộc vào toàn bộ không gian tìm kiếm để tìm được những diễn dịch phù hợp với câu phân tích hoặc nếu

có giải quyết được sự nhập nhằng bằng cách đưa các yếu tố từ bên ngoài vào thì

Trang 6

lại khó thực hiện và tốn nhiều thời gian Các phương pháp phân tích trước đây thường cho kết quả là nhiều cây phân tích

Trong những năm gần đây, việc áp dụng xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp ngày càng phát triển mạnh mẽ và có nhiều triển vọng nhờ các corpus - kho dữ liệu về ngôn ngữ tự nhiên đã có sẵn Với mô hình phân tích bằng xác suất, sẽ gán xác suất vào mỗi cây phân tích cú pháp và do đó sẽ chọn ra được kết quả là một cây phân tích phù hợp nhất (có xác suất cao nhất) với câu đưa ra [12][15][17][22][23]

Nhằm mục đích nghiên cứu và vận dụng các kết quả nghiên cứu mới này vào

trong thực tế, tác giả đã thực hiện đề tài: “Nghiên cứu phân tích cú pháp bằng

phương pháp xác suất (Probabilistic Parsing) và ứng dụng cho phân tích cú pháp các câu đơn giản của tiếng Anh.”

Đây là một lĩnh vực khá mới không chỉ ở Việt Nam mà còn trên thế giới, trong

đó tài liệu, phương pháp tiếp cận vẫn còn nhiều vấn đề bàn bạc Do vậy, phạm vi

đề tài nghiên cứu được đặt ra chỉ nhằm mục đích lĩnh hội được phương pháp mới

và vận dụng để xây dựng một chương trình mang tính thử nghiệm để ứng dụng giải thuật để phân tích cú pháp một số câu đơn giản của tiếng Anh Phương pháp phân tích cú pháp bằng xác suất phải dựa trên một ngân hàng dữ liệu về ngôn ngữ rất lớn Xây dựng ngân hàng dữ liệu là một việc làm cần nhiều thời gian, công sức và tài chính, vượt quá khuôn khổ của luận văn này, do đó, tác giả phải lựa chọn giải pháp là sử dụng một số ngân hàng dữ liệu có sẵn đã được các nhà ngôn ngữ học trên thế giới xây dựng và kiểm chứng bằng tay với số lượng lớn đáng kể các cây phân tích cú pháp mẫu Tuy nhiên do vấn đề bản quyền và tài chính, tác giả luận văn chỉ có thể sử dụng một phần nhỏ của kho dữ liệu đã được công bố trên mạng để thử nghiệm

1.2 Phương hướng nghiên cứu

Phân tích cú pháp, ở hình thức đơn giản là dùng giải thuật trên tập luật để ánh xạ một câu dữ liệu đầu vào thành một cấu trúc cây cú pháp của nó Để trả lời một

Trang 7

câu có hợp cú pháp hay không, cần phải đối chiếu nó với một hệ quy tắc cụ thể

Hệ thống này hoặc chấp nhận nó và như vậy xác định là hợp cú pháp, hoặc không chấp nhận nó và do đó xác định không hợp cú pháp [23][31]

Luận văn này chọn cách tiếp cận máy học trong vấn đề phân tích cú pháp cho câu

của ngôn ngữ tự nhiên Một hàm câu nhập Æ cây phân tích cú pháp (sentence Æ

tree) 1 được suy luận từ tập huấn luyện, tức tập các cặp sentenceÆ tree mẫu Một tập thử nghiệm các cặp sentence Æ tree dùng để đánh giá độ chính xác của mô

hình Hình 1.1 là ví dụ minh hoạ cho cây phân tích cú pháp của câu “Sue walked into the store”

1 Giả sử định nghĩa bài toán phân tích cú pháp mà trong đó mỗi câu được ánh xạ bởi một cây phân tích cú pháp đơn nhất

Trang 8

chuyên gia (heurictic), tuy nhiên để tạo ra những heurictic như vậy là rất khó và tốn nhiều thời gian, hơn nữa, không có phương pháp nào mang tính hệ thống để đánh giá các heurictic này tốt như thế nào trong thực tế [17]

Hiện nay các nhà ngôn ngữ học đã xây dựng rất nhiều kho ngữ liệu phục vụ trong lĩnh vực xử lý ngôn ngữ tự nhiên, trong đó Penn treebank là một kho ngữ liệu có

số lượng cây phân tích mẫu đáng kể Do vậy, luận văn này sẽ nghiên cứu phương pháp thống kê dựa trên nguồn dữ liệu mẫu của Penn treebank để giải quyết những vấn đề khó khăn nêu trên trong phân tích cú pháp Mô hình phân tích cú pháp theo phương pháp thống kê ấn định một xác suất score(t,s) cho mỗi cặp cây phân tích cú pháp-câu (t,s) Và khi đó, một cây phân tích cú pháp phù hợp nhất cho một câu dữ liệu đầu vào được định nghĩa bởi:

),(max

t

t best =Với cách nhìn này, vấn đề phân tích cú pháp được chia ra thành hai phần: (1)Mô hình: là định nghĩa một xác suất Score(t,s) cho mỗi cặp cây phân tích cú pháp-

câu (t,s) (2) Phân tích cú pháp: là thực hiện một giải thuật để tìm xác suất tbest

cho bất kỳ câu nhập nào [11][23]

1.3 Mục tiêu của đề tài

Đề tài nghiên cứu này nhắm tới các mục tiêu sau:

• Nghiên cứu phương pháp để hoàn thiện giải thuật tạo tập huấn luyện văn phạm phi ngữ cảnh có xác suất từ ngân hàng dữ liệu treebank

• Lựa chọn giải thuật phân tích cú pháp bằng xác suất phù hợp hiện có để có thể phát triển ứng dụng vào đề tài

• Xây dựng một chương trình máy tính ứng dụng cho việc phân tích một số câu tiếng Anh đơn giản để kiểm chứng kết quả nghiên cứu

1.4 Những kết quả chính của đề tài

Những kết quả chính của đề tài như sau:

Trang 9

• Xây dựng giải thuật để tạo hệ thống luật văn phạm phi ngữ cảnh có xác suất (PCFG) từ treebank

• Lựa chọn và phát triển giải thuật tìm cây phân tích cú pháp bằng xác suất phù hợp nhất với câu dữ liệu đầu vào

• Chương trình máy tính để ứng dụng phương pháp phân tích cú pháp bằng xác suất cho việc phân tích một số cấu tiếng Anh đơn giản

1.5 Cấu trúc của luận văn

Luận văn gồm 5 chương, bao gồm các nội dung cơ bản như sau:

Chương 1: Trình bày về cách đặt vấn đề, phương pháp lựa chọn để giải quyết vấn

đề Mục tiêu cần đạt được, cũng như những kết quả và đóng góp của đề tài

Chương 2: Tóm tắt các công trình khoa học đã công bố trong và ngoài nước có

liên quan đến đề tài Chương này còn làm sáng tỏ thêm cơ sở lý thuyết để thực hiện đề tài

Chương 3: Trình bày có chọn lọc các cơ sở lý thuyết và phương pháp sẽ được

dùng để giải quyết vấn đề của đề tài Bao gồm các vấn đề cơ bản như: cơ sở toán học, các kiến thức về ngôn ngữ tự nhiên, tiếng Anh, các kiến thức, công cụ,… được đề tài sử dụng để xây dựng mô hình và giải quyết bài toán phân tích cú pháp

Chương 4: Trình bày giải thuật phân tích cú pháp bằng xác suất mà đề tài đã

chọn, các phương pháp xây dựng văn phạm phi ngữ cảnh có xác suất từ corpus ngôn ngữ có sẵn - Penn Treebank Một số tác vụ và kết quả đạt được của chương trình hiện thực đề tài

Chương 5: Nhận xét, đánh giá những kết quả đạt được và những hạn chế còn tồn

tại của việc giải quyết và thực hiện đề tài, đồng thời đưa ra hướng phát triển của

đề tài và kết luận

Trang 10

1.6 Qui ước về thuật ngữ và ký hiệu

POS tags (Part-Of-Speech tags), gắn từ loại vào từ

Treebank Kho dữ liệu chứa các mẫu cây phân tích cú pháp

∏ Tích

∩ Giao của các tập hợp

ĉ Ước lượng của c

wij , wi j chuỗi các từ hoặc từ loại w1,w2,…wj

G Tập văn phạm

V Tập các ký hiệu không kết thúc

N Tập các ký hiệu kết thúc

P Tập các luật sinh

Trang 11

CHƯƠNG 2 TỔNG QUAN CÁC CÔNG TRÌNH LIÊN QUAN

Chương này trình bày một cách tổng quan về một số kết quả nghiên cứu ở nước ngoài và trong nước có liên quan đến đề tài Đồng thời trên cơ sở đó nêu bật những luận cứ để thực hiện đề tài

2.1 Những kết quả nghiên cứu ở nước ngoài

Kỹ thuật phân tích cú pháp bằng xác suất đã được quan tâm và phát triển mạnh nhất trong thập kỷ qua Trên thế giới có khá nhiều công trình nghiên cứu về vấn

đề này Một số phương pháp phân tích đã được dùng và đang phát triển [11]:

• Nhóm phân tích Cú Pháp Không Từ Vựng (Non-lexicalied Parsing)

Phân tích Cú Pháp Không Từ Vựng là nhóm phân tích trong đó phớt lờ các

thông tin về từ vựng Đối với việc phân tích theo nhóm này, một câu đưa vào để phân tích thực chất chỉ là một dãy các từ loại Điều này chứng tỏ một câu loại này sẽ ít thông tin hơn so với một câu có gắn với từ thực Tuy nhiên, Phân tích Cú Pháp Không Từ Vựng có ưu điểm là vì số lượng ký hiệu kết thúc nhỏ nên dễ xây dựng và thường không gặp phải về vấn đề dữ liệu thưa

Các công trình nghiên cứu điển hình của nhóm phương pháp này là:

- Công trình Partially Unsupervisor Learning (Không bị giám sát cục bộ) của Pereia and Schabes năm 1992

- Công trình PCFG Estimation from a treebank (Ước lượng PCFG từ một treebank) của Charnial năm 1996 Kết quả kiểm định trên Wall Street treebank với recall là 70.6% và precision là 74.8%

- Công trình của Goodman năm 1996 mô tả các giải thuật phân tích cú pháp khác nhau trên PCFG để tối đa độ chính xác [23]

• Nhóm phân tích Cú Pháp có Từ Vựng (Lexicalied Parsing)

Trang 12

Phân tích Cú Pháp có Từ Vựng là nhóm phân tích dựa vào các từ riêng lẻ và

tính toán trên sự phân loại của từ Nhưng việc thống kê các từ loại riêng biệt tức thời dẫn đến vấn đề về dữ liệu thưa Nếu cố gắng thống kê một cách rất chi tiết sự kết hợp của các từ thì những kết hợp dư thừa khi huấn luyện cho corpus tăng lên rất nhanh Do đó, để giảm thiểu số lượng các kết hợp loại này, người ta gắn vào mỗi thành phần một phần “head”, thông thường head

được tính từ dưới lên và head của một thành phần c là một hàm quyết định của luật sinh, dùng để vét cạn (expend) c Hướng phân tích này thuộc các

công trình nghiên cứu điển hình của Bob (1993) [11]; Black và cộng sự (1993); De Marken (1995); Collin (1996) [9]; Collin (1999) và một số tác giả khác

• Nhóm phân tích Cú Pháp Theo Định hướng Dữ Liệu (Data-Oriented

1/ Mô hình DOP đầu tiên xây dựng các cấu trúc câu dựa trên cơ sở tần số xuất hiện của các phân mảnh (fragment) cấu trúc câu đã phân tích trước đó

mà không có sự ràng buộc nào về kích thước của các phân mảnh này Nói cách khác, mô hình được đưa ra không cần phải huấn luyện cho corpus văn phạm đã định nghĩa mà trực tiếp sử dụng các phân mảnh của corpus như một văn phạm Cách tiếp cận này đã được nghiên cứu sử dụng bởi các công trình của Collins (1996, 1999), Charniak (1996, 1997), Johnson(1998), Chiang (2000), Ren Bob (1992) và nhiều tác giả khác

Trang 13

Tuy nhiên, mô hình này hạn chế các phân mảnh với các head-word lân cận

2/ Trong vài năm gần đây các tác giả Collin and Duffy (2002), Bob (2003) đã cải tiến mô hình DOP, những đổi mới chính của mô hình này là :

- Sử dụng các phân mảnh của corpus hơn là các luật sinh văn phạm

- Sử dụng các phân mảnh tuỳ ý lớn hơn là các phân mảnh bị giới hạn như mô hình

cũ

- Sự khác nhau giữa DOP và các phương pháp phân tích cú pháp có xác suất khác là: DOP khởi đầu bằng việc tính đến tất cả các cây con trong treebank và kiểm tra nhanh các giới hạn để khám phá ra tập các cây con thích đáng, trong khi đó các phương pháp khác thường hạn chế phụ thuộc thống kê trước đó (ví dụ phụ thuộc headword) và sau đó mới cố gắng cải tiến phân tích tối ưu bằng cách dần dần dưa thêm các phụ thuộc vào

Một ví dụ minh hoạ về mô hình DOP:

- Giả sử Corpus chỉ gồm có 2 cây như sau:

Trang 14

NP VP

Sue V NP

saw

NP VP Sue V NP

Trang 15

- Câu “Sue heard Jim” có thể được kết nối từ các phân mảnh:

Trang 16

• Nhóm phân tích cú pháp theo mô hình trên cơ sở phụ thuộc based models)

(Dependence-Năm 1996, Collins giới thiệu mô hình phân tích cú pháp theo phương pháp xác suất trong khuôn khổ văn phạm phụ thuộc (dependence grammar) Mỗi câu được biểu diễn bởi một tập (bag) các baseNPs của nó và các từ khác với

sự phụ thuộc giữa chúng Trong đó sự phụ thuộc được định nghĩa là quan hệ

giữa 2 từ trong một câu (từ bổ nghĩa và từ chính), được viết là từ bổ nghĩa Æ

từ chính Mỗi cây tương ứng với một câu gồm n từ sẽ chứa n sự phụ thuộc

giữa các từ, mỗi sự phụ thuộc gắn với một xác suất [11][23]

• Ngoài ra còn nhiều công trình khác như: công trình nghiên cứu sử dụng các dữ liệu từ corpus của Weischedel và cộng sự, (1993) [12]; Chitrao và Grishman (1990); Atwell (1987) và Garside và Leech (1987);…

2.2 Những kết quả trong nước

Đa số các ứng dụng về phân tích cú pháp trong nước hiện nay, thường áp dụng trong lĩnh vực dịch máy đều sử dụng các phương pháp phân tích cú pháp không

• Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi, Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP

Hồ Chí Minh thực hiện, đã tạo được các luật của văn phạm phi ngữ cảnh (khoảng 4000 luật sinh) cho ngôn ngữ tiếng Anh và tiếng Việt, xây dựng

Trang 17

các ánh xạ chuyển đổi cây phân tích Đề tài hiện thực phân tích cú pháp bằng giải thuật Earley có cải thiện [27][28]

Các ứng dụng về phân tích cú pháp bằng phương pháp xác suất ở trong nước chưa thấy được công bố

Qua những công trình nêu trên, cho thấy rằng phương pháp phân tích cú pháp bằng xác suất có ưu điểm hơn các phương pháp khác là giải quyết được sự nhập nhằng trong cú pháp của ngôn ngữ tự nhiên là cho kết quả chỉ là một cây phân tích phù hợp nhất Phương pháp này mới được phát triển mạnh mẽ trên thế giới trong những năm gần đây và vẫn còn là vấn đề mở trong nghiên cứu Đối với nước ta, hiện nay hướng nghiên cứu này chưa được phát triển Do vậy, đề tài nghiên cứu này nhằm tìm hiểu phân tích cú pháp bằng phương pháp xác suất, coi đây như là một thử nghiệm của những kết quả nghiên cứu lý thuyết của thế giới nhằm khẳng định tính hiệu quả của giải thuật

Trang 18

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT & PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Ngôn ngữ tự nhiên và văn phạm tiếng Anh

3.1.1 Ngôn ngữ tự nhiên là phương tiện giao tiếp của con người và là một thành

phần cốt yếu trong cuộc sống của chúng ta, nó bao gồm ngôn ngữ nói và ngôn ngữ viết Đặc điểm của ngôn ngữ tự nhiên là sự nhập nhằng không rõ nghĩa Đó

là điều mà chúng ta cần phải quan tâm khi xử lý ngôn ngữ tự nhiên bằng máy tính [26]

3.1.2 Văn phạm tiếng Anh [16][25][26][30]

1 Từ : Là đơn vị cơ bản nhất Trong tiếng Anh có hai cách hình thành một từ

Bất kỳ từ nào trong bốn loại từ chính đều có thể được dùng để tạo thành cụm từ (phrase), khi đó từ được gọi là head của cụm từ, mô tả hành động và đặc tính của cụm từ đó

Trong vài trường hợp, thành phần head cần thêm các cụm từ phụ theo sau

nó để diễn tả nghĩa mong muốn Cụm từ như vậy gọi là complement (phần bổ sung) của thành phần head

Ngoài ra, trong tiếng Anh, thứ tự các từ trong câu rất quan trọng, nó quyết định ý nghĩa của câu Nhóm từ góp phần tạo nên câu như cụm danh từ, cụm động

từ, cụm tính từ,…

Trang 19

Một mệnh đề là một nhóm từ bao gồm chủ ngữ, động từ và túc từ hoặc bổ ngữ Một câu chứa một mệnh đề được gọi là câu đơn giản, ngược lại câu chứa nhiều mệnh đề thì được gọi là câu ghép Trong tiếng Anh có bốn dạng câu căn bản:

Câu miêu tả (hoặc khẳng định) The cat is sleeping

Câu hỏi đúng sai, cảm thán Is the cat sleeping ?

2 Những phần tử của cụm danh từ đơn giản :

Thành phần head trong cụm danh từ đơn giản có các loại :

- Danh từ chung (common nouns): chỉ người, vật thuộc cùng loại (man, table…)

- Danh từ riêng ( proper noun hoặc name): để gọi riêng một người, một vật, thường được viết hoa trong tiếng Anh ( Mary, Viet Nam…)

- Đại từ (pronouns): he , she, they…

Danh từ được chia thành 2 lớp chính:

- Danh từ đếm được (count nouns): book, books…

- Danh từ không đếm được (uncount nouns): sand, water…

Trong cụm danh từ, ngoài head ra còn có các thành phần khác:

- ordinal: first, second…

- cardinal: one, two…

- determiners: article (the, a, an), demontratives (this, that), possessives (John’s books, her…)

Trong tiếng Anh, chúng ta phân biệt:

- Number (số); singular (số ít), plural (số nhiều)

Trang 20

- Person (ngôi): first person (ngôi thứ nhất), second person (ngôi thứ hai), third person (ngôi thứ ba)

- Gender (giống): masculine (giống đực), feminine (giống cái), neuter (trung tính)

Ví dụ :

Số Ngôi thứ nhất Ngôi thứ hai Ngôi thứ ba

Nhiều Our Your Their

3 Cụm động từ:

Động từ là những từ diễn tả sự tồn tại trạng thái hoặc hành động Mỗi động từ

phải ở trong 5 dạng cơ bản sau:

Simple present go, am, cries Simple past went, was, cried Present participle going, being, crying Past participle gone, been, cried

Động từ được chia thành các lớp khác nhau:

- Trợ động từ (auxiliary verbs): be, do, have

- Động từ hình thái (modal verbs): will, can, could

- Động từ chính (main verbs): eat, ran, believe

Các thì (tenses) cơ bản:

Trang 21

Thì Cấu trúc động từ được chia Ví dụ

Simple present Simple present He walks to the store

Simple past Simple past He walked to the store

Simple future Will + infinitive He will walk to the store Present perfect Have in present + past participle He has walked to the store Future perfect Will + have in infinitive + past

participle He will have walked to the store Past perfect Have in the past + past participle I had walked to the store

Give NP + NP (to) Jack gave the book to the library

4 Cụm tính từ:

Tính từ thường có chức năng bổ nghĩa cho các thành phần khác trong câu, dùng

để miêu tả đặc điểm, tính chất của con người, sự vật, hiện tượng Có thể chia làm

2 loại tính từ : tính từ miêu tả (big, small,…) và tính từ quan hệ (presidential, …)

Trang 22

Những cụm tính từ đơn giản chỉ bao gồm một tính từ đơn Những cụm từ phức

tạp cần những bổ ngữ như PP(prepositional phrase) ,VP (verb pharse),…

PP [with] Jack was pleased with the prize

VP [inf] Jack seem willing to lead the chorus

S [that] Jack was angry that he was left behind

The firm gave Sam a watch

Chủ từ + động từ + túc từ + bổ ngữ They made him redundant

6 Câu ghép:

Câu ghép là câu có nhiều hơn hai mệnh đề và sự liên kết giữa hai mệnh đề này có

thể là :

Một dấu chấm phẩy We fished all day; we didn’t cacth a thing

Một dấu chấm phẩy kèm theo

một phó từ có chức năng liên

kết

We fished all day; however, we didn’t cacth a thing

Một liên từ We fished all day but we didn’t cacth a thing

3.2 Ngôn ngữ hình thức và văn phạm phi ngữ cảnh (CFG) [11][17]

Theo văn phạm sinh của N.Chomsky thì mỗi một ngôn ngữ đều do một văn phạm

tương ứng sinh ra Tất cả các văn phạm được định nghĩa bằng bộ tứ :

Trang 23

G = (V, N, S,P)

Trong đó :

+ G là ký hiệu cho văn phạm (Grammar) + V là tập hữu hạn có các đối tượng được gọi là các ký hiệu kết thúc

+ N là tập hữu hạn có các đối tượng được gọi là các ký hiệu không kết thúc

+ S là ký hiệu mục tiêu, thuộc tập N

+ P là tập luật sinh có dạng α → β , với α , β ∈ { V ∪ N}*

Ngôn ngữ do G sinh ra được ký hiệu là L(G) là tập hợp chuỗi các ký hiệu kết thúc được sinh ra từ S

Định nghĩa văn phạm phi ngữ cảnh :

Văn phạm G = (V, N S, P) được gọi là văn phạm phi ngữ cảnh nếu mọi luật sinh trong P có dạng A → α với A ∈ V và α ∈ (V∪N)*

Văn phạm phi ngữ cảnh được sử dụng rộng rãi trong việc đặc tả cú pháp cho ngôn ngữ lập trình và ngôn ngữ tự nhiên Các giải thuật phân tích cú pháp cho văn phạm phi ngữ cảnh đã và đang đóng vai trò lớn trong các chương trình xử lý ngôn ngữ tự nhiên

Trong phạm vi đề tài này chỉ nghiên cứu văn phạm phi ngữ cảnh vì theo [12], văn phạm phi ngữ cảnh là lớp văn phạm rất quan trọng, nó đủ mạnh để mô tả hầu hết các cấu trúc trong ngôn ngữ tự nhiên và giới hạn đủ để xây dựng các công cụ phân tích cú pháp hiệu quả trong phân tích câu

3.3 Hệ thống nét và văn phạm gia tố [17]

Nét là một phần của thông tin kết hợp với từ Hệ thống nét cung cấp một số mục tiêu cần xem xét Dùng hệ thống nét để kiểm tra được các ràng buộc giữa chủ từ

Trang 24

và động từ, giữa mạo từ và danh từ, từ đó chia số nhiều hay số ít, các dạng khác nhau khi chia thì,…

* Một số hệ thống nét cơ bản cho tiếng Anh:

3.3.1 Nét về ngôi và số AGR (Person and Number Features):

Dùng 1, 2, 3 để chỉ ngôi thứ; s, p để chỉ số ít, số nhiều Do đó AGR có các trị: 1s, 1p, 2s, 2p, 3s, 3p

3.3.2 Nét cho động từ VFOM (Verb - Form Feature):

Nét này biểu thị dạng hiện tại của động từ

3.3.3 Nét cho sự phối hợp của các thành phần SUBCAT:

Nét Subcat mô tả các từ loại phải theo sau một động từ (bổ ngữ của động từ) để việc sử dụng động từ trong câu hợp cú pháp

3.3.4 Nét nhị phân (Binary Feature)

Nét nhị phân rất thông dụng, các trị thường được biểu diễn bằng dấu + hoặc - để diễn tả có hay không có nét đó

* Phân tích cú pháp với hệ thống nét (Parsing with Fearture)

Cần một giải thuật phân tích cú pháp với hệ thống nét Có thể mở rộng các giải thuật chart parser để xử lý văn phạm gia tố phi ngữ cảnh với hệ thống nét

3.4 Lý thuyết xác suất cơ bản

3.4.1 Một số định nghĩa và công thức xác suất [17]

Xác suất của một biến cố (Probability of an event) : Độ đo khả năng xuất hiện

của một biến cố

Hàm xác suất (Probability function):

Ω là không gian các sự kiện rời rạc và P là xác suất phân bố trên Ω thoả mãn tính chất:

1) 0 ≤ P (ei) ≤ 1, ∀ei ∈ Ω

Trang 25

2) ∑i=1 n P(ei) =1

Xác suất có điều kiện: xác suất của biến cố A được tính với điều kiện biến cố B

đã xảy ra được gọi là xác suất có điều kiện của A

P (A|B) = P (A ∧ B) / P (B)

Trong đó xác suất P (A ∧ B) là xác suất khi 2 sự kiện A và B xảy ra đồng thời Công thức Bayes cho xác suất có điều kiện:

P (A | B) = P (B | A) * P (A) / P (B) hay P (A | B) * P (B) = P (B | A) * P (A)

Hai biến cố được gọi là độc lập nhau khi sự xuất hiện của biến cố này không gây ảnh hưởng đến khả năng xuất hiện của biến cố kia

Hai biến cố A, B độc lập nhau ⇔ P (A|B) = P (A)

và P(A & B) = P(A) * P(B)

3.4.2 Xác suất và ngôn ngữ

Lý thuyết xác suất được ứng dụng nhiều trong xử lý ngôn ngữ tự nhiên, ví dụ

trong ứng dụng Part_Of_Speech Tagging, cho một câu có các từ nhập nhằng về

từ loại, câu hỏi là từ loại nào thích hợp dùng cho mỗi từ ?

Ví dụ: Gọi biến ngẫu nhiên mô tả từ loại C ∈ (N,V)

Gọi w là biến ngẫu nhiên mô tả 1 từ cụ thể

Ta có: P (C=N| w=flies) viết tắt là P(N | flies) mô tả khả năng là danh từ ứng với

từ flies đã biết Tương tự P(V | flies) mô tả khả năng là động từ ứng với từ flies

đã biết

Trong phạm vi đề tài sẽ ứng dụng lý thuyết xác suất trong việc phân tích cú pháp

Để giải quyết sự nhập nhằng khi phân tích cú pháp của một câu trước đó chưa phân tích, ta cần dựa vào dữ liệu của những câu đã được phân tích trước đó và

Trang 26

ước lượng xác suất cho câu cần phân tích, với dữ liệu ban đầu càng lớn thì khả năng ước lượng càng chính xác [17]

3.4.3 Thông số ước đoán khả năng xảy ra lớn nhất (MLE)

Cho một mô hình phân tích cú pháp thống kê với văn phạm G, khi đó cây phân tích cú pháp có khả năng xảy ra lớn nhất của một câu cần phân tích s là 11][23]

),

|(maxarg

τ

τ =

3.4.4 Corpus – database của ngôn ngữ

Corpus là tập dữ liệu mẫu và đặc trưng được dùng làm dữ liệu nhập cho các quá trình xử lý ngôn ngữ tự nhiên trên máy tính Corpus có thể đơn thuần là tài liệu hay văn bản chứa một đoạn văn được viết bằng ngôn ngữ nào đó

Tuy nhiên, để quá trình xử lý ngôn ngữ tự nhiên hiệu quả hơn, các nhà ngôn ngữ học đã xử lý các corpus thành các tagged corpus – corpus mà trong đó các từ và các mệnh đề đi kèm từ loại của chúng và người ta cũng tạo ra các corpus, đếm số lần xuất hiện của các cặp từ loại, sự xuất hiện của các từ, tính được xác suất của chúng hoặc các treebank – corpus mà trong đó chứa các mẫu cây phân tích cú pháp [17][25]

Ví dụ: Với 1.273.000 từ thu thập được, từ flies xuất hiện 1000 lần, với nghĩa N xuất hiện 400 lần, với nghĩa V xuất hiện 600 lần Khi đó, xác suất của từ flies với

2 nghĩa trên được tính như sau:

Trang 27

- Brown corpus: phát triển năm 1961 của Đại học Brown, có khoảng 1triệu từ

- LOB corpus: phát triển năm 1961, có khoảng 1triệu từ

- Brishtish National Corpus (BNC): phát triển năm 1965, có khoảng 110triệu từ, trong đó 10triệu từ xuất phát từ ngôn ngữ nói và còn lại là ngôn ngữ viết

- Penn Treebank : có khoảng 1triệu từ, đã được chèn từ loại ngay sau vị trí các từ trong câu

- Và một số corpus khác

3.5 Văn phạm phi ngữ cảnh có xác suất (PCFG)

Văn phạm phi ngữ cảnh có xác suất là một văn phạm phi ngữ cảnh có gắn xác suất vào trong các luật sinh [17][25]

Một văn phạm phi ngữ cảnh có xác suất G bao gồm :

N P

trong đó xác suất P(Ni →ζj) được hiểu là P(Ni →ζj | Ni)

PCFG models of tree structures [20][23]

Trong PCFG xác suất của cây t được định nghĩa :

Trang 28

A C

A P P

Trong đó Cτ(A >α) là số lần luật A >α dùng để dẫn xuất ra τ

Để ước lượng PCFG từ một treebank cho trước, ta giả sử tập huấn luyện của treebank gồm n cây t1, t2, … tn Mỗi cây ti gồm ri luật αij >βij , 1≤ j ≤ ri Khi đó hàm khả năng xảy ra của corpus được viết như sau:

β α

τ

βα

βατ

) (

)(

)()

(

C n

i j n

ij ij

n i

i

P P

P corpus

L

Trong đó Cτ (α >β) là số lần luật (α >β) xuất hiện trong tập huấn luyện dùng

để dẫn xuất ra t Và tham số ước lượng khả năng xảy ra lớn nhất được ước lượng bởi :

) (

T

V C

C P

τ

βα

βαβ

α

3.6 Treebanks

Treebank là tập các mẫu cây phân tích cú pháp và các công cụ học Hiện nay đã

có rất nhiều treebanks, trong đó Penn Treebank được biết đến nhiều nhất vì số lượng và tính sẵn sàng của nó [1][11][24]

Một ví dụ về cấu trúc cây của Penn Treebank:

Trang 29

Sau đây trình bày một số ký hiệu trong Penn Treebank [9],[11]

Bảng 3.1: tập ký hiệu tag của Penn Treebank corpus

5 FW Từ tiếng nước khác Từ tiếng Pháp, Đức

8 JJR Tính từ so sánh hơn higher, more, lower

9 JJS Tính từ so sánh nhất most, largest, least

11 MD Động từ đặc biệt- modal

12 NN Danh từ số ít book, paper, salary

13 NNS Danh từ số nhiều books, months, benefits

14 NNP Danh từ riêng số ít John, Mary, Mr., Inc

15 NNPS Danh từ riêng số nhiều Japanese, Labs, Fords

Trang 30

17 POS Sở hữu cách ’s

19 PRP$ Đại từ sở hữu his, their, yours

20 RB Phó từ, trạng từ too, now, seriously

21 RBR Phó từ, trạng từ so sánh hơn more, earlier, less

22 RBS Phó từ, trạng từ so sánh nhất most, hardest

24 SYM Biểu tượng

27 VB Động từ nguyên mẫu say, think, resign

28 VBD Động từ chia thì quá khứ said, thought, resigned

29 VBG Động danh từ narrowing, controlling

30 VBN Quá khứ phân từ

31 VBP Động từ số nhiều are, enjoy, take

32 VBZ Động từ số ít is, enjoys, takes

33 WDT Wh-determiner whatever, which, that

35 WP$ Đại từ quan hệ sở hữu whose

36 WRB Phó từ/ trạng từ quan hệ when, where, how

Trang 31

43 ) Dấu ngoặc phải

44 “ Dấu nháy kép

45 ` Dấu nháy đơn trái

46 ” Dấu nháy kép trái

47 ’ Dấu nháy đơn phải

48 “ Dấu nháy kép phải

Bảng 3.2: Tập ký hiệu tag của Penn Treebank corpus bổ sung

1 S Bắt đầu một mệnh đề nhưng

không bắt đầu từ các liên từ chỉ

sự phụ thuộc hay đại từ quan

(CONJP as well as) Casey) (VP saw (NP the ball)

Trang 32

13 INTJ Thán từ

15 NAC Dùng để giới hạn tầm vực của

các bổ ngữ trong ngữ danh từ Huntsville) (, ,) (NNP Ala.) (NP-SBJ (NAC (NNP

(, ,)) (NNP Boeing))

17 PRT Tiểu từ chỉ chung mạo từ, phó

từ, giới từ, tiền tố, hậu tố

18 QP Ngữ liên quan đến số lượng

dùng trong ngữ dang từ (QP (CD 5.8) (CD million))

22 WHADVP Ngữ trạng từ kết hợp với đại từ

quan hệ

23 WHNP Ngữ danh từ kết hợp với đại từ

quan hệ

(WHNP (WP$ whose) (NNS shareholders))

24 WHPP Ngữ giới từ kết hợp với đại từ

quan hệ (WHPP (IN in) (WHNP (WDT which)

3.7 Các giải thuật xây dựng cây phân tích cú pháp bằng xác suất

Ta có thể dùng một số giải thuật sau để tìm cây phân tích cú pháp có xác suất cao

nhất của câu cần phân tích s, Pbest(t) sao cho :

Pbest (t) = arg maxt P(t|s,G)

Trong đó :

Trang 33

s là câu cần phân tích cú pháp

G là văn phạm phi ngữ cảnh có xác suất

t là cây phân tích cú pháp cần tìm

Theo [22] thì tất cả các giải thuật phân tích cú pháp đảm bảo 2 tính chất đúng

tiền tố (correct-prefix) và dự đoán không theo quy tắc (strong predictiveness) đều

có thể mở rộng để trở thành giải thuật phân tích cú pháp có xác suất Sau đây là một số giải thuật được đánh giá tốt trong phân tích cú pháp có xác suất

3.7.1 Giải thuật CKY(Cocke,Kasami, Younger) mở rộng, CKY+ [18][21]

Giải thuật CKY+ là một giải thuật phân tích cú pháp theo sơ đồ từ dưới lên, sử dụng văn phạm nhập là văn phạm phi ngữ cảnh G trong dạng chuẩn Chomsky (CNF) Trong CNF, mỗi luật có một trong hai dạng:

2 Với mỗi cụm từ có chiều dài l (từ 2 đến n từ):

Duyệt từ trái qua phải, kết hợp các cụm để tạo nên cụm từ mới với chiều dài l, trong đó, nếu có nhiều luật sinh mở rộng cho cùng một thành phần (vế trái trùng nhau) thì chọn luật sinh có xác suất lớn hơn

3 Nếu 1 ∈ chart [0,n], cho kết quả là cây phân tích cú pháp tương ứng câu

w

3.7.2 Giải thuật Best-First Parsing [17]

Giải thuật tìm cây phân tích có xác suất cao nhất, giải thuật này được nghiên cứu

và đánh giá là một trong những giải thuật hiệu quả trong phân tích cú pháp đối

Trang 34

với văn phạm phi ngữ cảnh có xác suất với treebank lớn [10] Giải thuật được tóm tắt như sau [12]:

• Để thêm một thành phần C vào vị trí từ p1 đến p2 thực hiện các bước sau:

1 Thêm C vào sơ đồ từ vị trí p1 đến p2

2 Với bất kỳ cung hoạt động có dạng X → X1…o C … Xn từ vị trí

p0 đến p1; thêm cung mới X → X… C1 …Xo từ p0 đến p1

• Để thêm một cung hoạt động có dạng X→ X1 … C o C’…Xn vào vị trí

từ p1 đến p2 thực hiện các bước sau:

1 Nếu C là thành phần cuối cùng (tức là cung đã hoàn thành), thêm một thành phần có dạng X vào agenda

2 Ngược lại, nếu có 1 thành phần Y dạng C’ trong sơ đồ từ vị trí p2

đến p3 thì thêm 1 cung hoạt động X→ X1 …C C’o …Xn từ vị trí p0

đển p3 (có thể thêm nhiều cung hoặc tạo nhiều thành phần)

3.7.3 Giải thuật ViterbiPCFGParser [ 32]

ViterbiPCFGParser là một giải thuật phân tích cú pháp từ dưới lên cho PCFG, dùng lập trình động để tìm cây phân tích đơn nhất phù hợp với câu phân tích ViterbiPCFGParser phân tích câu bằng cách điền vào bảng các thành phần thích hợp nhất Bảng này lưu giữ tất cả các cây diễn dịch phù hợp nhất với bất kỳ chiều dài và giá trị nào của node Đặc biệt, bảng này có chứa entry gồm mọi chỉ số đầu, chỉ số cuối và giá trị của node, lưu giữ các cây con phù hợp nhất có chiều dài từ chỉ số đầu đến chỉ số cuối và giá trị node tương ứng

Đầu tiên ViterbiPCFGParser điền vào các entry các thành phần có chiều dài bằng

1 (tức chỉ số cuối lớn hơn chỉ số đầu 1 đơn vị) Tiếp theo là điền các thành phần

có chiều dài bằng 2 và cứ thế tiếp tục điền các thành phần có chiều dài ngày càng

Trang 35

lớn hơn cho đến khi toàn bộ bảng được điền xong Cuối cùng, giải thuật trả về bảng các entry cho thành phần bao trùm câu phân tích

Mã giả của giải thuật được trình bày như sau:

• Create an empty most likely constituent table, MLC

• For width in 1 len(text):

o For start in 1 len(text)-width:

For prod in grammar.productions:

For each sequence of subtrees [t[1], t[2], , t[n]] in MLC, where t[i].node = prod.rhs[i], and the sequence covers [start:start+width]:

old_p = MLC[start, start+width, prod.lhs]

new_p = P(t[1])*P(t[1])* *P(t[n])*P(prod)

if new_p > old_p:

new_tree = Tree(prod.lhs, t[1], t[2], , t[n])

MLC[start, start+width, prod.lhs] = new_tree

• Return MLC[0, len(text), start_symbol]

3.7.4 Giải thuật stack decoding [11]

Ý tưởng của giải thuật được tóm tắt như sau:

- Giải thuật được mô tả thông qua việc dùng một hàng đợi lưu trữ các phần tử được sắp thứ tự để thực hiện push, pop các phần tử có thứ hạng cao nhất Cấu trúc của hàng đợi được dùng là dữ liệu dạng heap

- Bước khởi đầu của quá trình phân tích: Bắt đầu bằng 1 hàng đợi có chứa

1 phần tử

- Bước lặp :

+ Lấy phần tử có xác suất cao nhất từ đầu của hàng đợi

+ Mở rộng hàng đợi bằng cách tăng từ n bước dẫn xuất thành n+1 bước dẫn xuất Kết quả trả về thứ tự xác suất được sắp xếp trên hàng đợi

Trang 36

+ Quá trình lặp kết thúc khi có 1 cây dẫn xuất hoàn thành trên đỉnh của hàng đợi

- Nếu hàng đợi là vô hạn thì giải thuật này được đảm bảo là tìm được cây phân tích có xác suất cao nhất bởi vì những dẫn xuất có xác suất cao hơn luôn được mở rộng trước những dẫn xuất có xác suất thấp

Chính vì thế giải thuật này được đánh giá là complete và optimal (đảm bảo tìm ra

1 lời giải và lời giải đó là tốt nhất nếu có nhiều lời giải)

3.7.5 Giải thuật A* search parsing [14]

Mã giả giải thuật được trình bày như sau:

parse(sentence, goal, estimate)

create a new chart and new agenda

for each word w:[start,end] in the sentence

add w:[start,end] to the agenda

Trang 37

bestTraversal(e) = t

finishEdge(Edge e)

add e to the chart

for all adjacent edges f in the chart

for all labels x

let t = combine(e, f )

if t is valid

exploreTraversal(t)

3.8 Phương pháp nghiên cứu

Đề tài được thực hiện bằng phương pháp nghiên cứu lý thuyết về các lĩnh vực có liên quan và dựa vào một số mô hình mẫu của thế giới để xây dựng giải thuật để giải quyết bài toán Sau đó lập trình kiểm chứng

Phần nghiên cứu lý thuyết bao gồm: ngôn ngữ tự nhiên, văn phạm tiếng Anh, lý thuyết xác suất, văn phạm phi ngữ cảnh có xác suất, treebank

Trong đề tài đã tham khảo các giải thuật mẫu của các tác giả: J.-C Chapperlier, Michael Collin, Mark Johnson, M.Rajman, Khalil Sima’an và một số tác giả khác Trên cơ sở đó, lựa chọn và xây dựng mô hình để giải quyết bài toán

Như đã trình bày ở chương một, phạm vi của đề tài không thể xây dựng một ngân hàng dữ liệu huấn luyện và ngân hàng dữ liệu để kiểm tra cũng không thể có đầy

đủ bản quyền toàn bộ dữ liệu của Penn treebank Do đó, việc kiểm tra tính đúng đắn của chương trình dựa trên sự thống kê, đánh giá của tác giả thông qua các tiêu chuẩn đánh giá

Trang 38

CHƯƠNG 4 THIẾT KẾ & HIỆN THỰC ĐỀ TÀI

Như đã đề cập, mục tiêu của đề tài là nghiên cứu các giải thuật phân tích cú pháp bằng xác suất Để phân tích cú pháp, có nhiều hướng tiếp cận, ở chương này sẽ trình bày chi tiết về cách tiếp cận trong đề tài theo hướng phân tích cú pháp dựa vào mô hình Non-Lexical PCFG, trong đó văn phạm phi ngữ cảnh có xác suất PCFG được ước lượng từ treebank

4.1 Mô hình thiết kế của đề tài

Mô hình thiết kế đề tài được thể hiện như hình 4-1

Treebank

Transform

Transformed trees (parent annotation right_branch_binary tree)

Count local tree

Precision/ Recall

Hình 4.1: Mô hình hiện thực đề tài

Trang 39

Theo mô hình trên: Giai đoạn thứ nhất tìm hiểu cấu trúc file của treebank và chuyển đổi những cây “flat trees” trong tập huấn luyện của treebank ban đầu sang dạng các cây nhị phân hoặc cây nhị phân có gắn nhãn của nút cha (parent annotation right_branching binary trees), sau đó từ tập cây nhị phân này, ta chuyển và đếm số lần xuất hiện của tất cả các luật sinh để ước lượng tập PCFG Giai đoạn tiếp theo, trên cơ sở PCFG vừa ước lượng, dùng giải thuật để tìm cây phân tích (parse tree) có khả năng xảy ra lớn nhất cho câu cần phân tích Sau khi

đã tìm được cây phân tích cho câu dữ liệu đầu vào được sinh ra từ PCFG, ta tiến hành tái chuyển đổi về dạng cây nguyên thuỷ ban đầu Cuối cùng dùng tập các cây phân tích mẫu để kiểm tra và đánh giá mô hình thông qua các thông số kiểm định

4.1.1 Lựa chọn sự biểu diễn cho các cây (Tree representation) để tối ưu mô hình

Văn phạm phi ngữ cảnh có xác suất (PCFG) cung cấp một mô hình thống kê đơn giản trong xử lý ngôn ngữ tự nhiên Người ta thường đưa ra một phương pháp minh bạch về việc xây dựng và ước lượng tần số xuất hiện của tập văn phạm này

từ treebank, và một hệ thống phân tích cú pháp trên phạm vi thông tin lớn (broad coverage parsing) vẫn có thể được sử dụng bằng cách dùng một giải thuật phân

tích cú pháp để tìm cây phân tích cú pháp phù hợp nhất với câu dữ liệu đầu vào đối với văn phạm sinh từ treebank Hệ thống phân tích cú pháp bằng PCFG thường được đánh giá là hoạt động tốt như các hệ thống phân tích cú pháp trên phạm vi thông tin lớn khác để dự đoán cấu trúc cây phân tích cú pháp từ câu dữ liệu đầu vào đã được POS tag (Charniak, 1996) Mặc dù mô hình PCFG không hoạt động tốt như mô hình dependence-grammar của Collin, nhưng sự đơn giản của nó làm cho quá trình phân tích trở nên minh bạch cả về mặc lý thuyết lẫn kinh nghiệm [20]

Theo Mark Jonshon, một trong những điểm yếu của mô hình PCFG là nó không nhạy cảm với mối quan hệ không cục bộ (non-local relationship) giữa các nút, tức

là nó không mô tả được một cách đầy đủ mối quan hệ giữa cây con bị chi phối bởi

Trang 40

một nút và những nút chi phối cây này Nếu những mối quan hệ này là đáng kể thì PCFG sẽ trở thành một mô hình ngôn ngữ nghèo nàn

Nói một cách nôm na, nếu các cây trong tập huấn luyện càng có nhiều nút thì càng làm tăng thêm giả định độc lập (independence assumptions) trong mô hình PCFG được sinh ra từ tập huấn luyện các cây này Do đó, để làm giảm giả định độc lập tiềm ẩn này trong một PCFG: thứ nhất, số lượng nút trên các cây trong tập huấn luyện càng ít thì sẽ giảm được giả định độc lập trong mô hình ngôn ngữ được sinh

ra, phương pháp thứ hai là mã hoá thêm những thông tin vào mỗi nhãn các nút của cây Theo trực giác, mỗi nhãn trên một nút là một “kênh truyền đạt thông tin” (comunication chanel), làm nhiệm vụ chuyển tải thông tin giữa cây con bị chi phối bởi nút và phần của cây không bị chi phối bởi chính nút đó Thông tin bổ sung được thêm vào nhãn của nút về mặt ngữ cảnh sẽ làm giảm đi giả định độc lập tìm

Định dạng
Số trang	109
Dung lượng	783,35 KB