Đề tài này vận dụng mô hình xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp với dữ liệu thống kê là tập văn phạm được rút trích trực tiếp từ Penn treebank tập các cây phân t
Trang 1Lời cám ơn
-o0o -
Tôi xin gửi lời cám ơn chân thành nhất đến cô PGS.TS Phan Thị Tươi, cô đã tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên tôi hoàn thành luận văn này Tôi xin chân thành cám ơn tất cả các thầy cô và phòng Sau đại học trường đại học Bách Khoa đã giúp đỡ, dạy dỗ nhiệt tình trong thời gian tôi theo học và nghiên cứu tại trường Và tôi cũng xin gửi lời cám ơn đến thầy Dương Tuấn Anh đã tận tình chỉ dẫn cách nghiên cứu và trình bày luận văn Cám ơn anh Nguyễn Chí Hiếu, anh Nguyễn Anh Tuấn đã truyền đạt kinh nghiệm để tôi học hỏi hoàn thành luận văn
Xin chân thành cám ơn lãnh đạo Văn phòng HĐND và UBND tỉnh Khánh Hoà cùng các đồng nghiệp đã tạo điều kiện thuận lợi để tôi theo học và nghiên cứu tại trường
Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình, bạn bè và những người thân đã luôn động viên, khuyến khích giúp tôi hoànthành nhiệm vụ học tập
Ngoài ra, luận văn này hoàn thành cũng nhờ nguồn dữ liệu chủ yếu lấy từ Penn Treebank
Trong thời gian có hạn, luận văn hoàn thành chắc chắn không tránh khỏi những sai sót, rất mong được sự chỉ dẫn và góp ý thêm của quí thầy cô và các bạn
Nguyễn Thị Thanh Tâm
Trang 2Tóm tắt
-o0o -
Phân tích cú pháp là một vấn đề cơ sở và đóng vai trò rất quan trọng trong tiến trình xử lý ngôn ngữ tự nhiên Hầu hết các ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích thông tin, nhận dạng văn bản, bắt lỗi chính tả,… sẽ đạt chất lượng cao nếu có một hệ thống phân tích cú pháp có độ chính xác cao Một trong những khó khăn chính của quá trình xử lý ngôn ngữ tự nhiên là phân
tích cú pháp thể hiện ở sự “nhập nhằng” (ambiguation) Sự nhập nhằng trong
phân tích cú pháp thường dẫn đến có nhiều cây phân tích phù hợp với một câu đầu vào
Trước đây, việc phân tích cú pháp thường được xây dựng dựa trên tập văn phạm được tạo bằng tay trên một phạm vi thông tin nhỏ, điều này đòi hỏi mất nhiều công sức và thiếu chính xác, vấn đề nhập nhằng chưa được giải quyết thoả đáng
Đề tài này vận dụng mô hình xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp với dữ liệu thống kê là tập văn phạm được rút trích trực tiếp từ Penn treebank (tập các cây phân tích cú pháp mẫu của tiếng Anh được làm bằng tay bởi các nhà ngôn ngữ học) nhằm tìm ra một cây phân tích cú pháp phù hợp nhất với mỗi câu đầu vào
Sự biểu diễn của các cây trong treebank cũng có một ảnh hưởng đáng kể đến hiệu suất của quá trình phân tích cú pháp dựa trên PCFG được ước lượng từ treebank đó Vì vậy, trong quá trình xây dựng tập văn phạm, tác giả đã nghiên cứu cách chuyển đổi những cây “flat trees” trong treebank sang dạng các cây có gắn thêm vào nút con thông tin của nút cha (parent anotation trees) Kết quả đạt được đã cải tiến giá trị trung bình của các thông số kiểm định Precision từ 78% lên 85.25% và Recall từ 73% lên 84.40% so với việc biểu diễn các cây dạng binary thông thường
Trang 3Tác giả đã sử dụng giải thuật CKY mở rộng, gọi là CKY+ cho việc tìm kiếm cây phân tích cú pháp phù hợp nhất (có xác suất lớn nhất) Đây là một trong những giải thuật có độ chính xác cao, thời gian phân tích nhanh Thời gian trung bình khi thực hiện giải thuật CKY+ cho quá trình phân tích cú pháp thực hiện trên máy Pentium III, 500mhz, 128Mb RAM cho các câu có chiều dài dưới 25 từ khoảng 0.28giây, các câu có chiều dài từ 25 đến 40 từ khoảng 3giây và các câu
từ 40 từ trở lên là 6.21giây
Trang 4Abstract
Parsing is a fundamental problem in language processing for both machines and humans Most natural language applications such as Information Extraction, Machine Translation, Speech Recognition or Spelling Correction would almost certainly benefit from high-accuracy parsing Ambiguity is a major problem in parsing Ambiguity often leads to an input sentence having many possible parse trees
In previous approaches, the parsing problem is base on a grammar which is crafted, often in some small subcategorization information It cost a lot of time and effort and often inaccurately Ambiguity is not to slove satisfactorily
hand-This thesis uses statistical models base on PCFG estimate from treebank to solve ambiguity problem in parsing natural language; statistical approaches assign a probability to each tree, thereby ranking competing trees in order of plausibility The kinds of tree representations used in a treebank corpus can have a dramatic effect on performance of a parser based on PCFG estimate from that corpus So
in this thesis, we studied to transform the original trees in the treebank to parent anotation trees This kind of tree representations have improved a treebank PCFG
based parser’s average precision from 78% to 85.25% and recall from 73% to
84.40% in compare with normal binarize tree representations
The algorithm has been selected to find the most likely parsed tree is an extension of the CKY algorithm, call CKY+ This algorithm is accurate and fast for parsing based on PCFG The average time need to run CKY+ algorithm in parsing process on Pentium III, 500mhz, 18Mb RAM is around 0.28 second for the under 25 word sentence length; 3 second for sentences being over 25 words
in length and 6.21 second for sentences being over 40 words
Trang 5CHƯƠNG 1 PHÁT BIỂU VẤN ĐỀ 1.1 Đặt vấn đề
Trong lĩnh vực khoa học máy tính, xử lý ngôn ngữ tự nhiên (NLP: Nature Language Processing) ẩn chứa nhiều thách thức nên luôn là mục tiêu nghiên cứu của các nhà khoa học, với mong muốn máy tính từng bước hiểu được ngôn ngữ con người
Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tìm kiếm bằng ngôn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi chính tả (SC: Spelling Correction), v.v… Trong đó, phân tích cú pháp là một vấn đề cơ sở và đóng một vai trò rất quan trọng trong tiến trình xử lý cả cho ngôn ngữ máy và ngôn ngữ tự nhiên
Hầu hết các ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích thông tin, nhận dạng văn bản, bắt lỗi chính tả,… sẽ đạt chất lượng cao nếu có một hệ thống phân tích cú pháp có độ chính xác cao Từ quan điểm trên, tìm hiểu một phương pháp phân tích cú pháp tốt là điều rất cần thiết
Một trong những khó khăn chính của phân tích cú pháp là sự “nhập nhằng”
(ambiguation) Sự nhập nhằng xảy ra khi văn phạm đó cho kết quả là nhiều cây
phân tích cú pháp với cùng một câu dữ liệu nhập
Hầu hết các giải thuật phân tích cú pháp đã được phát triển từ giữa những năm
1960 và đã được ứng dụng rất nhiều trong xử lý ngôn ngữ tự nhiên Tuy nhiên, các phương pháp trước đây còn tồn tại một số khuyết điểm như: chưa giải quyết được sự “nhập nhằng” của ngôn ngữ tự nhiên và phụ thuộc vào toàn bộ không gian tìm kiếm để tìm được những diễn dịch phù hợp với câu phân tích hoặc nếu
có giải quyết được sự nhập nhằng bằng cách đưa các yếu tố từ bên ngoài vào thì
Trang 6lại khó thực hiện và tốn nhiều thời gian Các phương pháp phân tích trước đây thường cho kết quả là nhiều cây phân tích
Trong những năm gần đây, việc áp dụng xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp ngày càng phát triển mạnh mẽ và có nhiều triển vọng nhờ các corpus - kho dữ liệu về ngôn ngữ tự nhiên đã có sẵn Với mô hình phân tích bằng xác suất, sẽ gán xác suất vào mỗi cây phân tích cú pháp và do đó sẽ chọn ra được kết quả là một cây phân tích phù hợp nhất (có xác suất cao nhất) với câu đưa ra [12][15][17][22][23]
Nhằm mục đích nghiên cứu và vận dụng các kết quả nghiên cứu mới này vào
trong thực tế, tác giả đã thực hiện đề tài: “Nghiên cứu phân tích cú pháp bằng
phương pháp xác suất (Probabilistic Parsing) và ứng dụng cho phân tích cú pháp các câu đơn giản của tiếng Anh.”
Đây là một lĩnh vực khá mới không chỉ ở Việt Nam mà còn trên thế giới, trong
đó tài liệu, phương pháp tiếp cận vẫn còn nhiều vấn đề bàn bạc Do vậy, phạm vi
đề tài nghiên cứu được đặt ra chỉ nhằm mục đích lĩnh hội được phương pháp mới
và vận dụng để xây dựng một chương trình mang tính thử nghiệm để ứng dụng giải thuật để phân tích cú pháp một số câu đơn giản của tiếng Anh Phương pháp phân tích cú pháp bằng xác suất phải dựa trên một ngân hàng dữ liệu về ngôn ngữ rất lớn Xây dựng ngân hàng dữ liệu là một việc làm cần nhiều thời gian, công sức và tài chính, vượt quá khuôn khổ của luận văn này, do đó, tác giả phải lựa chọn giải pháp là sử dụng một số ngân hàng dữ liệu có sẵn đã được các nhà ngôn ngữ học trên thế giới xây dựng và kiểm chứng bằng tay với số lượng lớn đáng kể các cây phân tích cú pháp mẫu Tuy nhiên do vấn đề bản quyền và tài chính, tác giả luận văn chỉ có thể sử dụng một phần nhỏ của kho dữ liệu đã được công bố trên mạng để thử nghiệm
1.2 Phương hướng nghiên cứu
Phân tích cú pháp, ở hình thức đơn giản là dùng giải thuật trên tập luật để ánh xạ một câu dữ liệu đầu vào thành một cấu trúc cây cú pháp của nó Để trả lời một
Trang 7câu có hợp cú pháp hay không, cần phải đối chiếu nó với một hệ quy tắc cụ thể
Hệ thống này hoặc chấp nhận nó và như vậy xác định là hợp cú pháp, hoặc không chấp nhận nó và do đó xác định không hợp cú pháp [23][31]
Luận văn này chọn cách tiếp cận máy học trong vấn đề phân tích cú pháp cho câu
của ngôn ngữ tự nhiên Một hàm câu nhập Æ cây phân tích cú pháp (sentence Æ
tree) 1 được suy luận từ tập huấn luyện, tức tập các cặp sentenceÆ tree mẫu Một tập thử nghiệm các cặp sentence Æ tree dùng để đánh giá độ chính xác của mô
hình Hình 1.1 là ví dụ minh hoạ cho cây phân tích cú pháp của câu “Sue walked into the store”
1 Giả sử định nghĩa bài toán phân tích cú pháp mà trong đó mỗi câu được ánh xạ bởi một cây phân tích cú pháp đơn nhất
Trang 8chuyên gia (heurictic), tuy nhiên để tạo ra những heurictic như vậy là rất khó và tốn nhiều thời gian, hơn nữa, không có phương pháp nào mang tính hệ thống để đánh giá các heurictic này tốt như thế nào trong thực tế [17]
Hiện nay các nhà ngôn ngữ học đã xây dựng rất nhiều kho ngữ liệu phục vụ trong lĩnh vực xử lý ngôn ngữ tự nhiên, trong đó Penn treebank là một kho ngữ liệu có
số lượng cây phân tích mẫu đáng kể Do vậy, luận văn này sẽ nghiên cứu phương pháp thống kê dựa trên nguồn dữ liệu mẫu của Penn treebank để giải quyết những vấn đề khó khăn nêu trên trong phân tích cú pháp Mô hình phân tích cú pháp theo phương pháp thống kê ấn định một xác suất score(t,s) cho mỗi cặp cây phân tích cú pháp-câu (t,s) Và khi đó, một cây phân tích cú pháp phù hợp nhất cho một câu dữ liệu đầu vào được định nghĩa bởi:
),(max
t
t best =Với cách nhìn này, vấn đề phân tích cú pháp được chia ra thành hai phần: (1)Mô hình: là định nghĩa một xác suất Score(t,s) cho mỗi cặp cây phân tích cú pháp-
câu (t,s) (2) Phân tích cú pháp: là thực hiện một giải thuật để tìm xác suất tbest
cho bất kỳ câu nhập nào [11][23]
1.3 Mục tiêu của đề tài
Đề tài nghiên cứu này nhắm tới các mục tiêu sau:
• Nghiên cứu phương pháp để hoàn thiện giải thuật tạo tập huấn luyện văn phạm phi ngữ cảnh có xác suất từ ngân hàng dữ liệu treebank
• Lựa chọn giải thuật phân tích cú pháp bằng xác suất phù hợp hiện có để có thể phát triển ứng dụng vào đề tài
• Xây dựng một chương trình máy tính ứng dụng cho việc phân tích một số câu tiếng Anh đơn giản để kiểm chứng kết quả nghiên cứu
1.4 Những kết quả chính của đề tài
Những kết quả chính của đề tài như sau:
Trang 9• Xây dựng giải thuật để tạo hệ thống luật văn phạm phi ngữ cảnh có xác suất (PCFG) từ treebank
• Lựa chọn và phát triển giải thuật tìm cây phân tích cú pháp bằng xác suất phù hợp nhất với câu dữ liệu đầu vào
• Chương trình máy tính để ứng dụng phương pháp phân tích cú pháp bằng xác suất cho việc phân tích một số cấu tiếng Anh đơn giản
1.5 Cấu trúc của luận văn
Luận văn gồm 5 chương, bao gồm các nội dung cơ bản như sau:
Chương 1: Trình bày về cách đặt vấn đề, phương pháp lựa chọn để giải quyết vấn
đề Mục tiêu cần đạt được, cũng như những kết quả và đóng góp của đề tài
Chương 2: Tóm tắt các công trình khoa học đã công bố trong và ngoài nước có
liên quan đến đề tài Chương này còn làm sáng tỏ thêm cơ sở lý thuyết để thực hiện đề tài
Chương 3: Trình bày có chọn lọc các cơ sở lý thuyết và phương pháp sẽ được
dùng để giải quyết vấn đề của đề tài Bao gồm các vấn đề cơ bản như: cơ sở toán học, các kiến thức về ngôn ngữ tự nhiên, tiếng Anh, các kiến thức, công cụ,… được đề tài sử dụng để xây dựng mô hình và giải quyết bài toán phân tích cú pháp
Chương 4: Trình bày giải thuật phân tích cú pháp bằng xác suất mà đề tài đã
chọn, các phương pháp xây dựng văn phạm phi ngữ cảnh có xác suất từ corpus ngôn ngữ có sẵn - Penn Treebank Một số tác vụ và kết quả đạt được của chương trình hiện thực đề tài
Chương 5: Nhận xét, đánh giá những kết quả đạt được và những hạn chế còn tồn
tại của việc giải quyết và thực hiện đề tài, đồng thời đưa ra hướng phát triển của
đề tài và kết luận
Trang 101.6 Qui ước về thuật ngữ và ký hiệu
POS tags (Part-Of-Speech tags), gắn từ loại vào từ
Treebank Kho dữ liệu chứa các mẫu cây phân tích cú pháp
∏ Tích
∩ Giao của các tập hợp
ĉ Ước lượng của c
wij , wi j chuỗi các từ hoặc từ loại w1,w2,…wj
G Tập văn phạm
V Tập các ký hiệu không kết thúc
N Tập các ký hiệu kết thúc
P Tập các luật sinh
Trang 11CHƯƠNG 2 TỔNG QUAN CÁC CÔNG TRÌNH LIÊN QUAN
Chương này trình bày một cách tổng quan về một số kết quả nghiên cứu ở nước ngoài và trong nước có liên quan đến đề tài Đồng thời trên cơ sở đó nêu bật những luận cứ để thực hiện đề tài
2.1 Những kết quả nghiên cứu ở nước ngoài
Kỹ thuật phân tích cú pháp bằng xác suất đã được quan tâm và phát triển mạnh nhất trong thập kỷ qua Trên thế giới có khá nhiều công trình nghiên cứu về vấn
đề này Một số phương pháp phân tích đã được dùng và đang phát triển [11]:
• Nhóm phân tích Cú Pháp Không Từ Vựng (Non-lexicalied Parsing)
Phân tích Cú Pháp Không Từ Vựng là nhóm phân tích trong đó phớt lờ các
thông tin về từ vựng Đối với việc phân tích theo nhóm này, một câu đưa vào để phân tích thực chất chỉ là một dãy các từ loại Điều này chứng tỏ một câu loại này sẽ ít thông tin hơn so với một câu có gắn với từ thực Tuy nhiên, Phân tích Cú Pháp Không Từ Vựng có ưu điểm là vì số lượng ký hiệu kết thúc nhỏ nên dễ xây dựng và thường không gặp phải về vấn đề dữ liệu thưa
Các công trình nghiên cứu điển hình của nhóm phương pháp này là:
- Công trình Partially Unsupervisor Learning (Không bị giám sát cục bộ) của Pereia and Schabes năm 1992
- Công trình PCFG Estimation from a treebank (Ước lượng PCFG từ một treebank) của Charnial năm 1996 Kết quả kiểm định trên Wall Street treebank với recall là 70.6% và precision là 74.8%
- Công trình của Goodman năm 1996 mô tả các giải thuật phân tích cú pháp khác nhau trên PCFG để tối đa độ chính xác [23]
• Nhóm phân tích Cú Pháp có Từ Vựng (Lexicalied Parsing)
Trang 12Phân tích Cú Pháp có Từ Vựng là nhóm phân tích dựa vào các từ riêng lẻ và
tính toán trên sự phân loại của từ Nhưng việc thống kê các từ loại riêng biệt tức thời dẫn đến vấn đề về dữ liệu thưa Nếu cố gắng thống kê một cách rất chi tiết sự kết hợp của các từ thì những kết hợp dư thừa khi huấn luyện cho corpus tăng lên rất nhanh Do đó, để giảm thiểu số lượng các kết hợp loại này, người ta gắn vào mỗi thành phần một phần “head”, thông thường head
được tính từ dưới lên và head của một thành phần c là một hàm quyết định của luật sinh, dùng để vét cạn (expend) c Hướng phân tích này thuộc các
công trình nghiên cứu điển hình của Bob (1993) [11]; Black và cộng sự (1993); De Marken (1995); Collin (1996) [9]; Collin (1999) và một số tác giả khác
• Nhóm phân tích Cú Pháp Theo Định hướng Dữ Liệu (Data-Oriented
1/ Mô hình DOP đầu tiên xây dựng các cấu trúc câu dựa trên cơ sở tần số xuất hiện của các phân mảnh (fragment) cấu trúc câu đã phân tích trước đó
mà không có sự ràng buộc nào về kích thước của các phân mảnh này Nói cách khác, mô hình được đưa ra không cần phải huấn luyện cho corpus văn phạm đã định nghĩa mà trực tiếp sử dụng các phân mảnh của corpus như một văn phạm Cách tiếp cận này đã được nghiên cứu sử dụng bởi các công trình của Collins (1996, 1999), Charniak (1996, 1997), Johnson(1998), Chiang (2000), Ren Bob (1992) và nhiều tác giả khác
Trang 13Tuy nhiên, mô hình này hạn chế các phân mảnh với các head-word lân cận
2/ Trong vài năm gần đây các tác giả Collin and Duffy (2002), Bob (2003) đã cải tiến mô hình DOP, những đổi mới chính của mô hình này là :
- Sử dụng các phân mảnh của corpus hơn là các luật sinh văn phạm
- Sử dụng các phân mảnh tuỳ ý lớn hơn là các phân mảnh bị giới hạn như mô hình
cũ
- Sự khác nhau giữa DOP và các phương pháp phân tích cú pháp có xác suất khác là: DOP khởi đầu bằng việc tính đến tất cả các cây con trong treebank và kiểm tra nhanh các giới hạn để khám phá ra tập các cây con thích đáng, trong khi đó các phương pháp khác thường hạn chế phụ thuộc thống kê trước đó (ví dụ phụ thuộc headword) và sau đó mới cố gắng cải tiến phân tích tối ưu bằng cách dần dần dưa thêm các phụ thuộc vào
Một ví dụ minh hoạ về mô hình DOP:
- Giả sử Corpus chỉ gồm có 2 cây như sau:
Trang 14NP VP
Sue V NP
saw
NP VP Sue V NP
Trang 15- Câu “Sue heard Jim” có thể được kết nối từ các phân mảnh:
Trang 16• Nhóm phân tích cú pháp theo mô hình trên cơ sở phụ thuộc based models)
(Dependence-Năm 1996, Collins giới thiệu mô hình phân tích cú pháp theo phương pháp xác suất trong khuôn khổ văn phạm phụ thuộc (dependence grammar) Mỗi câu được biểu diễn bởi một tập (bag) các baseNPs của nó và các từ khác với
sự phụ thuộc giữa chúng Trong đó sự phụ thuộc được định nghĩa là quan hệ
giữa 2 từ trong một câu (từ bổ nghĩa và từ chính), được viết là từ bổ nghĩa Æ
từ chính Mỗi cây tương ứng với một câu gồm n từ sẽ chứa n sự phụ thuộc
giữa các từ, mỗi sự phụ thuộc gắn với một xác suất [11][23]
• Ngoài ra còn nhiều công trình khác như: công trình nghiên cứu sử dụng các dữ liệu từ corpus của Weischedel và cộng sự, (1993) [12]; Chitrao và Grishman (1990); Atwell (1987) và Garside và Leech (1987);…
2.2 Những kết quả trong nước
Đa số các ứng dụng về phân tích cú pháp trong nước hiện nay, thường áp dụng trong lĩnh vực dịch máy đều sử dụng các phương pháp phân tích cú pháp không
• Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi, Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP
Hồ Chí Minh thực hiện, đã tạo được các luật của văn phạm phi ngữ cảnh (khoảng 4000 luật sinh) cho ngôn ngữ tiếng Anh và tiếng Việt, xây dựng
Trang 17các ánh xạ chuyển đổi cây phân tích Đề tài hiện thực phân tích cú pháp bằng giải thuật Earley có cải thiện [27][28]
Các ứng dụng về phân tích cú pháp bằng phương pháp xác suất ở trong nước chưa thấy được công bố
Qua những công trình nêu trên, cho thấy rằng phương pháp phân tích cú pháp bằng xác suất có ưu điểm hơn các phương pháp khác là giải quyết được sự nhập nhằng trong cú pháp của ngôn ngữ tự nhiên là cho kết quả chỉ là một cây phân tích phù hợp nhất Phương pháp này mới được phát triển mạnh mẽ trên thế giới trong những năm gần đây và vẫn còn là vấn đề mở trong nghiên cứu Đối với nước ta, hiện nay hướng nghiên cứu này chưa được phát triển Do vậy, đề tài nghiên cứu này nhằm tìm hiểu phân tích cú pháp bằng phương pháp xác suất, coi đây như là một thử nghiệm của những kết quả nghiên cứu lý thuyết của thế giới nhằm khẳng định tính hiệu quả của giải thuật
Trang 18CHƯƠNG 3 CƠ SỞ LÝ THUYẾT & PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Ngôn ngữ tự nhiên và văn phạm tiếng Anh
3.1.1 Ngôn ngữ tự nhiên là phương tiện giao tiếp của con người và là một thành
phần cốt yếu trong cuộc sống của chúng ta, nó bao gồm ngôn ngữ nói và ngôn ngữ viết Đặc điểm của ngôn ngữ tự nhiên là sự nhập nhằng không rõ nghĩa Đó
là điều mà chúng ta cần phải quan tâm khi xử lý ngôn ngữ tự nhiên bằng máy tính [26]
3.1.2 Văn phạm tiếng Anh [16][25][26][30]
1 Từ : Là đơn vị cơ bản nhất Trong tiếng Anh có hai cách hình thành một từ
Bất kỳ từ nào trong bốn loại từ chính đều có thể được dùng để tạo thành cụm từ (phrase), khi đó từ được gọi là head của cụm từ, mô tả hành động và đặc tính của cụm từ đó
Trong vài trường hợp, thành phần head cần thêm các cụm từ phụ theo sau
nó để diễn tả nghĩa mong muốn Cụm từ như vậy gọi là complement (phần bổ sung) của thành phần head
Ngoài ra, trong tiếng Anh, thứ tự các từ trong câu rất quan trọng, nó quyết định ý nghĩa của câu Nhóm từ góp phần tạo nên câu như cụm danh từ, cụm động
từ, cụm tính từ,…
Trang 19Một mệnh đề là một nhóm từ bao gồm chủ ngữ, động từ và túc từ hoặc bổ ngữ Một câu chứa một mệnh đề được gọi là câu đơn giản, ngược lại câu chứa nhiều mệnh đề thì được gọi là câu ghép Trong tiếng Anh có bốn dạng câu căn bản:
Câu miêu tả (hoặc khẳng định) The cat is sleeping
Câu hỏi đúng sai, cảm thán Is the cat sleeping ?
2 Những phần tử của cụm danh từ đơn giản :
Thành phần head trong cụm danh từ đơn giản có các loại :
- Danh từ chung (common nouns): chỉ người, vật thuộc cùng loại (man, table…)
- Danh từ riêng ( proper noun hoặc name): để gọi riêng một người, một vật, thường được viết hoa trong tiếng Anh ( Mary, Viet Nam…)
- Đại từ (pronouns): he , she, they…
Danh từ được chia thành 2 lớp chính:
- Danh từ đếm được (count nouns): book, books…
- Danh từ không đếm được (uncount nouns): sand, water…
Trong cụm danh từ, ngoài head ra còn có các thành phần khác:
- ordinal: first, second…
- cardinal: one, two…
- determiners: article (the, a, an), demontratives (this, that), possessives (John’s books, her…)
Trong tiếng Anh, chúng ta phân biệt:
- Number (số); singular (số ít), plural (số nhiều)
Trang 20- Person (ngôi): first person (ngôi thứ nhất), second person (ngôi thứ hai), third person (ngôi thứ ba)
- Gender (giống): masculine (giống đực), feminine (giống cái), neuter (trung tính)
Ví dụ :
Số Ngôi thứ nhất Ngôi thứ hai Ngôi thứ ba
Nhiều Our Your Their
3 Cụm động từ:
Động từ là những từ diễn tả sự tồn tại trạng thái hoặc hành động Mỗi động từ
phải ở trong 5 dạng cơ bản sau:
Simple present go, am, cries Simple past went, was, cried Present participle going, being, crying Past participle gone, been, cried
Động từ được chia thành các lớp khác nhau:
- Trợ động từ (auxiliary verbs): be, do, have
- Động từ hình thái (modal verbs): will, can, could
- Động từ chính (main verbs): eat, ran, believe
Các thì (tenses) cơ bản:
Trang 21Thì Cấu trúc động từ được chia Ví dụ
Simple present Simple present He walks to the store
Simple past Simple past He walked to the store
Simple future Will + infinitive He will walk to the store Present perfect Have in present + past participle He has walked to the store Future perfect Will + have in infinitive + past
participle He will have walked to the store Past perfect Have in the past + past participle I had walked to the store
Give NP + NP (to) Jack gave the book to the library
4 Cụm tính từ:
Tính từ thường có chức năng bổ nghĩa cho các thành phần khác trong câu, dùng
để miêu tả đặc điểm, tính chất của con người, sự vật, hiện tượng Có thể chia làm
2 loại tính từ : tính từ miêu tả (big, small,…) và tính từ quan hệ (presidential, …)
Trang 22Những cụm tính từ đơn giản chỉ bao gồm một tính từ đơn Những cụm từ phức
tạp cần những bổ ngữ như PP(prepositional phrase) ,VP (verb pharse),…
PP [with] Jack was pleased with the prize
VP [inf] Jack seem willing to lead the chorus
S [that] Jack was angry that he was left behind
The firm gave Sam a watch
Chủ từ + động từ + túc từ + bổ ngữ They made him redundant
6 Câu ghép:
Câu ghép là câu có nhiều hơn hai mệnh đề và sự liên kết giữa hai mệnh đề này có
thể là :
Một dấu chấm phẩy We fished all day; we didn’t cacth a thing
Một dấu chấm phẩy kèm theo
một phó từ có chức năng liên
kết
We fished all day; however, we didn’t cacth a thing
Một liên từ We fished all day but we didn’t cacth a thing
3.2 Ngôn ngữ hình thức và văn phạm phi ngữ cảnh (CFG) [11][17]
Theo văn phạm sinh của N.Chomsky thì mỗi một ngôn ngữ đều do một văn phạm
tương ứng sinh ra Tất cả các văn phạm được định nghĩa bằng bộ tứ :
Trang 23G = (V, N, S,P)
Trong đó :
+ G là ký hiệu cho văn phạm (Grammar) + V là tập hữu hạn có các đối tượng được gọi là các ký hiệu kết thúc
+ N là tập hữu hạn có các đối tượng được gọi là các ký hiệu không kết thúc
+ S là ký hiệu mục tiêu, thuộc tập N
+ P là tập luật sinh có dạng α → β , với α , β ∈ { V ∪ N}*
Ngôn ngữ do G sinh ra được ký hiệu là L(G) là tập hợp chuỗi các ký hiệu kết thúc được sinh ra từ S
Định nghĩa văn phạm phi ngữ cảnh :
Văn phạm G = (V, N S, P) được gọi là văn phạm phi ngữ cảnh nếu mọi luật sinh trong P có dạng A → α với A ∈ V và α ∈ (V∪N)*
Văn phạm phi ngữ cảnh được sử dụng rộng rãi trong việc đặc tả cú pháp cho ngôn ngữ lập trình và ngôn ngữ tự nhiên Các giải thuật phân tích cú pháp cho văn phạm phi ngữ cảnh đã và đang đóng vai trò lớn trong các chương trình xử lý ngôn ngữ tự nhiên
Trong phạm vi đề tài này chỉ nghiên cứu văn phạm phi ngữ cảnh vì theo [12], văn phạm phi ngữ cảnh là lớp văn phạm rất quan trọng, nó đủ mạnh để mô tả hầu hết các cấu trúc trong ngôn ngữ tự nhiên và giới hạn đủ để xây dựng các công cụ phân tích cú pháp hiệu quả trong phân tích câu
3.3 Hệ thống nét và văn phạm gia tố [17]
Nét là một phần của thông tin kết hợp với từ Hệ thống nét cung cấp một số mục tiêu cần xem xét Dùng hệ thống nét để kiểm tra được các ràng buộc giữa chủ từ
Trang 24và động từ, giữa mạo từ và danh từ, từ đó chia số nhiều hay số ít, các dạng khác nhau khi chia thì,…
* Một số hệ thống nét cơ bản cho tiếng Anh:
3.3.1 Nét về ngôi và số AGR (Person and Number Features):
Dùng 1, 2, 3 để chỉ ngôi thứ; s, p để chỉ số ít, số nhiều Do đó AGR có các trị: 1s, 1p, 2s, 2p, 3s, 3p
3.3.2 Nét cho động từ VFOM (Verb - Form Feature):
Nét này biểu thị dạng hiện tại của động từ
3.3.3 Nét cho sự phối hợp của các thành phần SUBCAT:
Nét Subcat mô tả các từ loại phải theo sau một động từ (bổ ngữ của động từ) để việc sử dụng động từ trong câu hợp cú pháp
3.3.4 Nét nhị phân (Binary Feature)
Nét nhị phân rất thông dụng, các trị thường được biểu diễn bằng dấu + hoặc - để diễn tả có hay không có nét đó
* Phân tích cú pháp với hệ thống nét (Parsing with Fearture)
Cần một giải thuật phân tích cú pháp với hệ thống nét Có thể mở rộng các giải thuật chart parser để xử lý văn phạm gia tố phi ngữ cảnh với hệ thống nét
3.4 Lý thuyết xác suất cơ bản
3.4.1 Một số định nghĩa và công thức xác suất [17]
Xác suất của một biến cố (Probability of an event) : Độ đo khả năng xuất hiện
của một biến cố
Hàm xác suất (Probability function):
Ω là không gian các sự kiện rời rạc và P là xác suất phân bố trên Ω thoả mãn tính chất:
1) 0 ≤ P (ei) ≤ 1, ∀ei ∈ Ω
Trang 252) ∑i=1 n P(ei) =1
Xác suất có điều kiện: xác suất của biến cố A được tính với điều kiện biến cố B
đã xảy ra được gọi là xác suất có điều kiện của A
P (A|B) = P (A ∧ B) / P (B)
Trong đó xác suất P (A ∧ B) là xác suất khi 2 sự kiện A và B xảy ra đồng thời Công thức Bayes cho xác suất có điều kiện:
P (A | B) = P (B | A) * P (A) / P (B) hay P (A | B) * P (B) = P (B | A) * P (A)
Hai biến cố được gọi là độc lập nhau khi sự xuất hiện của biến cố này không gây ảnh hưởng đến khả năng xuất hiện của biến cố kia
Hai biến cố A, B độc lập nhau ⇔ P (A|B) = P (A)
và P(A & B) = P(A) * P(B)
3.4.2 Xác suất và ngôn ngữ
Lý thuyết xác suất được ứng dụng nhiều trong xử lý ngôn ngữ tự nhiên, ví dụ
trong ứng dụng Part_Of_Speech Tagging, cho một câu có các từ nhập nhằng về
từ loại, câu hỏi là từ loại nào thích hợp dùng cho mỗi từ ?
Ví dụ: Gọi biến ngẫu nhiên mô tả từ loại C ∈ (N,V)
Gọi w là biến ngẫu nhiên mô tả 1 từ cụ thể
Ta có: P (C=N| w=flies) viết tắt là P(N | flies) mô tả khả năng là danh từ ứng với
từ flies đã biết Tương tự P(V | flies) mô tả khả năng là động từ ứng với từ flies
đã biết
Trong phạm vi đề tài sẽ ứng dụng lý thuyết xác suất trong việc phân tích cú pháp
Để giải quyết sự nhập nhằng khi phân tích cú pháp của một câu trước đó chưa phân tích, ta cần dựa vào dữ liệu của những câu đã được phân tích trước đó và
Trang 26ước lượng xác suất cho câu cần phân tích, với dữ liệu ban đầu càng lớn thì khả năng ước lượng càng chính xác [17]
3.4.3 Thông số ước đoán khả năng xảy ra lớn nhất (MLE)
Cho một mô hình phân tích cú pháp thống kê với văn phạm G, khi đó cây phân tích cú pháp có khả năng xảy ra lớn nhất của một câu cần phân tích s là 11][23]
),
|(maxarg
τ
τ =
3.4.4 Corpus – database của ngôn ngữ
Corpus là tập dữ liệu mẫu và đặc trưng được dùng làm dữ liệu nhập cho các quá trình xử lý ngôn ngữ tự nhiên trên máy tính Corpus có thể đơn thuần là tài liệu hay văn bản chứa một đoạn văn được viết bằng ngôn ngữ nào đó
Tuy nhiên, để quá trình xử lý ngôn ngữ tự nhiên hiệu quả hơn, các nhà ngôn ngữ học đã xử lý các corpus thành các tagged corpus – corpus mà trong đó các từ và các mệnh đề đi kèm từ loại của chúng và người ta cũng tạo ra các corpus, đếm số lần xuất hiện của các cặp từ loại, sự xuất hiện của các từ, tính được xác suất của chúng hoặc các treebank – corpus mà trong đó chứa các mẫu cây phân tích cú pháp [17][25]
Ví dụ: Với 1.273.000 từ thu thập được, từ flies xuất hiện 1000 lần, với nghĩa N xuất hiện 400 lần, với nghĩa V xuất hiện 600 lần Khi đó, xác suất của từ flies với
2 nghĩa trên được tính như sau:
Trang 27- Brown corpus: phát triển năm 1961 của Đại học Brown, có khoảng 1triệu từ
- LOB corpus: phát triển năm 1961, có khoảng 1triệu từ
- Brishtish National Corpus (BNC): phát triển năm 1965, có khoảng 110triệu từ, trong đó 10triệu từ xuất phát từ ngôn ngữ nói và còn lại là ngôn ngữ viết
- Penn Treebank : có khoảng 1triệu từ, đã được chèn từ loại ngay sau vị trí các từ trong câu
- Và một số corpus khác
3.5 Văn phạm phi ngữ cảnh có xác suất (PCFG)
Văn phạm phi ngữ cảnh có xác suất là một văn phạm phi ngữ cảnh có gắn xác suất vào trong các luật sinh [17][25]
Một văn phạm phi ngữ cảnh có xác suất G bao gồm :
N P
trong đó xác suất P(Ni →ζj) được hiểu là P(Ni →ζj | Ni)
PCFG models of tree structures [20][23]
Trong PCFG xác suất của cây t được định nghĩa :
Trang 28A C
A P P
Trong đó Cτ(A >α) là số lần luật A >α dùng để dẫn xuất ra τ
Để ước lượng PCFG từ một treebank cho trước, ta giả sử tập huấn luyện của treebank gồm n cây t1, t2, … tn Mỗi cây ti gồm ri luật αij >βij , 1≤ j ≤ ri Khi đó hàm khả năng xảy ra của corpus được viết như sau:
β α
τ
βα
βατ
) (
)(
)(
)()
(
C n
i j n
ij ij
n i
i
P P
P corpus
L
Trong đó Cτ (α >β) là số lần luật (α >β) xuất hiện trong tập huấn luyện dùng
để dẫn xuất ra t Và tham số ước lượng khả năng xảy ra lớn nhất được ước lượng bởi :
) (
) (
T
V C
C P
τ
βα
βαβ
α
3.6 Treebanks
Treebank là tập các mẫu cây phân tích cú pháp và các công cụ học Hiện nay đã
có rất nhiều treebanks, trong đó Penn Treebank được biết đến nhiều nhất vì số lượng và tính sẵn sàng của nó [1][11][24]
Một ví dụ về cấu trúc cây của Penn Treebank:
Trang 29Sau đây trình bày một số ký hiệu trong Penn Treebank [9],[11]
Bảng 3.1: tập ký hiệu tag của Penn Treebank corpus
5 FW Từ tiếng nước khác Từ tiếng Pháp, Đức
8 JJR Tính từ so sánh hơn higher, more, lower
9 JJS Tính từ so sánh nhất most, largest, least
11 MD Động từ đặc biệt- modal
12 NN Danh từ số ít book, paper, salary
13 NNS Danh từ số nhiều books, months, benefits
14 NNP Danh từ riêng số ít John, Mary, Mr., Inc
15 NNPS Danh từ riêng số nhiều Japanese, Labs, Fords
Trang 3017 POS Sở hữu cách ’s
19 PRP$ Đại từ sở hữu his, their, yours
20 RB Phó từ, trạng từ too, now, seriously
21 RBR Phó từ, trạng từ so sánh hơn more, earlier, less
22 RBS Phó từ, trạng từ so sánh nhất most, hardest
24 SYM Biểu tượng
27 VB Động từ nguyên mẫu say, think, resign
28 VBD Động từ chia thì quá khứ said, thought, resigned
29 VBG Động danh từ narrowing, controlling
30 VBN Quá khứ phân từ
31 VBP Động từ số nhiều are, enjoy, take
32 VBZ Động từ số ít is, enjoys, takes
33 WDT Wh-determiner whatever, which, that
35 WP$ Đại từ quan hệ sở hữu whose
36 WRB Phó từ/ trạng từ quan hệ when, where, how
Trang 3143 ) Dấu ngoặc phải
44 “ Dấu nháy kép
45 ` Dấu nháy đơn trái
46 ” Dấu nháy kép trái
47 ’ Dấu nháy đơn phải
48 “ Dấu nháy kép phải
Bảng 3.2: Tập ký hiệu tag của Penn Treebank corpus bổ sung
1 S Bắt đầu một mệnh đề nhưng
không bắt đầu từ các liên từ chỉ
sự phụ thuộc hay đại từ quan
(CONJP as well as) Casey) (VP saw (NP the ball)
Trang 3213 INTJ Thán từ
15 NAC Dùng để giới hạn tầm vực của
các bổ ngữ trong ngữ danh từ Huntsville) (, ,) (NNP Ala.) (NP-SBJ (NAC (NNP
(, ,)) (NNP Boeing))
17 PRT Tiểu từ chỉ chung mạo từ, phó
từ, giới từ, tiền tố, hậu tố
18 QP Ngữ liên quan đến số lượng
dùng trong ngữ dang từ (QP (CD 5.8) (CD million))
22 WHADVP Ngữ trạng từ kết hợp với đại từ
quan hệ
23 WHNP Ngữ danh từ kết hợp với đại từ
quan hệ
(WHNP (WP$ whose) (NNS shareholders))
24 WHPP Ngữ giới từ kết hợp với đại từ
quan hệ (WHPP (IN in) (WHNP (WDT which)
3.7 Các giải thuật xây dựng cây phân tích cú pháp bằng xác suất
Ta có thể dùng một số giải thuật sau để tìm cây phân tích cú pháp có xác suất cao
nhất của câu cần phân tích s, Pbest(t) sao cho :
Pbest (t) = arg maxt P(t|s,G)
Trong đó :
Trang 33s là câu cần phân tích cú pháp
G là văn phạm phi ngữ cảnh có xác suất
t là cây phân tích cú pháp cần tìm
Theo [22] thì tất cả các giải thuật phân tích cú pháp đảm bảo 2 tính chất đúng
tiền tố (correct-prefix) và dự đoán không theo quy tắc (strong predictiveness) đều
có thể mở rộng để trở thành giải thuật phân tích cú pháp có xác suất Sau đây là một số giải thuật được đánh giá tốt trong phân tích cú pháp có xác suất
3.7.1 Giải thuật CKY(Cocke,Kasami, Younger) mở rộng, CKY+ [18][21]
Giải thuật CKY+ là một giải thuật phân tích cú pháp theo sơ đồ từ dưới lên, sử dụng văn phạm nhập là văn phạm phi ngữ cảnh G trong dạng chuẩn Chomsky (CNF) Trong CNF, mỗi luật có một trong hai dạng:
2 Với mỗi cụm từ có chiều dài l (từ 2 đến n từ):
Duyệt từ trái qua phải, kết hợp các cụm để tạo nên cụm từ mới với chiều dài l, trong đó, nếu có nhiều luật sinh mở rộng cho cùng một thành phần (vế trái trùng nhau) thì chọn luật sinh có xác suất lớn hơn
3 Nếu 1 ∈ chart [0,n], cho kết quả là cây phân tích cú pháp tương ứng câu
w
3.7.2 Giải thuật Best-First Parsing [17]
Giải thuật tìm cây phân tích có xác suất cao nhất, giải thuật này được nghiên cứu
và đánh giá là một trong những giải thuật hiệu quả trong phân tích cú pháp đối
Trang 34với văn phạm phi ngữ cảnh có xác suất với treebank lớn [10] Giải thuật được tóm tắt như sau [12]:
• Để thêm một thành phần C vào vị trí từ p1 đến p2 thực hiện các bước sau:
1 Thêm C vào sơ đồ từ vị trí p1 đến p2
2 Với bất kỳ cung hoạt động có dạng X → X1…o C … Xn từ vị trí
p0 đến p1; thêm cung mới X → X… C1 …Xo từ p0 đến p1
• Để thêm một cung hoạt động có dạng X→ X1 … C o C’…Xn vào vị trí
từ p1 đến p2 thực hiện các bước sau:
1 Nếu C là thành phần cuối cùng (tức là cung đã hoàn thành), thêm một thành phần có dạng X vào agenda
2 Ngược lại, nếu có 1 thành phần Y dạng C’ trong sơ đồ từ vị trí p2
đến p3 thì thêm 1 cung hoạt động X→ X1 …C C’o …Xn từ vị trí p0
đển p3 (có thể thêm nhiều cung hoặc tạo nhiều thành phần)
3.7.3 Giải thuật ViterbiPCFGParser [ 32]
ViterbiPCFGParser là một giải thuật phân tích cú pháp từ dưới lên cho PCFG, dùng lập trình động để tìm cây phân tích đơn nhất phù hợp với câu phân tích ViterbiPCFGParser phân tích câu bằng cách điền vào bảng các thành phần thích hợp nhất Bảng này lưu giữ tất cả các cây diễn dịch phù hợp nhất với bất kỳ chiều dài và giá trị nào của node Đặc biệt, bảng này có chứa entry gồm mọi chỉ số đầu, chỉ số cuối và giá trị của node, lưu giữ các cây con phù hợp nhất có chiều dài từ chỉ số đầu đến chỉ số cuối và giá trị node tương ứng
Đầu tiên ViterbiPCFGParser điền vào các entry các thành phần có chiều dài bằng
1 (tức chỉ số cuối lớn hơn chỉ số đầu 1 đơn vị) Tiếp theo là điền các thành phần
có chiều dài bằng 2 và cứ thế tiếp tục điền các thành phần có chiều dài ngày càng
Trang 35lớn hơn cho đến khi toàn bộ bảng được điền xong Cuối cùng, giải thuật trả về bảng các entry cho thành phần bao trùm câu phân tích
Mã giả của giải thuật được trình bày như sau:
• Create an empty most likely constituent table, MLC
• For width in 1 len(text):
o For start in 1 len(text)-width:
For prod in grammar.productions:
For each sequence of subtrees [t[1], t[2], , t[n]] in MLC, where t[i].node = prod.rhs[i], and the sequence covers [start:start+width]:
old_p = MLC[start, start+width, prod.lhs]
new_p = P(t[1])*P(t[1])* *P(t[n])*P(prod)
if new_p > old_p:
new_tree = Tree(prod.lhs, t[1], t[2], , t[n])
MLC[start, start+width, prod.lhs] = new_tree
• Return MLC[0, len(text), start_symbol]
3.7.4 Giải thuật stack decoding [11]
Ý tưởng của giải thuật được tóm tắt như sau:
- Giải thuật được mô tả thông qua việc dùng một hàng đợi lưu trữ các phần tử được sắp thứ tự để thực hiện push, pop các phần tử có thứ hạng cao nhất Cấu trúc của hàng đợi được dùng là dữ liệu dạng heap
- Bước khởi đầu của quá trình phân tích: Bắt đầu bằng 1 hàng đợi có chứa
1 phần tử
- Bước lặp :
+ Lấy phần tử có xác suất cao nhất từ đầu của hàng đợi
+ Mở rộng hàng đợi bằng cách tăng từ n bước dẫn xuất thành n+1 bước dẫn xuất Kết quả trả về thứ tự xác suất được sắp xếp trên hàng đợi
Trang 36+ Quá trình lặp kết thúc khi có 1 cây dẫn xuất hoàn thành trên đỉnh của hàng đợi
- Nếu hàng đợi là vô hạn thì giải thuật này được đảm bảo là tìm được cây phân tích có xác suất cao nhất bởi vì những dẫn xuất có xác suất cao hơn luôn được mở rộng trước những dẫn xuất có xác suất thấp
Chính vì thế giải thuật này được đánh giá là complete và optimal (đảm bảo tìm ra
1 lời giải và lời giải đó là tốt nhất nếu có nhiều lời giải)
3.7.5 Giải thuật A* search parsing [14]
Mã giả giải thuật được trình bày như sau:
parse(sentence, goal, estimate)
create a new chart and new agenda
for each word w:[start,end] in the sentence
add w:[start,end] to the agenda
Trang 37bestTraversal(e) = t
finishEdge(Edge e)
add e to the chart
for all adjacent edges f in the chart
for all labels x
let t = combine(e, f )
if t is valid
exploreTraversal(t)
3.8 Phương pháp nghiên cứu
Đề tài được thực hiện bằng phương pháp nghiên cứu lý thuyết về các lĩnh vực có liên quan và dựa vào một số mô hình mẫu của thế giới để xây dựng giải thuật để giải quyết bài toán Sau đó lập trình kiểm chứng
Phần nghiên cứu lý thuyết bao gồm: ngôn ngữ tự nhiên, văn phạm tiếng Anh, lý thuyết xác suất, văn phạm phi ngữ cảnh có xác suất, treebank
Trong đề tài đã tham khảo các giải thuật mẫu của các tác giả: J.-C Chapperlier, Michael Collin, Mark Johnson, M.Rajman, Khalil Sima’an và một số tác giả khác Trên cơ sở đó, lựa chọn và xây dựng mô hình để giải quyết bài toán
Như đã trình bày ở chương một, phạm vi của đề tài không thể xây dựng một ngân hàng dữ liệu huấn luyện và ngân hàng dữ liệu để kiểm tra cũng không thể có đầy
đủ bản quyền toàn bộ dữ liệu của Penn treebank Do đó, việc kiểm tra tính đúng đắn của chương trình dựa trên sự thống kê, đánh giá của tác giả thông qua các tiêu chuẩn đánh giá
Trang 38CHƯƠNG 4 THIẾT KẾ & HIỆN THỰC ĐỀ TÀI
Như đã đề cập, mục tiêu của đề tài là nghiên cứu các giải thuật phân tích cú pháp bằng xác suất Để phân tích cú pháp, có nhiều hướng tiếp cận, ở chương này sẽ trình bày chi tiết về cách tiếp cận trong đề tài theo hướng phân tích cú pháp dựa vào mô hình Non-Lexical PCFG, trong đó văn phạm phi ngữ cảnh có xác suất PCFG được ước lượng từ treebank
4.1 Mô hình thiết kế của đề tài
Mô hình thiết kế đề tài được thể hiện như hình 4-1
Treebank
Transform
Transformed trees (parent annotation right_branch_binary tree)
Count local tree
Precision/ Recall
Hình 4.1: Mô hình hiện thực đề tài
Trang 39Theo mô hình trên: Giai đoạn thứ nhất tìm hiểu cấu trúc file của treebank và chuyển đổi những cây “flat trees” trong tập huấn luyện của treebank ban đầu sang dạng các cây nhị phân hoặc cây nhị phân có gắn nhãn của nút cha (parent annotation right_branching binary trees), sau đó từ tập cây nhị phân này, ta chuyển và đếm số lần xuất hiện của tất cả các luật sinh để ước lượng tập PCFG Giai đoạn tiếp theo, trên cơ sở PCFG vừa ước lượng, dùng giải thuật để tìm cây phân tích (parse tree) có khả năng xảy ra lớn nhất cho câu cần phân tích Sau khi
đã tìm được cây phân tích cho câu dữ liệu đầu vào được sinh ra từ PCFG, ta tiến hành tái chuyển đổi về dạng cây nguyên thuỷ ban đầu Cuối cùng dùng tập các cây phân tích mẫu để kiểm tra và đánh giá mô hình thông qua các thông số kiểm định
4.1.1 Lựa chọn sự biểu diễn cho các cây (Tree representation) để tối ưu mô hình
Văn phạm phi ngữ cảnh có xác suất (PCFG) cung cấp một mô hình thống kê đơn giản trong xử lý ngôn ngữ tự nhiên Người ta thường đưa ra một phương pháp minh bạch về việc xây dựng và ước lượng tần số xuất hiện của tập văn phạm này
từ treebank, và một hệ thống phân tích cú pháp trên phạm vi thông tin lớn (broad coverage parsing) vẫn có thể được sử dụng bằng cách dùng một giải thuật phân
tích cú pháp để tìm cây phân tích cú pháp phù hợp nhất với câu dữ liệu đầu vào đối với văn phạm sinh từ treebank Hệ thống phân tích cú pháp bằng PCFG thường được đánh giá là hoạt động tốt như các hệ thống phân tích cú pháp trên phạm vi thông tin lớn khác để dự đoán cấu trúc cây phân tích cú pháp từ câu dữ liệu đầu vào đã được POS tag (Charniak, 1996) Mặc dù mô hình PCFG không hoạt động tốt như mô hình dependence-grammar của Collin, nhưng sự đơn giản của nó làm cho quá trình phân tích trở nên minh bạch cả về mặc lý thuyết lẫn kinh nghiệm [20]
Theo Mark Jonshon, một trong những điểm yếu của mô hình PCFG là nó không nhạy cảm với mối quan hệ không cục bộ (non-local relationship) giữa các nút, tức
là nó không mô tả được một cách đầy đủ mối quan hệ giữa cây con bị chi phối bởi
Trang 40một nút và những nút chi phối cây này Nếu những mối quan hệ này là đáng kể thì PCFG sẽ trở thành một mô hình ngôn ngữ nghèo nàn
Nói một cách nôm na, nếu các cây trong tập huấn luyện càng có nhiều nút thì càng làm tăng thêm giả định độc lập (independence assumptions) trong mô hình PCFG được sinh ra từ tập huấn luyện các cây này Do đó, để làm giảm giả định độc lập tiềm ẩn này trong một PCFG: thứ nhất, số lượng nút trên các cây trong tập huấn luyện càng ít thì sẽ giảm được giả định độc lập trong mô hình ngôn ngữ được sinh
ra, phương pháp thứ hai là mã hoá thêm những thông tin vào mỗi nhãn các nút của cây Theo trực giác, mỗi nhãn trên một nút là một “kênh truyền đạt thông tin” (comunication chanel), làm nhiệm vụ chuyển tải thông tin giữa cây con bị chi phối bởi nút và phần của cây không bị chi phối bởi chính nút đó Thông tin bổ sung được thêm vào nhãn của nút về mặt ngữ cảnh sẽ làm giảm đi giả định độc lập tìm