Một hướng nghiêncứu tích cực mang tính nền tảng của xử lí ngôn ngữ tự nhiên hiện nay là xâydựng hệ thống biểu diễn ngữ nghĩa của các câu trong ngôn ngữ tự nhiên.. Trên thế giới, việc xây
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————
Nguyễn Thị Huyên
XÂY DỰNG HỆ THỐNG PHÂN TÍCH
CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT
VỚI CÔNG CỤ TULIPA
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2016
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————
Nguyễn Thị Huyên
XÂY DỰNG HỆ THỐNG PHÂN TÍCH
CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT
VỚI CÔNG CỤ TULIPA
Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110
LUẬN VĂN THẠC SĨ KHOA HỌCNGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thị Minh Huyền
Hà Nội - 2016
Trang 3Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Thị Minh Huyền,người đã tận tình chỉ bảo và hướng dẫn em trong quá trình thực hiện luận vănnày cũng như trong suốt những năm học vừa qua
Em xin chân thành cảm ơn các thầy giáo, cô giáo, cán bộ khoa Toán Cơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã trựctiếp giảng dạy, giúp đỡ em trong suốt thời gian học cao học và làm việc tại Bộmôn Tin học
-Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã luôn độngviên, khuyến khích, tạo điều kiện cho em trong quá trình học tập và thực hiệnluận văn
Mặc dù đã cố gắng để hoàn thành luận văn, nhưng do hạn chế về kinh nghiệm
và thời gian, nên luận văn không thể tránh khỏi những thiếu sót Em rất mongnhận được sự cảm thông và những ý kiến đóng góp của các thầy cô và các bạn
Hà Nội, ngày 25 tháng 11 năm 2016
Học viên
Nguyễn Thị Huyên
Trang 4Mục lục
1.1 Bài toán phân tích cú pháp - ngữ nghĩa 3
1.1.1 Bài toán phân tích cú pháp 3
1.1.2 Bài toán phân tích ngữ nghĩa 5
1.2 Dữ liệu cho phân tích cú pháp - ngữ nghĩa 5
1.2.1 Từ điển 6
1.2.2 Các kho văn bản 10
2 Các hệ hình thức văn phạm 17 2.1 Hệ hình thức văn phạm 17
2.1.1 Văn phạm TAG 18
2.1.2 Siêu văn phạm và XMG 22
2.1.3 Văn phạm RCG 23
2.2 Biểu diễn và tính toán ngữ nghĩa bằng logic 27
2.2.1 Logic bậc một 28
2.2.2 Tính toán ngữ nghĩa bậc một dựa trên tính toán lambda 29 2.2.3 Tính toán ngữ nghĩa bậc một dựa trên hợp nhất 32
3 Công cụ phân tích cú pháp - ngữ nghĩa TuLiPA 36
Trang 53.1 Một số công cụ phân tích cú pháp - ngữ nghĩa phổ biến cho văn
phạm TAG 36
3.2 Công cụ TuLiPA 38
3.2.1 Chuyển đổi văn phạm TAG sang RCG 38
3.2.2 Phân tích cú pháp RCG 39
3.2.3 Chuyển đổi kết quả phân tích cú pháp RCG sang TAG 42 4 Xây dựng dữ liệu cho phân tích cú pháp - ngữ nghĩa tiếng Việt 47 4.1 Bổ sung thông tin cho cấu trúc danh ngữ, động ngữ, tính ngữ tiếng Việt 47
4.1.1 Cấu trúc danh ngữ tiếng Việt 47
4.1.2 Cấu trúc động ngữ tiếng Việt 49
4.1.3 Cấu trúc tính ngữ tiếng Việt 51
4.2 Xây dựng từ điển mở rộng dựa trên VCL cho hệ hình thức F-LTAG 52 4.3 Kết quả 54
Trang 6Danh sách bảng
1.1 Tập nhãn từ loại 11
1.2 Tập nhãn mệnh đề 12
1.3 Tập nhãn cụm từ 12
1.4 Nhãn chức năng cú pháp 13
1.5 Tập nhãn vai nghĩa trong Propbank 13
Trang 7Danh sách hình vẽ
1.1 Đồ thị phụ thuộc biểu diễn câu “Nó trả tôi tiền” 4
1.2 Cây cú pháp thành phần biểu diễn câu “Nó trả tôi tiền” 4
1.3 Hai mục từ tương ứng với hình vị từ “yêu” trong từ điển in 6
1.4 Cây phân cấp của động từ spray-9.7 8
1.5 Nhãn vai nghĩa của lớp động từ give-13.1 với phép toán | 9
1.6 Biểu diễn AMR của câu “The boy wants to go” 15
2.1 Các cây khởi tạo và phụ trợ 19
2.2 Quá trình dẫn xuất của câu “tôi đang ngủ ” 19
2.3 Hợp nhất đặc trưng trong phép thế 20
2.4 Hợp nhất đặc trưng trong phép kết nối 20
2.5 Quá trình hợp nhất đặc trưng sinh câu “Cô ấy không đẹp” 21
2.6 Ràng buộc đặc trưng trong phép kết nối 21
2.7 Hiện tượng lặp cấu trúc trong TAG 22
2.8 Mô tả cú pháp XMG 23
2.9 Quá trình dẫn xuất trong RCG 28
2.10 Biểu thức lambda của câu “a woman walks” 32
2.11 Cây cú pháp biểu diễn câu “a woman walks” 34
2.12 Biểu diễn ngữ nghĩa “a woman walks” 35
3.1 Tổng quan hệ thống XTAG 37
3.2 Văn phạm TAG 39
3.3 Thuật toán phân tích cú pháp Early 42
3.4 Dẫn xuất RCG và cây dẫn xuất TAG tương ứng 42
Trang 83.5 Giao diện cú pháp ngữ nghĩa biểu diễn câu: “every man loves a
woman” 46
4.1 Xây dựng biểu diễn ngữ nghĩa của câu “Nó đọc sách” 53
4.2 Ràng buộc trong cấu trúc danh ngữ 54
4.3 Dữ liệu mẫu trong từ điển mở rộng 55
4.4 Kết quả phân tích cú pháp - ngữ nghĩa của câu “họ đã hy sinh vì tổ quốc” 56
Trang 9Lời mở đầu
Trong giai đoạn hiện nay, với sự bùng nổ của Internet và sự phát triển củacác phương tiện truyền thông hiện đại, thế giới thông tin đang trở nên đa dạng
và phong phú hơn bao giờ hết Khi đó, muốn cho các máy tính có thể hiểu và
hỗ trợ con người khai thác thông tin một cách hiệu quả thì xử lí ngôn ngữ tựnhiên là một vấn đề quan trọng Đây là lĩnh vực được nhiều nhà khoa học trênthế giới quan tâm nghiên cứu trong suốt nhiều thập kỉ qua Một hướng nghiêncứu tích cực mang tính nền tảng của xử lí ngôn ngữ tự nhiên hiện nay là xâydựng hệ thống biểu diễn ngữ nghĩa của các câu trong ngôn ngữ tự nhiên Cácứng dụng trong biểu diễn ngữ nghĩa ngôn ngữ tự nhiên khá phong phú, trong
đó phải kể đến một số ứng dụng chính như dịch máy, xây dựng các hệ thốnghỏi đáp, nhận dạng tiếng nói, thiết kế người máy có khả năng hiểu và nói đượctiếng con người, Quá trình biểu diễn ngữ nghĩa của các câu trong ngôn ngữ tựnhiên đòi hỏi phải giải quyết hai bài toán quan trọng là bài toán phân tích cúpháp và bài toán phân tích ngữ nghĩa Trên thế giới, việc xây dựng các mô hình
tự động biểu diễn ngữ nghĩa ngôn ngữ tự nhiên đã có những bước tiến đáng kể,với các công cụ phần mềm cho phép tính toán ngữ nghĩa kết hợp phân tích cúpháp của các ngôn ngữ thông dụng như tiếng Anh, tiếng Pháp, sử dụng nhiều
hệ hình thức văn phạm khác nhau như HPSG [7], TAG [8] Đối với tiếng Việt,đây là vấn đề khá mới, các kết quả đạt được về biểu diễn ngữ nghĩa còn hạnchế
Luận văn tập trung vào việc xây dựng hệ thống phân tích cú pháp và tínhtoán ngữ nghĩa cho văn phạm TAG tiếng Việt sử dụng công cụ XMG và TuLiPA.Văn phạm kết nối cây TAG là một trong các hệ hình thức đã được chỉ ra làthích hợp trong việc tính toán ngữ nghĩa dựa trên thành phần cú pháp Nội
Trang 10dung chính của luận văn được chia thành 4 chương:
• Chương 1 trình bày tổng quan về bài toán phân tích cú pháp - ngữ nghĩa
• Chương 2 trình bày kiến thức cơ sở về các hệ hình thức văn phạm, cáchbiểu diễn và tính toán ngữ nghĩa bằng logic làm nền tảng cho xây dựng hệthống phân tích cú pháp - ngữ nghĩa
• Chương 3 giới thiệu chi tiết về công cụ phân tích cú pháp - ngữ nghĩaTuLiPA
• Chương 4 tập trung xây dựng dữ liệu cho hệ thống phân tích cú pháp - ngữnghĩa tiếng Việt, tiến hành thực nghiệm và đánh giá kết quả
Trang 11Chương 1
Tổng quan về phân tích cú pháp ngữ nghĩa
-Nội dung của chương này sẽ trình bày các kiến thức cơ bản về cú pháp, ngữnghĩa và một số nguồn tài nguyên quan trọng phục vụ cho phân tích cú pháp -ngữ nghĩa
1.1 Bài toán phân tích cú pháp - ngữ nghĩa
1.1.1 Bài toán phân tích cú pháp
Trong ngôn ngữ học, cú pháp là tập các quy tắc, nguyên tắc kết hợp các từ,cụm từ để hình thành nên các câu trong ngôn ngữ tự nhiên Cú pháp được xem
là linh hồn của ngôn ngữ, muốn sử dụng ngôn ngữ linh hoạt và hiệu quả, ta phảihiểu rõ về cú pháp Với mỗi câu trong ngôn ngữ tự nhiên, chúng ta có hai dạng
Trang 12Nó trả tôi tiền
nsubj iobj
dobj root
Hình 1.1: Đồ thị phụ thuộc biểu diễn câu “Nó trả tôi tiền”
S NP
P Nó
VP V trả
NP P tôi
NP N tiền Hình 1.2: Cây cú pháp thành phần biểu diễn câu “Nó trả tôi tiền”
Ví dụ: Đồ thị cú pháp phụ thuộc và cú pháp thành phần biểu diễn câu “Nótrả tôi tiền” được thể hiện lần lượt trong hình 1.1 và 1.2
Cú pháp thành phần với đồ thị biểu diễn được mô tả dưới dạng cây cho phépchúng ta dễ dàng xây dựng và kết hợp các thành phần ngữ nghĩa dựa trên thànhphần cú pháp Do đó, trong các phần tiếp theo, luận văn chỉ quan tâm tới bàitoán phân tích cú pháp thành phần của các câu trong ngôn ngữ tự nhiên.Phân tích cú pháp thành phần (phân tích cú pháp) đưa ra mô tả về quan hệ
và vai trò ngữ pháp của các từ, cụm từ trong câu, từ đó đưa ra cấu trúc cú pháp(cây phân tích) của câu Đầu vào của bài toán phân tích cú pháp là các câu đãđược tách từ, trong đó mỗi từ có đặc điểm hình thái xác định Quá trình phântích cú pháp cho phép kiểm tra một câu đầu vào có đúng ngữ pháp hay khôngdựa trên các quy tắc ngôn ngữ
Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng, là nềntảng để phát triển nhiều ứng dụng liên quan đến xử lí ngôn ngữ Đối với tiếngViệt, đã có một số công trình nghiên cứu về phân tích cú pháp cho các văn phạmkhác nhau như PCFG (Probabilistic Context-Free Grammars) [18], HPSG (Head-driven phrase structure grammar ) [21], TAG (Tree-adjoining grammar ) [22]
Trang 131.1.2 Bài toán phân tích ngữ nghĩa
Ngữ nghĩa biểu thị mối quan hệ giữa các từ, cụm từ, ký hiệu và ý nghĩa củachúng thể hiện trong câu Bài toán phân tích ngữ nghĩa được thể hiện ở nhiềucấp độ: Phân tích ngữ nghĩa các từ, cụm từ, phân tích vai nghĩa Luận văntập trung giải quyết vấn đề phân tích ngữ nghĩa của các câu trong ngôn ngữ tựnhiên Đó là quá trình ánh xạ mỗi câu thành một biểu diễn hình thức cho ngữnghĩa của câu Một trong những cách thức phổ biến nhất để biểu diễn ngữ nghĩangôn ngữ tự nhiên là sử dụng logic bậc một với nội dung chi tiết được trình bàytrong chương tiếp theo
Bài toán phân tích ngữ nghĩa đã và đang nhận được nhiều sự quan tâm củacác nhà ngôn ngữ học trên thế giới Kết quả đạt được đầu tiên về biểu diễn ngữnghĩa ngôn ngữ tự nhiên phải kể đến nghiên cứu về ngữ nghĩa hình thức củaRichard Montague [29], trong đó các quy tắc ngữ pháp được kết hợp đồng thờivới các quy tắc ngữ nghĩa để xây dựng không chỉ cây cú pháp mà cả hạng thứclambda biểu diễn nghĩa của thành phần cú pháp Trong những năm gần đây,các nhà khoa học đã có nhiều bước tiến đáng kể trong việc xây dựng các môhình biểu diễn ngữ nghĩa [25], cùng với một số công cụ phần mềm [16][37][34]cho phép sinh tự động biểu diễn ngữ nghĩa của nhiều ngôn ngữ khác nhau Đốivới tiếng Việt, được sự quan tâm của các nhóm nghiên cứu xử lí ngôn ngữ từnăm 2000 đến nay, nhiều vấn đề cơ bản đã được giải quyết nhưng nhìn chungmới chỉ xoay quanh các bài toán phân tích từ vựng và cú pháp Đây là lúc cầnđầu tư nghiên cứu về xử lí ngữ nghĩa hướng tới một hệ thống phân tích cú pháp
- ngữ nghĩa hoàn chỉnh cho tiếng Việt
1.2 Dữ liệu cho phân tích cú pháp - ngữ nghĩa
Kho ngữ liệu văn bản và từ điển là những nguồn tài nguyên không thể thiếucho các hệ thống xử lí ngôn ngữ tự nhiên Trong phân tích cú pháp - ngữ nghĩa,
từ điển cung cấp thông tin cấu trúc cú pháp và biểu diễn ngữ nghĩa của từng từtrong ngôn ngữ Bên cạnh đó, các kho văn bản đóng vai trò như dữ liệu huấnluyện, dữ liệu kiểm tra độ chính xác, dữ liệu đầu vào cho phân tích cú pháp -
Trang 14yêu 1 d.(id) Vật tưởng tượng trong cổ tích, thần thoại, hình thù kì dị, chuyên làm hại người yêu 2 1 đg Có tình cảm dễ chịu khi tiếp xúc với một đối tượng nào đó, muốn gần gũi và thường sẵn sàng vì đối tượng đó mà hết lòng Mẹ yêu con Yêu nghề Yêu đời Trông thật đáng yêu Yêu nên tốt, ghét nên xấu (tng.) 2 đg Có tình cảm thắm thiết dành riêng cho một người khác giới nào đó, muốn chung sống và cùng nhau gắn bó cuộc đời Yêu nhau Người yêu 3 đg Từ dùng sau một động từ trong những tổ hợp tả một hành vi về hình thức là chê trách, đánh mắng một cách nhẹ nhàng, nhưng thật ra là biểu thị tình cảm thương yêu Mẹ mắng yêu con Nguýt yêu Tát yêu.
Hình 1.3: Hai mục từ tương ứng với hình vị từ “yêu” trong từ điển in
ngữ nghĩa của nhiều ngôn ngữ khác nhau Nội dung bên dưới trình bày một sốnguồn tài nguyên có giá trị phục vụ cho các hệ thống phân tích cú pháp - ngữnghĩa
1.2.1 Từ điển
Từ điển cung cấp cho các hệ thống xử lí ngôn ngữ thông tin từ vựng ở nhiềucấp độ, từ hình thái đến ngữ nghĩa Dạng từ điển điện tử đầu tiên được hìnhthành là từ điển in (print dictionary) [2], lưu trữ thông tin chuyển đổi từ các
bộ từ điển giấy Đối với tiếng Việt, trung tâm từ điển học Vietlex hiện đang lưutrữ một phiên bản từ điển in dưới định dạng MS Word chứa 39 924 mục từ [32].Mỗi mục từ gồm các thông tin như từ loại, cách sử dụng, định nghĩa và các ví
dụ minh họa cho cách sử dụng của từ Một từ nhiều nghĩa có thể được mô tảbởi nhiều mục từ khác nhau trong từ điển Ví dụ, hình 1.3 thể hiện hai mục từtương ứng với hình vị từ “yêu” trong từ điển in
Với yêu cầu giải quyết các bài toán ngày càng phức tạp trên máy tính và sựphát triển của khoa học công nghệ, một loạt các từ điển cho máy tính (MachineReadable Dictionary - MRD) [9] được xây dựng dựa trên chuẩn mô hình từ điểnLMF [17] Dự án LMF (Lexical Markup Framework) được khởi động từ năm
2002, cung cấp nền tảng cho việc phát triển các từ điển xử lí ngôn ngữ tự nhiên.Mục đích của nó là định nghĩa một tiêu chuẩn chung cho việc biểu diễn dữ liệu
từ vựng để nâng cao khả năng trao đổi và dùng lại của các từ điển LMF đưa ramột siêu mô hình từ vựng, trong đó mỗi mục từ được mô tả ở nhiều tầng bậckhác nhau, với các khối thông tin đơn ngữ (ngữ âm, hình thái, cú pháp, ngữ
Trang 15nghĩa) và đa ngữ.
Trên thế giới, hiện nay, việc phát triển các kho ngữ liệu từ điển theo tiêuchuẩn LMF là khá phổ biến, điển hình là các bộ từ điển cung cấp thông tinngôn ngữ ở nhiều tầng bậc, thiên về ngữ nghĩa như FrameNet, VerbNet
FrameNet [14] [36] là bộ từ điển được xây dựng dựa trên lí thuyết ngữ nghĩađược gọi là ngữ nghĩa khung Mục đích là đưa ra bằng chứng về khả năng kết hợpngữ nghĩa và cú pháp của từng từ trong từng nét nghĩa của chúng, với sự giảithích có trợ giúp của máy tính trên các câu ví dụ Ý tưởng cơ bản của FrameNet
là sử dụng các khung ngữ nghĩa để biểu thị nghĩa của từng từ Mỗi khung thamchiếu đến một khái niệm, mô tả một hành động hoặc một trạng thái, với cácvai nghĩa và các thành phần liên quan tới khung Các vai nghĩa trong khungngữ nghĩa được gọi là các thành phần khung (frame elements - FEs), các từ liênquan đến khung ngữ nghĩa được gọi là các đơn vị từ vựng (lexical units - LUs).FrameNet tổ chức các khung ngữ nghĩa theo mô hình cây phân cấp, các khung ởcấp cao hơn tham chiếu đến các khái niệm chung hơn, tổng quát hơn, các khung
ở cấp độ thấp hơn đề cập đến các khái niệm hẹp hơn, chi tiết hơn
Nhiệm vụ của FrameNet là xác định các khung ngữ nghĩa và chú thích cáccâu để thể hiện rằng các thành phần khung là phù hợp về mặt cú pháp với cácđơn vị từ vựng của khung Dưới đây là ví dụ minh họa cho việc chú giải trongFrameNet:
Ví dụ: Khung ngữ nghĩa apply_heat mô tả hành động cook (nấu ăn) đượcxây dựng như sau:
• Các thành phần khung: Các từ cook (người nấu), food (thức ăn), container(vật dụng đựng thức ăn), heat_instrument (công cụ nấu)
• Các đơn vị từ vựng: Các từ liên quan như fry (rán), bake (nướng lò), grill(nướng vỉ)
Khi đó, câu “the boys grill their catches on an open fire” có thể được chú giảinhư sau:
[Cook the boys] GRILL[F ood their catches][Heating_instrument on an open fire]FrameNet cho tiếng Anh hiện bao gồm trên 170 000 câu được chú giải ngữ
Trang 16nghĩa thủ công Đây là kho ngữ liệu lớn, cung cấp dữ liệu huấn luyện cho bàitoán gán nhãn vai nghĩa và sử dụng trong nhiều bài toán xử lí ngôn ngữ khác.Bên cạnh kho ngữ liệu ngữ nghĩa FrameNet, từ điển động từ VerbNet chonhiều ngôn ngữ cũng được xây dựng Trong đó, mỗi khung ngữ nghĩa FrameNet
có thể được ánh xạ tới một số lớp động từ VerbNet cung cấp thông tin cú pháp
- ngữ nghĩa chi tiết của các từ trong ngôn ngữ Dưới đây là mô tả cụ thể về từđiển VerbNet
VerbNet [20] [13] là từ điển động từ chứa xấp xỉ 5800 động từ và nhóm động
từ trong tiếng Anh, được chia thành 270 lớp theo cách phân loại của BethLevin [11] Các thành phần trong một lớp động từ VerbNet gồm:
• Cây phân cấp: Chứa cấu trúc cây của lớp động từ gồm các lớp cha và lớpcon Mỗi lớp có thể có nhiều lớp con kế thừa đặc điểm cú pháp và ngữ nghĩacủa lớp cha Các lớp động từ trong VerbNet được đánh số phân cấp, các lớpcon có chỉ số lớp ở đầu giống nhau và giống với chỉ số của lớp cha (hình 1.4)
Cây phân cấp SPRAY-9.7 SPRAY-9.7-1 SPRAY-9.7-1-1 SPRAY-9.7-2 Hình 1.4: Cây phân cấp của động từ spray-9.7
• Thành phần của lớp: Chứa danh sách các động từ của lớp
• Các vai nghĩa: Biểu thị mối quan hệ giữa vị từ và các đối số Một số vainghĩa thường được sử dụng trong VerbNet như:
– Agent: Tác nhân gây ra hành động, trạng thái
– Attribute: Thuộc tính của thực thể
Trang 17kí hiệu (+), (-) biểu diễn ràng buộc tồn tại hay không tồn tại một tính chấtnào đó Ngoài ra, các ràng buộc có thể kết hợp với nhau thông qua các phéptoán | (hoặc), & (và)
Ví dụ: Trong hình 1.5 ràng buộc trên hai vai nghĩa Agent (người gửi) vàRecipient (người nhận) thể hiện các đối tượng này có thể là một thực thể
cụ thể hoặc một tổ chức
Các vai nghĩa
• Agent [+animate | +organization]
• Theme
• Recipient [+animate | +organization]
Hình 1.5: Nhãn vai nghĩa của lớp động từ give-13.1 với phép toán |
• Các khung cú pháp: Gồm các câu ví dụ, cấu trúc cú pháp của câu, thôngtin ngữ nghĩa biểu diễn mối quan hệ giữa các thành phần trong câu
Đối với tiếng Việt, bộ từ điển lớn nhất được xây dựng theo tiêu chuẩn LMF là
từ điển tiếng Việt cho máy tính (Vietnamese Computational Lexicon - VCL)[32]
Từ điển VCL được xây dựng trong khuôn khổ đề tài quốc gia, chứa khoảng 42 000mục từ Mục tiêu ban đầu của việc thiết kế VCL là phục vụ cho xử lí cú pháptiếng Việt, trong đó, mỗi mục từ được mô tả trên ba bình diện: Hình thái, cúpháp, ngữ nghĩa Do đặc điểm cấu tạo tiếng Việt không có căn tố và phụ tố,không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách ) Vì vậy, khixét về tính hình thái, từ điển VCL chỉ quan tâm đến cấu tạo từ với một số dạng:
Từ đơn, từ ghép, từ láy, từ vay mượn, từ viết tắt, kí hiệu
Thông tin cú pháp của mỗi mục từ được thể hiện thông qua việc phân loại
từ (danh từ - N, danh từ riêng - Np, danh từ đơn thể - Nc, động từ - V, ) vàliệt kê thông tin về mẫu động từ, các từ đồng nghĩa, trái nghĩa Trong các ngônngữ Ấn - Âu, đặc biệt là tiếng Anh, vị ngữ của một câu bao giờ cũng là động
từ Đối với tiếng Việt, không phải lúc nào động từ cũng làm vị ngữ, tuy nhiên,khi xem xét vai trò vị ngữ trong câu, các tác giả VCL bước đầu chỉ quan tâmtới loại động từ và đưa ra 3 mẫu động từ cơ bản:
• Sub + V (Ví dụ: Tôi ngủ)
Trang 18• Sub + V +Obj (Ví dụ: Tôi đọc sách)
• Sub + V +Obj +Obj (Ví dụ: Tôi đưa cho Nam quyển sách)
trong đó: Obj có thể là cụm giới từ, cụm danh từ, cụm động từ, cụm tínhtừ
Xét về ngữ nghĩa, VCL tổ chức từ loại ngữ nghĩa theo mô hình cây với gần 100tiểu loại, đồng thời gán thông tin từ loại ngữ nghĩa cho mỗi mục từ (học sinh
- Person) và đưa ra ràng buộc ngữ nghĩa - thông tin về vai nghĩa của một từtrong câu: Agent (tác nhân), Patient (bị thể)
Ngoài các thông tin nêu trên, các tác giả VCL còn đưa thêm hai thông tin
là lời định nghĩa nhằm nêu lên ý nghĩa cơ bản của từ vựng và phần ví dụ minhhọa cho định nghĩa
VCL được xem là nguồn tri thức cơ bản của các mục từ tiếng Việt và nguồntài nguyên hữu ích cho phân tích cú pháp Toàn bộ dữ liệu trong VCL được xâydựng dựa trên tiêu chuẩn LMF cho phép cập nhật, kết nối với các tài nguyênngôn ngữ khác và mở rộng khi cần thiết
1.2.2 Các kho văn bản
Để giải quyết các bài toán đa dạng trong xử lí ngôn ngữ tự nhiên, bên cạnhthông tin ngôn ngữ chứa trong từ điển, các kho văn bản chú giải cú pháp - ngữnghĩa là những nguồn tài nguyên khá quan trọng Chúng thường được sử dụngtrong việc huấn luyện các mô hình xử lí ngôn ngữ, là tiền đề cho sự ra đời củanhiều ứng dụng Nội dung dưới đây trình bày một số kho văn bản có tác động
to lớn trong các hệ thống xử lí cú pháp - ngữ nghĩa: TreeBank, PropBank, AMRBank
Kho ngữ liệu TreeBank
TreeBank [24] là kho văn bản chú giải cú pháp, chứa các câu đã được phântích và gán nhãn Kho ngữ liệu TreeBank có vai trò đặc biệt quan trọng trongviệc xây dựng các hệ thống phân tích cú pháp theo cách tiếp cận thống kê
Có hai loại lược đồ chú giải cấu trúc cú pháp TreeBank là chú giải theo cấutrúc thành phần (quan tâm đến cấu trúc ngữ đoạn trong câu) và chú giải theo
Trang 19Hiện nay, một loạt các TreeBank (gồm cả TreeBank chứa chú giải cấu trúcthành phần và phụ thuộc) với kích thước lớn đã xuất hiện cho nhiều ngôn ngữkhác nhau như tiếng Anh, tiếng Pháp, tiếng Trung Quốc Đối với tiếng Việt,nhóm tác giả Nguyễn Phương Thái cùng cộng sự [5] đã lựa chọn xây dựngTreeBank gồm các cây thành phần với tên gọi VietTreeBank chứa 10 ngàn câu
đã được chú giải cú pháp Tập nhãn của VietTreeBank được thiết kế gồm có:
• Tập nhãn từ loại tiếng Việt gồm: Từ loại cơ sở (danh từ, động từ ), thôngtin ngữ nghĩa và một số thông tin cú pháp khác (bảng 1.1)
• Tập nhãn thành phần cú pháp: Chứa các mô tả thành phần cú pháp cơbản như cụm từ và mệnh đề, là thông tin cơ bản nhất trên cây cú pháp
Trang 20Bảng 1.2 liệt kê các nhãn mệnh đề và bảng 1.3 liệt kê tập nhãn cụm từtrong VietTreeBank
8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì )
9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao )
10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn
11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào )
Bảng 1.3: Tập nhãn cụm từ
• Nhãn chức năng cú pháp: Cho biết vai trò của các thành phần cú pháptrong thành phần cú pháp mức cao hơn Nhãn chức năng cú pháp được gáncho các thành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ (bảng 1.4)
Ví dụ: Chú giải cú pháp của câu “Nhân lực không nằm trong biên chế đượcduyệt.” trong VietTreeBank:
(S (NP-SUB (N-H Nhân_lực)) (VP (R không) (V-H nằm)(PP (E-H trong)(NP (N-H biên_chế) (VP (R được) (V-H duyệt))))) ( .))
Trong đó:
• S, NP, PP, VP là các nhãn mệnh đề và cụm từ
• N, R, V, E là các nhãn từ loại
Trang 21STT Tên Chú thích
1 SUB Nhãn chức năng chủ ngữ
2 DOB Nhãn chức năng tân ngữ trực tiếp
3 IOB Nhãn chức năng tân ngữ gián tiếp
4 TPC Nhãn chức năng chủ đề
5 PRD Nhãn chức năng vị ngữ không phải cụm động từ
6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động
7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động
8 H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)
9 - 12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt
13 TTL Tít báo hay tiêu đề
14 VOC Thành phần than gọi
Bảng 1.4: Nhãn chức năng cú pháp
• SUB, H là các nhãn chức năng cú pháp
Kho ngữ liệu PropBank
Propbank [28] là kho ngữ liệu chú giải vai nghĩa cho các đối số của vị từ, bổsung các nhãn vai nghĩa vào cấu trúc cú pháp, hướng tới mục tiêu hoàn thiệnđầy đủ kho ngữ liệu chú giải vai nghĩa TreeBank Lớp thông tin này rất cầnthiết để hiểu đầy đủ ý nghĩa của câu Đây là một bước tiến gần hơn tới biểudiễn ngữ nghĩa chi tiết của ngôn ngữ tự nhiên Danh sách các đối số ngữ nghĩacủa vị từ trong Propbank được thể hiện trong bảng 1.5
3 Arg2 Công cụ để thực hiện hành động
Kẻ tiếp nhận hành động
Kẻ được hưởng thành quả từ một hành động
4 Arg3 Điểm bắt đầu của chuyển động
5 Arg4 Đích đến của chuyển động
6 ArgM (ArgM-LOC, ArgM-TMP ) Các bổ ngữ (địa điểm, thời gian )
Bảng 1.5: Tập nhãn vai nghĩa trong Propbank
Ví dụ: Gán nhãn vai nghĩa cho câu “He would not accept those things”:
Trang 22[Arg0 He][ArgM-MOD would][ArgM-NEG not][V accept] [Arg1 those things]Trong đó, V: Động từ, Arg0: Vai tác thể, Arg1: Vai bị thể, ArgM-MOD: Động
từ khuyết thiếu (modal), ArgM-NEG: Vai phủ định (negation)
Trong Propbank tồn tại một số tệp dữ liệu khung (FrameSet) mô tả tất cảcác đối số có thể, tương ứng với các trường hợp ngữ nghĩa khác nhau của từng
vị từ và các ví dụ minh họa Ngoài ra, mỗi FrameSet được ánh xạ tới một số lớpđộng từ VerbNet cung cấp cho chúng ta nhiều thông tin ngữ nghĩa của từ
Ví dụ: FrameSet của động từ “decline”
FrameSet decline.01 (giảm dần)
Arg1: Thực thể bị giảm
Arg2: Số lượng giảm
Arg3: Điểm khởi đầu
Arg4: Điểm kết thúc
[Arg1 its net income] declining [Arg2 42% ][Arg4 to $121 million]
FrameSet decline.02 (từ chối)
Arg0: Tác nhân
Arg1: Điều bị từ chối
[Arg0 A spokesman] declined [Arg1 trace to elaborate]
Hiện tại, kho ngữ liệu PropBank tiếng Anh chứa khoảng 3500 câu đã chú giảivai nghĩa Với tiếng Việt, nhóm tác giả Hà Mỹ Linh [3] đã hoàn thành việc gánnhãn vai nghĩa cho trên 5000 câu trong VietTreeBank Tuy nhiên, điểm khácbiệt giữa PropBank tiếng Anh và PropBank tiếng Việt là các FrameSet tiếngViệt không được kết nối với bất kì nguồn tài nguyên nào khác, vì chúng ta không
có các nguồn tài nguyên ngữ nghĩa tương tự VerbNet
Kho ngữ liệu AMR Bank
AMR (abstract meaning representation) [23] là một dạng chú giải ngữ nghĩangắn gọn, dễ đọc cho toàn bộ câu Thành phần chú giải gồm các thực thể, cácnhãn vai nghĩa PropBank, các từ chỉ mối quan hệ số lượng, ngày tháng AMR Bank là kho văn bản chú giải ngữ nghĩa AMR cho các câu trong ngônngữ tự nhiên Trong AMR Bank, mỗi câu được biểu diễn bởi một đồ thị cónút gốc, không có chu trình với các nút lá được gán nhãn bởi các khái niệm,
Trang 23ARG0 ARG1
ARG0
instance
instance want-01
boy
go-01
Hình 1.6: Biểu diễn AMR của câu “The boy wants to go”
các cung được gán nhãn bởi các mối quan hệ Các khái niệm trong AMR cóthể là các từ trong ngôn ngữ tự nhiên (boy, girl ), các khung vị từ (FrameSet)trong PropBank, các từ khóa đặc biệt: Kiểu thực thể ngày tháng (date-entity),vùng miền (world-region), đại lượng tiền tệ (monetary-quantity), khoảng cách(distance-entity), các phép hội logic AMR sử dụng gần 100 mối quan hệ:
• Các nhãn vai nghĩa theo quy ước Propbank (:arg0, :arg1 )
• Các mối quan hệ ngữ nghĩa nói chung như :name (tên), :age (tuổi), :location(địa điểm)
• Các mối quan hệ cho các đại lượng như :quant (số lượng), :unit (đơn vị),:scale (tỉ lệ)
• Các mối quan hệ cho các thực thể ngày tháng như :day (ngày), :month(tháng), year (năm), :season (mùa)
•
Ví dụ: Biểu diễn ngữ nghĩa AMR của câu “The boy wants to go” được thểhiện trong hình 1.6) Biểu diễn AMR dưới dạng văn bản của câu trên như sau:
(w/want − 01: Arg0(b/boy): Arg1(g/go − 01
: Arg0 b))
Trang 24Trong đó, Arg0, Arg1 là các vai nghĩa PropBank biểu thị các vai tác thể và
bị thể Các biến w, b, b2, g tương ứng là các nút trong của đồ thị trên Biến bxuất hiện 2 lần, một lần đóng vai trò là Arg0 của want − 01, một lần là Arg0của go − 01
Hiện tại, kho ngữ liệu chú giải AMR đã được xây dựng cho một số ngôn ngữnhư tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Nhật Đối với tiếng Anh, một khovăn bản chú giải AMR chứa 1562 câu của tác phẩm “The little prince” đã đượcxây dựng Đây là một nguồn tài nguyên quan trọng, mở ra những nghiên cứumới trong hiểu biết ngôn ngữ tự nhiên theo cách tiếp cận thống kê, đồng thờicung cấp đầu vào ngữ nghĩa cho các hệ thống sinh ngôn ngữ tự nhiên
Tóm lại, phân tích cú pháp - ngữ nghĩa có tầm ảnh hưởng mạnh mẽ trong
xử lí ngôn ngữ tự nhiên Để giải quyết bài toán phân tích cú pháp - ngữ nghĩađòi hỏi chúng ta phải xây dựng các nguồn tài nguyên ngôn ngữ có chất lượngtốt Trong tiếng Việt, các kho ngữ liệu phục vụ cho xử lí cú pháp khá pháttriển, tuy nhiên, chúng ta thiếu những nguồn tài nguyên ngữ nghĩa tương tựnhư FrameNet, VerbNet, AMR Bank
Trang 25Chương 2
Các hệ hình thức văn phạm
Chương này trình bày một số hệ hình thức văn phạm dùng cho phân tích cúpháp - ngữ nghĩa và cách thức biểu diễn ngữ nghĩa dựa trên logic bậc một Đểđảm bảo tính đặc trưng cho vấn đề được nhắc tới, một số ví dụ bằng tiếng Anhtrong các tài liệu tham khảo có thể được giữ nguyên trong các phần của chương
2.1 Hệ hình thức văn phạm
Có hai cách tiếp cận cho bài toán phân tích cú pháp: Phân tích cú pháp dựatrên luật và dựa trên thống kê Mọi bộ phân tích cú pháp suy cho cùng đềuphải sử dụng một văn phạm nào đó Có nhiều loại văn phạm đã được sử dụngcho phân tích cú pháp và biểu diễn ngữ nghĩa: Văn phạm phi ngữ cảnh (CFG),văn phạm cảm ngữ cảnh (CSG), văn phạm cấu trúc ngữ đoạn hướng trung tâm(HSPG) Luận văn lựa chọn trình bày văn phạm hình thức TAG cho bài toánphân tích cú pháp - ngữ nghĩa bởi một số lí do [4]: Thứ nhất, TAG thuộc lớpvăn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh mạnh hơn văn phạm phingữ cảnh, trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn
là đa thức Thứ hai, văn phạm TAG thuộc nhóm các hệ hình thức văn phạmhợp nhất, rất phù hợp với các ứng dụng ngôn ngữ học, cho phép mô tả cáchiện tượng cú pháp, ngữ nghĩa một cách tự nhiên Hơn nữa, khả năng chuyểnđổi một văn phạm TAG sang hệ hình thức văn phạm hợp nhất khác đã đượcchứng minh Nội dung bên dưới sẽ trình bày chi tiết văn phạm TAG, siêu vănphạm XMG với các mảnh cây cho phép sinh một văn phạm TAG đầy đủ, giảm
Trang 26dư thừa cấu trúc trong TAG Phần cuối của chương trình bày văn phạm RCG(Range Concatenation Grammar), trong đó, một văn phạm RCG đơn giản đượcchứng minh là tương đương với TAG Việc giới thiệu RCG nhằm mục đích sửdụng cho xây dựng công cụ phân tích cú pháp ngữ nghĩa TAG trình bày trongchương tiếp theo.
2.1.1 Văn phạm TAG
TAG (Tree Adjoining Grammar) là hệ hình thức viết lại cây đề xuất bởiAravind Joshi và các đồng nghiệp từ năm 1975 [8] Văn phạm TAG được nghiêncứu và chỉ ra là rất phù hợp với các ứng dụng ngôn ngữ học, được sử dụng trongviệc phân tích nhiều ngôn ngữ khác nhau như tiếng Anh, tiếng Pháp, tiếng Đức,tiếng Hoa TAG thao tác với các đối tượng cơ bản có cấu trúc cây, sử dụng cácluật viết lại cây thay vì viết lại xâu, cho phép xây dựng hệ hình thức có khảnăng sinh mạnh, chứa các mô tả cấu trúc chứ không chỉ gồm tập các xâu.Định nghĩa 2.1.1 (Văn phạm TAG)
TAG được định nghĩa là bộ năm G = (Σ, N, I, A, S) trong đó:
• Σ là tập các kí hiệu kết thúc (bảng chữ cái chính)
• N là tập các kí hiệu không kết (bảng chữ cái phụ)
• I là tập các cây khởi tạo
ta sẽ dùng mà không phân biệt hai hệ hình thức này
Cây khởi tạo trong TAG là các cây trong đó các nút lá được gán kí hiệu kếthoặc không kết Nút lá có kí hiệu không kết được gọi là nút thế, kí hiệu ↓ Câyphụ trợ được đặc trưng bởi hai nút có kí hiệu không kết giống nhau, một nút
Trang 27gốc và một nút lá Nút lá đặc biệt này được gọi là nút chân và được đánh dấubằng kí hiệu *.
Ví dụ: Trong hình 2.1, αtoi, αngu là các cây khởi tạo, βdang là cây phụ trợ
αtoiNP tôi
αnguS NP↓
(nút thế)
V ngủ
βdangV ADV đang
V*
(nút chân)
Hình 2.1: Các cây khởi tạo và phụ trợTrong văn phạm TAG, các cây cơ bản có thể kết hợp với nhau thông qua haithao tác viết lại là phép thế và kết nối Xuất phát từ các cây cơ bản, thực hiệnmột dãy các phép thế và kết nối cho ta cây cú pháp/cây phân tích với các nút
lá tương ứng với dãy các từ trong câu
Quá trình dẫn xuất trong TAG được biểu diễn bởi một cấu trúc cây đặc biệtgọi là cây dẫn xuất, ghi lại dãy các phép thế và kết nối được tiến hành trên các
cơ bản để sinh ra cây cú pháp Mỗi nút trên cây dẫn xuất là tên của một cây
cơ bản, mỗi cung biểu diễn một phép kết nối (nét liền) hoặc một phép thế (nétđứt)
Ví dụ: Hình 2.2 minh họa quá trình dẫn xuất sinh ra cây cú pháp của câu
“tôi đang ngủ ”:
Quá trình dẫn xuất
S NP↓
NP
tôi
VP ADV đang
VP*
VP ngủ
Cây cú pháp S NP tôi
VP ADV đang
VP ngủ
Cây dẫn xuất
α ngu
α toi [0.0] β dang [0.1]
Hình 2.2: Quá trình dẫn xuất của câu “tôi đang ngủ ”
• Cây αtoi được thế vào nút lá có nhãn NP của cây αngu sinh ra cây α′
ngu
• Cây phụ trợ βdang được kết nối vào nút VP của cây α′
ngu sinh ra cây cú phápđầy đủ của câu “tôi đang ngủ ”
Trang 28Hình 2.4: Hợp nhất đặc trưng trong phép kết nốiVăn phạm TAG cho phép trang bị cấu trúc đặc trưng (cặp thuộc tính - giátrị) gắn với mỗi nút trên cây cú pháp, giúp mô tả các đối tượng, ràng buộc ngônngữ như hợp giống, hợp số, khung vị từ và các ràng buộc ngữ nghĩa Có hai loạicấu trúc đặc trưng trong TAG: Đặc trưng trên (top) và đặc trưng dưới (bottom).Việc hợp nhất hai cấu trúc đặc trưng chính là quá trình hợp nhất các cặp thuộctính - giá trị có trong hai cấu trúc Trong đó, hai cấu trúc đặc trưng là hợp nhấtđược với nhau nếu mọi thuộc tính cùng tên trong hai cấu trúc có giá trị trùngnhau Trường hợp ngược lại, phép hợp nhất thất bại, dẫn xuất không thực hiệnđược Quá trình hợp nhất cấu trúc đặc trưng khi thực hiện phép thế hay kết nốiđược thực hiện theo nguyên tắc:
• Với phép thế, cấu trúc đặc trưng top của các nút được ghép với nhau sẽđược hợp nhất (hình 2.3)
• Với phép kết nối, trước hết, cấu trúc đặc trưng top của nút trong nơi thựchiện kết nối và của nút gốc trong cây phụ trợ sẽ được hợp nhất; tiếp theo,cấu trúc đặc trưng bot của nút trong nơi thực hiện kết nối và của nút chân
Trang 29của cây phụ trợ sẽ được hợp nhất Ở dẫn xuất cuối, các cấu trúc đặc trưngtop và bot của mỗi nút trong cây dẫn xuất sẽ được hợp nhất (hình 2.4).
Ví dụ: Dưới đây là ví dụ minh họa cho quá trình hợp nhất đặc trưng trongphép kết nối
SNpApATree
S NP
Cô ấy
AP đẹp
+ ApRApTree
AP [negAdv=+]
R không
AP* [negAdv=−]
⇒ SNpApRApTree
S NP
Cô ấy
AP[negAdv=+] R
không
AP [negAdv=−]
đẹp Hình 2.5: Quá trình hợp nhất đặc trưng sinh câu “Cô ấy không đẹp”
Thuộc tính negAdv trên cây ApRApTree giúp ràng buộc không cho phép sinh
ra câu “Cô ấy không không đẹp”
Cô ấy
AP [negAdv=+ ] R
Cô ấy
AP [negAdv=+]
R không
AP[negAdv=-][negAdv=+]
R không
AP [negAdv=−]
đẹp Hình 2.6: Ràng buộc đặc trưng trong phép kết nối
Khi xây dựng văn phạm TAG cho một ngôn ngữ tự nhiên, người ta áp dụngmột số nguyên lý ngôn ngữ học sau Thứ nhất, văn phạm TAG được từ vựnghóa: Mỗi cây cơ bản đều có ít nhất một nút lá gắn với một đơn vị từ vựng gọi
là từ neo Thứ hai, mỗi cây khởi tạo của TAG biểu diễn các thành phần thànhphần bổ nghĩa cho từ neo Thứ ba, các cây cơ bản là cực tiểu: Cây khởi tạo phải
có từ neo là từ trung tâm của một thành phần chính trong câu và chứa tất cảcác thành phần đối bắt buộc của từ neo Tất cả các thành phần phụ của từ neo
Trang 30có thể thêm vào một cách đệ quy bằng cách sử dụng phép kết nối với các câyphụ trợ.
2.1.2 Siêu văn phạm và XMG
S NP tôi
VP V ngủ
S NP tôi
VP
Hình 2.7: Hiện tượng lặp cấu trúc trong TAG
TAG là một văn phạm kích thước lớn với hàng nghìn cây cơ bản Để xây dựngvăn phạm TAG cho một ngôn ngữ, số lượng các cây cơ bản cần xây dựng là khálớn Mặt khác, ta thường thấy có hiện tượng lặp cấu trúc khi hai hoặc nhiều từvựng khác nhau cùng chia sẻ một tập cây cơ bản vì chúng có cùng tính chất cúpháp Hình 2.7 là một ví dụ đơn giản minh họa cho hiện tượng lặp cấu trúc xảy
ra trong TAG Để khắc phục những nhược điểm nêu trên, người ta đã đề xuấtcác mô hình siêu văn phạm (meta-grammar) cho phép sinh một văn phạm TAGđầy đủ từ thành phần cơ sở là các mảnh cây
XMG (eXtended MetaGrammar) [15] là một hệ thống siêu văn phạm cungcấp cơ chế để người sử dụng định nghĩa và kết hợp các mảnh cây nhằm xây dựngcác cây cơ bản đầy đủ Việc phân rã cây thành các mảnh một mặt giúp tối tiểuhoá các cấu trúc cơ sở, tránh được hiện tượng dư thừa hay trùng lặp cấu trúc.Mặt khác, XMG cho phép mô tả thông tin cú pháp hỗ trợ cả hai tính chất làchia sẻ cấu trúc và lựa chọn
Ví dụ: Hình 2.8 là ba mô tả cú pháp trong XMG tương ứng với thông tin vềchủ ngữ chính tắc, chủ ngữ mệnh đề và dạng động từ đơn: Tên các cây bộ phậnnày có thể sử dụng lại để mô tả các lựa chọn bằng phép tuyển (∨) Ví dụ, chủngữ có thể là chủ ngữ chính tắc hoặc chủ ngữ mệnh đề:
Subject → CanonicalSubject ∨ RelativisedSubject
Để mô tả tổ hợp của nhiều mảnh cây, XMG dùng phép hội (∧) Ví dụ, cấu
Trang 31CanonicalSubject RelativisedSubject VerbalForm
Hình 2.8: Mô tả cú pháp XMGtrúc động từ nội động gồm một chủ ngữ và một động từ đơn được mô tả nhưsau:
IntransitiveVerb→ Subject ∧ VerbalFormNgoài ra, siêu văn phạm XMG còn được thiết kế để tránh đệ quy nhằm đảmbảo rằng văn phạm TAG sinh ra là hữu hạn Từ mô tả IntransitiveVerb ởtrên, XMG sinh mọi câu trong văn phạm tuân theo mô tả cú pháp này Ví dụ:
NP↓
The boy
Vsleeps
NP∗
The boy
SNP↓
who
V
Vsleep
NP∗
The boy
SNP↓
who
VsleepsBên cạnh đó, XMG cung cấp các cơ chế tổ hợp và ràng buộc cấu trúc nhằmhạn chế sao cho siêu văn phạm chỉ sinh ra các cấu trúc cú pháp hợp lệ Hệ hìnhthức và bộ biên dịch siêu văn phạm XMG đã được sử dụng hiệu quả để sinh ravăn phạm TAG tiếng Pháp gồm hơn 6 000 cây cơ bản từ 293 mô tả mảnh cây
2.1.3 Văn phạm RCG
Theo ngôn ngữ nói, RCG là văn phạm viết lại các vị từ dựa trên xâu đầu vàobằng các vị từ khác Hệ thống viết lại cây TAG và các mở rộng của nó đã đượcchứng minh là tương đương với RCG [10] Do đó, khi xây dựng công cụ phân
Trang 32tích cú pháp cho một văn phạm TAG cụ thể, các tác giả có xu hướng chuyển đổivăn phạm ban đầu sang RCG tương đương để phân tích do RCG có khả năngsinh mạnh hơn các văn phạm cảm ngữ cảnh yếu, cụ thể là các hệ hình thức dựatrên cây (TAG, TAG đa thành phần [31] ) trong khi thời gian phân tích vẫn là
đa thức Hơn nữa, các thuật toán phân tích cú pháp RCG khá đơn giản 3.2.2.Định nghĩa 2.1.2 (Văn phạm RCG)
Văn phạm RCG [10] (Range Concatenation Grammar) là một bộ năm G =(N, T, V, S, P ) trong đó:
• N là tập hợp hữu hạn các vị từ, với số đối của vị từ là ánh xạ dim : N → N+
• T và V lần lượt là tập hữu hạn các kí tự kết thúc và các biến ǫ ∈ T là kíhiệu rỗng
• S ∈ N là vị từ khởi đầu với dim(S) = 1
• P là tập hợp hữu hạn các mệnh đề có dạng
A0(x01, , x0a0) → ǫ hoặc
A0(x01, , x0a0) → A1(x11, , x1a1) An(xn1, , xnan)trong đó n ≥ 1, xij ∈ (T ∪ V )∗, Ai ∈ N là vị từ ai đối
Vị từ An(xn1, , xnan) còn có thể viết là An(−→xn)
Cho mệnh đề A0(x01, , x0a0) → A1(x11, , x1a1) An(xn1, , xnan) Khi đó,
A0(x01, , x0a0) được gọi là phần bên trái (LHS), A1(x11, , x1a1) An(xn1, , xna n)được gọi là phần bên phải (RHS) của mệnh đề
Định nghĩa 2.1.3 (Văn phạm RCG đơn giản)
Một văn phạm RCG đơn giản là RCG thỏa mãn ba tính chất:
• Phi kết hợp: Mỗi đối số trong RHS của mệnh đề c ∈ P bất kì chỉ chứa chínhxác một biến
• Tuyến tính: Không có biến nào xuất hiện nhiều hơn một lần trong LHS vàtrong RHS của mệnh đề
Trang 33• Không xóa bỏ: Mọi biến xuất hiện trong RHS của một mệnh đề thì cũngxuất hiện trong LHS của mệnh đề đó và ngược lại
Ví dụ: Văn phạm RCG đơn giản:
G = ({S, A, B}, {a, b}, {X, Y, Z}, S, P ), trong đó
P = { S(XY Z) → A(X, Z)B(Y ),
A(aX, aY ) → A(X, Y ),A(ε, ε) → ε,
B(bX) → B(X),
Định nghĩa 2.1.4 (Phạm vi, vectơ phạm vi trong RCG)
Với mỗi w ∈ T∗, w = w1 wn (wi ∈ T, 1 ≤ i ≤ n), ta có định nghĩa:
• Một cặp chỉ số hl, ri, 1 ≤ l ≤ r ≤ n là một phạm vi trong w biểu diễn xâucon wl+1 wr
• Hai phạm vi hl1, r1i, hl2, r2i có thể kết hợp được với nhau khi và chỉ khi
r1 = l2, kí hiệu hl1, r1i · hl2, r2i = hl1, r2i
• Giả sử hli, rii là một phạm vi trong w, 1 ≤ i ≤ k Khi đó,
φ = (hl1, r1i), , hlk, rki) được gọi là vectơ phạm vi k chiều trong w Kí hiệuφ(i).l = li, φ(i).r = ri
Để thuận tiện, chúng ta giả sử các biến, các kí tự kết thúc, kí tự ǫ xuất hiệntrong mệnh đề được đánh số bởi các chỉ số dưới phân biệt, theo thứ tự từ tráisang phải, bắt đầu từ 1 Chỉ lần xuất hiện đầu tiên của x ∈ (T ∪ V ∪ {ǫ}) trongmệnh đề được đánh số Quy ước Υ(c), c ∈ P là chỉ số dưới lớn nhất của mệnh
đề c, với x ∈ (T ∪ V ∪ {ǫ}) trong c, Υ(c, x) cho biết chỉ số dưới của x trong c.Khi đó, ta có định nghĩa sau:
Định nghĩa 2.1.5 (Mệnh đề phạm vi)
Cho xâu w = w1 wn và mệnh đề c ∈ P, Υ(c) = j Mệnh đề phạm vi sinh bởi
c và w là mệnh đề trong đó mọi xi ∈ (T ∪ V ∪ ǫ), 1 ≤ i ≤ j xuất hiện trong cđược ánh xạ thành một phạm vi φi biểu diễn xâu con tương ứng của w Mỗi vị
từ trong mệnh đề phạm vi được gọi là vị từ phạm vi
Trang 34Ví dụ: A(hg, hi) → B(hg + 1, hi) là mệnh đề phạm vi sinh bởi A(aX1) →B(X1) và xâu w thỏa mãn wg+1 = a
Nếu x, y ∈ (T ∪ V ∪ {ǫ}), xy là xâu con biểu diễn bởi một trong các đối sốcủa một vị từ nào đó trong c thì hai phạm vi tương ứng trong mệnh đề phạm
vi có thể được kết hợp
Định nghĩa 2.1.6 (Vectơ ràng buộc phạm vi)
Cho Vr = {r1, r2, } là tập các biến Vectơ ràng buộc phạm vi k chiều là cặp
ta nói vectơ ràng buộc phạm vi hρ, Ci là thỏa được
Định nghĩa 2.1.7 (Vectơ ràng buộc phạm vi của mệnh đề)
hρ, Ci là vectơ ràng buộc ràng buộc phạm vi sinh bởi mệnh đề c và xâu wnếu nó thỏa mãn:
• ρ có số chiều Υ(c) và tất cả các biến ràng buộc trong ρ đôi một khác nhau
• ∀hr1, r2i ∈ ρ, ta có:
0 ≤ r1, r1 ≤ r2, r2 ≤ n ∈ C
∀x ∈ T trong c, Υ(c, x) = i, ta có: ρ(i).l + 1 = ρ(i).r ∈ C
∀x, y ∈ (T ∪ V ) trong c, xy là xâu con biểu diễn bởi một trong các đối sốcủa vị từ nào đó trong c, ta có: ρ(Υ(c, x)).r = ρ(Υ(c, y)).l ∈ C
C là tập hợp chỉ chứa các ràng buộc liệt kê trên
Trang 35Định nghĩa 2.1.8 (Dẫn xuất ⇒)
Cho văn phạm RCG G = (N, T, V, S, P ) và xâu w, mối quan hệ dẫn xuấttrong G, kí hiệu ⇒ được xác định như sau:
Γ1A(φ0)Γ2 ⇒ Γ1A(φ11) A(φ1k)Γ2, trong đó:
Γ1, Γ2 là các vị từ phạm vi, A(φ0) → A(φ1
Định nghĩa 2.1.9 (Ngôn ngữ đoán nhận bởi RCG)
Ngôn ngữ đoán nhận bởi RCG G = (N, T, V, S, P ) là tập các xâu L(G) ={w1 wn | S(h0, ni)⇒ ε}, với n là độ dài xâu w.∗
Ví dụ: Cho văn phạm RCG: G = ({S, A, B}, {a, b}, {X, Y, Z}, S, P ), trongđó:
P = { S(XY Z) → A(X, Z)B(Y ),
A(aX, aY ) → A(X, Y ),A(ε, ε) → ε,
B(bX) → B(X),
Khi đó L(G) = {anbkan | k, n ∈N} Với w = aabaa ta có quá trình dẫn xuấtS(h0, 5i)⇒ ε∗ của xâu w được minh họa trong hình 2.9
2.2 Biểu diễn và tính toán ngữ nghĩa bằng logic
Để có thể sử dụng và khai tác tốt tri thức phục vụ cho nhiều mục đích khácnhau, tri thức cần được biểu diễn dưới dạng thuận tiện cho việc mô tả và suydiễn Việc lựa chọn mô hình cho biểu diễn ngữ nghĩa là vấn đề then chốt Nộidung của phần này sẽ giới thiệu về ngôn ngữ logic bậc một và cách thức xâydựng biểu diễn ngữ nghĩa bậc một cho các câu trong ngôn ngữ tự nhiên theocác tài liệu [25], [19], [35]