Mô hình cú pháp phụ thuộc là mô hình đã có từ lâu đời xuất phát từ ngôn ngữ Panini, một phương ngữ của Ấn Độ cho phép biểu diễn cú pháp của câu thông qua mối quan hệ giữa các từ.. Các mệ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYỄN THỊ THU HƯƠNG
Hà Nội – Năm 2015
Trang 2LỜI CAM ĐOAN
Luận văn thạc sỹ do em nghiên cứu và thực hiện dưới sự hướng dẫn của Cô
giáo TS Nguyễn Thị Thu Hương bộ môn khoa học máy tính viện công nghệ
thông tin và truyền thông trường Đại học BKHN Với mục đích học tập, nghiêncứu để nâng cao kiến thức và trình độ chuyên môn nên em đã làm luận văn này mộtcách nghiêm túc và hoàn toàn trung thực
Để hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt kê, emcam đoan không sao chép toàn văn các công trình hoặc thiết kế tốt nghiệp của ngườikhác
Hà Nội, tháng 9 năm 2015
Học viên
Phạm Thị Oanh
Trang 3LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành của em tới các thầy cô giáo trường Đại học Bách khoa Hà Nội nói chung và các thầy cô Viện Công nghệ thông tin-truyền thông và bộ môn Khoa học máy tính nói riêng Các thầy, cô đã tạo điều kiện cho chúng em có cơ hội được học tập, tận tình giúp đỡ chúng em trong suốt quá trình học tập tại Viện.
Em xin được gửi lời cảm ơn sâu sắc nhất đến cô giáo TS Nguyễn Thị Thu
Hương đã tận tình giúp đỡ, trực tiếp chỉ bảo, chỉnh sửa, huớng dẫn em trong suốt
quá trình làm luận văn Trong thời gian làm việc với Cô, em không những được tiếp thu thêm kiến thức mà còn học tập được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả
Tôi xin cảm ơn các anh, chị em trong lớp 13BCNTT-VINH đã đồng hành và giúp đỡ tôi trong quá trình học tập và làm luận văn.
Cuối cùng, tôi xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã động viên, khuyến khích, chăm sóc, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn.
Trân trọng!
Trang 4MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CAM ĐOAN 2
LỜI CẢM ƠN 3
MỤC LỤC 4
DANH MỤC BẢNG BIỂU 7
MỞ ĐẦU 1
CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ 3
1.1 Phân loại câu trong các ngôn ngữ 3
1.1.1 Tiếng Anh 3
1.1.2 Tiếng Việt 5
1.2 Các mô hình biểu diễn cú pháp 7
1.2.1 Cách tiếp cận cấu trúc 7
1.2.2 Cách tiếp cận phụ thuộc (Dependency grammar) 14
1.3 Phân tích câu nhiều mệnh đề 15
1.3.1 Phương pháp học máy 17
CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH CÚ PHÁP PHỤ THUỘC 18
2.1 Mô hình văn phạm phụ thuộc 18
2.1.1 Khái niệm cơ bản 18
2.1.2 Đặc điểm của mô hình phụ thuộc 21
2.1.3 Bộ phân tích cú pháp phụ thuộc 22
2.2 Mối quan hệ phụ thuộc giữa các mệnh đề 30
2.2.1 Quan hệ diễn ngôn giữa các mệnh đề 30
2.2.2 Định nghĩa quan hệ phụ thuộc dựa trên quan hệ diễn ngôn 32
CHƯƠNG 3 PHÂN TÁCH MỆNH ĐỀ TRONG CÂU GHÉP TIẾNG VIỆT 37 3.1 Quan hệ diễn ngôn giữa các mệnh đề tiếng Việt 37
3.1.1 Quan hệ liệt kê 37
3.1.2 Quan hệ kết hợp 37
3.1.3 Quan hệ đối chiếu 39
Trang 53.1.4 Quan hệ đối lập 39
3.1.5 Quan hệ nguyên nhân 40
3.1.6 Quan hệ điều kiện 41
3.1.7 Quan hệ mục đích 42
3.1.8 Quan hệ nhượng bộ 43
3.2 Phân tách mệnh đề dựa trên quan hệ diễn ngôn 43
3.2.1 Xác định dấu hiệu diễn ngôn tiềm tàng 45
3.2.2.Từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn 47
3.2.3 Xây dựng cây RST cho câu 51
CHƯƠNG 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 55
4.1 Công cụ thử nghiệm 55
4.2 Kết quả đạt được 57
4.3 Những tồn tại và hướng phát triển 59
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 61
Trang 6DANH MỤC HÌNH VẼ
Hình 1.1 Lược đồ cấu trúc một kiểu câu phức 7
Hình 1.2 Cây ngữ cấu câu “Bò vàng gặm cỏ non” 9
Hình 1.3 Cây ngữ cấu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” 10
Hình 1.4 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu 13
Hình 1.5 Phân tích câu trong văn phạm phụ thuộc 15
Hình 2.1 Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc 19
Hình 2.2 Đồ thị phụ thuộc của câu “Economic news had little effect on financial market” 20
Hình 2.3 Năm kiểu sơ đồ được sử dụng trong RST [Mann & Thompson] 31
Hình 3.1 Liên kết giữa các đơn vị 51
Hình 3.2 Xây dựng cây RST 52
Hình 4.1 Giao diện chương trình 57
Hình 4.2 Giao diện tách từ 58
Trang 7DANH MỤC BẢNG BIỂU
Bảng 2.1 Bảng xác định phần tử trung tâm của một nhóm 26Bảng 2.2 Bảng danh sách các quan hệ 28Hình 2.3 Bảng định nghĩa về quan hệ bằng chứng 30Bảng 3.1 Mô tả ý nghĩa của các kí hiệu sử dụng trong các biểu thức mô tả của dấuhiệu diễn ngôn 46Bảng 3.2 Một số dấu hiệu diễn ngôn thường gặp 46Bảng 3.3 Liệt kê một số quan hệ để xây dựng quan hệ diễn ngôn dựa vào dấu hiệudiễn ngôn 47Bảng 3.4 Thuật toán tìm các quan hệ diễn ngôn giả thiết 49Bảng 4.1 Bảng kết quả 58
Trang 8MỞ ĐẦU
Thông tin cú pháp đóng vai trò hết sức quan trọng trong xử lý ngôn ngữ
tự nhiên vì ngoài bài toán kiểm tra cú pháp cho văn bản, phân tích cú pháp còn là giai đoạn không thể thiếu trong dịch máy theo luật hay giúp nâng cao chất lượng trong dịch máy thống kê Trong các lĩnh vực khác như tách từ, gán nhãn từ, tóm tắt văn bản, phân cụm văn bản, thông tin cú pháp của câu đều ảnh hưởng lớn đến kết quả xử lý.
Không giống ngôn ngữ lập trình, ngôn ngữ tự nhiên có khả năng biểu đạt rất phong phú với trật tự từ khá tự do Sử dụng mô hình cú pháp của ngôn ngữ lập trình cho ngôn ngữ tự nhiên nhiều khi không biểu đạt hết các dạng của phát ngôn, hay việc gán các cấu trúc cú pháp cho câu một cách khiên cưỡng
sẽ làm sai lệch chức năng cú pháp, dẫn đến sai sót trong các xử lý về sau Mô hình cú pháp phụ thuộc là mô hình đã có từ lâu đời xuất phát từ ngôn ngữ Panini, một phương ngữ của Ấn Độ cho phép biểu diễn cú pháp của câu thông qua mối quan hệ giữa các từ Mô hình này không chỉ sử dụng tốt cho các ngôn ngữ có trật tự từ tự do, mà còn có thể biểu diễn những thông tin khác như thông tin về ngữ nghĩa Các bộ phân tích cú pháp phụ thuộc đã được xây dựng cho nhiều ngôn ngữ hư tiếng Anh, Pháp, Bồ Đào Nha, Nga, Thụy Điển, Nhật, Trung Quốc, Hàn Quốc và hầu hết các ngôn ngữ của Đông Nam Á như tiếng Thái, tiếng Bahasa (Indonesia, Malaysia), Tagalog (Philippines) Hiện nay mới chỉ có một hai bộ phân tích cú pháp phụ thuộc được xây dựng cho tiếng Việt ở mức độ thử nghiệm ban đầu.
Câu nhiều mệnh đề chiếm đa số trong văn bản thực tế, song việc phân tích tự động câu nhiều mệnh đề lại gặp khó khăn Ngoài chi phí thời gian cao, các luật cú pháp không thể bao quát hết các mối liên hệ giữa các mệnh đề cũng là một khó khăn Vì vậy việc tách mệnh đề và phân tích riêng từng mệnh
đề sẽ cho kết quả nhanh chóng và chính xác hơn.
Trang 9Từ những lý do nói trên, luận văn đề cập đến việc phân tách mệnh đề phục vụ bài toán phân tích cú pháp theo mô hình phụ thuộc Các mệnh đề được phân tách dựa trên các dấu hiệu diễn ngôn, và sau khi có được phân tích phụ thuộc của mỗi mệnh đề, cây phụ thuộc giữa các mệnh đề sẽ được xây dựng dựa trên cây diễn ngôn mức câu Với phương pháp này, kết quả phân tích cú pháp sẽ chính xác hơn, thời gian thực hiện giảm đáng kể.
Trang 10CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ
Thông tin cú pháp đóng vai trò rất quan trọng trong xử lý ngôn ngữ tự nhiên
Dù hiện nay đã có những kho ngữ liệu lớn cho phép thực hiện các phương pháphọc máy, thống kê , thông tin về cú pháp vẫn góp phần đáng kể cải tiến chất lượngdịch máy, tóm tắt văn bản, và tất nhiên không thể thiếu được một ứng dụng rấtquan trọng là kiểm tra cú pháp cho các văn bản Việc phân tích câu đơn đã đượcthực hiện khá hoàn chỉnh với các mô hình cú pháp khác nhau Tuy nhiên, thực tếcâu gồm nhiều mệnh đề lại chiếm phần lớn trong các văn bản Việc phân tích câunhiều mệnh đề thường rất chậm và dẫn đến kết quả không đúng do quá trình học đãkhông tìm được câu thực sự tốt, hoặc do các luật cú pháp được áp vào một cáchkhiên cưỡng, ví dụ câu “Trong biên bản hoàn công của công trình này (ông Tuấn kýngày 1-6-1995) công nhận phần kiếntrúc “ trệt , lửng , năm lầu và mái che thang ,khung cột đà sàn bêtông cốt thép”, với tổng DTXD 388, 80 m”, thực ra mệnh đề
“(ông Tuấn ký ngày 1-6-1995)” là một lời giải thích cho từ “biên bản”
Vì vậy, việc tìm hiểu cấu trúc các câu nhiều mệnh đề và phân tách để phântích cú pháp riêng từng mệnh đề sẽ có thể đem lại hiệu quả tốt hơn Trước khi đi sâuvào chi tiết, luận văn xin giới thiệu các khái niệm liên quan đến câu, câu nhiềumệnh đề trong một số ngôn ngữ
1.1 Phân loại câu trong các ngôn ngữ
1.1.1 Tiếng Anh
a Simple sentences (câu đơn)
- Là câu chỉ có một mệnh đề độc lập
Ví dụ: + We were sorry We left We did not meet all the guests.
+ We felt the disappointment of our friends at our early departure.– Câu đơn không phải là câu ngắn mà nó chỉ thể hiện một ý chính
– Một câu đơn có thể có nhiều hơn một chủ ngữ
Ví dụ: John and Mary were sorry.
- Một câu đơn có thể có nhiều động từ
Ví dụ: John ate peanuts and drank coffee.
Trang 11b Counpound sentences (câu ghép)
– Là câu chứa từ hai mệnh đề độc lập trở lên, diễn tả các ý chính có tầm quan trọngngang nhau
– Chúng ta sử dụng các cách sau để nối hai mệnh đề:
+ Sử dụng dấu chấm phẩy
Ví dụ: The bus was very crowded; I had to stand all the way.
+ Sử dụng dấu phẩy và một liên từ đẳng lập
Ví dụ: The bus was very crowded, so I had to stand all the way.
+ Sử dụng dấu chấm phẩy và một liên từ trạng từ (however, therefore,nevertheless…) và theo sau đó là dấu phẩy
Ví dụ: The bus was very crowded; therefore, I had to stand all the
way
c Complex sentences (câu phức)
– Là câu chứa một mệnh đề độc lập và một hay nhiều mệnh đề phụ thuộc Mệnh đềphụ có thể bắt đầu bằng liên từ phụ thuộc hoặc đại từ quan hệ
Ví dụ: Because the bus was crowded, I had to stand all the way.
Trong câu trên có một mệnh đề độc lập “I had to stand all the way” và một mệnh
đề phụ thuộc “the bus was crowded”
Ví dụ: It makes me happy that you love me.
Câu này có một mệnh đề độc lập “it makes me happy” và một mệnh đề phụ thuộc
“that you love me”
– Câu phức sử dụng liên từ phụ thuộc để nối các vế của câu
Ví dụ: We left before he arrived.
d Compound-complex sentences (câu phức hợp)
- Là câu có ít nhất hai mệnh đề độc lập và ít nhất một mệnh đề phụ thuộc
Ví dụ: Because she didn’t hear the alarm, Mary was late and the train had already left.
Trong câu trên, có hai mệnh đề độc lập là “Mary was late” và “the train had alreadyleft”
Trang 12Một mệnh đề phụ thuộc là “she didn’t hear the alarm”.
Ví dụ: The cat lived in the backyard, but the dog, who knew he was superior, lived inside the house.
Mệnh đề độc lập là: “the cat lived in the backyard”, “the dog lived inside the house” Mệnh đề phụ thuộc là “who knew he was superior”
1.1.2 Tiếng Việt
Câu trong tiếng Việt cũng phân thành các loại sau: câu đơn; câu phức, câughép Tuy nhiên cách phân chia có sự khác biệt Tiếng Anh phân chia theo vai tròcủa mệnh đề, tiếng Việt phân chia theo vị trí các cụm chủ vị
a Câu đơn: Là câu có một kết cấu chủ ngử-vị ngữ.
Gồm câu đơn đặc biệt và câu đơn hai thành phần:
Câu đơn đặc biệt (câu đơn không xác định thành phần): Câu đơn đặc biệt là
cấu trúc có một trung tâm cú pháp chính (có thể thêm trung tâm cú pháp phụ) khôngchứa hay không hàm ẩn một trung tâm cú pháp thứ hai có quan hệ với nó như làquan hệ giữa chủ ngữ với vị ngữ
Câu đơn đặc biệt là kiểu câu đơn do một từ, một ngữ tạo thành Từ, ngữ tạothành câu đơn làm thành phần chính duy nhất (cũng có thể gọi là nòng cốt) khôngthể xác định là chủ ngữ hay vị ngữ
Câu đơn đặc biệt là loại câu mà ta không xác định được hai thành phần: chủ
-vị, nghĩa là câu có thể là một từ, một cụm từ hay một kết cấu khác không phải làchủ - vị Loại câu này muốn trở thành câu thì nó phải xuất hiện trong những hoàncảnh cụ thể và khi nói phải có giọng điệu đặc biệt
Ví dụ: - Còn đời mày nữa (Ngô Tất Tố)
Trang 13sự việc này có quan hệ với nhau theo mối quan hệ nào đó [Sách ngữ pháp tiếng việttr.143].
Câu ghép bao gồm câu ghép đẳng lập (còn được gọi là câu ghép bình đẳng,câu ghép đẳng kết, câu ghép qua lại, câu ghép song song, ) và câu ghép chính phụcòn gọi là câu ghép phụ kết)
Câu ghép đẳng lập: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liên kết với nhau Giữa các cụm chủ ngữ - vị ngữ này thường có liên từ: và, còn hoặc dấu phẩy (,) để liên kết các mệnh đề.
Ví dụ: - Lan đang học lớp 1 còn em trai Lan thì mới đi mẫu giáo
- Hoa hồng màu đỏ, hoa huệ màu trắng, hoa cúc thì màu vàng
Câu ghép chính phụ: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liênkết với nhau bằng các cặp quan hệ từ Ở dạng câu ghép này nòng cốt chủ ngữ - vịngữ đứng trước thường được coi là vế chính, thông báo về điều kiện, lí do, nguyênnhân, mục đích, đảm bảo để có sự xuất hiện, tồn tại của sự tình nêu ở nòng cốtchủ ngữ - vị ngữ đứng sau Các cặp quan hệ từ thường được sử dụng là:
Tuy nhưng (hoặc song), (mặc) dù nhưng (hoặc song), nếu thì , hễ thì , không những mà (còn) , sở dĩ (là) vì
Ví dụ: - Nếu anh đến thì tôi cũng không có ở nhà
- Miễn là ông ấy đồng ý thì mọi việc đều coi như xong
Trong một số trường hợp, một trong hai quan hệ từ này có thể vắng mặt dongữ cảnh giao tiếp đủ để hiểu:
Ví dụ: - (Sở dĩ) Nam học giỏi là vì cậu ấy rất chăm chỉ
- Vì đông người mua nên hết sách.
c Câu phức
Là câu có chứa hai kết cấu chủ ngữ-vị ngữ hoặc hơn hai kết cấu chủ-vị Nhưng
chỉ có một kết cấu chủ-vị bao kết cấu chủ-vị còn lại (Theo Diệp Quang Ban[13])
Ở câu phức, có hai hoặc hơn hai kết cấu chủ-vị nhưng trong số đó chỉ có một kếtcấu chủ-vị nằm ngoài cùng bao các kết cấu chủ-vị còn lại Các kết cấu chủ-vị cònlại bị bao bên trong kết cấu chủ-vị nằm ngoài cùng đó
Trang 14Ví dụ: Nó bảo nó đi Đà Nẵng
Hình 1.1 Lược đồ cấu trúc một kiểu câu phức
Trong câu phức có nhiều cụm chủ vị lồng nhau, ví dụ « Con mèo Giáp mua chạy mất rồi », « Nó nhắn anh vì xe hỏng nó không đến được »
1.2 Các mô hình biểu diễn cú pháp
Theo Jurafsky [1], quan hệ văn phạm là cách hình thức hóa những tư tưởngcủa văn phạm truyền thống như chủ ngữ hay bổ ngữ và mối quan hệ khác Nhiều
mô hình văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency)với sự mở rộng của văn phạm phi ngữ cảnh (context free grammar), quan hệ vănphạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc(dependency) Hai hướng tiếp cận phổ biến hiện nay là cấu trúc và phụ thuộc
1.2.1 Cách tiếp cận cấu trúc
Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quychính là mô hình văn phạm phi ngữ cảnh Mô hình hình thức này tương đương vớidạng chuẩn BNF (Backus Naur Form) của ngôn ngữ lập trình
Văn phạm phi ngữ cảnh là một tập hợp hữu hạn các biến (còn gọi là các kýhiệu không kết thúc), mỗi biến biểu diễn một ngôn ngữ Ngôn ngữ được biểu diễnbởi các biến được mô tả một cách đệ quy theo thuật ngữ của một khái niệm khác gọi
là ký hiệu kết thúc Quy tắc quan hệ giữa các biến gọi là sản xuất Mỗi sản xuất códạng một biến ở vế trái sinh ra một chuỗi có thể gồm biến lẫn các ký hiệu kết thúctrong văn phạm
Định nghĩa Văn phạm phi ngữ cảnh là bộ 4
Nó bảo
nó đi Đà Nẵng [C V]
Trang 15N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A, A là ký hiệu không kết thúc, là xâu gồm hữu hạn ký hiệu trên tập vô hạn (N)*
- Thứ tự tuyến tính của các từ trong câu
- Tên các phạm trù cú pháp của các từ và nhóm từ
- Cấu trúc phân cấp của các phạm trù cú pháp
Cho câu: “Bò vàng gặm cỏ non” được mô tả
Trang 16Hình 1 2 Cây ngữ cấu câu “Bò vàng gặm cỏ non”
Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phântích cú pháp phải giải quyết Trong giai đoạn phân tích cú pháp, vấn đề nhập nhằnghướng về cấu trúc (structural ambiguity) Vấn đề này xảy ra khi một câu có nhiềuhơn một phân tích Trong hình 1.3 sau là hai cây ngữ cấu khác nhau cho câu “Họ sẽkhông chuyển hàng xuống thuyền vào ngày mai”
Trang 17Hình 1.3 Cây ngữ cấu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”
Một số mô hình phân tích cú pháp trong Tiếng Việt đã sử dụng văn phạm phingữ cảnh và một số dạng mở rộng khác thành công với việc phân tích cú pháp củacâu đơn
Câu ghép tiếng Việt là có cấu trúc ngữ pháp rất phức tạp việc biểu diễn câughép bằng các luật sản xuất, mô tả cấu trúc là rất khó, đa dạng
Do câu ghép tiếng Việt rất nhiều cấu trúc cú pháp, các liên từ giữa các mệnh
đề cũng phong phú nên tập luật sản xuất của câu ghép trong tiếng Việt là khá lớn.Muốn biểu diễn được chính xác và chi tiết các trường hợp thì cần phải chỉ ra mộtcách mô tả cụ thể hơn cho các luật Ví dụ những câu ghép được nối với nhau bởimột cặp liên từ, nếu liên từ đứng đầu là “Nếu” thì liên từ đi cùng chỉ có thể là “thì”hoặc dấu “phẩy” Việc biểu diễn chi tiết thì tập luật sản xuất càng lớn, cây ngữ cấucàng sâu, tốc dộ phân tích giảm
Trang 18a Văn phạm phi ngữ cảnh xác suất
Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm mộtxác suất cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không
Định nghĩa Văn phạm phi ngữ cảnh xác suất là bộ 4
N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A|p|, A là ký hiệu không kết thúc, là xâu gồm hữu hạn ký hiệu trên tập vô hạn ( N)*, p là số trong đoạn [0,1] biểu diễn xác suất P(|A)
S: ký hiệu đầu
Mô hình xác suất đơn giản này được sử dụng để giải quyết vấn đề nhậpnhằng Xét mọi cây ngữ cấu của câu S (cây cho kết quả là S), cây được chọn sẽ làcây thỏa mãn yêu cầu Xác suất của một cây là tích các xác suất của n luật có dạng.LHSi RHSi (LHS: vế trái (Left Hand Side), RHS: vế phải (Right Hand Side))
được sử dụng để mở rộng n nút trong của nó Cây được chọn là cây có xác suất lớn nhất [1]
Xác suất của mỗi luật A được tính dựa trên treebank sử dụng đánh giá về độ tương tự cao nhất
Văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:
Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp doxác suất của mỗi luật được tính toán hoàn toàn độc lập với nhau
Không diễn tả được sự thay đổi vị trí một số thành phần câu, đặc biệt là câughép
Trang 19 Thông tin cú pháp có liên quan đến những từ đặc biệt nào đó nhưng mô hìnhphi ngữ cảnh lại không mô tả được Do vậy dẫn đến nhập nhằng trong xử lýliên hợp (coordination), loại con (subcategory), sử dụng giới từ.
b Văn phạm phi ngữ cảnh xác suất từ vựng hóa (Lexicalized Probabilistic
Context Free Grammar)[1]
Văn phạm phi ngữ cảnh xác suất có thể từ vựng hóa bằng cách liên hệ mỗi từ w vàmột từ loại t với mỗi ký hiệu không kết thúc A trên cây ngữ cấu, ví dụ S có thểđược mở rộng thành S(bought,VBD) hay NP thành NP(IBM, NNP)) Như vậy mỗi
ký hiệu không kết thúc sẽ được viết dưới dạng A(x), x =(w, t) và A là một nhãn củacấu trúc Như vậy số ký hiệu không kết thúc sẽ tăng rất mạnh, nhiều nhất tới |ν| × |τ|lần, |ν| là số lượng từ trong từ vựng và |τ| là số lượng từ loại của ngôn ngữ
Hình 1.4 dưới đây cho thấy hình ảnh một văn phạm phi ngữ cảnh xác suất từ vựng hóa [18]
Ví dụ: văn phạm phi ngữ cảnh xác suẩt từ vựng hóa
Các luật nội tại
S(bought, VBD) NP(week, NN) NP(IBM, NNP) VP(bought, VBD)
Cây ngữ cấu cho câu “Last week IBM bought Lotus”
Trang 20Hình 1.4 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu
“Last week IBM bought Lotus”
Xác suất theo công thức về độ tương tự lớn nhất sẽ như sau
P(NP(week,NN) NP(IBM, NNP) VP(bought,VBD) |S(bought, VBD)) =
Việc thêm thông tin từ vựng làm cho mẫu số trở nên vô cùng lớn, xác suất gần nhưbằng 0 Để tránh số lượng tham số quá lớn, trong mô hình được Collins [18] đưa ra,luật được chia thành một dãy các bước nhỏ hơn Luật của văn phạm phi ngữ cảnhxác suất từ vựng hóa có dạng
P(h) Ln(ln) L1(l1) H(h)R1(r1) Rm(rm)
H là con chính của luật sẽ thừa kế cặp từ/ nhãn từ loại của nút cha P Thành phần
Ln(ln) .L1(l1) bổ nghĩa cho H ở bên trái và thành phần R1(r1) Rm(rm) bổ nghĩa cho
H ở bên phải n hoặc m có thể bằng 0 Dãy bên trái và bên phải được mở rộng bởi kýhiệu STOP Do vậy Ln+1= Lm+1 =STOP
Trang 21Các luật từ vựng thì vẫn có dạng P(h) w với P là một từ nhãn loại, h là cặp (w,t) Các luật này luôn được mở rộng với xác suất 1khi gặp một ký hiệu không kết thúc
là nhãn từ loại Xác suất của luật nội tại được tính dựa theo luật chuỗi xác suất
các chỉ số h, l, r chỉ ra kiểu tham số của trung tâm, thành phần bổ nghĩa bên trái,phải Xác suất này được tính với giả thiết các thành phần bổ nghĩa được sinh ra mộtcách độc lập với nhau Tuy nhiên rõ ràng xác suất sinh ra một đối tượng bổ nghĩa cóthể phụ thuộc vào một hàm bất kỳ của các đối tượng bổ nghĩa trước đó, lĩnh vực củatrung tâm hay từ trung tâm Do vậy, khoảng cách được [18] bổ sung vào giả thiết vềtính độc lập của các từ bổ nghĩa
Pl(Li(li)|H, P, h, L1(l1) .Li-1(li-1) = Pl(Li(li)|H,P,h,distancel(i-1))
Pr(Ri(ri)|H, P, h, R1(l1) .Ri-1(Ri-1) = Pl(Ri(ri)|H,P,h,distancer(i-1))
Mô hình này cũng đã được sử dụng để xây dựng bộ phân tích cú pháp tiếng Việt vớinhận xét rằng trong tiếng Việt các thành phần biên của các ngữ phụ thuộc vào thànhphần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm
1.2.2 Cách tiếp cận phụ thuộc (Dependency grammar)
Văn phạm phụ thuộc có khởi đầu từ những ngôn ngữ Ấn độ cổ như Panini, mô hìnhhiện đại được Lucien Tesniere giới thiệu, thể hiện được đặc tính tự do của trật tự từtrong các ngôn ngữ Mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi làquan hệ phụ thuộc (hay phụ thuộc-dependency) Quan hệ phụ thuộc xảy ra giữa một
từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm(head)
Trong văn phạm phụ thuộc mỗi câu được thể hiện bởi một tập các từ Các từnày được liên kết với nhau thông qua hai khái niệm là hướng và tên của quan hệgiữa các từ trong một câu
Trang 22Hướng của quan hệ có hướng từ từ trung tâm tới từ phụ thuộc, mang ý nghĩa
bổ nghĩa cho nó Tên của quan hệ có thể đi kèm với mỗi hướng của quan hệ nó thểhiện ý nghĩa của quan hệ phụ thuộc giữa hai từ nằm ở giữa hai đầu quan hệ
Đặc biệt là với bất kì từ nào trong câu nó cũng chỉ và chỉ có duy nhất mộtcha nằm ở hướng mũi tên của quan hệ Và với mỗi từ nó có thể có nhiều con trở tớimang ý nghĩa bổ nghĩa khác nhau Phần tử chính của câu được chọn là động từtrung tâm của câu đó
Ví dụ: “Cậu bé đang nghịch quả bóng màu xanh” được mô tả
Hình 1.5 Phân tích câu trong văn phạm phụ thuộc
Mô hình phụ thuộc có đặc điểm là phân tích câu đơn giản, do vậy cây phân tích phụthuộc thấp hơn nhiều so với cây ngữ cấu, điều đó sẽ dẫn đến giảm không gian lưutrữ, giảm thời gian thực hiện các phân tích khác Một ưu điểm nữa của mô hình phụthuộc là có thể thể hiện những trật tự từ tự do trong câu, ví dụ, mối liên hệ phụthuộc giữa các từ trong câu “Hôm nay tôi rất mệt” và câu “Tôi hôm nay rất mệt” làgiống nhau, trong khi phân tích của hai câu này trong mô hình cấu trúc rất khácnhau
1.3 Phân tích câu nhiều mệnh đề
Mệnh đề là dãy từ trong câu và đóng vai trò một đơn vị cú pháp chứa tốithiểu là một vị ngữ (và một chủ ngữ có thể ẩn hiện) biểu diễn một nhận định nào đó
Mệnh đề được xem là thành phần của câu Nói cách khác một câu có nhiềumệnh đề.Mệnh đề gồm hai loại: mệnh đề phụ thuộc là mệnh đề không thể đứng mộtmình để trở thành một câu hoàn chỉnh, nó luôn phải đi với một mệnh đề độc lập nốivới nhau bởi một từ hay cụm từ để tạo thành một câu có ý nghĩa, từ hay cụm từ này
sẽ là dấu hiệu nhận biết cho một mệnh đề phụ thuộc Mệnh đề độc lập có thể dứngmột mình mà không cần kết hợp với các mệnh đề khác vì bản thân nó đã tạo thànhmột câu hoàn chỉnh
Trang 23Trong tiếng Anh mệnh đề phải có ít nhất một động từ chia theo ngôi và theothời, tuy nhiên trong một số ngôn ngữ như tiếng Việt, tiếng Nga, vị ngữ có thể làtính từ, do vậy mệnh đề có thể không chứa động từ.
Ví dụ: Câu tiếng Anh “I am reading book, he is watching TV” có hai mệnh
đề với hai động từ chính là read và watch.
Ví dụ: Câu “Tôi ăn cơm và sau đó tôi đi bộ”
là câu có hai mệnh đề “tôi ăn cơm” và “tôi đi bộ” với từ nối “và”, trạng ngữ chỉ thời gian “sau đó”
Khi phân tích câu nhiều mệnh đề, có thể xây dựng luật cho mệnh đề phụ như trong
mô hình cấu trúc có thể có luật
VP R P SBAR
Trong đó SBAR là mệnh đề phụ, có chứa trong đó ít nhất một cụm chủ vị
Trong mô hình phụ thuộc cũng có thể có những luật dành cho mệnh đề
Trong mô hình phụ thuộc cũng có những luật tương tự như vậy để phân tích câu nhiều mệnh đề,
Ví dụ, quan hệ phụ thuộc mark giữa động từ và một giới từ như because cho
phép nối động từ chính với một từ nối mở đầu một mệnh đề phụ
Tuy nhiên, việc phân tích trực tiếp câu dài với nhiều mệnh đề tốn thời gian
và không cho kết quả chính xác do việc khử nhập nhằng không đúng Hướng giảiquyết ở đây là phân tách câu thành các mệnh đề, phân tích các mệnh đề riêng rẽ vàcuối cùng kết hợp các mệnh đề thành phân tích hoàn chỉnh
Việc phân tách các mệnh đề trong có thể được thực hiện thông qua một sốdấu hiệu Dấu hiệu có thể là dấu phân cách, từ (cặp từ, cụm từ) gợi ý Tuy nhiên khixây dựng bộ phân tách tự động cũng cần lưu ý đến khả năng từ gợi ý có thể đóngnhiều vai trò khác nhau, không nhất thiết chỉ để phân cách mệnh đề Đặc biệt vớinhững ngôn ngữ có trật tự từ tự do Khi ấy cần kết hợp với các phương pháp họcmáy để có được két quả chính xác
Phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu
Mục đích của phân tách văn bản đầu vào thành các đơn mệnh đề Trongnhiều nghiên cứu gần đây, đa số thuật toán phân tách diễn ngôn đều sử dụng từ gợi
Trang 24ý để nhận dạng các nguyên tố Tuy nhiên, Racker đã phát hiện ra rằng chỉ cókhoảng 50% mệnh đề có tồn tại các từ, cụm từ gợi ý Do đó phân tách diễn ngôndựa vào từ gợi ý không cho kết quả tốt cho mọi loại văn bản, để nâng cao tính chínhxác của phân tách, người ta đã kết hợp giữa từ, cụm từ gợi ý và cây cú pháp kết quảnhận được là khá tốt Song với một loại văn bản nhất định (thường là những vănbản khoa học, báo cáo,…) từ gợi ý vẫn là lựa chọn tốt dễ triển khai và kết quảkhông khác xa so với thuật toán kết hợp từ gợi ý và cây cú pháp 50% tốt với câughép, câu phức chưa tốt.
1.3.1 Phương pháp học máy
Học máy, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân
tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học" Cụthể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việcphân tích các tập dữ liệu Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vựcđều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trungvào sự phức tạp của các giải thuật trong việc thực thi tính toán Nhiều bài toán suyluận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu
sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được
Phân tách mệnh đề bằng phương pháp học máy đòi hỏi bộ ngữ liệu lớn các câunhiều mệnh đề đã phân tách để học và phân tách câu mới Với những mô hình nhưCRF (Conditional Random Field), có thể phát hiện các mệnh đề lồng nhau hoặcquan hệ phụ thuộc giữa các mệnh đề không liền kề nhau
Trang 25CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH CÚ PHÁP PHỤ THUỘC
2.1 Mô hình văn phạm phụ thuộc
2.1.1 Khái niệm cơ bản
Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên các ngôn ngữ Slavơ,Nhật do thể hiện được đặc tính tự do của trật tự từ trong các ngôn ngữ đó
Điểm chính trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi
là quan hệ phụ thuộc (hay phụ thuộc- dependency) Quan hệ phụ thuộc xảy ra giữa
một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trungtâm (head)
Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất
(đơn vị nguyên tố), ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cáchphát âm hay từ Phát ngôn được coi như một xâu các nguyên tố của của tập kýhiệu kết thúc
Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc Ký
hiệu bổ trợ không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp
cố định Có nhiều mô hình khác nhau của văn phạm phụ thuộc Mô hình đầu tiên
được mô tả hình thức bởi Hays và Gaifman
Định nghĩa 2.1 [6] Văn phạm phụ thuộc là một bộ bốn thành phần
DG = (L, C, F, R)
trong đó
L: Tập ký hiệu kết thúc (terminal alphabet)
C: Tập ký hiệu bổ trợ (auxiliary alphabet)
F: L C hàm gán (assignment function)
R: Tập các luật phụ thuộc một trong ba dạng dưới đây
1 Xi(Xj1, Xj2, ,*, , Xjn)
trong đó Xi là từ trung tâm (head), Xj1, Xj2, ., Xjn là các từ phụ thuộc (dependent),
n là một số Thứ tự của các từ trong luật 1 là thứ tự xuất hiện trong câu (có thể có từ
Trang 26xen giữa các từ được nói đến trong luật) Dấu * đánh dấu vị trí từ trung tâm khiđứng cùng các từ phụ thuộc của nó trong phát ngôn.
Thông thường, một từ ROOT được thêm vào để dễ dàng xử lý những đối tượng như
V Câu “John loves a woman” có thể được biểu diễn dưới dạng cây như trong hình2.1 dưới đây
Hình 2.1 Phân tích câu “John loves a woman” trong một mô hình văn phạm
phụ thuộc
Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng
Trang 27Định nghĩa 2.2 Ngữ trị (valency) của Xi là số lượng các phần tử phụ thuộc vào nó Định nghĩa 2.3 Câu là dãy các từ tố (từ) biểu diễn bởi: S= w0w1 .wn
Để đơn giản chúng ta giả thiết dãy w1, .wn là dãy của các từ tố khác nhau, ví dụ trong câu “Tôi ăn mì còn bạn ăn cơm nhé.”, hai thể hiện khác nhau của từ “ăn” được coi là phân biệt
Định nghĩa 2.4 Giả sử R={r1, ,rm} là tập hữu hạn các kiểu quan hệ phụ thuộc có thể diễn ra giữa hai từ trong một câu Kiểu quan hệ rR được gọi là nhãn của cung.
Định nghĩa 2.5 Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh
V và tập cung A sao cho với câu S = w0w1 wn và tập nhãn R những khẳng định sau là đúng:
V {w0, w1, wn}
A V R V
Nếu (wi, r, wj) A thì (wi r’,wj)A với mọi r’ r
Ví dụ 2 Đồ thị phụ thuộc của câu “Economic news had little efect on financial
market” trong hình 1.5
Hình 2.2 Đồ thị phụ thuộc của câu
“Economic news had little effect on financial market”
G = (V, A)
V = VS = {ROOT, Economic, news, had, little, effect, on , financial, markets, }
A = {(ROOT, PRED, had), (had, SBJ, news),(had, OBJ, effect), (had, PU,.),(news, ATT, Economic), (effect, ATT, little),(effect, ATT, on),(on, PC, market),(market, ATT, financial)}
Trang 28Định nghĩa phụ thuộc (dependency) (wi, r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ thống lý thuyết ngôn ngữ khác nhau.
Định nghĩa 2.6 Tập nút khung của câu S là tập nút chuẩn nếu nó chứa mọi từ trong
câu, ký hiệu là VS = {w0, w1, wn}
Định nghĩa 2.7 Một đồ thị phụ thuộc đúng G = (V, A) của câu vào S và tập quan
hệ phụ thuộc R là đồ thị phụ thuộc có dạng cây, có hướng xuất phát từ nút w0 và cótập nút khung V= VS Ta gọi đồ thị phụ thuộc này là cây phụ thuộc
Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R
là GS Có thể coi đây là mô hình phụ thuộc một tầng
Các mô hình phụ thuộc theo trường phái Praha cho phép phụ thuộc theo nhiều tầng,
do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảotính chất của cây phụ thuộc
Quy ước về ký hiệu:
wi wj nếu và chỉ nếu (wi, r, wj) A với r R
wi * wj nếu và chỉ nếu i= j hay wi * wi’ và wi’ wj với wi’ V nào đó
wi wj nếu và chỉ nếu wi wj hoặc wj wi
wi * wj nếu và chỉ nếu i = j hay wi * wi’ và wi’ * wj , wi’ V nào đó
2.1.2 Đặc điểm của mô hình phụ thuộc
- Cấu trúc phụ thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phânlớp bởi các lĩnh vực theo chức năng như là chủ ngữ hay bổ ngữ trong khi biểu diễnkiểu ngữ cấu nhóm từ thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danhngữ, động ngữ
- Trong một câu, cây chỉ chứa số lượng nút bằng số từ trong câu
- Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì nhiều
mô hình phụ thuộc không đòi hỏi tính chất xạ ảnh, tức là các cung không được giaonhau trong đồ thị phụ thuộc Việc văn phạm phụ thuộc biểu diễn được sự phụ thuộc
về hình thái từ (giống, số, cách .) cũng là một lý do thuyết phục
- Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa
- Mô hình phụ thuộc rất khó cho bài toán sinh ngôn ngữ vì trong trường hợp tổngquát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn
Trang 29- Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination)
do tính chất một từ trung tâm (head) của các mối quan hệ phụ thuộc
- Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm (head) bắtbuộc phải có Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận
sự tồn tại của từ trung tâm B Bằng cách sử dụng cặp ngoặc nhọn, văn phạm liên kếtcho phép liên kết có thể xuất hiện hoặc không, giống như trong quy tắc biểu diễn
luật văn phạm của BNF Điều đó cho phép phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của ngôn ngữ.
- Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và
nhiều văn phạm ngữ cấu khác hiện nay như HPSG hay lý thuyết X-bar gây ra nhiều tranh cãi.
- Lý thuyết văn phạm phụ thuộc là đẳng năng yếu so với lý thuyết phi ngữ cảnh.Trong [48] đã chứng minh với mọi văn phạm liên kết tồn tại văn phạm phi ngữcảnh tương đương và ngược lại
- Trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất thiết có nhãn
Duyệt từ trái sang phải một lần: Trừ trường hợp bị bắt buộc duyệt ngược lại
do nhập nhằng, bộ phân tích cú pháp chỉ duyệt câu vào một lần từ trái qua phải
Trang 30Tính hăm hở: Bộ phân tích cú pháp xác lập mỗi liên kết trong giai đoạnduyệt từ trái qua phải sớm nhất có thể được.
Covington đã đơn giản hóa các giải thiết thành:
Văn phạm có sẵn: Trong khoảng thời gian nhất định, văn phạm có thể chỉcho bộ phân tích cú pháp là hai từ có liên kết với nhau không, nếu có, từ nào phụthuộc vào từ nào
Không nhập nhằng: Giả sử không có bất kỳ sự nhập nhằng nào, dù địaphương hay toàn cục xảy ra trên bất cứ cây phân tích nào
Không có văn phạm không thể đòi hỏi bất kỳ phần tử không thấy được nhưmột quán từ, một thành phần phụ hay một dấu vết rỗng
Tính nguyên tố: Giả thiết các từ là yếu tố không phân tích được, nghĩa là không tồntại các thao tác trên các đặc trưng hay cấu trúc bên trong của từ
Một số chiến lược được Covington đề xuất:
Giải thuật:
Cho danh sách từ cần phân tích và 2 danh sách làm việc Headlist và Wordlist(Khởi tạo)
Headlist := []; (các từ chưa có từ trung tâm (heads))
Wordlist := []; (tất cả các từ đã được xem xét)
Repeat
(Đọc từ và đưa vào Wordlist)
W := từ tiếp theo được phân tích;
Wordlist := W + Wordlist;
(Tìm từ phụ thuộc của W, chúng chỉ có thể là phần tử của Headlist bắt đầu từ
từ cuối cùng được thêm)
For D := mỗi phần tử của Headlist
Bắt đầu từ phần tử đầu
Begin
If D có thể phụ thuộc vào W then
Begin
Trang 31Nối D là từ phụ thuộc của W;
Xóa D khỏi Headlist
End Else
Kết thúc vòng lặp for End;
(look for the head of W; it must comprise the word preceding W)
H := từ đi ngay trước W trong xâu vào ;
loop
if W can depend on H then (có thể phụ thuộc)
begin
Link W as dependent of H; (nối W là từ phụ thuộc trước H)
Terminate the look (kết thúc vòng lặp)
Until all words have been parsed (xem xét hết các từ)
Malt parser là bộ phân sinh phân tích phụ thuộc hướng dữ liệu Mô hìnhhướng dữ liệu có đặc điểm là thời gian xây dựng nó ngắn nhiều hơn so với việc sửdụng các hệ thống dựa trên các tài nguyên thủ công dưới dạng từ vựng hay vănphạm Phương pháp này đòi hỏi huấn luyện hay phải có sẵn ngữ liệu huấn luyện Hệthống Malt parser đạt độ chính xác cao mà không đòi hỏi bộ ngữ liệu quá lớn
Cho một Treebank dưới dạng phân tích phụ thuộc, Malt parser có thể dùng
để suy ra một bộ phân tích cú pháp của ngôn ngữ của Treebank Malt parser sử
Trang 32dụng một số giải thuật phân tích cú pháp và học máy, cho phép người dùng địnhnghĩa các mô hình đặc trưng là tổ hợp của cả đặc trưng từ vựng, đặc trưng về từ loại
và đặc trưng phụ thuộc phương pháp mà Malt parser sử dụng là phương pháp phântích phụ thuộc quy nạp (inductive dependentcy parsing) Trong khi phần lớn các bộphân sinh phân tích cú pháp xây dựng bộ phân tích cú pháp từ văn phạm, bộ sinhphân tích cú pháp hướng dữ liệu xây dựng bộ phân tích cú pháp từ Treebank Quátrình phân tích cú pháp cho câu dựa trên việc suy ra cấu trúc phụ thuộc và việc họcmáy quy nạp được dùng để chỉ dẫn cho bộ phân tích cú pháp tìm đến các điểm đượcchọn không xác định Phương pháp phân tích này dựa trên:
- Phương pháp phân tích cú pháp xác định để xây dựng đồ thị phụ thuộc(Yamada & Matsumo, Nivre 2003)
- Các mô hình đặc trưng dựa trên lịch sử để đoán trước hành động cú pháp tiếptheo (Black, Magerman, Ratnaparkhi, Collins)
- Học máy phân biệt (discriminative machine learning) để ánh xạ lịch sử vàohành động phân tích (yamada&Matsu, Nivre)
- Giải thuật phân tích cú pháp
2.1.4 Bộ phân tích cú pháp phụ thuộc cho Tiếng Việt
Hiện đang có một số nhóm đang xây dựng văn phạm phụ thuộc cho Tiếng Việtbằng cách chuyển đổi từ văn phạm phi ngữ cảnh: Nhóm tác giả [Nguyễn Vi Dương
và Nguyễn Thị Đảm của ĐHBK Hà Nội] thực hiện chuyển đổi Treebank thực hiệntrên văn phạm phi ngữ cảnh do đề tài VLSP cung cấp sang Treebank phụ thuộc.Văn phạm phụ thuộc tiếng Việt được biểu diễn theo chuẩn CoNLL Quá trìnhchuyển đổi thông qua các bước chính:
+ Xác định phần tử trung tâm: Xác định phần tử trung tâm của mỗi nhóm.
Việc này là cần thiết đối với việc tạo các kết nối phụ thuộc giữa các từ Cách tiếpcận là dựa trên một tập các luật dựa vào nhãn của nhóm Tập luật này biểu diễn cácquy tắc ngữ pháp được trình bày trong [3],[4],[5] Tập luật được đưa ra Ví dụ 1 sốluật
Trang 33Bảng 2.1 Bảng xác định phần tử trung tâm của một nhóm
Trong đó $l thể hiện rằng tất cả các nhãn có độ ưu tiên giảm dần $ld thể hiện các nhãn có độ ưu tiên tương đương nhau
+ Định nghĩa các quan hệ:
Dựa vào đặc thù riêng của tiếng Việt miêu tả trong [3], [4], [5], đưa ra 22 loại quan
hệ chi tiết giữa các từ Ví dụ
Rel 1 Tính từ bổ nghĩa ttbn “đám mây đen” => ttbn(đám, đen)Rel 2 Động từ bổ nghĩa đtbn “Đàn gà ấy, chúng nhặt thóc ở góc
nhà” => đtbn(chúng, nhặt)Rel 3 Số từ chỉ số lượng stsl “năm con lợn =>
stsl(con, năm)Rel 4 Số từ chỉ thời gian sttg “9 giờ” => sttg(giờ, 9)
Rel 5 Số từ chỉ mức độ stmđ “lãi suất tăng gấp 2
lần”=>stmđ(lần,2)Rel 6 Số từ
“phần 9” =>
sttt(phần,9)Rel 7 Phụ từ
Trang 34Rel 9 Phụ từ
“ngõ phía đông” =>
Ptch(đông, phía)Rel 10 Phụ từ
“nó được làm bằng máy”=>
ptct(làm, bằng)Rel 11 Phụ từ chỉ lý do Ptld “trời mưa làm chúng tôi ướt áo” =>
ptld(làm, ướt)Rel 12 Phụ từ
“nếu giỏi thì đã đậu” =>
ptđk(giỏi, nếu)Rel 13 Phụ từ
Rel 16 Liên hiệp đẳng
“anh và em” => lhdl(anh, em)
Rel 17 Liên hiệp chính
“và” là từ nối, nối tới rootRel 21 Từ viết tắt vt ePi Technologies (ePi) thì vt(ePi
Technologies, ePi)Rel 22 Cảm thán ct “Trời ơi, tôi hạnh phúc quá” =>