Mô hình phụ thuộc là mô hình mới được nghiên cứu ở Việt nam và mới chỉ có một vài kết quả ban đầu trong việc xây dựng văn phạm, phân tích câu đơn.. Mục đích nghiên cứu luận văn - Nắm vữ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYỄN THỊ THU HƯƠNG
Hà Nội – Năm 2015
Trang 2LỜI CAM ĐOAN
Luận văn thạc sỹ do em nghiên cứu và thực hiện dưới sự hướng dẫn của Cô
giáo TS Nguyễn Thị Thu Hương bộ môn khoa học máy tính Viện công nghệ
thông tin và truyền thông trường Đại học BKHN Với mục đích học tập, nghiên cứu
để nâng cao kiến thức và trình độ chuyên môn nên em đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực
Để hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt kê, em cam đoan không sao chép toàn văn các công trình hoặc thiết kế tốt nghiệp của người khác
Hà Nội, tháng 9 năm 2015
Học viên
Phạm Thị Oanh
Trang 3LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành của em tới các thầy cô giáo trường Đại học Bách khoa Hà Nội nói chung và các thầy cô Viện Công nghệ thông tin-truyền thông và bộ môn Khoa học máy tính nói riêng Các thầy, cô đã tạo điều kiện cho chúng em có cơ hội được học, tận tình giúp đỡ chúng em trong suốt quá trình học tập tại Viện
Em xin được gửi lời cảm ơn sâu sắc nhất đến cô giáo TS Nguyễn Thị Thu Hương đã tận tình giúp đỡ, trực tiếp chỉ bảo, chỉnh sửa, huớng dẫn em trong suốt
quá trình làm luận văn Trong thời gian làm việc với Cô, em không những được tiếp thu thêm kiến thức mà còn học tập được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả
Tôi xin cảm ơn các anh, chị, em trong lớp 13BCNTT-VINH đã đồng hành và giúp đỡ tôi trong quá trình học tập và làm luận văn
Cuối cùng, tôi xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã động viên, khuyến khích, chăm sóc, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn
Trân trọng!
Trang 4DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
BNF Backus Naur Form: Công thức siêu ngữ Backus
ADJ Annotated Disjunct: Dạng tuyển có chú giải
RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn
CCR Chunks/Constituents/Relation
SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ
CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện
EDUs Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố
HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm
BNF Backus Naur Form: Công thức siêu ngữ Backus mở rộng
LVSP Đề tài nghiên cứu xử lí tiếng Việt
Trang 5DANH MỤC BẢNG BIỂU
Bảng 2.1 Bảng xác định phần tử trung tâm của một nhóm 27 Bảng 2.2 Bảng danh sách các quan hệ 29 Bảng 2.3 Bảng định nghĩa về quan hệ bằng chứng 31 Bảng 3.1 Mô tả ý nghĩa của các kí hiệu sử dụng trong các biểu thức mô tả của dấu hiệu diễn ngôn 47 Bảng 3.2 Một số dấu hiệu diễn ngôn thường gặp 47 Bảng 3.3 Liệt kê một số quan hệ để xây dựng quan hệ diễn ngôn dựa vào dấu hiệu diễn ngôn 48 Bảng 3.4 Thuật toán tìm các quan hệ diễn ngôn giả thiết 50 Bảng 4.1 Bảng kết quả 59
Trang 6DANH MỤC HÌNH VẼ
Hình 1.1 Lược đồ cấu trúc một kiểu câu phức 7
Hình 1.2 Cây ngữ cấu câu “Bò vàng gặm cỏ non” 9
Hình 1.3 Cây ngữ cấu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” 10
Hình 1.4 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu 13
Hình 1.5 Phân tích câu trong văn phạm phụ thuộc 15
Hình 2.1 Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc 20
Hình 2.2 Đồ thị phụ thuộc của câu “Economic news had little effect on financial market” 21
Hình 2.3 Năm kiểu sơ đồ được sử dụng trong RST [Mann & Thompson] 32
Hình 3.1 Liên kết giữa các đơn vị 52
Hình 3.2 Xây dựng cây RST 53
Hình 4.1 Giao diện chương trình 58
Hình 4.2 Giao diện tách từ 59
Trang 7MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC BẢNG BIỂU
DANH MỤC HÌNH VẼ
MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ 3
1.1 Phân loại câu trong các ngôn ngữ 3
1.1.1 Tiếng Anh 3
1.1.2 Tiếng Việt 5
1.2 Các mô hình biểu diễn cú pháp 7
1.2.1 Cách tiếp cận cấu trúc 7
1.2.2 Cách tiếp cận phụ thuộc (Dependency grammar) 15
1.3 Phân tích câu nhiều mệnh đề 16
1.3.1 Phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu 17
1.3.2 Phương pháp học máy 17
CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH CÚ PHÁP PHỤ THUỘC 19
2.1 Mô hình văn phạm phụ thuộc 19
2.1.1 Khái niệm cơ bản 19
2.1.2 Đặc điểm của mô hình phụ thuộc 22
2.1.3 Bộ phân tích cú pháp phụ thuộc 23
2.1.4 Bộ phân tích cú pháp phụ thuộc cho Tiếng Việt 26
2.2 Mối quan hệ phụ thuộc giữa các mệnh đề 31
2.2.1 Quan hệ diễn ngôn giữa các mệnh đề 31
2.2.2 Định nghĩa quan hệ phụ thuộc dựa trên quan hệ diễn ngôn 33
Trang 8CHƯƠNG 3 PHÂN TÁCH MỆNH ĐỀ TRONG CÂU GHÉP TIẾNG VIỆT 38
3.1 Quan hệ diễn ngôn giữa các mệnh đề tiếng Việt 38
3.1.1 Quan hệ liệt kê 38
3.1.2 Quan hệ kết hợp 38
3.1.3 Quan hệ đối chiếu 40
3.1.4 Quan hệ đối lập 40
3.1.5 Quan hệ nguyên nhân 41
3.1.6 Quan hệ điều kiện 42
3.1.7 Quan hệ mục đích 43
3.1.8 Quan hệ nhượng bộ 44
3.2 Phân tách mệnh đề dựa trên quan hệ diễn ngôn 44
3.2.1 Xác định dấu hiệu diễn ngôn tiềm tàng 46
3.2.2 Từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn 48
3.2.3 Xây dựng cây RST cho câu 52
CHƯƠNG 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 56
4.1 Công cụ thử nghiệm 56
4.2 Kết quả đạt được 58
4.3 Những tồn tại và hướng phát triển 60
KẾT LUẬN 61
TÀI LIỆU THAM KHẢO 62
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Với sự bùng nổ thông tin, nhu cầu tìm kiếm, dịch máy, tóm tắt văn bản,… của người dùng ngày càng cao và phức tạp Các mô hình cú pháp đóng vai trò tích cực trong việc nâng cao chất lượng xử lý ngôn ngữ tự nhiên Mô hình phụ thuộc là mô hình mới được nghiên cứu ở Việt nam và mới chỉ có một vài kết quả ban đầu trong việc xây dựng văn phạm, phân tích câu đơn Trong khi câu ghép và câu phức chiếm một tỷ lệ khá lớn trong các văn bản tiếng Việt Việc tách mệnh đề của câu ghép để
phân tích sẽ nâng cao đáng kể độ chính xác của phân tích Đề tài Phát hiện quan
hệ phụ thuộc giữa các mệnh đề trong câu ghép mang đến một đóng góp nhỏ bé
nhưng khá hiệu quả cho xử lý tiếng Việt
2 Mục đích nghiên cứu luận văn
- Nắm vững kiến thức liên quan đến xử lý ngôn ngữ tự nhiên, bao gồm: các
mô hình biểu diễn cú pháp, mô hình phụ thuộc,
- Thử nghiệm phân tách mệnh đề dựa trên dấu hiệu diễn ngôn mức câu và thiết lập mối quan hệ phụ thuộc giữa các mệnh đề
Chương 1 Vấn đề phân tích cú pháp câu nhiều mệnh đề Chương này trình bày:
Phân loại câu trong các ngôn ngữ tiếng Anh và tiếng Việt; các mô hình biểu diễn cú pháp: văn phạm phi ngữ cảnh, văn phạm phụ thuộc, một số mô hình khác; phân tích câu nhiều mệnh đề trong tiếng Anh: phân tích theo mô hình phi ngữ cảnh, phân tích theo mô hình phụ thuộc; các phương pháp phân tách mệnh đề trong tiếng Anh: phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu, phương pháp học máy
Trang 10Chương 2 Tổng quan về mô hình cú pháp phụ thuộc Chương này trình bày: Mô
hình văn phạm phụ thuộc: Khái niệm cơ bản, đặc điểm của mô hình phụ thuộc, bộ phân tích cú pháp phụ thuộc; mối quan hệ phụ thuộc giữa các mệnh đề: khái niệm mệnh đề, quan hệ diễn ngôn giữa các mệnh đề, định nghĩa quan hệ phụ thuộc dựa trên quan hệ diễn ngôn
Chương 3 Phân tách mệnh đề trong câu ghép tiếng Việt Chương này trình bày:
Quan hệ diễn ngôn giữa các mệnh đề trong tiếng Việt: quan hệ liệt kê, quan hệ kết hợp, quan hệ đối chiếu, quan hệ đối lập, quan hệ nguyên nhân, quan hệ điều kiện, quan hệ mục đích, quan hệ nhượng bộ, các quan hệ khác; phân tách mệnh đề dựa trên quan hệ diễn ngôn: xác định dấu hiệu diễn ngôn tiềm tàng, từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn, xây dựng cây RST cho câu
Chương 4 Thử nghiệm và đánh giá kết quả Chương này trình bày: Công cụ thử
nghiệm, kết quả đạt được, những tồn tại và hướng phát triển
Trang 11CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ
Thông tin cú pháp đóng vai trò rất quan trọng trong xử lý ngôn ngữ tự nhiên
Dù hiện nay đã có những kho ngữ liệu lớn cho phép thực hiện các phương pháp học máy, thống kê…, thông tin về cú pháp vẫn góp phần đáng kể cải tiến chất lượng dịch máy, tóm tắt văn bản,… và tất nhiên không thể thiếu được một ứng dụng rất quan trọng là kiểm tra cú pháp cho các văn bản Việc phân tích câu đơn đã được thực hiện khá hoàn chỉnh với các mô hình cú pháp khác nhau Tuy nhiên, thực tế câu gồm nhiều mệnh đề lại chiếm phần lớn trong các văn bản Việc phân tích câu nhiều mệnh đề thường rất chậm và dẫn đến kết quả không đúng do quá trình học đã không tìm được câu thực sự tốt, hoặc do các luật cú pháp được áp vào một cách khiên cưỡng, ví dụ câu “Trong biên bản hoàn công của công trình này (ông Tuấn ký ngày 1-6-1995) công nhận phần kiến trúc “trệt, lửng, năm lầu và mái che thang, khung cột đà sàn bê tông cốt thép”, với tổng DTXD 388, 80 m”, thực ra mệnh đề
“(ông Tuấn ký ngày 1-6-1995)” là một lời giải thích cho từ “biên bản”
Vì vậy, việc tìm hiểu cấu trúc các câu nhiều mệnh đề và phân tách để phân tích cú pháp riêng từng mệnh đề sẽ có thể đem lại hiệu quả tốt hơn Trước khi đi sâu vào chi tiết, luận văn xin giới thiệu các khái niệm liên quan đến câu, câu nhiều mệnh đề trong một số ngôn ngữ
1.1 Phân loại câu trong các ngôn ngữ
1.1.1 Tiếng Anh
a Simple sentences (câu đơn)
- Là câu chỉ có một mệnh đề độc lập
Ví dụ: + We were sorry We left We did not meet all the guests
+ We felt the disappointment of our friends at our early departure – Câu đơn không phải là câu ngắn mà nó chỉ thể hiện một ý chính
– Một câu đơn có thể có nhiều hơn một chủ ngữ
Ví dụ: John and Mary were sorry
- Một câu đơn có thể có nhiều động từ
Ví dụ: John ate peanuts and drank coffee
Trang 12b Counpound sentences (câu ghép)
– Là câu chứa từ hai mệnh đề độc lập trở lên, diễn tả các ý chính có tầm quan trọng ngang nhau
– Chúng ta sử dụng các cách sau để nối hai mệnh đề:
+ Sử dụng dấu chấm phẩy
Ví dụ: The bus was very crowded; I had to stand all the way
+ Sử dụng dấu phẩy và một liên từ đẳng lập
Ví dụ: The bus was very crowded, so I had to stand all the way
+ Sử dụng dấu chấm phẩy và một liên từ trạng từ (however, therefore, nevertheless…) và theo sau đó là dấu phẩy
Ví dụ: The bus was very crowded; therefore, I had to stand all the
way
c Complex sentences (câu phức)
– Là câu chứa một mệnh đề độc lập và một hay nhiều mệnh đề phụ thuộc Mệnh đề phụ có thể bắt đầu bằng liên từ phụ thuộc hoặc đại từ quan hệ
Ví dụ: Because the bus was crowded, I had to stand all the way
Trong câu trên có một mệnh đề độc lập “I had to stand all the way” và một mệnh
đề phụ thuộc “the bus was crowded”
Ví dụ: It makes me happy that you love me
Câu này có một mệnh đề độc lập “it makes me happy” và một mệnh đề phụ thuộc
“that you love me”
– Câu phức sử dụng liên từ phụ thuộc để nối các vế của câu
Ví dụ: We left before he arrived
d Compound-complex sentences (câu phức hợp)
- Là câu có ít nhất hai mệnh đề độc lập và ít nhất một mệnh đề phụ thuộc
Ví dụ: Because she didn’t hear the alarm, Mary was late and the train had already left
Trong câu trên, có hai mệnh đề độc lập là “Mary was late” và “the train had already left”
Trang 13Một mệnh đề phụ thuộc là “she didn’t hear the alarm”
Ví dụ: The cat lived in the backyard, but the dog, who knew he was superior, lived inside the house
Mệnh đề độc lập là: “the cat lived in the backyard”, “the dog lived inside the house” Mệnh đề phụ thuộc là “who knew he was superior”
1.1.2 Tiếng Việt
Câu trong tiếng Việt cũng phân thành các loại sau: câu đơn; câu phức, câu ghép Tuy nhiên cách phân chia có sự khác biệt Tiếng Anh phân chia theo vai trò của mệnh đề, tiếng Việt phân chia theo vị trí các cụm chủ vị
a Câu đơn: Là câu có một kết cấu chủ ngử-vị ngữ
Gồm câu đơn đặc biệt và câu đơn hai thành phần:
Câu đơn đặc biệt (câu đơn không xác định thành phần): Câu đơn đặc biệt là
cấu trúc có một trung tâm cú pháp chính (có thể thêm trung tâm cú pháp phụ) không chứa hay không hàm ẩn một trung tâm cú pháp thứ hai có quan hệ với nó như là quan hệ giữa chủ ngữ với vị ngữ
Câu đơn đặc biệt là kiểu câu đơn do một từ, một ngữ tạo thành Từ, ngữ tạo thành câu đơn làm thành phần chính duy nhất (cũng có thể gọi là nòng cốt) không thể xác định là chủ ngữ hay vị ngữ
Câu đơn đặc biệt là loại câu mà ta không xác định được hai thành phần: chủ -
vị, nghĩa là câu có thể là một từ, một cụm từ hay một kết cấu khác không phải là chủ-vị Loại câu này muốn trở thành câu thì nó phải xuất hiện trong những hoàn cảnh cụ thể và khi nói phải có giọng điệu đặc biệt
Ví dụ: - Còn đời mày nữa (Ngô Tất Tố)
Trang 14sự việc này có quan hệ với nhau theo mối quan hệ nào đó [Sách ngữ pháp tiếng việt tr.143]
Câu ghép bao gồm câu ghép đẳng lập (còn được gọi là câu ghép bình đẳng, câu ghép đẳng kết, câu ghép qua lại, câu ghép song song, ) và câu ghép chính phụ còn gọi là câu ghép phụ kết)
Câu ghép đẳng lập: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liên kết với nhau Giữa các cụm chủ ngữ - vị ngữ này thường có liên từ: và, còn hoặc dấu phẩy (,) để liên kết các mệnh đề
Ví dụ: - Lan đang học lớp 1 còn em trai Lan thì mới đi mẫu giáo
- Hoa hồng màu đỏ, hoa huệ màu trắng, hoa cúc thì màu vàng
Câu ghép chính phụ: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liên
kết với nhau bằng các cặp quan hệ từ Ở dạng câu ghép này nòng cốt chủ ngữ - vị ngữ đứng trước thường được coi là vế chính, thông báo về điều kiện, lí do, nguyên nhân, mục đích, đảm bảo để có sự xuất hiện, tồn tại của sự tình nêu ở nòng cốt chủ ngữ - vị ngữ đứng sau Các cặp quan hệ từ thường được sử dụng là:
Tuy nhưng (hoặc song), (mặc) dù nhưng (hoặc song), nếu thì , hễ thì , không những mà (còn) , sở dĩ (là) vì
Ví dụ: - Nếu anh đến thì tôi cũng không có ở nhà
- Miễn là ông ấy đồng ý thì mọi việc đều coi như xong
Trong một số trường hợp, một trong hai quan hệ từ này có thể vắng mặt do ngữ cảnh giao tiếp đủ để hiểu:
Ví dụ: - (Sở dĩ) Nam học giỏi là vì cậu ấy rất chăm chỉ
- Vì đông người mua nên hết sách
c Câu phức
Là câu có chứa hai kết cấu chủ ngữ-vị ngữ hoặc hơn hai kết cấu chủ-vị Nhưng
chỉ có một kết cấu chủ-vị bao kết cấu chủ-vị còn lại (Theo Diệp Quang Ban[13])
Ở câu phức, có hai hoặc hơn hai kết cấu chủ-vị nhưng trong số đó chỉ có một kết cấu chủ-vị nằm ngoài cùng bao các kết cấu chủ-vị còn lại Các kết cấu chủ-vị còn lại bị bao bên trong kết cấu chủ-vị nằm ngoài cùng đó
Trang 15Ví dụ: Nó bảo nó đi Đà Nẵng
Hình 1.1 Lược đồ cấu trúc một kiểu câu phức
Trong câu phức có nhiều cụm chủ vị lồng nhau, ví dụ « Con mèo Giáp mua chạy mất rồi », « Nó nhắn anh vì xe hỏng nó không đến được »
1.2 Các mô hình biểu diễn cú pháp
Theo Jurafsky [1], quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn phạm truyền thống như chủ ngữ hay bổ ngữ và mối quan hệ khác Nhiều
mô hình văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency) với sự mở rộng của văn phạm phi ngữ cảnh (context free grammar), quan hệ văn phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency) Hai hướng tiếp cận phổ biến hiện nay là cấu trúc và phụ thuộc
1.2.1 Cách tiếp cận cấu trúc
Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy chính là mô hình văn phạm phi ngữ cảnh Mô hình hình thức này tương đương với dạng chuẩn BNF (Backus Naur Form) của ngôn ngữ lập trình
Văn phạm phi ngữ cảnh là một tập hợp hữu hạn các biến (còn gọi là các ký hiệu không kết thúc), mỗi biến biểu diễn một ngôn ngữ Ngôn ngữ được biểu diễn bởi các biến được mô tả một cách đệ quy theo thuật ngữ của một khái niệm khác gọi
là ký hiệu kết thúc Quy tắc quan hệ giữa các biến gọi là sản xuất Mỗi sản xuất có dạng một biến ở vế trái sinh ra một chuỗi có thể gồm biến lẫn các ký hiệu kết thúc trong văn phạm
Định nghĩa Văn phạm phi ngữ cảnh là bộ 4
Nó bảo
nó đi Đà Nẵng
Trang 16N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A, A là ký hiệu không kết thúc, là xâu gồm hữu hạn ký hiệu trên tập vô hạn (N)*
- Thứ tự tuyến tính của các từ trong câu
- Tên các phạm trù cú pháp của các từ và nhóm từ
- Cấu trúc phân cấp của các phạm trù cú pháp
Cho câu: “Bò vàng gặm cỏ non” được mô tả
Trang 17Hình 1 2 Cây ngữ cấu câu “Bò vàng gặm cỏ non”
Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân tích cú pháp phải giải quyết Trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng hướng về cấu trúc (structural ambiguity) Vấn đề này xảy ra khi một câu có nhiều hơn một phân tích Trong hình 1.3 sau là hai cây ngữ cấu khác nhau cho câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” Tập kí hiệu kết thúc chỉ cú pháp:
S
(Bò) (vàng) N(cỏ) A(non)
Trang 18Hình 1.3 Cây ngữ cấu câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày
mai”
Một số mô hình phân tích cú pháp trong Tiếng Việt đã sử dụng văn phạm phi ngữ cảnh và một số dạng mở rộng khác thành công với việc phân tích cú pháp của câu đơn
Câu ghép tiếng Việt là có cấu trúc ngữ pháp rất phức tạp việc biểu diễn câu ghép bằng các luật sản xuất, mô tả cấu trúc là rất khó, đa dạng
Do câu ghép tiếng Việt rất nhiều cấu trúc cú pháp, các liên từ giữa các mệnh
đề cũng phong phú nên tập luật sản xuất của câu ghép trong tiếng Việt là khá lớn Muốn biểu diễn được chính xác và chi tiết các trường hợp thì cần phải chỉ ra một cách mô tả cụ thể hơn cho các luật Ví dụ những câu ghép được nối với nhau bởi một cặp liên từ, nếu liên từ đứng đầu là “Nếu” thì liên từ đi cùng chỉ có thể là “thì”
Trang 19hoặc dấu “phẩy” Việc biểu diễn chi tiết thì tập luật sản xuất càng lớn, cây ngữ cấu càng sâu, tốc dộ phân tích giảm
a Văn phạm phi ngữ cảnh xác suất
Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác suất cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không
Định nghĩa Văn phạm phi ngữ cảnh xác suất là bộ 4
N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A|p|, A là ký hiệu không kết thúc, là xâu gồm hữu hạn ký hiệu trên tập vô hạn ( N)*, p là số trong đoạn [0,1] biểu diễn xác suất P(|A)
S: ký hiệu đầu
Mô hình xác suất đơn giản này được sử dụng để giải quyết vấn đề nhập nhằng Xét mọi cây ngữ cấu của câu S (cây cho kết quả là S), cây được chọn sẽ là cây thỏa mãn yêu cầu Xác suất của một cây là tích các xác suất của n luật có dạng
LHSi RHSi (LHS: vế trái (Left Hand Side), RHS: vế phải (Right Hand Side))
được sử dụng để mở rộng n nút trong của nó Cây được chọn là cây có xác suất lớn nhất [1]
Xác suất của mỗi luật A được tính dựa trên treebank sử dụng đánh giá về độ tương tự cao nhất
Văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:
Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp do xác suất của mỗi luật được tính toán hoàn toàn độc lập với nhau
Trang 20 Không diễn tả được sự thay đổi vị trí một số thành phần câu, đặc biệt là câu ghép
Thông tin cú pháp có liên quan đến những từ đặc biệt nào đó nhưng mô hình phi ngữ cảnh lại không mô tả được Do vậy dẫn đến nhập nhằng trong xử lý liên hợp (coordination), loại con (subcategory), sử dụng giới từ
b Văn phạm phi ngữ cảnh xác suất từ vựng hóa (Lexicalized Probabilistic Context
Free Grammar)[1]
Văn phạm phi ngữ cảnh xác suất có thể từ vựng hóa bằng cách liên hệ mỗi từ (w) và một từ loại (t) với mỗi ký hiệu không kết thúc A trên cây ngữ cấu, ví dụ câu (S) có thể được mở rộng thành S(bought,VBD) hay NP thành NP(IBM, NNP) Như vậy mỗi ký hiệu không kết thúc sẽ được viết dưới dạng A(x), x =(w, t) và A là một nhãn của cấu trúc Như vậy số ký hiệu không kết thúc sẽ tăng rất mạnh, nhiều nhất tới |ν| × |τ| lần, |ν| là số lượng từ trong từ vựng và |τ| là số lượng từ loại của ngôn ngữ
Hình 1.4 dưới đây cho thấy hình ảnh một văn phạm phi ngữ cảnh xác suất từ vựng hóa
Ví dụ: Văn phạm phi ngữ cảnh xác suẩt từ vựng hóa
Các luật nội tại
Trang 21Cây ngữ cấu cho câu “Last week IBM bought Lotus”
Hình 1.4 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu
“Last week IBM bought Lotus”
Xác suất theo công thức về độ tương tự lớn nhất sẽ như sau:
P(NP(week,NN) NP(IBM, NNP) VP(bought,VBD) |S(bought, VBD)) =
Việc thêm thông tin từ vựng làm cho mẫu số trở nên vô cùng lớn, xác suất gần như bằng 0 Để tránh số lượng tham số quá lớn, trong mô hình được Collins [18] đưa ra, luật được chia thành một dãy các bước nhỏ hơn Luật của văn phạm phi ngữ cảnh xác suất từ vựng hóa có dạng
P(h) Ln(ln) L1(l1) H(h)R1(r1) Rm(rm)
H là con chính của luật sẽ thừa kế cặp từ/ nhãn từ loại của nút cha P Thành phần
Ln(ln) .L1(l1) bổ nghĩa cho H ở bên trái và thành phần R1(r1) Rm(rm) bổ nghĩa cho
H ở bên phải n hoặc m có thể bằng 0 Dãy bên trái và bên phải được mở rộng bởi ký hiệu STOP Do vậy Ln+1= Lm+1 =STOP
Trang 22Các luật từ vựng thì vẫn có dạng P(h) w với P là một từ nhãn loại, h là cặp (w,t) Các luật này luôn được mở rộng với xác suất 1khi gặp một ký hiệu không kết thúc
là nhãn từ loại Xác suất của luật nội tại được tính dựa theo luật chuỗi xác suất
các chỉ số h, l, r chỉ ra kiểu tham số của trung tâm, thành phần bổ nghĩa bên trái, phải Xác suất này được tính với giả thiết các thành phần bổ nghĩa được sinh ra một cách độc lập với nhau Tuy nhiên rõ ràng xác suất sinh ra một đối tượng bổ nghĩa có thể phụ thuộc vào một hàm bất kỳ của các đối tượng bổ nghĩa trước đó, lĩnh vực của trung tâm hay từ trung tâm Do vậy, khoảng cách được bổ sung vào giả thiết về tính độc lập của các từ bổ nghĩa
Pl(Li(li)|H, P, h, L1(l1) .Li-1(li-1) = Pl(Li(li)|H,P,h,distancel(i-1))
Pr(Ri(ri)|H, P, h, R1(l1) .Ri-1(Ri-1) = Pl(Ri(ri)|H,P,h,distancer(i-1))
Mô hình này cũng đã được sử dụng để xây dựng bộ phân tích cú pháp tiếng Việt với nhận xét rằng trong tiếng Việt các thành phần biên của các ngữ phụ thuộc vào thành phần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm
Bảng 1.1 Ý nghĩa nhãn các từ viết tắt trong ví dụ trên:
Trang 231.2.2 Cách tiếp cận phụ thuộc (Dependency grammar)
Văn phạm phụ thuộc có khởi đầu từ những ngôn ngữ Ấn độ cổ như Panini,
mô hình hiện đại được Lucien Tesniere giới thiệu, thể hiện được đặc tính tự do của trật tự từ trong các ngôn ngữ Mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là quan hệ phụ thuộc (hay phụ thuộc-dependency) Quan hệ phụ thuộc xảy ra giữa một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head)
Trong văn phạm phụ thuộc mỗi câu được thể hiện bởi một tập các từ Các từ này được liên kết với nhau thông qua hai khái niệm là hướng và tên của quan hệ giữa các từ trong một câu
Hướng của quan hệ có hướng từ từ trung tâm tới từ phụ thuộc, mang ý nghĩa
bổ nghĩa cho nó Tên của quan hệ có thể đi kèm với mỗi hướng của quan hệ nó thể hiện ý nghĩa của quan hệ phụ thuộc giữa hai từ nằm ở giữa hai đầu quan hệ
Đặc biệt là với bất kì từ nào trong câu nó cũng chỉ và chỉ có duy nhất một cha nằm ở hướng mũi tên của quan hệ Và với mỗi từ nó có thể có nhiều con trở tới mang ý nghĩa bổ nghĩa khác nhau Phần tử chính của câu được chọn là động từ trung tâm của câu đó
Ví dụ: “Cậu bé đang nghịch quả bóng màu xanh” được mô tả:
Cậu bé đang nghịch quả bóng màu xanh
Hình 1.5 Phân tích câu trong văn phạm phụ thuộc
Ký hiệu viết tắt là tên các quan hệ trong hình 1.5 là: dtbn- động từ bổ ngữ;Dep-phụ thuộc; bn-bổ ngữ; ttbn-tính từ bổ nữ ngữ
Mô hình phụ thuộc có đặc điểm là phân tích câu đơn giản, do vậy cây phân tích phụ thuộc thấp hơn nhiều so với cây ngữ cấu, điều đó sẽ dẫn đến giảm không gian lưu trữ, giảm thời gian thực hiện các phân tích khác Một ưu điểm nữa của mô hình phụ thuộc là có thể thể hiện những trật tự từ tự do trong câu, ví dụ, mối liên hệ phụ thuộc giữa các từ trong câu “Hôm nay tôi rất mệt” và câu “Tôi hôm nay rất mệt” là
Trang 24giống nhau, trong khi phân tích của hai câu này trong mô hình cấu trúc rất khác nhau
1.3 Phân tích câu nhiều mệnh đề
Mệnh đề là dãy từ trong câu và đóng vai trò một đơn vị cú pháp chứa tối thiểu là một vị ngữ (và một chủ ngữ có thể ẩn hiện) biểu diễn một nhận định nào đó
Mệnh đề được xem là thành phần của câu Nói cách khác một câu có nhiều mệnh đề Mệnh đề gồm hai loại: mệnh đề phụ thuộc là mệnh đề không thể đứng một mình để trở thành một câu hoàn chỉnh, nó luôn phải đi với một mệnh đề độc lập nối với nhau bởi một từ hay cụm từ để tạo thành một câu có ý nghĩa, từ hay cụm từ này sẽ là dấu hiệu nhận biết cho một mệnh đề phụ thuộc Mệnh đề độc lập có thể dứng một mình mà không cần kết hợp với các mệnh đề khác vì bản thân nó đã tạo thành một câu hoàn chỉnh
Trong tiếng Anh mệnh đề phải có ít nhất một động từ chia theo ngôi và theo thời, tuy nhiên trong một số ngôn ngữ như tiếng Việt, tiếng Nga, vị ngữ có thể là tính từ, do vậy mệnh đề có thể không chứa động từ
Ví dụ: Câu tiếng Anh “I am reading book, he is watching TV” có hai mệnh
đề với hai động từ chính là read và watch
Ví dụ: Câu “Tôi ăn cơm và sau đó tôi đi bộ”
là câu có hai mệnh đề “tôi ăn cơm” và “tôi đi bộ” với từ nối “và”, trạng ngữ chỉ thời gian “sau đó”
Khi phân tích câu nhiều mệnh đề, có thể xây dựng luật cho mệnh đề phụ như trong
mô hình cấu trúc có thể có luật:
VP R P SBAR (VP-cụm động từ; R-phụ từ; P-đại từ; SBAR-mệnh đề phụ kết) Trong đó SBAR là mệnh đề phụ kết, có chứa trong đó ít nhất một cụm chủ vị
Trong mô hình phụ thuộc cũng có thể có những luật dành cho mệnh đề
Trong mô hình phụ thuộc cũng có những luật tương tự như vậy để phân tích câu nhiều mệnh đề
Ví dụ, quan hệ phụ thuộc mark giữa động từ và một giới từ như because cho
phép nối động từ chính với một từ nối mở đầu một mệnh đề phụ
Trang 25Tuy nhiên, việc phân tích trực tiếp câu dài với nhiều mệnh đề tốn thời gian
và không cho kết quả chính xác do việc khử nhập nhằng không đúng Hướng giải quyết ở đây là phân tách câu thành các mệnh đề, phân tích các mệnh đề riêng rẽ và cuối cùng kết hợp các mệnh đề thành phân tích hoàn chỉnh
Việc phân tách các mệnh đề trong có thể được thực hiện thông qua một số dấu hiệu Dấu hiệu có thể là dấu phân cách, từ (cặp từ, cụm từ) gợi ý Tuy nhiên khi xây dựng bộ phân tách tự động cũng cần lưu ý đến khả năng từ gợi ý có thể đóng nhiều vai trò khác nhau, không nhất thiết chỉ để phân cách mệnh đề Đặc biệt với những ngôn ngữ có trật tự từ tự do Khi ấy cần kết hợp với các phương pháp học máy để có được két quả chính xác
1.3.1 Phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu
Mục đích của phân tách văn bản đầu vào thành các đơn mệnh đề Trong nhiều nghiên cứu gần đây, đa số thuật toán phân tách diễn ngôn đều sử dụng từ gợi
ý để nhận dạng các nguyên tố Tuy nhiên, Racker đã phát hiện ra rằng chỉ có khoảng 50% mệnh đề có tồn tại các từ, cụm từ gợi ý Do đó phân tách diễn ngôn dựa vào từ gợi ý không cho kết quả tốt cho mọi loại văn bản, để nâng cao tính chính xác của phân tách, người ta đã kết hợp giữa từ, cụm từ gợi ý và cây cú pháp kết quả nhận được là khá tốt Song với một loại văn bản nhất định (thường là những văn bản khoa học, báo cáo,…) từ gợi ý vẫn là lựa chọn tốt dễ triển khai và kết quả không khác xa so với thuật toán kết hợp từ gợi ý và cây cú pháp 50% tốt với câu ghép, câu phức chưa tốt
1.3.2 Phương pháp học máy
Học máy, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân
tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học" Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu
sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được
Trang 26Phân tách mệnh đề bằng phương pháp học máy đòi hỏi bộ ngữ liệu lớn các câu nhiều mệnh đề đã phân tách để học và phân tách câu mới Với những mô hình như CRF (Conditional Random Field), có thể phát hiện các mệnh đề lồng nhau hoặc quan hệ phụ thuộc giữa các mệnh đề không liền kề nhau
Trang 27CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH CÚ PHÁP PHỤ THUỘC
2.1 Mô hình văn phạm phụ thuộc
2.1.1 Khái niệm cơ bản
Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên các ngôn ngữ Slavơ, Nhật do thể hiện được đặc tính tự do của trật tự từ trong các ngôn ngữ đó
Điểm chính trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi
là quan hệ phụ thuộc (hay phụ thuộc- dependency) Quan hệ phụ thuộc xảy ra giữa
một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head)
Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất
(đơn vị nguyên tố), ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cách phát âm hay từ Phát ngôn được coi như một xâu các nguyên tố của tập ký hiệu kết thúc
Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc Ký
hiệu bổ trợ không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp
cố định Có nhiều mô hình khác nhau của văn phạm phụ thuộc Mô hình đầu tiên
được mô tả hình thức bởi Hays và Gaifman
Định nghĩa 2.1 [6] Văn phạm phụ thuộc là một bộ bốn thành phần
DG = (L, C, F, R)
trong đó
L: Tập ký hiệu kết thúc (terminal alphabet)
C: Tập ký hiệu bổ trợ (auxiliary alphabet)
F: L C hàm gán (assignment function)
R: Tập các luật phụ thuộc một trong ba dạng dưới đây
1 Xi(Xj1, Xj2, ,*, , Xjn)
trong đó Xi là từ trung tâm (head), Xj1, Xj2, ., Xjn là các từ phụ thuộc (dependent),
n là một số Thứ tự của các từ trong luật (1) là thứ tự xuất hiện trong câu (có thể có
Trang 28từ xen giữa các từ được nói đến trong luật) Dấu * đánh dấu vị trí từ trung tâm khi đứng cùng các từ phụ thuộc của nó trong phát ngôn
Hình 2.1 Phân tích câu “John loves a woman” trong một mô hình văn phạm
phụ thuộc
Trang 29Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng
Định nghĩa 2.2 Ngữ trị (valency) của Xi là số lượng các phần tử phụ thuộc vào nó Định nghĩa 2.3 Câu là dãy các từ tố (từ) biểu diễn bởi: S= w0w1 .wn
Để đơn giản chúng ta giả thiết dãy w1, .wn là dãy của các từ tố khác nhau, ví dụ trong câu “Tôi ăn mì còn bạn ăn cơm nhé.”, hai thể hiện khác nhau của từ “ăn” được coi là phân biệt
Định nghĩa 2.4 Giả sử R={r1, ,rm} là tập hữu hạn các kiểu quan hệ phụ thuộc
có thể diễn ra giữa hai từ trong một câu Kiểu quan hệ rR được gọi là nhãn của
cung
Định nghĩa 2.5 Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh
V và tập cung A sao cho với câu S = w0w1 wn và tập nhãn R những khẳng định sau là đúng:
V {w0, w1, wn}
A V R V
Nếu (wi, r, wj) A thì (wi r’,wj)A với mọi r’ r
Ví dụ 2 Đồ thị phụ thuộc của câu “Economic news had little efect on financial
market” trong hình 2.2
Hình 2.2 Đồ thị phụ thuộc của câu
“Economic news had little effect on financial market”
G = (V, A)
V = VS = {ROOT, Economic, news, had, little, effect, on , financial, markets, }
Trang 30A = {(ROOT, PRED, had), (had, SBJ, news),(had, OBJ, effect), (had, PU,.),(news, ATT, Economic), (effect, ATT, little),(effect, ATT, on),(on, PC, market),(market, ATT, financial)}
Định nghĩa phụ thuộc (dependency) (wi, r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ thống lý thuyết ngôn ngữ khác nhau
Định nghĩa 2.6 Tập nút khung của câu S là tập nút chuẩn nếu nó chứa mọi từ trong
câu, ký hiệu là VS = {w0, w1, wn}
Định nghĩa 2.7 Một đồ thị phụ thuộc đúng G = (V, A) của câu vào S và tập quan
hệ phụ thuộc R là đồ thị phụ thuộc có dạng cây, có hướng xuất phát từ nút w0 và có tập nút khung V= VS Ta gọi đồ thị phụ thuộc này là cây phụ thuộc
Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R
là GS Có thể coi đây là mô hình phụ thuộc một tầng
Các mô hình phụ thuộc theo trường phái Praha cho phép phụ thuộc theo nhiều tầng,
do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảo tính chất của cây phụ thuộc
Quy ước về ký hiệu:
wi wj nếu và chỉ nếu (wi, r, wj) A với r R
wi * wj nếu và chỉ nếu i= j hay wi * wi’ và wi’ wj với wi’ V nào đó
wi wj nếu và chỉ nếu wi wj hoặc wj wi
wi * wj nếu và chỉ nếu i = j hay wi * wi’ và wi’ * wj , wi’ V nào đó
2.1.2 Đặc điểm của mô hình phụ thuộc
- Cấu trúc phụ thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực theo chức năng như là chủ ngữ hay bổ ngữ trong khi biểu diễn kiểu ngữ cấu nhóm từ thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ
- Trong một câu, cây chỉ chứa số lượng nút bằng số từ trong câu
- Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì
nhiều mô hình phụ thuộc không đòi hỏi tính chất xạ ảnh, tức là các cung không được giao nhau trong đồ thị phụ thuộc Việc văn phạm phụ thuộc biểu diễn được sự phụ thuộc về hình thái từ (giống, số, cách .) cũng là một lý do thuyết phục
Trang 31- Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa
- Mô hình phụ thuộc rất khó cho bài toán sinh ngôn ngữ vì trong trường hợp tổng quát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn
- Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination) do tính chất một từ trung tâm (head) của các mối quan hệ phụ thuộc
- Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm (head) bắt buộc phải có Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận sự tồn tại của từ trung tâm B Bằng cách sử dụng cặp ngoặc nhọn, văn phạm liên kết cho phép liên kết có thể xuất hiện hoặc không, giống như trong quy
tắc biểu diễn luật văn phạm của BNF Điều đó cho phép phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của ngôn ngữ
- Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và nhiều văn phạm ngữ cấu khác hiện nay như HPSG hay lý thuyết X-bar gây
ra nhiều tranh cãi
- Lý thuyết văn phạm phụ thuộc là đẳng năng yếu so với lý thuyết phi ngữ cảnh.Với mọi văn phạm liên kết tồn tại văn phạm phi ngữ cảnh tương đương và ngược lại
- Trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất thiết có nhãn
2.1.3 Bộ phân tích cú pháp phụ thuộc
Đại học Standford là trước khi đưa ra giải thuật phân tích cú pháp, Coving ton đãxây dựng một số giả thiết:
Tính thống nhất: Sản phẩm cuối cùng của quá trình phân tích cú pháp phụ
thuộc là thống nhất (với một gốc duy nhất) chứa tất cả các từ trong câu
Tính duy nhất: Mỗi từ chỉ phụ thuộc vào một từ trung tâm Nghĩa là một liên
kết phụ thuộc tạo thành cây
Tính xạ ảnh: Nếu từ A phụ thuộc vào từ B thì mọi từ giữa A và B cũng bổ
nghĩa cho từ B Mỗi thời điểm xem xét một từ: tại mỗi thời điểm, bộ phân tích cú
Trang 32pháp xem xét một từ, thêm nó vào cây theo thứ tự được xét đến mà không cần phải đọc hết tất cả các từ
Duyệt từ trái sang phải một lần: Trừ trường hợp bị bắt buộc duyệt ngược lại
do nhập nhằng, bộ phân tích cú pháp chỉ duyệt câu vào một lần từ trái qua phải
Tính hăm hở: Bộ phân tích cú pháp xác lập mỗi liên kết trong giai đoạn duyệt
từ trái qua phải sớm nhất có thể được
Covington đã đơn giản hóa các giả thiết thành:
Văn phạm có sẵn: Trong khoảng thời gian nhất định, văn phạm có thể chỉ
cho bộ phân tích cú pháp là hai từ có liên kết với nhau không, nếu có, từ nào phụ thuộc vào từ nào
Không nhập nhằng: Giả sử không có bất kỳ sự nhập nhằng nào, dù địa
phương hay toàn cục xảy ra trên bất cứ cây phân tích nào
Không có văn phạm không thể đòi hỏi bất kỳ phần tử không thấy được như một quán từ, một thành phần phụ hay một dấu vết rỗng
Tính nguyên tố: Giả thiết các từ là yếu tố không phân tích được, nghĩa là
không tồn tại các thao tác trên các đặc trưng hay cấu trúc bên trong của từ
Một số chiến lược được Covington đề xuất:
Giải thuật:
Cho danh sách từ cần phân tích và 2 danh sách làm việc Headlist và Wordlist (Khởi tạo)
Headlist := []; (các từ chưa có từ trung tâm (heads))
Wordlist := []; (tất cả các từ đã được xem xét)
Repeat
(Đọc từ và đưa vào Wordlist)
W := từ tiếp theo được phân tích;
Wordlist := W + Wordlist;
(Tìm từ phụ thuộc của W, chúng chỉ có thể là phần tử của Headlist bắt đầu từ
từ cuối cùng được thêm)
For D := mỗi phần tử của Headlist
Trang 33Bắt đầu từ phần tử đầu
Begin
If D có thể phụ thuộc vào W then
Begin
Nối D là từ phụ thuộc của W;
Xóa D khỏi Headlist
End Else
Kết thúc vòng lặp for End;
(look for the head of W; it must comprise the word preceding W)
H := từ đi ngay trước W trong xâu vào ;
loop
if W can depend on H then (có thể phụ thuộc)
begin
Link W as dependent of H; (nối W là từ phụ thuộc trước H)
Terminate the look (kết thúc vòng lặp)
Until all words have been parsed (xem xét hết các từ)
Malt parser là bộ phân sinh phân tích phụ thuộc hướng dữ liệu Mô hình hướng dữ liệu có đặc điểm là thời gian xây dựng nó ngắn nhiều hơn so với việc sử dụng các hệ thống dựa trên các tài nguyên thủ công dưới dạng từ vựng hay văn
Trang 34phạm Phương pháp này đòi hỏi huấn luyện hay phải có sẵn ngữ liệu huấn luyện Hệ thống Malt parser đạt độ chính xác cao mà không đòi hỏi bộ ngữ liệu quá lớn
Cho một Treebank dưới dạng phân tích phụ thuộc, Malt parser có thể dùng
để suy ra một bộ phân tích cú pháp của ngôn ngữ của Treebank Malt parser sử dụng một số giải thuật phân tích cú pháp và học máy, cho phép người dùng định nghĩa các mô hình đặc trưng là tổ hợp của cả đặc trưng từ vựng, đặc trưng về từ loại
và đặc trưng phụ thuộc phương pháp mà Malt parser sử dụng là phương pháp phân tích phụ thuộc quy nạp (inductive dependentcy parsing) Trong khi phần lớn các bộ phân sinh phân tích cú pháp xây dựng bộ phân tích cú pháp từ văn phạm, bộ sinh phân tích cú pháp hướng dữ liệu xây dựng bộ phân tích cú pháp từ Treebank Quá trình phân tích cú pháp cho câu dựa trên việc suy ra cấu trúc phụ thuộc và việc học máy quy nạp được dùng để chỉ dẫn cho bộ phân tích cú pháp tìm đến các điểm được chọn không xác định Phương pháp phân tích này dựa trên:
- Phương pháp phân tích cú pháp xác định để xây dựng đồ thị phụ thuộc (Yamada & Matsumo, Nivre 2003)
- Các mô hình đặc trưng dựa trên lịch sử để đoán trước hành động cú pháp tiếp theo (Black, Magerman, Ratnaparkhi, Collins)
- Học máy phân biệt (discriminative machine learning) để ánh xạ lịch sử vào hành động phân tích (yamada&Matsu, Nivre)
- Giải thuật phân tích cú pháp
2.1.4 Bộ phân tích cú pháp phụ thuộc cho Tiếng Việt
Hiện đang có một số nhóm đang xây dựng văn phạm phụ thuộc cho Tiếng Việt bằng cách chuyển đổi từ văn phạm phi ngữ cảnh: Nhóm tác giả [Nguyễn Vi Dương
và Nguyễn Thị Đảm của ĐHBK Hà Nội] thực hiện chuyển đổi Treebank thực hiện trên văn phạm phi ngữ cảnh do đề tài VLSP cung cấp sang Treebank phụ thuộc Văn phạm phụ thuộc tiếng Việt được biểu diễn theo chuẩn CoNLL Quá trình chuyển đổi thông qua các bước chính:
+ Xác định phần tử trung tâm: Xác định phần tử trung tâm của mỗi nhóm
Việc này là cần thiết đối với việc tạo các kết nối phụ thuộc giữa các từ Cách tiếp
Trang 35cận là dựa trên một tập các luật dựa vào nhãn của nhóm Tập luật này biểu diễn các quy tắc ngữ pháp được trình bày trong [3],[4],[5] Tập luật được đưa ra một số ví dụ luật như sau:
R1 NP $l N, NP-TMP, M, P, PP, SBAR
$ld N, Np, Nc, Nu, Ny, NP R2 VP $l V, VP, VP-LOC, NP, NP-DOB, AP, PP, SBAR
DIR R8 SQ $l VP, NP-SUB, S
$ld C, E
Bảng 2.1 Bảng xác định phần tử trung tâm của một nhóm
Trong đó $l thể hiện rằng tất cả các nhãn có độ ưu tiên giảm dần $ld thể hiện các nhãn có độ ưu tiên tương đương nhau
+ Định nghĩa các quan hệ:
Dựa vào đặc thù riêng của tiếng Việt miêu tả trong [3], [4], [5], đưa ra 22 loại quan
hệ chi tiết giữa các từ Ví dụ
Rel 1 Tính từ bổ nghĩa ttbn “đám mây đen” => ttbn(đám, đen)
Rel 2 Động từ bổ nghĩa đtbn “Đàn gà ấy, chúng nhặt thóc ở góc
nhà” => đtbn(chúng, nhặt) Rel 3 Số từ chỉ số lượng stsl “năm con lợn =>
stsl(con, năm)