Mô hình văn phạm liên kết tiếng Việt

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THU HƯƠNG

MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học:

GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY

Hà Nội - Năm 2013

Trang 2

1

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 5

DANH MỤC BẢNG BIỂU 8

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG 9

MỞ ĐẦU 11

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN 20

1.1 Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh 20

1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên 20

1.1.2 Văn phạm phi ngữ cảnh xác suất 23

1.1.3 Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26

1.1.4 Văn phạm kết nối cây 28

1.2 Tiếp cận qua cấu trúc nét và văn phạm hợp nhất 29

1.3 Cách tiếp cận phụ thuộc 30

1.3.1 Một số khái niệm 30

1.3.2 Tính chất của cây phụ thuộc 33

1.4 Văn phạm liên kết 35

1.4.1 Khái niệm văn phạm liên kết 35

1.4.2 Các định nghĩa hình thức về văn phạm liên kết 39

1.5 Kết luận 41

CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 45

2.1 Văn phạm liên kết cho tiếng Việt 45

2.1.1 Cấu trúc từ điển liên kết 45

2.1.2 Xây dựng liên kết cho danh từ 49

2.1.3 Các liên kết cho động từ 57

2.1.4 Các liên kết cho tính từ 62

2.1.5 Liên kết các mệnh đề trong câu ghép đơn giản 63

2.2 Mở rộng từ điển văn phạm liên kết 65

2.2.1 Giải thuật mở rộng từ điển 67

Trang 3

2

2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt 69

2.2. Kết luận 69

CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 72

3.1 Bộ phân tích cú pháp liên kết 72

3.1.1 Giải thuật phân tích cú pháp 72

3.1.2 Lược tỉa 74

3.1.3 Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản 76

3.2 Phân tích cú pháp cho câu ghép 79

3.2.1 Xây dựng cây diễn ngôn 83

3.2.2 Giải thuật phân tích cú pháp câu ghép 92

3.2.3 Tìm từ để kết nối mệnh đề 94

3.2.4 Kết quả thử nghiệm phân tích câu ghép 96

3.2.5 Độ phức tạp tính toán 99

3.3 Khử nhập nhằng 99

3.3.1 Khử nhập nhằng thành phần 100

3.3.2 Khử nhập nhằng liên hợp 106

3.4 Kết luận 110

CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 112

4.1 Tổng quan về dịch máy 112

4.1.1 Tình hình phát triển dịch máy ở Việt Nam 112

4.1.2 Phương pháp đánh giá chất lượng dịch máy 114

4.2 Khác biệt ngôn ngữ Việt - Anh 115

4.2.1 Khác biệt hình thái 115

4.2.2 Khác biệt về trật tự từ 118

4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải 119

4.3.1.Tìm nghĩa từ trong từ điển ADJ 121

4.3.2 Xây dựng bộ luật dịch 122

4.3.3 Hoàn thiện câu dịch 129

4.3.4 Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải 129

Trang 4

3

4.4 Kết luận 134

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 136

Tóm tắt 136

Các đóng góp chính của luận án 136

Về mặt khoa học 136

Về mặt thực tiễn 137

Hạn chế và hướng phát triển 138

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 139

TÀI LIỆU THAM KHẢO 140

TIẾNG VIỆT 140

TIẾNG ANH 142

TIẾNG NGA 150

CÁC WEBSITE 150

PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 151

PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ 169

PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 178

1 Luật xác định thuộc tính 178

2 Luật dịch cụm từ 179

3 Luật chuyển đổi cấu trúc 182

PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 183

Trang 5

4

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

HMM Hidden Markov Model: Mô hình Markov ẩn

BNF Backus Naur Form: Công thức siêu ngữ Backus

ADJ Annotated Disjunct: Dạng tuyển có chú giải

RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn

CCR Chunks/Constituents/Relation

SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ

SVM Support Vector Machine: Máy vectơ hỗ trợ

CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện

EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố

HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng

Trang 6

5

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Cây ngữ cấu của câu “Tôi thích chân gà” 21

Hình 1.2 Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” 22

Hình 1.3 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM bought Lotus” 27

Hình 1.4 Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc 31

Hình 1.5 Đồ thị phụ thuộc của câu “Economic news had little effect on financial market” 32

Hình 1.6 Câu đúng ngữ pháp “Tại sao cậu không tới” 36

Hình 1.7 Kết nối lớn của từ “và” 38

Hình 1.8 Chu trình trong phân tích câu 39

Hình 1.9 Nút liên kết 41

Hình 2.1 Cấu trúc danh ngữ với đầy đủ các thành tố 50

Hình 2.2 Liên kết trong cụm từ “những cái bàn” 53

Hình 2.3 Liên kết trong cụm từ “cái giường lò xo” 55

Hình 2.4 Liên kết trong cụm từ “cái bàn bằng gỗ” 56

Hình 2.5 Liên kết trong cụm từ “cái bàn của tôi” 56

Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi” 56

Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 57

Hình 2.8 Thành tố phụ đi trước mọi động từ 58

Hình 2.9 Liên kết trong cụm từ “vẫn đang làm” 59

Hình 2.10 Liên kết trong cụm từ “không hay đọc sách này” 59

Trang 7

6

Hình 2.11 Liên kết trong cụm từ “đang rất sợ” 61

Hình 2.12 Liên kết trong cụm từ “ sâu hai ngàn mét” 63

Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ ở giữa 64

Hình 2.14 Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy 65

Hình 2.15 Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề 65

Hình 2.16 Một đoạn trong từ điển văn phạm liên kết 66

Hình 2.17 Ánh xạ trực cảm 68

Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt 70

Hình 3.1 Giải thuật phân tích 72

Hình 3.2 Lời giải cục bộ 72

Hình 3.3 Giải thuật phân tích cú pháp liên kết 73

Hình 3.4 Hàm COUNT cho số phân tích của câu 73

Hình 3.5 Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 75

Hình 3.6 Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh 76

Hình 3.7 Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh hiệu” 77

Hình 3.8 Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt trôi” 77

Hình 3.9 Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” 78

Hình 3.10 Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” 83

Hình 3.11 Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) 88

Hình 3.12 Hàm isClause 89

Hình 3.13 Các dạng cây cấu trúc diễn ngôn 92

Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 93

Trang 8

7

Hình 3.15 Hàm Insert_Link_From_RST_Tree 94

Hình 3.16 Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa” 95

Hình 3.17 Phân tích câu “Tôi mua một bông hoa” 95

Hình 3.18 Phân tích cụm từ “một cái bút rất tốt” 96

Hình 3.19 Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” 97

Hình 3.20 Hai phân tích của câu “Tôi mua một bông hoa” 101

Hình 3.21 Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất 102

Hình 3.22 Mô tả cách tính xác suất PrO ⊲ left L, W, l ⊳, ⊲ leftd 104

Hình 3.23 Minh họa mối liên kết để tính O 105

Hình 3.24 Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” 108

Hình 3.25 Một phân tích với kết nối F cho từ “và” 109

Hình 3.26 Kết nối G nối nhiều dấu phảy và từ “và” 110

Hình 4.1 Sắp xếp lại trật tự từ 118

Hình 4.2 Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải 121

Hình 4.3 Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” 126

Hình 4.4 Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” 131

Hình 4.5 So sánh điểm BLEU của các hệ thống 133

Trang 9

8

DANH MỤC BẢNG BIỂU

Bảng 1.1 Ví dụ của một từ điển 36

Bảng 2.1.Các loại từ tiếng Việt 47

Bảng 2.2 Các tiểu loại từ tiếng Việt 47

Bảng 3.1 Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết 78

Bảng 3.2 Kết quả phân tích liên kết cho các tập mẫu 78

Bảng 3.3 Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú pháp) 81

Bảng 3.4 Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng84 Bảng 3.5 Hành động ứng với một số dấu hiệu diễn ngôn 85

Bảng 3.6 Chi tiết tập mẫu câu ghép 97

Bảng 3.7 Kết quả phân tích các tập mẫu câu ghép 98

Bảng 3.8 So sánh kết quả phân tích diễn ngôn 108

Bảng 4.1 Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 116 Bảng 4.2 Đại từ xưng hô tiếng Anh 117

Bảng 4.3 Đại từ xưng hô tiếng Việt 117

Bảng 4.4 So sánh kết quả các hệ thống dịch 132

Trang 10

9

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG

CLI Kết nối chỉ chất liệu (ẩn giới từ)

DI Kết nối động từ “đi” với động từ khác

DpN Kết nối định từ chỉ số nhiều với danh từ

DpNt Kết nối định từ chỉ số nhiều với danh từ cụ thể

DsN Kết nối định từ chỉ số ít với danh từ

DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”

ĐT_XONG Kết nối một động từ và động từ “xong”

EoPp Kết nối giới từ “của” với đại từ xưng hô

EpNt Kết nối giới từ chỉ vị trí và danh từ cụ thể

EsNt Kết nối danh từ cụ thể và giới từ phạm vi

LA_DT Kết nối động từ “là” với danh từ

McNu Kết nối số từ và danh từ chỉ đơn vị

NcNt1 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người

NcNt2 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật

NcNt3 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât

NcNt4 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng NcNt5 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng

NcNt6 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm

NEo Kết nối danh từ và giới từ chỉ sở hữu

NN Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm… NtEm Kết nối danh từ cụ thể và giới từ chỉ chất liệu

NtEs Kết nối giới từ phạm vi và danh từ cụ thể

NtPd Kết nối danh từ cụ thể với đại từ chỉ định

NuNt Kết nối danh từ chỉ đơn vị và danh từ cụ thể

NHAT_DT Kết nối từ “nhất” với danh từ đứng sau

O Kết nối động từ và bổ ngữ trực tiếp

RcV Kết nối động từ với phụ từ so sánh

RfA Kết nối phụ từ thời gian (tương lai) và tính từ

Trang 11

10

RfVt Kết nối định từ chỉ thì tương lai và động từ

RfVt Kết nối động từ với phụ từ thời gian (tương lai)

RhA Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ RhV Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ RmV Kết nối động từ với phụ từ mệnh lệnh

RnV Kết nối phủ định từ và động từ

RnV1 Kết nối động từ với phụ từ phủ định

RpA Kết nối phụ từ thời gian (quá khứ) và tính từ

RpV Kết nối động từ với phụ từ thời gian (quá khứ)

RpVt Kết nối định từ chỉ thì quá khứ và động từ

RtA Kết nối phụ từ thời gian (hiện tại) và tính từ

RtV Kết nối động từ với phụ từ thời gian (hiện tại)

SA Kết nối danh từ, đại từ xưng hô với tính từ

SA Kết nối danh từ và tính từ

SH Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu

SHA Kết nối hai danh từ chỉ quan hệ sở hữu ẩn

SS_NHAT Kết nối tính từ với từ “nhất”

SV Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ THS Kết nối các từ để hỏi đứng sau động từ và động từ THT Kết nối các từ để hỏi đứng trước động từ và động từ VmVt Kết nối động từ tình thái và động từ cụ thể

VtAp Kết nối ngoại động từ và tính từ chỉ tính chất

VtEp Kết nối ngoại động từ và giới từ vị trí

VtVs Kết nối động từ ngoại động và động từ trạng thái

Trang 12

11

MỞ ĐẦU

Xử lý ngôn ngữ tự nhiên trên máy tính là một trong những bài toán khó của công nghệ thông tin Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử Dù được bắt đầu muộn hơn, xử lý tiếng Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào tạo, hội thảo từ xa Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản Do phạm vi của đề tài, luận án chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản

Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm Đầu tiên là những bộ phân tích

cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích

cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và các đồng nghiệp [5] Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng trung tâm[15] Nhiều mô hình văn phạm khác cũng được xây dựng cho tiếng Việt với để

mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng [26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của Chomsky[63]: lớp ngôn ngữ loại 0

Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn Hiện nay các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các hướng tiếp cận khác nhau Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song ngữ [3] Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của Nacentech theo cách tiếp cận dựa trên luật [10] Một hệ thống dịch khác đạt chất lượng khá tốt là hệ thống Vietgle chuyên dịch Anh Việt của Lạc Việt Ngoài ra còn có các hệ dịch máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê Việt Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành phố

Hồ Chí Minh [124] Cũng không thể không nhắc đến hệ thống dịch Google Translate theo

Trang 13

12

hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google Nhìn chung, các sản phẩm dịch tự động chủ yếu theo hướng Anh - Việt Số lượng và chất lượng của các hệ thống dịch Việt Anh còn hạn chế

Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm

Hà Thành Lê [15] Tuy nhiên, không có nhiều nghiên cứu được thực hiện trên văn bản tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội dung trang web tiếng Việt của nhóm Đỗ Phúc [19]

Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc trong các hệ thống xử lý tiếng Việt Công cụ phân tách từ vnTokenizer đã được Nguyễn Thị Minh Huyền và các đồng nghiệp phát triển, sử dụng ôtô mat hữu hạn kết hợp phân tích biểu thức chính quy để xác định các chuỗi từ [102] Trường hợp nhập nhằng được giải quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách cho kết quả chứa những

từ có độ dài lớn nhất Phương pháp này đạt độ chính xác cao với bộ ngữ liệu mẫu (trên 98,5%) [116] Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu [121] sử dụng công nghệ CRF và SVM cũng cho kết quả 94% Ngoài ra có thể kể đến bộ tách từ của Lê An Hà [60] tính xác suất và độ hợp lý cực đại (maximum likelihood) Bài toán gán nhãn từ loại thường được giải quyết cùng bài toán tách từ Cùng với bộ JVnSegmenter, các tác giả của

nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và entropy cực đại [7] Bộ vnTokennizer cũng đi kèm với vnQTAG [13] Một số nghiên cứu của các tác giả Việt Nam cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường [45], [46], Đinh Điền [48]

Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt Các đề tài cấp nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ các bài báo điện tử Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng Đây cũng là những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự động

Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể tuy nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền

xử lý như gióng hàng mức câu, mức từ Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1,

có gán nhãn ngôn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng

Trang 14

13

Trụ là công trình công bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song ngữ của nhóm Đinh Điền được công bố đầu tiên ở ngoài nước [47] Đã có công trình nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn ngôn ngữ của Đinh Điền [48] Cũng có những kết quả khác về xây dựng kho ngữ liệu cho

xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73] Đề tài KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu, trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã hội Ngữ liệu song ngữ Việt Anh còn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng kể Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính, tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động Đáng kể nhất là bộ

từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mô hình LMF với ba gói: hình thái, cú pháp, ngữ nghĩa Bộ từ điển thể hiện khá toàn diện các thông tin liên quan đến từ pháp và cú pháp Một số từ điển song ngữ được cung cấp miễn phí như từ điển Anh Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt Anh cũng

do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh Việt của Hồ Ngọc Đức bao gồm 110.000 mục từ, từ điển Việt Anh gồm 23.000 mục từ

Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng Việt với sự phát triển đáng kể trong thời gian vừa qua Nếu so với tiếng Anh, các ngôn ngữ châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý tiếng Việt còn nghèo nàn Cho dù hiện nay đã có sự lấn át của các phương pháp học máy, thống kê, rất ít nghiên cứu tách rời hoàn toàn các mô hình biểu diễn cú pháp Việc tham khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh [124], nhóm nghiên cứu tại JAIST [115] Sử dụng phương pháp học thống kê kết hợp biểu diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực dịch máy [115] Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong

xử lý tiếng Việt

Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5]

Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124]

Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu không

bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tôi mua hai thóc” Câu này,

Trang 15

14

không tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ Hiện

tượng này cũng rất phổ biến trong các ngôn ngữ khác Xu hướng từ vựng hóa các văn phạm được nhiều nhà nghiên cứu quan tâm Nhiều mô hình văn phạm từ vựng hóa đã được xây dựng cho ngôn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết Hiện nay, xu hướng từ vựng hóa cũng

đã ảnh hưởng tới các văn phạm tiếng Việt Các mô hình văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho tiếng Việt Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn

phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ [112] Mô hình hoàn toàn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ

pháp của tiếng Việt

Tập ký hiệu không kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi ngữ cảnh trở nên phức tạp Do vậy khi sử dụng cây phân tích cho những mục đích khác như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây Hơn nữa, muốn tìm mối liên hệ giữa hai từ trong câu trong mô hình phi ngữ cảnh, phải vượt qua một khoảng cách không nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời gian khá lớn Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan trọng vì nó có thể cho biết thông tin về số của danh từ, thì, thể của động từ, hay nhiều loại quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu

Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp Ưu điểm đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc Cây phụ thuộc thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ cấu của mô hình văn phạm phi ngữ cảnh Khi sử dụng các quan hệ phụ thuộc có gán nhãn,

mô hình phụ thuộc mã hóa trực tiếp cấu trúc vị ngữ - bổ ngữ Do vậy có thể dịch (hiểu) riêng từng đoạn trong câu

Mô hình văn phạm phụ thuộc không xạ ảnh có đặc điểm là cấu trúc phụ thuộc độc lập với trật tự từ, rất thích hợp với các ngôn ngữ có trật tự từ tự do Tất nhiên mô hình văn phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngôn ngữ có trật tự từ khá chặt chẽ Chính vì vậy, các bộ phân tích cú pháp xây dựng trên mô hình phụ thuộc được phát triển cho hầu hết các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng Anh của Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford Các bộ phân tích cú pháp phụ thuộc cho các ngôn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng Nga của

Trang 16

15

nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning Huang [118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So Young Kwon [78] Nhiều ngôn ngữ Đông Nam Á cũng được phân tích cú pháp theo hướng phụ thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani và Purwarianti [72], tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng Tagalog (Philippines) với bộ phân tích của Maguilimotan và Matsumoto [85] Mô hình văn phạm phụ thuộc cũng rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108], rút trích thông tin [42], dịch máy [49], [55]

Vai trò quan trọng của mô hình phụ thuộc là rõ ràng Tuy nhiên mô hình văn phạm phụ thuộc có những điểm khó về mặt ngôn ngữ học Theo Nguyễn Tài Cẩn [2] còn nhiều tranh luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có thể đóng vai trò phụ về cú pháp, nhưng lại đóng vai trò chính về từ pháp hay vai trò trung tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau

Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có công trình nào về văn phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học Tiếng Việt có một bộ phân tích cú pháp phụ thuộc theo mô hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có một hệ thống văn phạm phụ thuộc đầy đủ Với mong muốn tiếp cận với mô hình văn phạm dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mô hình theo hướng phụ thuộc nhưng hoàn toàn từ vựng hóa: mô hình văn phạm liên kết

Văn phạm liên kết là mô hình do D.Sleator và D Temperley đưa ra [111], cho phép mỗi

từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn một số yêu cầu về tính phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ Văn phạm liên kết là văn phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau:

1 Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản hơn cây phụ thuộc Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi nút chứa không quá 3 mối liên hệ với nút khác Ngân hàng phân tích vì thế đơn giản hơn ngân hàng cây ngữ cấu Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân tích lớn như ngân hàng dữ liệu đa phương tiện [128] Phân tích liên kết được sử dụng phổ biến cho những ứng dụng khác như trích chọn thông tin [84], [106], [110], dịch máy [35], hỏi đáp tự động [95], [105] Nhiều bộ phân tích cú pháp cho các ngôn ngữ khác nhau được xây dựng trên mô hình văn phạm liên kết cho tiếng Anh[111], tiếng Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]

Trang 17

16

2 Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không nhất thiết liền kề Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự

do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất

mệt” không khác nhau Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết

Tất nhiên, theo Schneider [109], do mô hình văn phạm liên kết đòi hỏi tính phẳng nên không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành phần không liền kề (long distance dependency) trong câu Điều này có thể chấp nhận được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không nhiều

3 Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa Việc biểu diễn liên hệ ngữ

nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể chứa chu trình

4 Việc phân biệt các thành phần chính - phụ trong câu trở nên phức tạp hơn vì liên kết không định hướng như phụ thuộc Do vậy, với một số bài toán, chẳng hạn tóm tắt văn bản, mô hình văn phạm liên kết không thuận tiện bằng văn phạm phụ thuộc Tuy nhiên trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu quả

5 Văn phạm liên kết không đòi hỏi quan hệ cai trị - phụ thuộc nên có thể dễ dàng gộp các phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu ghép nhiều mệnh đề dễ dàng hơn

6 Văn phạm liên kết là một trong rất ít mô hình hoàn toàn từ vựng hóa, do vậy có thể biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm ngữ cấu (quan hệ chỉ định nghĩa đến loại từ) Đặc điểm này cho phép biểu diễn nhiều hiện tượng trong tiếng Việt Ví dụ, những động từ chỉ động tác có phương hướng như

“chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng:

“ra”, “vào”, “lên”, “xuống” Liên kết DR được thiết lập giữa các loại từ nói trên mà

không tồn tại với bất cứ loại từ nào khác

7 Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131] Phân tích liên kết cũng được sử dụng để trích chọn thông tin [50], [52], [90], [97], đặc biệt là thông tin ngữ nghĩa [82]

Trang 18

17

8 Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ và các mối liên hệ khác, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái, tốt hơn những

mô hình mà quan hệ phụ thuộc không được gán nhãn (theo Zamin [129])

Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét:

1 Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu Tuy nhiên tiếng Việt có những đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ,

sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu diễn một cách linh hoạt và đơn giản qua mô hình liên kết Đặc biệt khi giải quyết bài toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngôn ngữ đích với chất lượng cao

2 Phân tích câu theo mô hình liên kết rất gần với suy nghĩ của con người, do vậy có thể

hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu Kết quả phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu Tuy là một đồ thị, nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối liên hệ với không quá 3 từ khác Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê

3 Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt Mô hình văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng phân tích và xử lý câu ghép, câu phức một cách hiệu quả

4 Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên các hệ thống dịch máy chủ yếu theo hướng Anh - Việt và làm theo hướng tiếp cận dựa trên luật Do mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng

cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật

xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngôn ngữ đích, hỗ trợ tốt nhiều yêu cầu dịch thuật trong thực tế Hệ thống này có thể tích hợp với những hệ thống theo các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất lượng tốt: trôi chảy và đúng về cú pháp cũng như từ pháp

Từ đó, luận án xác định mục tiêu tập trung vào việc nghiên cứu, xây dựng một mô hình văn phạm liên kết tiếng Việt với những đặc điểm sau:

Trang 19

18

1 Dựa trên mô hình văn phạm liên kết được Sleator và Temperley đưa ra [111]

2 Dựa trên các đặc điểm cú pháp và từ pháp tiếng Việt

3 Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết Phạm vi của bộ phân tích cú pháp là câu đơn cũng như câu ghép bao gồm nhiều mệnh

đề đẳng lập và phụ thuộc

4 Có thể ứng dụng để giải quyết bài toán dịch máy Việt - Anh

5 Tạo ra các sản phẩm phục vụ công việc nghiên cứu: từ điển liên kết, từ điển song ngữ với dạng tuyển có chú giải

Để làm được điều đó, cần thiết phải thực hiện nhiều nội dung nghiên cứu cốt lõi như: Các hướng tiếp cận để biểu diễn cú pháp (đặc biệt là hướng tiếp cận phụ thuộc), mô hình văn phạm liên kết và mối liên hệ với mô hình văn phạm phụ thuộc, các mô hình văn phạm liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và một số ngôn ngữ khác Bộ phân tích cú pháp tiếng Anh và các giải thuật phân tách mệnh đề của câu ghép là những vấn đề

mà luận án nghiên cứu để xây dựng bộ phân tích liên kết tiếng Việt Để minh họa cho khả năng biểu diễn của mô hình văn phạm liên kết tiếng Việt, luận án đi vào tìm hiểu các hệ thống dịch để xây dựng bộ dịch máy sử dụng văn phạm liên kết

Trong khuôn khổ của luận án, công việc sẽ được giới hạn trong phạm vi :

1 Xây dựng mô hình liên kết để biểu diễn cú pháp tiếng Việt Bộ từ điển liên kết của tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế

2 Bộ phân tích cú pháp liên kết tiếng Việt cũng phải qua những giai đoạn tiền xử lý như bất cứ bộ phân tích cú pháp nào khác Theo cách tiếp cận này, bộ phân tích cú pháp không gán nhãn từ trước khi phân tích cú pháp, nhưng không thể bỏ qua giai đoạn tách

từ Luận án đã sử dụng bộ tách từ vnTokenizer của TS Lê Hồng Phương, được cung cấp miễn phí trên mạng

3 Nghiên cứu mô hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú pháp Đây là mô hình phức tạp hơn nhiều so với văn phạm phi ngữ cảnh xác suất Luận

án giới hạn phạm vi làm việc là thử nghiệm các giải thuật được đề xuất

4 Nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để phân tách câu ghép thành các mệnh đề Đề xuất các kết nối lớn cho các mệnh đề trên

cơ sở các quan hệ diễn ngôn để cho ra phân tích tổng thể của câu ghép

5 Việc xây dựng hệ thống dịch Việt - Anh dựa trên dạng tuyển có chú giải là một minh họa cho việc ứng dụng mô hình văn phạm liên kết tiếng Việt Hệ thống này được thử

Trang 20

19

nghiệm trên bộ ngữ liệu gồm các mẫu câu trong chương trình tiếng Việt cơ bản và nâng cao để dạy cho người nước ngoài của khoa Việt nam học và tiếng Việt, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội [18]

Luận án được chia làm 4 chương và 4 phụ lục như sau:

Chương 1: Tổng quan về các mô hình văn phạm cho ngôn ngữ tự nhiên giới

thiệu các mô hình văn phạm để mô tả cú pháp của ngôn ngữ tự nhiên và mối quan hệ của

mô hình văn phạm liên kết với các mô hình văn phạm khác

Kết quả nghiên cứu của nghiên cứu sinh liên quan đến luận án được trình bày trong các chương 2,3,4

Chương 2: Mô hình văn phạm liên kết tiếng Việt đưa ra chi tiết về hệ thống văn

phạm liên kết tiếng Việt đã được nghiên cứu sinh xây dựng

Chương 3: Phân tích cú pháp trên văn phạm liên kết mô tả bộ phân tích cú pháp

liên kết, hướng giải quyết vấn đề phân tích cú pháp cho câu ghép, vấn đề nhập nhằng cú pháp và hướng giải quyết

Chương 4: Hệ thống dịch dựa trên dạng tuyển có chú giải thể hiện việc thử

nghiệm mô hình văn phạm liên kết trong bài toán dịch máy Việt Anh

Kết luận và hướng phát triển

Phần phụ lục bao gồm 4 phụ lục:

Phụ lục 1: Công thức liên kết cho các tiểu loại từ tiếng Việt

Phụ lục 2: Kết quả phân tích cú pháp một số mẫu câu đơn và câu ghép hai mệnh đề Phụ lục 3: Một số luật điển hình trong tập luật dịch Việt Anh

Phụ lục 4: So sánh kết quả dịch một số mẫu câu

Trang 21

20

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM

CHO NGÔN NGỮ TỰ NHIÊN

Theo Jurafsky [70], quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn phạm truyền thống như chủ ngữ hay bổ ngữ và những mối quan hệ khác Nhiều mô hình văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency), quan hệ văn phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency) Hai hướng tiếp cận phổ biến nhất hiện nay là cấu trúc và phụ thuộc Chương này sẽ giới thiệu các mô hình văn phạm phổ biến và vị trí của văn phạm liên kết trong hệ thống các mô hình văn phạm đó

1.1 Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh

Vấn đề đầu tiên đặt ra khi mô tả các quy tắc cú pháp là biểu diễn được các quy luật để nhóm các từ lại thành câu Nếu ngữ pháp tiếng Việt [28] quy định câu phải chứa một nòng cốt (đơn hoặc ghép), nòng cốt đơn phải chứa chủ ngữ, vị ngữ với chủ ngữ luôn đi trước vị ngữ, thì vấn đề mô tả quy tắc cú pháp sẽ chuyển thành vấn đề tạo lập các cấu trúc (constituent) và đưa ra các quy tắc về vị trí của các cấu trúc

Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy chính là mô hình văn phạm phi ngữ cảnh Mô hình hình thức này tương đương với dạng chuẩn BNF (Backus Naur Form) của ngôn ngữ lập trình

1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên

Văn phạm phi ngữ cảnh bao gồm một tập các luật hay sản xuất, mỗi luật biểu diễn cách thức mà các ký hiệu của ngôn ngữ được nhóm lại rồi sắp theo thứ tự và một tập từ vựng bao gồm các từ và ký hiệu

Ví dụ: Một tập sản xuất của văn phạm phi ngữ cảnh tiếng Việt với ý nghĩa của các ký

hiệu không kết thúc: S - câu, NP - danh ngữ, VP - động ngữ, N - danh từ, V - động từ, P - đại từ

S  NP VP NP  P

NP  N P VP  V NP

Trang 22

21

Tập sản xuất này có thể mô tả cấu trúc cú pháp của câu “Tôi yêu mẹ tôi” với đại từ

“tôi”, danh từ “mẹ” và động từ “yêu”

Một cách hình thức, có thể mô tả văn phạm phi ngữ cảnh như sau:

Định nghĩa 1.1 [70]Văn phạm phi ngữ cảnh là bộ 4 G = (N, , R, S), trong đó:

N: tập ký hiệu không kết thúc (biến)

: tập ký hiệu kết thúc (không giao với N)

R: tập luật, hay tập sản xuất dạng A  , A là ký hiệu không kết thúc,  là xâu gồm hữu hạn ký hiệu trên tập vô hạn (  N)* (tập tất cả các xâu trên bảng chữ   N)

S: ký hiệu đầu

Trong mô hình văn phạm phi ngữ cảnh, bài toán phân tích cú pháp là bài toán tìm ra cây ngữ cấu cho câu đưa vào Mỗi nút của cây ngữ cấu có nhãn là một ký hiệu không kết thúc biểu diễn một cấu trúc Theo [56], cây ngữ cấu thể hiện những thông tin sau về cú pháp:

 Thứ tự tuyến tính của các từ trong câu

 Tên các phạm trù cú pháp của các từ và nhóm từ

 Cấu trúc phân cấp của các phạm trù cú pháp

Các bộ phân tích cú pháp theo mô hình văn phạm phi ngữ cảnh cổ điển chủ yếu theo hai phương pháp CYK (Cocke – Younger - Kasami) và Earley Đã có những bộ phân tích cú pháp tiếng Việt được xây dựng theo phương pháp CYK [12], Earley [5], [27] với những cải tiến thích hợp

Trong hình 1.1 là cây ngữ cấu cho câu “Tôi thích chân gà” Cây ngữ cấu này nếu không tính nhãn của các nút lá, thì giống hệt cây ngữ cấu của câu “Tôi thích áo lụa”,tuy nhiên,

nếu đem dịch sang tiếng Anh, hai câu này phải dịch khác hẳn nhau Quan hệ giữa danh từ chỉ bộ phận cơ thể động vật và danh từ chỉ động vật là quan hệ sở hữu, do vậy chân gà phải

hiểu là “chân của gà”, trong khi quan hệ giữa “áo” và “lụa” lại là quan hệ về mặt chất liệu

“áo bằng lụa” Mô hình phi ngữ cảnh chưa thể hiện được mối liên hệ này

Hình 1.1 Cây ngữ cấu của câu “Tôi thích chân gà”

Trang 23

22

Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân tích cú pháp phải giải quyết Theo [70], trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng hướng về cấu trúc (structural ambiguity) Giả thiết ta chỉ xét câu đơn, tức là câu chỉ có một nòng cốt và bỏ qua vấn đề nhập nhằng từ loại Vấn đề nhập nhằng cấu trúc xảy ra khi một câu có nhiều hơn một cây phân tích Trong hình 1.2 là hai cây ngữ cấu khác nhau cho câu

“Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” (câu ví dụ trong [20]) với văn

Trang 24

23

Một trong những cách tiếp cận đầu tiên để giải quyết vấn đề nhập nhằng khi phân tích

cú pháp trên mô hình văn phạm phi ngữ cảnh là mô hình văn phạm phi ngữ cảnh xác suất (Probabilistic Context Free Grammar)

1.1.2 Văn phạm phi ngữ cảnh xác suất

Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác suất cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không

Định nghĩa 1.2 [70]Văn phạm phi ngữ cảnh xác suất là bộ bốn

N: tập ký hiệu không kết thúc (biến)

: tập ký hiệu kết thúc (không giao với N)

R: tập luật, hay tập sản xuất dạng A   | p |, trong đó A là ký hiệu không kết thúc,  là xâu gồm hữu hạn ký hiệu trên tập vô hạn (  N)*, p là số trong đoạn [0,1] biểu thị xác suất Pr (  | A )

S: ký hiệu đầu

Xác suất của một cây ngữ cấu là tích các xác suất của n luật được sử dụng để mở rộng n nút trong của nó:

Pr T, S Pr RHS |LHS LHSi và RHSi là vế trái và vế phải của sản xuất được dùng cho nút thứ i của cây ngữ cấu

Cây được chọn là cây có xác suất lớn nhất [41]

Pr T, S argmax

Pr T Biểu thức T.s.t.S = yield(T) yêu cầu tính trên tất cả các cây ngữ cấu T có kết quả là câu S Trong trường hợp lý tưởng, nếu có một treebank đủ lớn, có thể tính xác suất của mỗi luật theo công thức:

Pr  | A Count A  

∑ Count A

Count A  Count AVấn đề là khi bắt đầu công việc, treebank chưa có hoặc chưa đủ lớn Do vậy cần chọn một bộ ngữ liệu, phân tích các câu của nó để bổ sung dần vào ngân hàng cây và tính ra các xác suất nói trên Ta lại đối mặt với vấn đề khác, khi một câu có thể có nhiều phân tích:

Trang 25

24

phân tích nào sẽ được chọn? Việc giải quyết vấn đề nhập nhằng lại rơi vào tình thế “con gà

và quả trứng”

Vấn đề nói trên được giải quyết bởi giải thuật trong - ngoài (Inside - Outside Algorithm)

do Baker đề xuất năm 1979 cho văn phạm phi ngữ cảnh [81] Đây thực chất là biến thể của giải thuật tiến - lùi của mô hình Markov ẩn (Hidden Markov Model - HMM) Giải thuật cho phép tính xác suất trong và xác suất ngoài cho câu vào S theo cách đệ quy

Mô hình Markov ẩn được Manning và Schütze [87] giới thiệu, quan tâm đến dãy các quan sát O1, Om sản sinh bởi các luật Ni  NjNk và Ni  wj Trong đó Oi, i 1, m thực chất là các ký hiệu kết thúc (từ) w1, wm của xâu đưa vào

Theo mô hình HMM, ma trận tham số của văn phạm phi ngữ cảnh xác suất là α [i, j, k]

và β [i, r] với:

α [i, j, k] = Pr ( N i  N j N k | G )

β [i, r] = Pr ( N i  r | G )

Để có thể xây dựng ma trận tham số như trên, văn phạm phi ngữ cảnh được giả thiết là

ở dạng chuẩn Chomsky Điều này không làm giảm tính tổng quát của mô hình, vì theo [63], mọi văn phạm phi ngữ cảnh có thể chuyển về dạng chuẩn Chomsky Ràng buộc sau

là bắt buộc cho các tham số :

∑ α i, j, k, ∑ β i, r 1 với mọi i Ràng buộc này (liên quan đến ký hiệu không kết thúc thứ i trong văn phạm) cho thấy mọi khả năng áp dụng sản xuất mà vế trái là ký hiệu không kết thúc thứ i chỉ có thể sinh ra hoặc hai ký hiệu không kết thúc hoặc một ký hiệu kết thúc (do văn phạm ở dạng chuẩn Chomsky)

Dưới đây là quy ước về ký hiệu theo [87]:

 Tập ký hiệu không kết thúc của văn phạm được ký hiệu là { N1, , Nn } Ký hiệu đầu

là N1.

 Tập ký hiệu kết thúc của văn phạm là {w1, , wV}

 Câu được phân tích w1 wm

 wpq là bộ phận của câu cần phân tích từ từ thứ p đến từ thứ q

 N là ký hiệu không kết thúc Nj sinh ra dãy các từ ở vị trí từ p đến q trong câu

 j (p, q) là xác suất ngoài

 j (p, q) là xác suất trong

Trang 26

đề chính trong phân tích cú pháp theo mô hình xác suất là:

1 Đoán nhận (recognition): Tính xác suất để ký hiệu đầu N1 sinh ra dãy quan sát O trong văn phạm G Như vậy, với giải thuật trong (Inside Algorithm), xác suất để một câu

có m từ w1 wm đúng (được sản sinh bởi văn phạm G) là:

Pr ( w 1m | G ) = Pr ( N 1 ⇒ w∗ 1m | G ) =  1 ( 1, m )

Xác suất nói trên là xác suất đúng của câu, tức là tổng xác suất của các phân tích Để

giải quyết vấn đề nhập nhằng cần tìm ra phân tích có xác suất lớn nhất trong số các phân

tích Vấn đề này được giải quyết bằng giải thuật kiểu Viterbi trong mô hình HMM Tương

tự như giải thuật tính xác suất trong nhưng giài thuật này tìm giá trị lớn nhất thay cho tính tổng Trong [87] đã trình bày toàn bộ giải thuật kiểu Viterbi để tìm ra cây cú pháp tốt nhất cho câu w1 wm

2 Huấn luyện (training): Sau khi tìm được phân tích tốt nhất cho câu đưa vào, bộ

phân tích cú pháp cần tiếp tục với giai đoạn huấn luyện Bài toán huấn luyện có thể mô tả như sau: xác định lại xác suất của tập luật trong văn phạm G khi đã cho dãy huấn luyện gồm các câu s1, s2, , sn Vấn đề huấn luyện cho văn phạm phi ngữ cảnh xác suất đã được trình bày trong [87]

Theo [70], văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:

 Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp do xác suất của mỗi luật được tính toán hoàn toàn độc lập với nhau

 Thiếu thông tin về từ vựng: Thông tin cú pháp có thể liên quan đến những từ đặc biệt nào đó nhưng mô hình phi ngữ cảnh lại không mô tả được Do vậy dẫn đến nhập nhằng trong xử lý liên hợp (coordination), loại con (subcategory), sử dụng giới từ

Trang 27

26

1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa

Văn phạm phi ngữ cảnh xác suất từ vựng hóa không chỉ thể hiện cấu trúc của các ngữ

mà còn cho biết mối liên hệ giữa các từ Trong văn phạm phi ngữ cảnh xác suất từ vựng hóa (Lexicalized Probabilistic Context Free Grammar), mỗi ký hiệu không kết thúc sẽ được viết dưới dạng A(x), x = w, t)với A là nhãn của cấu trúc Số ký hiệu không kết thúc

sẽ tăng rất mạnh, nhiều nhất tới |ν| × |τ| lần, |ν| là số lượng từ trong từ vựng và |τ| là số lượng từ loại của ngôn ngữ

Luật của văn phạm phi ngữ cảnh xác suất từ vựng hóa có dạng:

1 Luật nội tại:

P (h)  Ln(ln ) L1(l1)H(h)R1(r1) Rm(rm) (1.1)

Trong đó, h là cặp từ / nhãn từ loại H là con chính của luật, sẽ thừa kế cặp từ / nhãn từ

loại của nút cha P Thành phần Ln (ln) L1(l1) bổ nghĩa cho H ở bên trái và thành phần

R1(r1) Rm(rm) bổ nghĩa cho H ở bên phải (n hoặc m có thể bằng 0) Dãy bên trái và bên phải được mở rộng bởi ký hiệu STOP Do vậy Ln+1 = Rm+1 = STOP

2 Luật từ vựng:

P (h)  w, P là một từ nhãn loại, h là cặp (w, t) (1.2) Hình 1.3 dưới đây minh họa một văn phạm phi ngữ cảnh xác suất từ vựng hóa [43]

Có thể thấy các luật nội tại thỏa mãn công thức (1.1), chẳng hạn luật nội tại:

S(bought, VBD)  NP (week, NN) NP(IBM, NNP) VP (bought, VBD)

thỏa mãn với giá trị các tham số như sau:

Pr ( NP(week, NN) NP(IBM, NNP) VP(bought,VBD) | S(bought, VBD) ) =

Count S bought, VBD  NP week, NN NP IBM, NNP VP bought, VBD

Count S bought, VBD 1.3Việc thêm thông tin từ vựng làm cho mẫu số của vế phải công thức (1.3) trở nên vô cùng lớn, xác suất gần như bằng 0

Trang 28

27

Tập luật (sản xuất)

Các luật nội tại

TOP  S(bought, VBD)

S(bought, VBD  NP(week, NN) NP(IBM, NNP) VP(bought, VBD)

NP(week, NN  JJ(Last, JJ) NN(week,NN)

Cây ngữ cấu cho câu”Last week IBM bought Lotus”

Hình 1.3 Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM bought Lotus”

Để tránh số lượng tham số quá lớn, trong mô hình được Collins [43] đưa ra, xác suất của luật nội tại được tính dựa theo luật chuỗi xác suất

Trang 29

28

Trong đó, các chỉ số h, l, r chỉ ra kiểu tham số của trung tâm, thành phần bổ nghĩa bên trái và bên phải Xác suất này được tính với giả thiết các thành phần bổ nghĩa được sinh ra một cách độc lập với nhau

Xác suất của các luật từ vựng luôn bằng 1, vì khi gặp ký hiệu không kết thúc là nhãn từ loại, chỉ có duy nhất một cách để thay thế

Xác suất sinh ra một đối tượng bổ nghĩa có thể phụ thuộc vào một hàm bất kỳ của các đối tượng bổ nghĩa trước đó, lĩnh vực của từ trung tâm hay từ trung tâm Do vậy, khoảng cách được [43] bổ sung vào giả thiết về tính độc lập của các từ bổ nghĩa

Pr l ( L i (l i ) | H, P, h, L 1 (l 1 ), , L i‐1 (l i‐1 ) ) = Pr l ( L i (l i ) | H, P, h, distance l (i ‐1) )

Pr r ( R i (r i ) | H, P, h, R 1 (l 1 ), , R i‐1 (R i‐1 ) ) = Pr l (R i (r i ) | H, P, h, distance r (i‐1) )

Mô hình này cũng đã được nhóm Lê Thanh Hương [22] sử dụng để xây dựng bộ phân tích cú pháp tiếng Việt với nhận xét “Trong tiếng Việt các thành phần biên của các ngữ phụ thuộc vào thành phần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm” Trong [22] đã đưa ra công thức tính xác suất luật cho các thành phần biên không có xuất hiện của khoảng cách và đề xuất công thức tính xác suất cho luật có thêm giá trị xác suất kết nối các từ ở hai bên thành phần chính của vế phải

1.1.4 Văn phạm kết nối cây

Với sự ra đời của các treebank, các thao tác viết lại trên văn phạm có thể không diễn ra trên xâu nữa mà thực hiện trên cây ngữ cấu

Phần tử cơ sở của văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là cây cơ bản [69] Các cây cơ bản được kết hợp với nhau qua hai thao tác viết lại là kết hợp và thay

thế Cây trung gian sinh ra khi áp dụng các phép thế và kết nối được gọi là các cây phân

tích

Cây phân tích đầy đủ là cây phân tích trong đó mọi nút lá đều có nhãn là ký hiệu kết

thúc Việc phân tích cú pháp cho một câu có thể hiểu là: xuất phát từ một cây cơ bản có gốc là tiên đề, tìm một cây phân tích đầy đủ có các nút lá tương ứng với dãy các từ trong câu

Văn phạm TAG được từ vựng hóa trở thành LTAG (Lexicalized Tree Adjoining Grammar) Đây cũng là một dạng văn phạm hoàn toàn từ vựng hóa Mỗi cây cơ bản đều

có ít nhất một nút lá gắn với một đơn vị từ vựng gọi là từ neo Ngoài ra, văn phạm còn thỏa mãn các điều kiện sau:

Trang 30

1.2 Tiếp cận qua cấu trúc nét và văn phạm hợp nhất

Văn phạm hợp nhất được xây dựng trên cơ sở hợp nhất các cấu trúc nét (feature) Cấu trúc nét được biểu diễn thông qua ma trận giá trị thuộc tính (Attribute Value Matrix - AVM) có dạng:

Nét 1 Giá trị1 Nét 2 Giá trị2

… Nét n Giá trị nChẳng hạn một cấu trúc danh ngữ trong tiếng Anh mô tả các nét của một danh ngữ: Loại - danh ngữ, Số - Ít, Ngôi - 3 như sau:

CAT NPNUMBER SGPERSON 3Cấu trúc nét được định nghĩa là ánh xạ F VF, F là tập nét , VF là tập giá trị có thể gán cho các nét

Ví dụ nêu trên là một cấu trúc nét trên tập nét F = { CAT, NUMBER, PERSON }, tập giá trị VF = { NP, SG, 3 }

Văn phạm gia tố chứa những luật gia tố dạng A  X1 Xn với A là tên cấu trúc nét cha,

X1, Xn là các cấu trúc nét con

Luật trong văn phạm gia tố được biểu diễn qua cấu trúc nét có chứa biến, nhờ đó có thể

áp dụng luật cho nhiều tình huống khác nhau Chẳng hạn luật gia tố cho cụm danh từ đơn giản:

(NP NUMBER ?n)  (ART NUMBER ?n) (N NUMBER ?n )

biểu diễn sự thống nhất về số của mạo từ và danh từ

Trang 31

1.3 Cách tiếp cận phụ thuộc

1.3.1 Một số khái niệm

Văn phạm phụ thuộc có khởi đầu từ ngôn ngữ Ấn độ cổ Panini, mô hình hiện đại được Lucien Tesnière giới thiệu [75] Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên các ngôn ngữ Slavơ [92], Thổ Nhĩ Kỳ do thể hiện được đặc tính tự do của trật tự từ

Điểm quan trọng trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là

quan hệ phụ thuộc (hay phụ thuộc - dependency) Quan hệ phụ thuộc xảy ra giữa một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head)

Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất (đơn vị nguyên tố),

ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cách phát âm hay từ Phát ngôn được coi như một xâu các nguyên tố của của tập ký hiệu kết thúc Các đơn vị cú pháp nhỏ nhất có thể nhập nhằng: một hình vị có thể đóng vai trò danh từ trong một phát ngôn, đồng thời đóng vai trò động từ trong phát ngôn khác

Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc Ký hiệu bổ trợ

không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp cố định

Có nhiều mô hình khác nhau của văn phạm phụ thuộc Mô hình đầu tiên được mô tả hình thức bởi Hays [62] và Gaifman [57]

Trang 32

31

Định nghĩa 1.4 [57]

Văn phạm phụ thuộc là bộ bốn thành phần DG = ( L, C, F, R ), trong đó

L: Tập ký hiệu kết thúc (terminal alphabet)

C: Tập ký hiệu bổ trợ (auxiliary alphabet)

F: L  C hàm gán (assignment function)

R: Tập các luật phụ thuộc thuộc một trong ba dạng dưới đây:

1 X i (X j1 , X j2 , ,*, , X jn ),trong đó Xi là từ trung tâm, Xj1, Xj2, , Xjn là các từ phụ thuộc, n là một số Thứ tự của các từ trong luật 1 là thứ tự xuất hiện trong câu (có thể

có từ xen giữa các từ được nói đến trong luật) Dấu * đánh dấu vị trí từ trung tâm khi đứng cùng các từ phụ thuộc của nó trong phát ngôn

2 X i (*), chỉ ra rằng ký hiệu kết thúc ứng với Xi có thể xuất hiện mà không có từ phụ thuộc

3 *(X i ), chỉ ra rằng đơn vị ứng với Xi có thể xuất hiện mà không có từ trung tâm Đối tượng này là trung tâm của phát ngôn mà nó xuất hiện

Thông thường, một từ ROOT được thêm vào để dễ dàng xử lý những đối tượng như V

Câu “John loves a woman” có thể được biểu diễn dưới dạng cây như trong hình 1.4 dưới

đây:

Hình 1.4 Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc

Trang 33

32

Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng sẽ được trình bày dưới đây

Định nghĩa 1.5 [62]

Ngữ trị (valency) của Xi là số lượng các phần tử phụ thuộc vào nó

Các định nghĩa dưới đây được trích từ [75]

Định nghĩa 1.6

Câu là dãy các từ tố (từ) biểu diễn bởi S = w0w1 wn

Để đơn giản, giả thiết dãy w1, wn là dãy của các từ khác nhau,ví dụ trong câu “Mary

saw John and Fred saw Susan”, hai thể hiện khác nhau của từ “saw” được coi là phân biệt

Định nghĩa1.7

Giả sử R = { r1, , rm } là tập hữu hạn các kiểu quan hệ phụ thuộc có thể diễn ra giữa hai từ trong một câu Kiểu quan hệ r  R được gọi là nhãn của cung,

Định nghĩa 1.8

Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh V và tập cung A

sao cho với câu S = w0w1 wn và tập nhãn R, những khẳng định sau là đúng:

 V  { w0, w1, wn }

 A  V R  V

 Nếu (wi, r, wj)  A thì (wi r’,wj) A với mọi r’ r

Ví dụ: Đồ thị phụ thuộc của câu “ Economic news had little effect on financial market”

trong hình 1.5

Hình 1.5 Đồ thị phụ thuộc của câu

“Economic news had little effect on financial market”

G = (V, A)

V = VS = { ROOT, Economic, news, had, little, effect, on , financial, markets }

Trang 34

33

A = { (ROOT, PRED, had), (had, SBJ, news), (had, OBJ, effect), (had, PU,.), (news, ATT, Economic), (effect, ATT, little), (effect, ATT, on), (on, PC, market), (market, ATT, financial) }

Định nghĩa phụ thuộc (wi, r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ

thống lý thuyết ngôn ngữ khác nhau

V = VS Ta gọi đồ thị phụ thuộc này là cây phụ thuộc

Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R là

GS Có thể coi đây là mô hình phụ thuộc một tầng

Các mô hình phụ thuộc theo trường phái Praha [109] cho phép phụ thuộc theo nhiều

tầng, do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảo

tính chất của cây phụ thuộc

Quy ước ký hiệu như sau:

wi  wj nếu và chỉ nếu (wi, r, wj)  A với r  R

wi * wj nếu và chỉ nếu i = j hay wi * wi’ và wi’  wj với wi’ V nào đó

wi  wj nếu và chỉ nếu wi  wj hoặc wj  wi

wi * wj nếu và chỉ nếu i = j hay wi * wi’ và wi’ * wj , wi’ V nào đó

1.3.2.Tính chất của cây phụ thuộc

Sau đây là các tính chất của cây phụ thuộc, kết quả phân tích câu theo mô hình phụ thuộc Các tính chất này phản ánh đặc trưng của mô hình phụ thuộc nguyên bản của Tesnière [82]

Cây phụ thuộc G = (V, A) luôn thỏa các tính chất sau:

1 Tính chất gốc: Không tồn tại wiV sao cho wi  w0 (Nút gốc ROOT không phụ thuộc nút nào)

2 Tính chất khung: Trên toàn bộ các từ của câu: V = VS

3 Liên thông: Với mọi wi, wj V, wi * wj (Cây phụ thuộc là đồ thị liên thông yếu)

Trang 35

34

4 Một từ trung tâm (single head): với mọi wi, wj  V, nếu wi  wj thì không tồn tại wi’với i’ i mà wi’  wj (mỗi từ phụ thuộc chỉ có một từ trung tâm duy nhất)

5 Không chu trình: Với mọi wi, wj  A, nếu wi  wj thì không xảy ra wj * wi

6 Tính chất về số cung: Đồ thị phụ thuộc G = (V, A) thỏa mãn tính chất:

|A| = |V| - 1

7 Tính xạ ảnh (projective)

 Cung (wi, r, wj) A trong một cây phụ thuộc là có tính xạ ảnh nếu và chỉ nếu wi * wk

với mọi i < k < j khi i < j hoặc j < k < i khi j < i (mỗi cung trong cây là xạ ảnh nếu có

một con đường từ từ trung tâm tới mọi từ nằm giữa hai điểm đầu của cung)

 Cây phụ thuộc G = (V, A) là cây phụ thuộc xạ ảnh nếu :

o Nó là cây phụ thuộc

o Mọi (wi, r, wj)  A có tính xạ ảnh

Ngược lại G là cây phụ thuộc không xạ ảnh

 Cây phụ thuộc xạ ảnh thỏa mãn tính phẳng nếu có thể vẽ tất cả các cung của cây ở phần

không gian trên của câu mà không có cung nào cắt nhau

 Cây phụ thuộc xạ ảnh G = (V, A) thỏa tính chất lồng nếu mọi nút wi V, tập các từ { wj

| wi  *wj } là một dãy các từ kề nhau của câu S

So sánh văn phạm phụ thuộc và văn phạm phi ngữ cảnh

Trong [57], [62] đã chứng minh rằng văn phạm phụ thuộc là tương đương yếu với văn

phạm phi ngữ cảnh

Khác biệt cơ bản giữa văn phạm phụ thuộc và văn phạm phi ngữ cảnh là cấu trúc phụ thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực theo chức năng như là chủ ngữ hay bổ ngữ, trong khi biểu diễn kiểu phi ngữ cảnh nhóm từ thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ

Tuy nhiên, với cùng một câu, cây phụ thuộc đơn giản hơn cây ngữ cấu rất nhiều do nó

chỉ chứa số lượng nút bằng số từ trong câu +1

Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì nhiều mô

hình phụ thuộc không đòi hỏi tính xạ ảnh Việc văn phạm phụ thuộc biểu diễn được sự phụ thuộc về hình thái từ (giống, số, cách ) cũng là một lý do thuyết phục cho khẳng định trên

Trang 36

35

Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa nếu sử dụng các mô hình

mở rộng Theo Fox [55], mô hình phụ thuộc rất thuận lợi cho bài toán dịch máy do có độ

đo crossing nhỏ

Ngược lại mô hình phụ thuộc lại khó giải quyết bài toán sinh ngôn ngữ vì trong trường hợp tổng quát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn

Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination) do

tính chất một từ trung tâm của các mối quan hệ phụ thuộc Để giải quyết vấn đề này cần sử dụng một số dạng mở rộng của văn phạm phụ thuộc như văn phạm phạm trù phụ thuộc (Dependency Categorical Grammar) [103], hay sự phụ thuộc với nhiều từ trung tâm theo

mô hình văn phạm từ (Word Grammar) của Hudson [65], [114]

1.4 Văn phạm liên kết

1.4.1 Khái niệm văn phạm liên kết

Mô hình văn phạm liên kết được Sleator và Temperley [111] đưa ra năm 1991 Đến nay

mô hình này đã được phát triển và sử dụng trên nhiều lĩnh vực khác nhau vì nó đã đặc tả được nhiều hiện tượng của tiếng Anh cũng như nhiều ngôn ngữ khác Bộ phân tích liên kết tiếng Anh cho phép phân tích nhiều câu dài, câu ghép Kết quả phân tích liên kết được sử dụng phổ biến trong các hệ thống cho phép rút trích thông tin, dịch máy và sinh ngôn ngữ Một văn phạm liên kết bao gồm một tập các từ (có thể coi như tập các ký hiệu kết thúc của văn phạm), mỗi từ có một yêu cầu liên kết Một dãy các từ là một câu đúng nếu tồn tại một cách để vẽ các cung (liên kết) giữa các từ sao cho thoả mãn các điều kiện sau:

1 Tính phẳng (planarity): các liên kết không giao nhau (khi được vẽ phía trên các từ)

2 Tính liên thông (connectivity): các liên kết có khả năng kết nối tất cả các từ trong câu

với nhau

3 Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ

trong câu

4 Tính loại trừ: không có hai liên kết có thể kết nối cùng một cặp từ

Các yêu cầu liên kết của mỗi từ được chứa trong một từ điển Từ điển được biểu diễn dưới dạng máy tính có thể đọc được Trong bảng 1.1 dưới đây là ví dụ của một từ điển liên kết mini:

Trang 37

5 Tính thứ tự: Khi các kết nối của một công thức được duyệt từ trái qua phải, các từ

mà nó kết nối tới tiến từ gần ra xa

Đồ thị trong hình 1.6 chỉ ra các yêu cầu liên kết được thoả mãn trong câu hỏi “Tại sao

cậu không tới?”

Hình 1.6 Câu đúng ngữ pháp “Tại sao cậu không tới”

Việc sử dụng các công thức để biểu diễn một từ điển văn phạm liên kết là gần gũi với các hiện tượng của ngôn ngữ tự nhiên, nhưng lại cồng kềnh cho việc mô tả giải thuật phân tích liên kết Trong [111]đã giới thiệu một cách khác để biểu diễn văn phạm liên kết gọi là

dạng tuyển (disjunct)

Mỗi từ của văn phạm có một tập các dạng tuyển liên hệ với nó Mỗi dạng tuyển tương ứng với một cách thoả mãn các yêu cầu liên kết của một từ Một dạng tuyển bao gồm hai danh sách có thứ tự của các tên kết nối: danh sách bên trái và danh sách bên phải Danh sách bên trái bao gồm các kết nối mà nối về phía bên trái của từ hiện tại (các kết nối kết thúc bởi - trong công thức liên kết), và danh sách bên phải chứa các kết nối mà nối về phía bên phải của từ hiện tại (các kết nối kết thúc bởi + trong công thức liên kết) Một dạng tuyển được ký hiệu:

((L1, L2,…, Lm) (Rn, Rn‐1,…, R1)) trong đó L1, L2,…, Lm là các kết nối về phía trái và Rn, Rn-1,…, R1 là các kết nối về phía phải Số lượng các kết nối trong từng danh sách có thể bằng 0 Dấu + hoặc dấu – theo sau

Trang 38

37

có thể loại bỏ khỏi tên của kết nối khi sử dụng dạng tuyển, vì hướng được ngầm định trong dạng tuyển

Để thoả mãn các yêu cầu liên kết của một từ, một trong các dạng tuyển của nó phải

được thoả mãn Để thoả mãn một dạng tuyển, tất cả các liên kết của nó phải được thoả

mãn bởi các kết nối thích hợp Các từ mà L1, L2, … liên kết tới đứng bên trái của từ hiện tại, và giảm đơn điệu về khoảng cách tính từ từ hiện tại Các từ mà R1, R2, … liên kết tới đứng bên phải của từ hiện tại, và tăng đơn điệu về khoảng cách tính từ từ hiện tại

Dạng tuyển là công cụ tương đương với công thức Mỗi công thức tương ứng với một tập các dạng tuyển Ví dụ, công thức (A- or ( )) & D- & (B+ or ( )) & (O- or S+) được nêu trong [111]tương ứng với 8 dạng tuyển sau:

((A,D) (S,B)) ((A,D,O) (B)) ((A,D) (S)) ((A,D,O) ( )) ((D) (S,B)) ((D,O) (B)) ((D) (S)) ((D,O) ( )) Khi phân tích câu, bộ phân tích liên kết sẽ chuyển công thức trong từ điển thành các dạng tuyển tương ứng và tìm ra tổ hợp các dạng tuyển thỏa mãn các yêu cầu nói trên, nếu câu đúng cú pháp

Dạng tuyển con của một dạng tuyển được xây dựng bằng cách xoá đi một hoặc nhiều

kết nối ở đầu và cuối trong hai danh sách kết nối của dạng tuyển đó

Ví dụ, Các dạng tuyển con khác rỗng của dạng tuyển ((O)(EoPp)) của danh từ cụ thể

tiếng Việt (“anh”, “chị”, “bố”, “mẹ” ) là: ((O) (EoPp)), ((O) ( )), (( ) (EoPp))

Kết nối lớn (fat connector) là một kết nối nhưng không chỉ liên kết các từ mà liên kết

các cụm từ Vì vậy, có thể hiểu dạng tuyển chứa kết nối lớn gồm hai danh sách trái và phải, mỗi danh sách chứa một dạng tuyển con

Ví dụ, Kết nối <(O) (EoPp)> là kết nối lớn Nó có thể là thành phần của dạng tuyển nào

đó, chẳng hạn (( )(<(O) (EoPp)>))

Trong ví dụ ở hình 1.7, kết nối F = <(O) (EoPp)> nối tới cụm từ bao gồm từ “và”, từ

“anh” và từ “chị” Hai từ “anh” và “chị” cùng có chung dạng tuyển là ((O) (EoPp)) Kết

nối lớn được dùng để nối các thành phần có cùng chức năng trong câu, tránh làm các liên

Trang 39

Liên kết không định hướng: Văn phạm liên kết không có khái niệm “cai trị”, “phụ

thuộc” Các kết nối không định hướng, hai từ liên kết với nhau là bình đẳng Mô hình này

chỉ quan tâm đến hướng của liên kết là trái hay phải Đây là điểm khác nhau cơ bản giữa

văn phạm phụ thuộc và văn phạm liên kết

Liên kết có nhãn: Nếu trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất

thiết có nhãn thì các liên kết trong văn phạm liên kết bắt buộc phải có nhãn

Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm bắt buộc phải

có Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận sự tồn tại của từ trung tâm B Văn phạm liên kết cho phép liên kết có thể xuất hiện hoặc không Điều đó cho khả năng phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của ngôn ngữ

Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và nhiều văn phạm ngữ cấu khác như HPSG [104] hay lý thuyết X-bar, vẫn còn có nhiều tranh cãi Văn phạm liên kết không dùng khái niệm này và đã thành công ở mức độ cú pháp.Tuy nhiên, Schneider [109]cho rằng có thể gặp phải một số khó khăn khi phân tích ngữ nghĩa

mà không đặc tả hướng phụ thuộc

Các luật của văn phạm chứa thông tin về trật tự từ, tức là về việc các từ liên hệ xuất hiện trước hay sau từ được mô tả tại một lối vào trong từ vựng, phù hợp với xu hướng từ vựng

Trang 40

Hình1.8.Chu trình trong phân tích câu

Trong hình 1.8, liên kết gây ra chu trình chính là Bp Đây chính là một dạng liên kết ngữ

nghĩa cho thấy từ được đại diện bởi “who” chính là “elephant”

Nhờ cho phép chu trình, văn phạm liên kết có thể biểu diễn đồng thời thông tin cú pháp

và ngữ nghĩa trong các liên kết, trong khi thông tin ngữ nghĩa trong văn phạm phụ thuộc

thường được biểu diễn ở tầng khác so với tầng cú pháp (Văn phạm phụ thuộc đa tầng [109])

Văn phạm phụ thuộc và văn phạm liên kết còn khác nhau ở mối liên hệ giữa các từ

không liền kề Tính phẳng của liên kết, tương tự tính phẳng trong văn phạm phụ thuộc, đòi

hỏi các cung biểu diễn liên kết trong một câu không giao nhau khi vẽ trên các từ Với yêu cầu tính phẳng, một số quan hệ từ không lân cận có thể không biểu diễn được trong mô

hình văn phạm liên kết Ví dụ, trong câu “Cái áo này, dù rất đắt, tôi vẫn mua”, sau khi vẽ liên kết giữa danh từ “áo” với tính từ “đắt” và động từ “mua”, sẽ không thể vẽ liên kết giữa

từ “dù” với dấu phảy mà vẫn đảm bảo tính phẳng Tồn tại những văn phạm phụ thuộc

không có tính xạ ảnh, nhưng tính phẳng là bắt buộc trong văn phạm liên kết Rất may, những câu như trong ví dụ trên không thường gặp trong thực tế

1.4.2 Các định nghĩa hình thức về văn phạm liên kết

Qua mô tả phi hình thức được nói đến ở phần trên, ta có thể đi đến mô tả văn phạm liên kết và các khái niệm liên quan một cách hình thức (theo [34]) Những khái niệm sau dẫn đến định nghĩa của văn phạm liên kết

Tiêu đề	Mô hình văn phạm liên kết tiếng Việt
Tác giả	Nguyễn Thị Thu Hương
Người hướng dẫn	GS. TS. Nguyễn Thức Hải, GS. TS. Nguyễn Thanh Thủy
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Khoa học máy tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2013
Thành phố	Hà Nội

Định dạng
Số trang	188
Dung lượng	1,85 MB