Kết quả thử nghiệm phân tích câu ghép

Một phần của tài liệu Mô hình văn phạm liên kết tiếng việt (Trang 96 - 99)

CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT

3.2. Phân tích cú pháp cho câu ghép

3.2.4. Kết quả thử nghiệm phân tích câu ghép

Bộ phân tích cú pháp câu ghép được phát triển từ bộ phân tích liên kết cho câu đơn và câu ghép hai mệnh đề, sử dụng ngôn ngữ Java làm việc trong môi trường Windows. Hình dưới đây mô tả kết quả phân tích cú pháp cho câu ghép “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” gồm 4 mệnh đề với các quan hệ diễn ngôn đã được biểu diễn trong hình 3.19.

94

Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm

Để kiểm chứng cho giải thuật phân tích câu ghép, luận án đã tạo bộ mẫu gồm 100 câu ghép đã phân tích và chú giải, chi tiết như trong bảng 2. Nguồn dữ liệu được chọn từ các bài báo và tập mẫu câu trên mạng:

http://www.mediafire.com/?6ajt9btbrtxidr9

http://www.vietnamtourism.com/v_pages/tourist/destination.asp?mt=8420&uid=533 http://dantri.com.vn/c26/s26-484690/barcelona-mu-giac-mo-noi-thien-duong.htm

Bảng 3.6. Chi tiết tập mẫu câu ghép

STT Tập mẫu Số lượng

câu

Số từ trung bình trong câu 1 Ngữ liệu tiếng Việt phổ quát (Hồ Quốc Bảo) 50 9.7

2 Thể thao 25 11.5

3 Du lịch 25 12.5

Kết quả phân tích tập mẫu thể hiện ở bảng 3.6 cho thấy kết quả đạt được cao hơn hẳn so với bộ phân tích cũ:

95

Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép (đã khử nhập nhằng) Tập mẫu Độ chính xác

(bộ PT cũ)

Độ phủ (bộ PT cũ)

Độ chính xác (bộ PT mới)

Độ phủ (bộ PT mới)

1 42.5% 35.7% 75.1% 65.7%

2 9.5% 6.1% 33.5% 21.6%

3 28.3% 20.5% 47.4% 58.5%

Trong số các bộ ngữ liệu được dùng trong giai đoạn này, bộ ngữ liệu tiếng Việt phổ quát (thật ra là phần tiếng Việt trong bộ ngữ liệu Anh - Việt tổng quát, chủ yếu chứa các câu ghép hai mệnh đề và khá giống nhau nên tỷ lệ câu phân tích diễn ngôn đúng là 100%, ngoài ra cấu trúc từng mệnh đề cũng khá đơn giản. Ngữ liệu về du lịch cũng gồm những câu trong các bài giới thiệu quảng bá du lịch, nhiều câu có trên 3 mệnh đề nhưng cấu trúc vẫn theo đúng luật cú pháp. Bộ ngữ liệu về thể thao với nhiều dạng thức đặc biệt của câu ghép vẫn đạt tỷ lệ thấp nhất.

Bộ phân tích cú pháp liên kết của luận án đã đạt được kết quả khá tốt trên những câu ghép gồm nhiều mệnh đề, không bao nhau, có thể xuất hiện những đoạn giải thích với cặp ngoặc hoặc dấu gạch ngang (-). Tuy nhiên, vẫn còn một số dạng câu ghép mà bộ phân tích của luận án chưa xử lý được. Dưới đây là ví dụ của những loại câu đó:

• Câu ghép thiếu liên từ, ví dụ”Dù chết tao cũng không theo”. Câu này xuất hiện dưới dạng câu đơn nhưng thực ra lại là câu ghép, không có từ liên kết lại ẩn chủ ngữ

“tao” ở mệnh đề đầu.

• Tồn tại những vị ngữ phức tạp, ví dụ “Để cho đỡ buồn tẻ, công chúa thường lấy một quả cầu bằng vàng tung lên để bắt chơi”, câu này không có dấu phảy trước động từ

“tung” nên liên hệ giữa động từ “lấy” và động từ “tung” là không xác định được.

• Quá nhiều mệnh đề, nhiều thành phần liên hợp, trong đó một số mệnh đề ẩn chủ ngữ, ví dụ “Ta thường tới bữa quên ăn, nửa đêm vỗ gối, ruột đau như cắt, nước mắt đầm đìa; chỉ giận chưa thể xả thịt, lột da, ăn gan, uống máu quân thù; dẫu cho trăm thân ta phơi ngoài nội cỏ, nghìn thây ta bọc trong da ngựa, cũng nguyện xin làm”

Luận án chưa thử nghiệm trên câu phức là dạng câu có từ hai cụm chủ vị trở lên nhưng có một cụm bao các cụm còn lại, ví dụ “cái áo hôm qua cậu mua rất đẹp” có hai cụm chủ vị “cậu mua“cái áo đẹp” , cụm “cái áo đẹp” bao cụm còn lại. Thật ra, một số trường hợp đã có thể phân tích với bộ phân tích câu ghép của chúng tôi, như câu “Nó bảo rằng nó

96

không đi nữa”.Tuy nhiên một số trường hợp cần dùng phương pháp học máy để nhận ra giới hạn mệnh đề.

Một phần của tài liệu Mô hình văn phạm liên kết tiếng việt (Trang 96 - 99)

Tải bản đầy đủ (PDF)

(186 trang)