1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích cú pháp tiếng việt theo tiếp cận thống kê

78 776 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích cú pháp tiếng Việt theo tiếp cận thống kê
Tác giả Vương Hoài Thu
Người hướng dẫn TS. Lê Anh Cường
Trường học Đại học Công nghệ, Đại học Quốc Gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp đại học
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 78
Dung lượng 27,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vương Hồi Thu PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Vương Hồi Thu PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN THỐNG KÊ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: TS Lê Anh Cường HÀ NỘI – 2009 LỜI CẢM ƠN Đầu tiên xin tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn tôi,TS Lê Anh Cường, người hướng dẫn, bảo tạo điều kiện để tơi hồn thành luận văn Tôi xin gửi lời cảm ơn sâu sắc tới thầy giáo TS Nguyễn Phương Thái nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt thầy Ngyễn Phương Thái, người hướng dẫn cung cấp tài liệu, liệu cần thiết cho q trình hồn thành luận văn Tơi xin chân thành cảm ơn thầy cô giáo trường Đại học Công nghệ, đặc biệt thầy cô mơn Khoa học máy tính, người dạy bảo, tạo điều kiện cho tơi suốt q trình học tập trường Cuối cùng, gia đình bạn bè hậu phương vững chắc, nguồn động viên giúp tơi hồn thành luận văn TĨM TẮT Phân tích cú pháp tốn quan trọng xử lý ngôn ngữ tự nhiên (XLNNTN) Kết phân tích cú pháp sử dụng nhiều ứng dụng XLNNTN khác dịch máy, hỏi đáp, trích chọn thơng tin… Xây dựng phân tích cú pháp cho tiếng Việt có độ xác cao cơng việc có ý nghĩa Mục tiêu đề luận văn xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Đây hướng tiếp cận mẻ cách xây dựng phân tích cú pháp tiếng Việt Luận văn trình bày khái quát cách tiếp cận việc xây dựng phân tích cú pháp, sâu tìm hiều văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar) Cụ thể hơn, tìm hiểu, nghiên cứu mơ hình xác suất Collins [11], áp dụng cơng cụ phân tích Bikel’s [9] để thử nghiệm cho phân tích cú pháp tiếng Việt Phân tích cú pháp dựa theo thống kê cần có liệu để huấn luyện mơ hình Trong luận văn, sử dụng ngữ liệu Viet Treebank Kết thực nghiệm cho thấy độ xác (precision) 80% với 9000 câu huấn luyện 500 câu kiểm tra Những kết luận văn cho thấy rằng, tiếng Việt, mơ hình Collin có độ xác thấp so với mơ hình 2, mơ hình chưa thực hiệu Ngồi ra, kết thực nghiệm cịn số tham số mơ hình Collins có ảnh hưởng tới độ xác phân tích cú pháp MỤC LỤC MỞ ĐẦU Chương Giới thiệu 1.1 Xử lý ngôn ngữ tự nhiên vấn đề 1.2 Phân tích cú pháp ứng dụng xử lý ngôn ngữ tự nhiên 1.2.1 Định nghĩa: 1.2.2 Vai trị phân tích cú pháp xử lý ngơn ngữ tự nhiên .3 1.3 Phân tích cú pháp dành cho tiếng Việt 1.3.1 Nhập nhằng – vấn đề xử lý ngôn ngữ tự nhiên: 1.3.2 Phân tích cú pháp tiếng Việt .5 1.4 Mục tiêu Chương Phương pháp phân tích cú pháp 2.1 Văn phạm phi ngữ cảnh 2.2 Các phương pháp cổ điển 2.2.1 Phân tích top – down 2.2.2 Phân tích bottom – up: .10 2.2.3 So sánh top – down bottom – up 13 2.2.4 Thuật toán CYK (Cocke – Younger – Kasami) 13 2.2.5 Thuật toán Earley 15 2.3 Văn phạm phi ngữ cảnh xác suất (PCFGs) 19 2.3.1 Định nghĩa .19 2.3.2 Nhược điểm văn phạm phi ngữ cảnh xác suất 20 2.4 Văn phạm phi ngữ cảnh xác suất từ vựng (LPCFGs) 22 2.4.1 Cấu trúc head 22 2.4.2 Mơ hình một: Mơ hình sở 23 2.4.3 Mơ hình 2: Phân biệt định ngữ bổ ngữ, subcategorization 25 2.4.4 Mơ hình 3: Trace Wh-movement .27 Chương Tiếp cận xây dựng phân tích cú pháp Tiếng Việt 28 3.1 Penn Treebank 28 3.1.1 Gán nhãn từ loại .28 3.1.2 Bracketing .30 3.2 Viet Treebank .32 3.2.1 Mục tiêu 32 3.2.2 Danh sách từ loại nhãn cú pháp .32 3.2.3 Một số đặc điểm Viet Treebank 34 Chương Bộ phân tích cú pháp Bikel 35 4.1 Một số nhiệm vụ 35 4.1.1 Tiền xử lý 35 4.1.2 Huấn luyện 40 4.1.3 Các loại tham số đánh giá 42 4.1.4 Decode 48 4.2 Tổng quan phân tích cú pháp .49 4.2.1 Mở đầu 49 4.2.2 Vấn đề 50 4.2.3 Tổng quan hệ thống 50 4.2.4 Khả 54 4.3 Kết luận 55 Chương Áp dụng phân tích cú pháp Bikel liệu Viet Treebank 56 5.1 Gói ngơn ngữ tiếng Việt 56 5.2 Quá trình thực hiện: 57 5.2.1 Xử lý liệu 57 5.2.2 Cấu hình để thực hiện: .58 5.2.3 Huấn luyện 61 5.2.4 Phân tích cú pháp 62 5.2.5 Đánh giá kết quả: .62 5.3 Kết đạt được: 63 KẾT LUẬN .67 TÀI LIỆU THAM KHẢO 68 DANH SÁCH CÁC BẢNG Bảng 1: Bảng phân tích thuật tốn CYK 15 Bảng 2: Bảng nhãn từ loại Penn Treebank 29 Bảng 3: Bảng nhãn cú pháp Penn Treebank 31 Bảng 4: Nhãn từ loại Viet Treebank 32 Bảng 5: Bảng nhãn cụm từ Penn Treebank .33 Bảng 6: Bảng nhãn mệnh đề Viet Treebank 34 Bảng 7: Các mức back-off với .47 Bảng 8: Tham số Bikel đề xuất 47 Bảng 9: Cấu trúc back-off tham số 48 Bảng 10: Sô lượng câu để huấn luyện 58 Bảng 11: Bảng so sánh kết xâu dài không 40 từ .63 Bảng 12: Bảng so sánh kết xâu dài không 100 từ 64 DANH SÁCH CÁC HÌNH VẼ Hình 1: Mơ hình xử lý ngơn ngữ tự nhiên Hình 2: Cây cú pháp câu "tơi nhìn gái với ống nhịm" .5 Hình 3: Dẫn xuất phân tích top - down 10 Hình 4: Dẫn xuất phân tích bottom - up 13 Hình 5: Mã giả thuật toán Earley .17 Hình 6: Miêu tả dẫn xuất xâu từ Ni .1 Hình 7: Cây cú pháp câu "bị ăn cỏ " 20 Hình 8: Cây dẫn xuất thứ xâu "Trung hiểu Nam Thắng" .21 Hình 9: Cây dẫn xuất thứ hai xâu "Trung hiểu Nam hơnThắng" 21 Hình 10: Cây cú pháp xâu "bị ăn cỏ" có thêm thơng tin từ vựng .23 Hình 11: Miêu tả độ đo khoảng cách câu 25 Hình 12: Cây cú pháp với hậu tố - C đánh dấu complement "IBM" "Lotus" chủ ngữ bổ ngữ, "Last week" định ngữ 25 Hình 13: Hai ví dụ thành phần bổ trợ sinh cách độc lập gây sai số 26 Hình 14: Dữ liệu gán nhãn trước xử lý thủ cơng .30 Hình 15: Dữ liệu gán nhãn sau xử lý thủ cơng 30 Hình 16: Dữ liệu hoàn chỉnh 32 Hình 17: Liên kết từ Penn Treebank .36 Hình 18: Liên kết từ Viet Treebank 36 Hình 19: Nút NBP cần thêm nút NP 37 Hình 20: Nhãn NBP chỉnh sửa 38 Hình 21: Nâng cấc dấu câu lên, bên phải xuất dấu phẩy nằm cạnh 39 Hình 22: Nút có nhãn HEAD khơng ngoại lệ thay đổi nhãn chức 40 Hình 23: Một ví dụ hàm vi (“verb intervening”) nhận giá trị true, nhãn NP có động từ 41 Hình 24: Các thành phần luồng làm việc 51 MỞ ĐẦU Phân tích cú pháp tốn trung tâm XLNNTN Phân tích cú pháp sử dụng nhiều ứng dụng XLNNTN Độ xác phân tích cú pháp có ảnh hưởng lớn tới kết ứng dụng xử lý ngôn ngữ khác Các nghiên cứu xây dựng phân tích cú pháp tự động phát triển từ sớm có nhiều phân tích cú pháp với chất lượng tốt cho ngôn ngữ tiếng Anh, tiếng Trung [9] Ngày nay, nhiều ứng dụng XLNNTN nghiên cứu phát triển cho tiếng Việt nhu cầu phân tích cú pháp tiếng Việt với độ xác cao cấp thiết Tuy nhiên, nghiên cứu phân tích cú pháp tiếng Việt hạn chế tập trung chủ yếu vào tiếp cận cũ (Knowledge-based), với kết cịn hạn chế chưa có phân tích cơng bố rộng rãi Vì vậy, khóa luận hướng tới việc xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Chúng theo tiếp cận sử dụng văn phạm phi ngữ cảnh xác suất từ vựng (Lexicalized Probabilistic Context Free Grammar) Luận văn nghiên cứu cách tiếp cận phân tích cú pháp, sâu tìm hiểu văn phạm phi ngữ cảnh xác suất từ vựng theo mơ hình Collins [11] Từ đó, dựa vào hiểu biết ngữ liệu Viet Treebank để huấn luyện đánh giá độ xác mơ hình dựa việc tích hợp tiếng Việt vào phân tích cú pháp Bikel [9] Kiến trúc cúa hệ phân tích cú pháp Bikel nghiên phân tích để sửa đổi đối tượng tương thích cho tiếng Việt khảo sát ảnh hưởng tham số khác phân tích cú pháp tiếng Việt ... cho tiếng Việt có độ xác cao cơng việc có ý nghĩa Mục tiêu đề luận văn xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê Đây hướng tiếp cận mẻ cách xây dựng phân tích cú pháp tiếng Việt. .. việc xây dựng phân tích cú pháp tiếng Việt theo tiếp cận thống kê với nghiên cứu cụ thể sau: - Nghiên cứu tiếp cận phương pháp phân tích cú pháp, tập trung vào tiếp cận sử dụng thông kê thông tin... theo cách khác Nam hiểu Trung nhiều Thành hiểu Trung 1.3.2 Phân tích cú pháp tiếng Việt Mặc dù phân tích cú pháp có vai trị trung tâm ứng dụng XLNNTN, nghiên cứu phân tích cú pháp cho tiếng Việt

Ngày đăng: 17/02/2014, 23:09

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Cường, Lê Anh. Xây dựng bộ phân tích cú pháp Tiếng Anh trong hệ dịch tự động Anh Việt. Hà nội : Luận Văn Thạc sỹ khoa học, 2001. 1 Sách, tạp chí
Tiêu đề: Xây dựng bộ phân tích cú pháp Tiếng Anh trong hệ dịch tự động Anh Việt
[2]. Dũng, Vũ Tiến. Tiếng Việt và ngôn ngữ học hiện đại: sơ khảo về cú pháp. Germany : VIET Stuttgart, 2004. 2 Sách, tạp chí
Tiêu đề: Tiếng Việt và ngôn ngữ học hiện đại: sơ khảo về cú pháp
[3]. Thái, Nguyễn Phương, và những tác giả khác. Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn. không biết chủ biên : Nhóm xây dựng Viet Treebank, 2009.3 Sách, tạp chí
Tiêu đề: Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn
[4]. Thái, Nguyễn Phương, Lương, Vũ Xuân và Huyền, Nguyễn Thị Minh. Xây dựng treebank Tiếng Việt. Hà nội : ICT-08, 2008. 4 Sách, tạp chí
Tiêu đề: Xây dựng treebank Tiếng Việt
[5]. Thái, Tạ Yên. Một số tìm hiểu về quá trình phân tích cú pháp trong Ngôn ngữ tự nhiên. không biết chủ biên : Khóa luận tốt nghiệp, 2000. 5 Sách, tạp chí
Tiêu đề: Một số tìm hiểu về quá trình phân tích cú pháp trong Ngôn ngữ tự nhiên
[6]. Thế, Nguyễn Quốc và Hương, Lê Thanh. Vietnamese syntactic parsing using the Lexicalized Probabilistic Context-free Grammar. Nha Trang, Viet Nam : FAIR conference, 2007. 6.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Vietnamese syntactic parsing using the Lexicalized Probabilistic Context-free Grammar
[7]. Bikel, Daniel M. A statiscal model for parsing and wword-sense disambiguation. 2000 Sách, tạp chí
Tiêu đề: A statiscal model for parsing and wword-sense disambiguation
Tác giả: Daniel M. Bikel
Năm: 2000
[8]. Bikel, Daniel M. Design of a multi-lingual, parallel-processing statistical parsing engine. 2002 Sách, tạp chí
Tiêu đề: Design of a multi-lingual, parallel-processing statistical parsing engine
[9]. Bikel, Daniel M. On the parameter space of Generative Lexical Statistical Parsing Model. 2004 Sách, tạp chí
Tiêu đề: On the parameter space of Generative Lexical Statistical Parsing Model
[10]. Charniak, Eugene. Statistical Techniques for Nature Language Parsing. 1997 Sách, tạp chí
Tiêu đề: Statistical Techniques for Nature Language Parsing
[11]. Collins, Michael. Head-Driven Statical Models for Natural Language Parsing. 1999 Sách, tạp chí
Tiêu đề: Head-Driven Statical Models for Natural Language Parsing
[12]. Collins, Michael. Three generative, lexicalised models for statistical parsing. 1996 Sách, tạp chí
Tiêu đề: Three generative, lexicalised models for statistical parsing
[13]. Jurafsky, Daniel and Martin, James H. Speech and Language Processing: An Introduction to Natural Language Processing, Computation Linguistics and Speech Recognition. s.l. : Alan Apt, 1999 Sách, tạp chí
Tiêu đề: Speech and Language Processing: An Introduction to Natural Language Processing, Computation Linguistics and Speech Recognition
[14]. Manning, Chistopher D. and Schutze, Hinrich. Foundations of Statistical Natural Language Processing. s.l. : MIT Press, 1999 Sách, tạp chí
Tiêu đề: Foundations of Statistical Natural Language Processing
Tác giả: Chistopher D. Manning, Hinrich Schutze
Nhà XB: MIT Press
Năm: 1999
[15]. Marcus, Mitchell P., Marcinkiewicz, Mary Ann and Santorini, Beatrice. Building a Large Annotated of English: The Penn Treebank. s.l. : Computation Linguistics, 1993 Sách, tạp chí
Tiêu đề: Building a Large Annotated of English: The Penn Treebank

HÌNH ẢNH LIÊN QUAN

Hình 2: Cây cú pháp của câu "tôi nhìn cô gái với chiếc ống nhòm" - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 2 Cây cú pháp của câu "tôi nhìn cô gái với chiếc ống nhòm" (Trang 14)
Hình 5: Mã giả của thuật toán Earley - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 5 Mã giả của thuật toán Earley (Trang 26)
Hình 8: Cây dẫn xuất thứ nhất của xâu "Trung hiểu Nam hơn Thắng" - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 8 Cây dẫn xuất thứ nhất của xâu "Trung hiểu Nam hơn Thắng" (Trang 30)
Hình 9: Cây dẫn xuất thứ hai của xâu "Trung hiểu Nam hơnThắng" - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 9 Cây dẫn xuất thứ hai của xâu "Trung hiểu Nam hơnThắng" (Trang 30)
Hình 10: Cây cú pháp của xâu "bò ăn cỏ" có thêm thông tin từ vựng - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 10 Cây cú pháp của xâu "bò ăn cỏ" có thêm thông tin từ vựng (Trang 32)
Hình 12: Cây cú pháp với hậu tố - C đánh dấu complement. "IBM" và "Lotus" là chủ ngữ - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 12 Cây cú pháp với hậu tố - C đánh dấu complement. "IBM" và "Lotus" là chủ ngữ (Trang 34)
Bảng 4: Nhãn từ loại trong Viet Treebank - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Bảng 4 Nhãn từ loại trong Viet Treebank (Trang 41)
Bảng 5: Bảng nhãn cụm từ trong Penn Treebank - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Bảng 5 Bảng nhãn cụm từ trong Penn Treebank (Trang 42)
Hình 20: Nhãn NBP được chỉnh sửa - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 20 Nhãn NBP được chỉnh sửa (Trang 47)
Hình 21: Nâng cấc dấu câu lên, trong cây bên phải xuất hiện các dấu phẩy nằm cạnh nhau - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 21 Nâng cấc dấu câu lên, trong cây bên phải xuất hiện các dấu phẩy nằm cạnh nhau (Trang 48)
Hình 22: Nút có nhãn HEAD cũng không là ngoại lệ khi thay đổi nhãn chức năng - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Hình 22 Nút có nhãn HEAD cũng không là ngoại lệ khi thay đổi nhãn chức năng (Trang 49)
Hình  24: Các thành phần và luồng làm việc - phân tích cú pháp tiếng việt theo tiếp cận thống kê
nh 24: Các thành phần và luồng làm việc (Trang 60)
Bảng 10: Sô lượng câu để huấn luyện - phân tích cú pháp tiếng việt theo tiếp cận thống kê
Bảng 10 Sô lượng câu để huấn luyện (Trang 67)
Bảng  12: Bảng so sánh kết quả đối với xâu dài không quá 100 từ - phân tích cú pháp tiếng việt theo tiếp cận thống kê
ng 12: Bảng so sánh kết quả đối với xâu dài không quá 100 từ (Trang 73)
Bảng  15: Kết quả so sánh của tập dữ liệu không gán nhãn cú pháp, độ dài từ không quá - phân tích cú pháp tiếng việt theo tiếp cận thống kê
ng 15: Kết quả so sánh của tập dữ liệu không gán nhãn cú pháp, độ dài từ không quá (Trang 75)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w