1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại

71 477 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 636 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích nội dung của ĐATN Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồngtham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho cáctrường

Trang 1

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1 Thông tin về sinh viên

Họ và tên sinh viên: Đỗ Thái Hà

Điện thoại liên lạc: 0917290 254 Email: hangoit2002@yahoo.com

Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệthông tin và truyền thông – Trường Đại học Bách Khoa Hà Nội

Thời gian làm ĐATN: Từ ngày / /2010 đến / /2010

2 Mục đích nội dung của ĐATN

Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồngtham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho cáctrường hợp hội thoại thông dụng nhất

3 Các nhiệm vụ cụ thể của ĐATN

 Phân loại hiện tượng đồng tham chiếu và tỉnh lược

 Phân tích đưa ra thuật toán xử lý các trường hợp nhỏ của hiện tượng phân giải đồngtham chiếu và tỉnh lược

 Kết hợp các thuật toán xử lý để xử lý được tất cả các trường hợp của phân giảiđồng tham chiếu và tỉnh lược

 Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy

 Tổng kết, đánh giá hiệu quả đồ án

4 Lời cam đoan của sinh viên:

Tôi – Đỗ Thái Hà - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự

hướng dẫn của Tiến sĩ Lê Thanh Hương

Trang 2

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳcông trình nào khác.

Hà Nội, ngày tháng năm

Tác giả ĐATN

Họ và tên sinh viên

5 Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảovệ:

Hà Nội, ngày tháng năm

Giáo viên hướng dẫn

Trang 3

TÓM TẮT NỘI DUNG ĐỒ ÁN TÔT NGHIỆP

Ngôn ngữ tự nhiên luôn rất đa dạng và phong phú bất kể ngôn ngữ bạn sử dụng làngôn ngữ nào Vì thế việc ánh xạ từ ngôn ngữ tự nhiên vào trong các hệ thống máy tính làmột vấn đề vô cùng phức tạp thu hút sự quan tâm nghiên cứu của nhiều chuyên gia Một hệthống hội thoại tự động lý tưởng hiện tại vẫn chỉ là mơ ước của các chuyên gia máytính.Bài toán xây dựng một hệ thống như thế còn rất nhiều thách thức chưa có lời giải toànvẹn Để làm cho máy tính “người” hơn, vấn đề về phân giải đồng tham chiếu và hiện tượngtỉnh lược trong hội thoại là vấn đề không thể không quan tâm nghiên cứu

Đồ án gồm 3 phần lớn

Phần I : Tổng quan

Nội dung của phần này là nêu nên cái nhìn tổng quan về đề tài.Các ý lớn trong phần này :

 Nêu lên mô hình tổng quát : Đề tài nghiên cứu về một hệ thống nằm trong hệ thốnghội thoại người – máy bằng tiếng Việt

 Tóm tắt tình hình nghiên cứu trên thế giới và tình hình nghiên cứu vấ đề tại ViệtNam Phân tích các khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa,nhập nhằng đại từ quan hệ

 Mục tiêu và hướng tiếp cận của đồ án : không hướng vào chiều sâu mà hướng vàochiều rộng – xây dựng chương trình giải quyết tổng hợp các trường hợp hay gặpcủa cả đồng tham chiếu và tỉnh lược trong hội thoại

Phần 2 : Nội dung chính

Phần này trình bày các hướng tiếp cận cụ thể cho từng khía cạnh của vấn đề, tổng hợp cácthuật toán Các ý lớn trong phần này bao gồm:

 Phân tích cơ bản ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động

từ, đại từ, cấu trúc câu trần thuật và câu nghi vấn

 Phân loại hiện tượng đồng tham chiếu và tỉnh lược, đưa ra cách tiếp cận cho từngloại

 Đưa ra kiến trúc từ điển kép theo cây Sematic

Phần 3 : Cài đặt hệ thống

Phần này đi sâu vào việc xây dựng và cài đặt chương trình.Các ý lớn gồm có :

 Các thiết kế mô hình tổng quát của hệ thống

 Kết quả kiểm thứ và đánh giá

 Hướng phát triển tương lai

Trang 4

Em xin gửi lời cảm ơn sâu sắc nhất tới cô giáo TS Lê Thanh Hương, người

đã định hướng, giúp đỡ em có được những tri thức, hiểu biết để hoàn thành đồ ánnày

Con xin cảm ơn bố mẹ, những người thân đã luôn ở bên con, động viên vàtạo mọi điều kiện cho con trong quá trình làm đồ án

Xin cảm ơn bạn bè đã luôn động viên, giúp đỡ tôi mỗi khi tôi cần

Trang 5

Mục lục

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1

Danh mục các từ viết tắt và thuật ngữ Tiếng Anh 8

Danh mục các bảng 9

PHẦN I TỔNG QUAN 11

CHƯƠNG 1 TỔNG QUAN 11

1.1 Đặt vấn đề 11

1.2 Mô hình tổng quát 11

1.3 Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại 12

1.3.1 Các cách tiếp cận trên thế giới 12

1.3.2 Những vấn đề còn tồn tại 12

1.3.3 Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt 13

1.4 Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong hội thoại tiếng Việt 13

1.4.1 Ngữ pháp phức tạp 13

1.4.2.Nhập nhằng trong việc tách từ và phân loại từ 14

1.4.3 Sự nhập nhằng , đa nghĩa của đại từ 14

1.5 Mục tiêu, giới hạn và hướng tiếp cận của đồ án 15

PHẦN II GIẢI QUYẾT VẤN ĐỀ 16

CHƯƠNG 2 PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC 16

2.1 Hiện tượng đồng tham chiếu – Anaphora 16

2.1.1.Định nghĩa 16

2.1.2 Phân loại 17

2.2 Hiện tượng tỉnh lược - Elliptics 19

2.2.1 Định nghĩa 19

2.2.2.Phân loại 19

CHƯƠNG 3 SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT 20

3.1 Danh từ và cụm danh từ 20

3.2 Động từ và cụm động từ 22

3.3 Các loại từ khác 25

3.4 Các dạng câu 28

a Câu trần thuật 28

Trang 6

c Câu cầu khiến 32

d Câu cảm thán 32

CHƯƠNG 4 XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT 33

4.1 Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận 33

4.1.1 Np- anaphora 33

4.1.2 “One” anaphora 37

4.1.3 VP- anaphora 37

4.1.4 S- anaphora 38

4.2 Hiện tượng tỉnh lược câu và hướng tiếp cận 38

4.2.1 Tỉnh lược ngữ pháp - Contextual ellipsis 38

4.2.2 Hướng tiếp cận 40

4.3 Tổng hợp 41

4.3.1.Hướng giải quyết mối quan hệ chủ ngữ - động từ - bổ ngữ 41

4.3.2 Hướng xây dựng cơ sở dữ liệu từ điển mới 42

4.3.2.1 Nguyên nhân 42

4.3.2.2 Cấu trúc từ điển mới 42

4.3.3.Tổng hợp các phương pháp 48

PHẦN 3 XÂY DỰNG HỆ THỐNG 50

CHƯƠNG 5 THIẾT KẾ HỆ THỐNG 50

5.1 Giới hạn bài toán 50

5.2 Vị trí của hệ thống trong hệ thống hội thoại tổng hợp 50

5.3 Thiết kế các usecase chính 51

5.3.1 Biểu đồ tuần tự 51

5.3.2.Biểu đồ trạng thái máy 52

5.4 Thiết kế các gói chương trình 52

5.4.1 Gói truy nhập cơ sở dữ liệu – XMLdataConnection 53

5.4.2 Gói Tiền xử lý – PrepareStructure 54

5.4.3 Gói phát hiện hiện tượng ngôn ngữ - Discover 56

5.4.4 Gói xử lý các hiện tượng ngôn ngữ 58

5.5 Thiết kế lớp 61

CHƯƠNG 6 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 63

6.1 Kiểm thử 63

6.1.1 Giao diện của chương trình 63

6.1.2 Thử nghiệm và kết quả 64

6.2.Đánh giá kết quả 66

Trang 7

CHƯƠNG 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68

7.1 Nhận xét ưu và khuyết điểm 68

7.1.1 Ưu điểm 68

7.1.2.Khuyết điểm và tồn tại 68

7.2.Hướng phát triển cho tương lai 69

Tài liệu tham khảo 71

Trang 8

Danh mục các từ viết tắt và thuật ngữ Tiếng Anh

1 antecedent Tiền ngữ - từ/câu bị thay thế

3 S - Anaphora Phân giải đồng tham chiếu câu

4 VP - Anaphora Phân giải đồng tham chiếu động từ

5 One - anaphora Phân giải đồng tham chiếu số từ

6 NP – anaphora Phân giải đồng tham chiếu danh từ

7 Pronominal Phân giải đồng tham chiếu đại từ

8 Definite NP Phân giải đồng tham chiếu đại từ xác định

10 Contextual ellipsis Tỉnh lược ngữ pháp

11 Pragmatic ellipsis Tỉnh lược ngữ cảnh

12 Prefer- Constraint Ràng buộc thêm (không bắt buộc)

Trang 9

Danh mục các bảng

a Lớp NounConnection 50

b Gói VerbConnection 50

a Lớp WordStruct 51

b Lớp SentenceStruct 51

c Lớp PrepareStructure 52

a EcllipsisDiscover:IDisCoverInterface 53

b Lớp NPAnaphoraDisCover 53

c VPAnaphoraDisCover 54

d OneAnaphoraDisCover 54

e SAnaphoraDiscover 55

a.Lớp NPAnaphoraResolve 55

b Lớp VPAnaphoraResolve 56

c.Lớp SPAnaphoraResolve 56

d.Lớp OneAnaphoraResolve 56

e.Lớp EcllipsisResolve 57

f Lớp MergeClass – Đây là lớp tổng hợp các thuật toán để xử lý chung 57

Trang 10

Danh mục các hình vẽ

Hình 1 - Mô phỏng thuật toán Hobbs 33

Hình 2 - Mô phỏng quan hệ từ vựng 39

Hình 4 - Biểu đồ trạng thái máy tổng quát 51

Hình 5 - Minh họa sơ đồ hoạt động giai đoạn nhận diện câu 51

Hình 6- Hình biểu đồ lớp gói nhận diện câu 60

Trang 11

Một trong những hướng nghiên cứu quan trọng trong lĩnh vực xử lý ngôn ngữ

tự nhiên là hướng xây dựng một hệ thống hội thoại tự động giữa người và máy Tuyvẫn chưa thể làm cho máy tính có thể “giống người” nhưng trong những năm qua, lĩnh vực này đã đạt được những thành công bước đầu không chỉ với Tiếng Anh mà còn với cả một số ngôn ngữ khác nữa

Để máy tính có thể hiểu ngôn ngữ tự nhiên, một phần không thể thiếu được làviệc xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội thoại Với tiếng Việt, hiện tượng này cũng đã bắt đầu được quan tâm chú ý trong những năm gần đây, hiện tượng đồng tham chiếu, tỉnh lược đã được nghiên cứu một cách riêng rẽ, mặc

dù vậy một nghiên cứu tổng hợp cả hai phương diện trên vẫn là một thiếu sót cần được bổ sung

 Bước 3 : Quá trình thay thế Đây là quá trình thay thế câu đầu vào thành câu

đã được xử lý thay thế một từ hoặc một bộ phân câu để trở thành câu hoànchỉnh, rõ nghĩa

Trang 12

1.3 Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại.

1.3.1 Các cách tiếp cận trên thế giới.

Phân giải đồng tham chiếu và hiện tượng tỉnh lược không phải là vấn đề mới

mẻ trong lĩnh vực xử lý ngôn ngữ tự nhiên Chúng đã được quan tâm nghiên cứu từrất sớm mà thuật toán kinh điển đầu tiên đưa vào cài đặt hiệu quả là thuật toánHobbs do nhà khoa học Jerry R Hobbs công bố vào năm 1976 Kể từ đó đến nay,nhiều cách tiếp cận mới – có thể mới chỉ là một ý tưởng mới hoặc đã được cài đặtthử nghiệm - đã được nghiên cứu và công bố không chỉ với ngôn ngữ nghiên cứu làtiếng Anh mà còn với nhiều ngôn ngữ khác như tiếng Đức, tiếng Pháp, tiếng Nhật… Trong số những cách giải quyết vấn đề đó, có thể nhắc đến các phương phápnhư Centering, Entity-Base, Contrants … Độ chính xác của các thuật toán này biếnđộng tùy vào từng lĩnh vực dữ liệu, nhìn chung có thể đạt kết quả chính xác khoảng

70 % đến 80%

Mặc dù vậy, cho đến nay việc tìm kiếm một giải pháp hoàn chỉnh cho phângiải đồng tham chiếu và hiện tượng tỉnh lược vẫn là một bài toán chưa có lời giải.Các cách tiếp cận tuy nhiều nhưng nhìn chung đều chỉ nhằm vào một phân vùng rấtnhỏ của hiện tượng đồng tham chiếu hoặc tỉnh lược – thường chỉ tập trung vào mộttrường hợp nhỏ như là đồng tham chiếu đại từ, đồng tham chiếu động từ hoặc cáctrường hợp tỉnh lược cơ bản ,các kết quả thử nghiệm hầu hết là trên các bộ dữ liệu

từ hướng lĩnh vực (ví dụ như thuật toán Entity-Base đạt độ chính xác 85 % với bộ

dữ liệu về thiên tai , hơn 80 % đối với bộ dữ liệu về tai nạn )- mà không đưa racách xử lý cho bài toán tổng quát

Hiện nay, các hướng nghiên cứu mới trên thế giới chủ yếu hướng về tập trungvào một phân vùng nhỏ của phân giải đồng tham chiếu hoặc hiện tượng tỉnh lược –thường là đồng tham chiếu đại từ - trên môi trường đa giao diện- môi trường baogồm cả tiếng nói, hình ảnh

Trang 13

thiếu hụt một cách đáng ngạc nhiên Các thuật toán cài đặt thành công chủ yếu làcác thuật toán nghiên cứu cho phân giải đồng tham chiếu đại từ, các thuật toán chocác trường hợp khác rất ít và độ chính xác cũng không cao Điều này cũng dễ hiểu

vì ngôn ngữ tự nhiên có cấu trúc vô cùng phức tạp và đa dạng và hiện tượng đồngtham chiếu đại từ cũng là hiện tượng hay gặp nhất trong thực tế

Vì thế, hướng nghiên cứu của đồ án này sẽ không nhằm vào việc xử lý trênmôi trường đa giao diện như xu hướng hiện nay mà nhằm vào việc xây dựng mộtchương trình có thể xử lý được tổng hợp cả phân giải đồng tham chiếu và tỉnh lượchay gặp cho những đoạn hội thoại hàng ngày

1.3.3 Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt.

Lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt cũng là lĩnh vực được quantâm nghiên cứu của các nhà khoa học Việt Nam, trong đó, được quan tâm nhiềunhất là bài toán phân tích cú pháp Các giải pháp cho phân giải đồng tham chiếuđược công bố rộng rãi còn rất ít Vì vậy, cũng như các ngôn ngữ khác, giải pháp chobài toán tổng thể cho cả hiện tượng đồng tham chiếu và tỉnh lược lại càng thiếu hụtnghiêm trọng, gần như không có

Dĩ nhiên, việc xử lý tổng quát một trường hợp nhỏ của hiện tượng đồng thamchiếu và tỉnh lược đã khó, tích hợp giải quyết tất cả các trường hợp đó còn khó hơn.Tuy nhiên, trong thực tế, một hệ thống hội thoại tự động giới hạn người dùng chỉđược sử dụng một phân dạng nhỏ - như là chỉ được sử dụng đồng tham chiếu đại từ

- là hệ thống không thật sự thuyết phục Ngược lại, việc giới hạn lĩnh vực của hệthống là chấp nhận được, ví dụ như khách tham quan đến viện bảo tàng thì chỉ quantâm đến tất cả các thông tin liên quan đến viện bảo tàng Vì thế, đồ án này cũng đặt

ra giới hạn là chương trình hướng lĩnh vực

Đồ án sẽ nghiên cứu trên đối tượng ngôn ngữ là tiếng Việt, có sử dụng lạichương trình tách từ của thầy Lê Hồng Phương

1.4 Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong hội thoại tiếng Việt.

1.4.1 Ngữ pháp phức tạp.

Mặc dù có nhiều điểm căn bản giống với ngữ pháp tiếng Anh – ngôn ngữ tựnhiên được nghiên cứu kỹ càng, tỉ mỉ nhất – nhưng do nhiều yếu tố khác nhau như

Trang 14

lịch sử phát triển lâu dài cùng với sự tiếp thu của nhiều nền văn hóa, ngữ pháp tiếngViệt có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vô cùng phong phú Việcxây dựng một lí thuyết ngữ pháp hoàn chỉnh là điều chưa làm được Sự phức tạpcủa ngữ pháp tiếng Việt làm cho việc phân tích cấu trúc câu, phân loại và nhận diệncâu trở nên vô cùng khó khăn…

Bên cạnh đó ngữ pháp tiếng Việt còn có hiện tượng đồng âm, đồng nghĩa,chuyển nghĩa của từ rất phức tạp Ví dụ: từ “phát triển” trong 2 cụm từ “phát triểnđất nước” và “đất nước phát triển” là 2 loại từ khác nhau “Phát triển” trong cụm từthứ nhất là động từ tác động vào danh từ “đất nước” trong khi “phát triển” trongcụm từ thứ hai lại là tính từ bổ nghĩa cho danh từ đất nước

1.4.2.Nhập nhằng trong việc tách từ và phân loại từ.

Đặc điểm Tiếng Việt là ngôn ngữ đơn âm tiết, điều này gây nên khó khănngay từ giai đoạn tách và phân loại từ vựng Ví dụ như câu:

 “Cụ /già đi/ nhanh/ quá”

 “Cụ già/đi/nhanh /quá”

Mặc dù nội dung trung tâm của đề tài không nhằm vào vấn đề này nhưng giaiđoạn tách từ chính là giai đoạn tiền xử lý của hệ thống, vì thế sự đúng đắn của nó cóảnh hưởng rất lớn đến sự đúng đắn của cả thuật toán

1.4.3 Sự nhập nhằng , đa nghĩa của đại từ.

Một trong những vấn đề phức tạp nhất của tiếng Việt là trong Tiếng Việt córất nhiều đại từ xưng hô Cặp xưng hô giữa 2 ngôi thứ nhất và thứ hai phổ biến như: tớ -ấy, tớ - cậu, tao mày…

Vấn đề rắc rối nằm ở chỗ, tuỳ vào mối quan hệ giữa người nói với nhau, hoặcgiữa người nói với người thứ ba mà các đại từ xưng hô này khác nhau Ví dụ:

 Mẹ và con nói chuyện với nhau :

“Mẹ bao giờ đi làm ?”

“Lát nữa”

 Hai chị em nới chuyện với nhau :

“Mẹ đã đi làm chưa nhỉ?”

Trang 15

“Hình như đi rồi”

“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau Để xử lývấn đề này yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó thực hiện khi xâydựng các thuật toán Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các

hệ thống cụ thể hướng lĩnh vực Ở đây, bằng mặc định, đồ án nghiên cứu cho hệthống hội thoại, do đó ưu tiên xét quan hệ xưng hô ngôi thứ nhất và ngôi thứ haigiữa người và máy

1.5 Mục tiêu, giới hạn và hướng tiếp cận của đồ án

Mục tiêu của đồ án là đưa ra được phương pháp xử lý không phải chỉ riêngcho từng trường hợp đồng tham chiếu hay tỉnh lược riêng lẻ mà là đưa ra phươngpháp giải quyết tổng hợp chung, ít nhất là cho các trường hợp hội thoại thông dụngnhất

Do sự phức tạp của ngữ pháp tiếng Việt – ta sẽ đi sâu vào phần này hơn ởphần sau của bản báo cáo này – việc đưa ra thuật toán có thể giải quyết đúng đắncho tất cả các trường hợp với tỉ lệ chính xác 100% là không thể, hơn nữa mục tiêucủa đồ án tập trung vào phần hội thoại Không có một thuật toán đơn lẻ nào có thể

xử lý đúng đắn toàn bộ các hiện tượng ngữ pháp Vì thế để nâng cao tỉ lệ chính xáccho thuật toán, đồ án sẽ sử dụng phương pháp tiếp cận là chia để trị với hai ý tưởngcủa thuật toán Centering và Gapping, tập trung vào các câu thông thường trong hộithoại

Trang 16

PHẦN II GIẢI QUYẾT VẤN ĐỀ

CHƯƠNG 2 PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC

2.1 Hiện tượng đồng tham chiếu – Anaphora.

2.1.1.Định nghĩa.

Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ để thay thế chomột từ, một cụm từ, một phần câu đã được nhắc đến trước đó

Xét một ví dụ đơn giản của anaphora:

 Họa sĩ Tô Ngọc Vân sống ở đâu?

 Ông ấy hiện tại đang ở thành phố Hồ Chí Minh

Trong ví dụ trên, “Ông ấy” chính là đại từ thay thế cho “họa sĩ Tô NgọcVân” Vấn đề đặt ra là làm sao để hệ thống nhận diện được “Ông ấy” chính là từthay thế cho “họa sĩ Tô ngọc Vân”

Ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu

mà ta gặp hàng ngày trong cuộc sống Xử lý đồng tham chiếu là một vấn đề cực kỳkhó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúcngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó đòihỏi cả hiểu biết “thực” trong đời sống Mặc dù vấn đề này được nhận diện từ khásớm nhưng một giải pháp xử lý đồng tham chiếu hoàn chỉnh vẫn chưa có lời giảicuối cùng Các giải pháp được nghiên cứu trong những năm 70, 80 của thế kỷ trước(điển hình là Hobbs 1976) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyếtđược những trường hợp không có sự mập mờ về ngữ nghĩa

Xét trường hợp sau :

 John lấy cái bánh ở trên bàn và ăn nó

 John lấy cái bánh ở trên bàn và rửa nó

Có thể thấy ngay rằng mặc dù có cùng một cấu trúc ngữ pháp nhưng nếu “nó”trong câu thứ nhất chỉ đến “cái bánh” thì “nó” trong câu thứ hai lại chỉ đến “bàn”, ta

Trang 17

có thể dễ dàng đặt ra ràng buộc cho động từ “ăn” là sự vật đi đằng sau phải là “ănđược” nhưng ta không thể đặt ra luật là đằng sau “rửa” phải là vật không ăn đượcbởi như rau quả hoàn toàn vừa “ăn được” vừa “rửa được”.

Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phântích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp cận khác nhau tuỳtừng loại đồng tham chiếu

2.1.2 Phân loại.

Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:

 Từ được thay thế và từ thay thế nằm cùng trong một câu (intra-sententially)

 Từ được thay thế và từ thay thế nằm trong nhiều câu (inter- sententially )Các dạng đồng tham chiếu thường gặp trong Tiếng Việt có :

Trang 18

 John cho Mary mượn quyển sách - quyển sách cô ấy đã đánh mất (intra-)

 John cho Mary mượn quyển sách Cô ấy đánh mất nó trên đường về nhà(inter-)

Sự thay thế không nhất thiết phải là trực tiếp mà có thể xảy ra gián tiếp như:

 Tất cả các ngôi nhà trên phố cần sửa lại mái(ở đây “mái” có sự liên quanngầm với “tất cả các ngôi nhà”)

 Ross sử dụng thẻ tín dụng nhiều đến nỗi anh chàng tội nghiệp đó phải tuyên

bố phá sản

b VP-anaphora và S-anaphora

Đồng tham chiếu không phải luôn luôn chỉ thay thế cho cho một cụm danh từ

mà nhiều lúc nó lại có vai trò thay thế cho hẳn một cụm động từ hoặc thậm chí làthay thế cho cả một câu

VP- anaphora là trường hợp từ không thay thế cho một từ hoặc cụm danh từphía trước mà thay thế cho một cụm động từ đã nói đến ở phía trước Xét ví dụ sau:

 Tuần tới Lan thi học kỳ à ?

 Ừ, Trang cũng thế

Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “thi học kỳ”

Tương tự, S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu đãnêu ở phía trước S – anaphora được minh họa thông qua ví dụ sau:

 Mary đã mở được một phòng triển lãm tranh Đó là một điều ngạc nhiên

c “One” anaphora

Một dạng đồng tham chiếu nữa không thể không kể trong đến là đồng thamchiếu số từ “one”- anaphora Đây là dạng đồng tham chiếu mà ở đó, số từ được thaythế cho một danh từ (thường là một vật) đứng trước nó

Xét ví dụ một câu hội thoại sau:

 Cả hai bức tranh này là của cậu à?

 Không, chỉ một bức thôi

Trang 19

2.2 Hiện tượng tỉnh lược - Elliptics

2.2.1 Định nghĩa

Hiện tượng tỉnh lược là hiện tượng lược bỏ một hay nhiều từ trong cấu trúcngữ pháp khi nghĩa của câu đó có thể hiểu được mà không cần đến những phần đãđược lược bỏ đó

Cũng như hiện tượng đồng tham chiếu, hiện tượng tỉnh lược cũng là hiệntượng phổ biến trong ngôn ngữ tự nhiên Về mặt ngôn ngữ, ta nhận diện một câutỉnh lược mà một phần nghĩa câu cần được tổ chức lại dựa vào ngữ cảnh của câunói Ngữ cảnh đó thường là một tiền ngữ (antecedent), một mệnh đề ở trong câu nóitrước tương ứng với phần đã bị lược bỏ trong câu tỉnh lược

 Pragmatic ellipsis : phần lược bỏ của câu được khôi phục nhờ người nghedựa trên tình huống ngoài lĩnh vực ngôn ngữ Ví dụ: Cả hai hành khách nhìnthấy một người đàn ông lạ mặt “Say” – Một người nói Câu đầy đủ phải là

“ông ta say rồi”

Vì hệ thống ta xây dựng là hệ thống hội thoại giữa người và máy nên chúng ta

sẽ chỉ tập trung vào contextual ellipsis

Việc phân loại giữa hiện tượng tỉnh lược và hiện tượng đồng tham chiếu chỉmang ý nghĩa tượng trưng, bởi thực tế các VP anaphora , S anaphora và “oneanaphora” có thể coi là một trường hợp của tỉnh lược câu

Trang 20

CHƯƠNG 3 SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT

3.1 Danh từ và cụm danh từ.

a Danh từ riêng

Kí hiệu là Np

Danh từ riêng là những danh từ chỉ tên riêng hay tên địa điểm

Danh từ riêng có cấu tạo như sau:

 Chỉ có một từ tên riêng: Thúy Anh, Việt

 Gồm từ chỉ họ và từ tên riêng: Bùi Thúy Anh, Nguyễn Việt

 Tên địa điểm:

 Tên địa danh theo khu vực hành chính, hoặc địa lý: Hà Nội, Huế

 Tên núi, tên sông, tên đất : (sông) Hồng, (trường) Đại Học Bách Khoa HàNội

b Danh từ

Kí hiệu là N

Danh từ là từ loại bao gồm những từ có ý nghĩa khái quát sự vật Đó lànhững thực từ chỉ vật thể-người, động vật, thực vật, đồ vật, những hiện tượng tựnhiên, hiện tượng xã hội và những khái niệm trừu tượng được con người nhậnthức và phản ánh như các vật thể tồn tại trong hiện thực

Ví dụ

 Danh từ chỉ vật thể: ông, bà, thầy giáo, công nhân, gà, cam, đèn, áo

 Danh từ chỉ hiện tượng tự nhiên: mưa, bão, sét, ngày, đêm

 Danh từ chỉ hiện tượng xã hội: làng, xã, đội, đoàn

 Danh từ chỉ khái niệm trừu tượng: chính trị, đường lối, đạo đức Phân loại:

Trang 21

 Danh từ đơn thể :gồm các danh từ chỉ sự vật rời rạc: quần, áo, bạn Nhữngdanh từ này phải kết hợp với danh từ danh từ đơn vị: chiếc quần, manh áo,ông bạn

 Danh từ tổng thể : gồm các danh từ có cấu tạo ghép 2 tiếng: quần áo, binhlính, bạn bè, máy móc Danh từ tổng thể không kết hợp với danh từ đơn vịđơn thể mà kết hợp với danh từ đơn vị hợp thể: bộ quần áo, nhóm binh lính,

 …

c Cụm danh từ

Cụm danh từ là cụm từ có danh từ làm thành tố trung tâm Cụm danh từ biểuthị sự vật nêu ở thành tố trung tâm với những đặc điểm cụ thể, riêng biệt Trongcâu, cụm danh từ có thể giữ các chức năng ngữ pháp của danh từ: làm chủ ngữ, làm

Trang 22

 Cụm danh từ phức tạp với phần phụ sau là cụm giới từ:

Ví dụ: bức ảnh của cơ quan

 Cụm danh từ phức tạp với phần phụ sau là mệnh đề phụ

Ví dụ: bức ảnh mà tôi mới mua hôm qua

Một cụm danh từ có thể thiếu phần phụ trước hay phần phụ sau nhưng khôngthể thiếu phần trung tâm

Ví dụ: đi, gặt, học, nói, lao động, suy nghĩ

Trang 23

 Động từ biến hóa (Vf): gồm các động từ chỉ sự biến hóa của thực thể/tínhchất Cần có phụ tố đi kèm chỉ kết quá biến hóa: người hóa (thành) ma,nên/thành người, trở thành tốt

 Động từ tiếp thụ (Va): gồm các động từ chỉ trạng thái tiếp thụ Cần có phụ tốt

đi kèm: bị/phải/được/chịu mắng/khen/làm

 Động từ tình thái (Vv): gồm các động từ chỉ trạng thái ý chí Cần có phụ tố

đi kèm: muốn/dám/quyết/toan nói/làm/nghỉ ngơi

 Động từ so sánh (Vc): gồm các động từ dùng để so sánh/đánh giá giữa các sựvật Cần có phụ tốt đi kèm: bằng/kém/hơn bạn/người

 Động từ tổng hợp (Vg): gồm các động từ còn lại ngoại trừ động từ “là”: muabán, đánh đập

Các động từ, tùy thuộc vào từng nhóm có những ràng buộc vào chủ ngữ, bổngữ… khác nhau mà khi xử lý các hiện tượng đồng tham chiếu và tỉnh lược đặc thùkhông thể không xem xét đến Chúng ta sẽ làm rõ vấn đề này ở phần sau của đồ án

b Động từ “là”

Đây là động từ có vai trò và đặc thù riêng biệt trong ngữ pháp tiếng Việt, cầnphân tích xử lý khác biệt so với các động từ khác, nó tương đương động từ “to be”trong tiếng Anh

c Cụm động từ

Cụm động từ là cụm từ có động từ làm thành tố trung tâm Cụm động từ biểuthị ý nghĩa, hành động, trạng thái, tính thái nêu ở động từ trung tâm Chức năng cúpháp của cụm động từ trong câu là chức năng cú pháp của động từ chính

Ví dụ: bay ngang qua bầu trời, đang ăn cơm

Cấu tạo cơ bản:

Phần phụ trước Động từ Phần phụ sau

Trang 24

Phần phụ trước:

Là các phó từ Ký hiệu là R Ví dụ: hãy nhìn vào, đừng nhảy, đang ăn cơm

đang ăn cơm(VP (R đang)

(V ăn) (N cơm))

Phần phụ sau:

Động từ trung tâm có thể kết hợp với các từ loại khác một cách đa dạng Mỗicách kết hợp có thể coi như một mẫu cú pháp của động từ: động từ đi với danh từ,động từ đi với cụm giới từ

Ví dụ:

 Phần phụ sau là cụm danh từ

ăn cơm(VP (V ăn)

(NP bạn) (NP món quà sinh nhật))

Trang 25

 Phần phụ sau là cụm động từ

cần viết thư(VP (V cần)

(VP viết thư))

 Phần phụ sau là cụm danh từ và cụm động từ

nhờ bạn chép bàn(VP (V nhờ)

(NP bạn) (VP chép bài))

 Phần phụ sau là mệnh đề phụ

nghĩ rằng cô ấy ốm(VP (V nói)

(SBAR rằng cô ấy ốm))

3.3 Các loại từ khác.

a Đại từ và sự nhập nhằng của đại từ trong tiếng Việt

Kí hiệu là P

Đại từ là những từ dùng để xưng hô, thay thế và chỉ trỏ Đại từ không phải là

từ loại dùng để biểu thị khái niệm sự vật, hiện tượng hay hành động, trạng thái, tínhchất mà là từ loại dùng thay thế và để chỉ trỏ những từ đã được nêu trong những từngữ đó hoặc đã được xác định trong hoàn cảnh nói, viết cụ thể

Ví dụ: tôi, tao, nó, đây, kia

Phân loại:

 Đại từ xưng hô (Pp): gồm các đại từ thay thế cho danh từ chỉ người trongxưng hô Đại từ xưng hô cũng phân biệt theo ngôi và theo số giống như cáctiếng khác nhưng không có sự biến hình từ giống như các ngôn ngữ Anh,

Trang 26

Pháp Ngoài ra nó còn có đặc điểm riêng đó là phụ thuộc vào sắc thái biểucảm trong quan hệ giữa người nói và người nghe.

 Đại từ chỉ định (Pd): gồm các đại từ dùng để thay thế và chỉ trỏ đối tượngkhông gian, thời gian: đây, đó, kia, ấy, nay, bấy giờ

 Đại từ số lượng (Pn): gồm các đại từ chỉ số lượng: bấy, bấy nhiêu, tất cả

 Đại từ nghi vấn (Pi): gồm các đại từ để hỏi về người/vật/không gian/thờigian/số lượng/hoạt động/tính chất: ai/gì/đâu/bao giờ/ bao nhiêu, mấy/sao/ thếnào

 Đại từ hoạt động, tính chất (Pl): gồm các đại từ chỉ hoạt động, tính chất: thế,vậy, sao

Cũng như danh từ và động từ, đại từ có vai trò rất quan trọng trong cấu trúcngữ pháp của những câu tỉnh lược và tham chiếu Trong các loại đại từ, quan trọngnhất đó là đại từ xưng hô ( đại từ nhân xưng), nhưng đây cũng lại là loại đại từ phứctạp và dễ nhập nhằng nhất trong tiếng Việt

Khác với các ngôn ngữ khác như tiếng Anh, tiếng Pháp…do đặc điểm ngôinhân xưng phức tạp của Tiếng Việt mà các đại từ cũng phong phú và phức tạp hơnnhiều

 Ngôi thứ nhất : tôi, tớ, mình, tao…

 Ngôi thứ hai : cậu, ấy, mày, chú mày…

 Ngôi thứ ba : cô ấy, anh ấy, cô ta, anh ta, họ…

 Và một loạt các đại từ chỉ quan hệ trong gia đình như cậu, mợ…

Nhưng vấn đề không chỉ dừng lại ở đó, vấn đề còn nằm ở sự đồng âm giữacác đại từ như cô( she) và cô(aunt), chú/ chú mày (uncle) và (you)…Đòi hỏi phảiđưa ra các luật rằng buộc đặc biệt tuỳ tình huống và ứng dụng để xử lý nếu cầnthiết

Đại từ “nó” trong Tiếng Việt có vai trò khá đặc biệt bởi nó có khả năng thaythế cho ngôi thứ ba của cả người và vật, cả sinh vật sống và bất động vật

Ví dụ:

 Con mèo nhà Tý lúc nào cũng thấy nằm ngủ ở sân, bọn trẻ quậy thế mà nócũng chẳng động đậy tý nào

Trang 27

 Không biết có chuyện gì xảy ra với Lan mà bạn bè nói thế nào mặt nó cứbuồn rười rượi.

Nhìn chung, việc đặt hạn chế của đại từ này phải tuỳ thuộc vào văn cảnh

b Phó từ

Kí hiệu là R

Phó từ là những hư từ chuyên dùng để bổ sung các ý nghĩa ngữ pháp chođộng từ, tính từ Đó là các ý nghĩa thời-thể, các ý nghĩa về quan hệ giữa hành động,trạng thái, tính chất với thực tại và các ý nghĩa về cách thức nhận thức và phảnánh những quan hệ đó Chức năng ngữ pháp của phó từ là làm thành phần phụ vàdấu hiệu ngữ pháp cho các thành phần câu

Ví dụ: đã, từng, mới, ắt, không, chẳng, chưa

Phân loại:

 Phó từ chỉ hướng (Vd): bao gồm các phó từ chỉ hoạt động có bao hàmphương hướng: khách đi vào (nhà), máy bay hạ cánh xuống (sân bay), chạyvào, sản xuất ra

 Phó từ thời gian (Rt): bao gồm các phó từ chỉ quan hệ về thời gian của hànhđộng, trạng thái, tính chất được xác định theo một điểm mốc tương ứng vớithời điểm thực tại hoặc thời điểm phản ánh, miêu tả: đã, đang, sẽ, từng, mới,liền

 Phó từ mức độ (Rd): bao gồm các phó từ chỉ mức độ cho các tính từ chỉ tínhchất hay động từ ngoại động: rất xinh/rất yêu (tôi), hơi mệt, quá đẹp, xinhlắm

 Phó từ so sánh (Rc): bao gồm các phó từ để so sánh hoạt động/trạng thái/tínhchất của các thực thể: cũng, đều, không ngừng

Trang 28

 Phó từ kết quả (D): bao gồm các phó từ chỉ hoạt động, bao gồm nghĩa kếtquả: (nghĩ) ra, (tìm) được, (rơi) mất

c Các dạng từ còn lại

Ngoài các dạng từ đã nêu ở trên, tiếng Việt còn có nhiều dạng từ khác như cụmtính từ, số từ, trợ từ, cảm từ, số từ… Do chúng đóng vai trò không quan trọng lắmtrong việc xử lý hiện tượng đồng tham chiếu nên tôi sẽ lược qua phần này

3.4 Các dạng câu.

Trong các tài liệu nghiên cứu, các sách giáo khoa về ngôn ngữ và tiếng Việt,

đã có rất nhiều định nghĩa về câu Có thể rút ra một số điểm chung sau:

 Câu là một sản phẩm của hoạt động giao tiếp bằng ngôn ngữ Về phươngdiện ngữ pháp, câu là lõi của phát ngôn, là đơn vị nhỏ nhất của cấu tạo vănbản

 Câu được cấu tạo theo quy tắc cú pháp Cấu tạo cú pháp của câu ứng với mộtngữ điệu thể hiện khi phát ngôn hay kết thúc câu, và là cơ sở xác định kiểuloại câu

 Những đặc điểm của câu thể hiện ở mặt nội dung ý nghĩa, mặt hình thức cấutạo, mặt chức năng và mục đích sử dụng câu trong giao tiếp (trong văn bản).Dưới đây là cách phân loại câu đơn giản và dễ hiểu nhất

Việt-Diệp Quang Ban)

Tất cả các kiểu câu tiếng Việt (câu đơn, câu ghép) đều có thể dùng câu trầnthuật Theo quan điểm coi cấu trúc chủ-vị là cấu trúc cơ bản của câu tiếng Việt, cấutrúc một câu trần thuật gồm có chủ ngữ và vị ngữ Chủ ngữ thường là cụm danh từ,

Trang 29

vị ngữ là cụm động từ hoặc cụm tính từ Xét trong các kiểu câu thì kiểu câu trầnthuật tương đối thuần nhất so với các kiểu câu khác.

 Chọn lựa xác định mang tính chất khẳng định hay phủ định

 Chọn lựa không xác định, tức là chọn từ hàng loạt khả năngkhác nhau

Thực chất việc phân chia này là dựa vào “cái không rõ” nằm ở thành phầnnào của câu hỏi tương ứng với câu trả lời Câu nghi vấn trong tiếng Việt được cấutạo nhờ các phương tiện sau đây :

 Các đại từ nghi vấn: ai, gì, nào, thế nào, sao, bao nhiêu, mấy, bao giờ, baolâu, đâu… Câu nghi vấn dùng đại từ nghi vấn được dùng để hỏi vào nhữngđiểm xác định trong câu điểm hỏi là điểm chứa đại từ nghi vấn Do đó ngay

cả khi câu bị tách khỏi tình huống nói và ngữ cảnh cũng có thể nhận biếtđược điểm hỏi Có thể gọi đây là câu nghi vấn rõ trọng điểm

 Vì sao lại thế?

 Bao giờ anh đi?

 Cái này là cái gì?

Trang 30

Mô hình tổng quát:

 <câu hỏi> = <chủ ngữ> < động từ “là”> <đại từ nghi vấn> ?

 <câu hỏi> = <đại từ chỉ định> <động từ “là”> <đại từ nghi vấn>

 <câu hỏi> = <đại từ nghi vấn> <vị ngữ> ?

 Kết từ “ hay”: Câu nghi vấn có kết từ hay dùng để hỏi có hạn chế trong khảnăng trả lời một trong những đề nghị được đưa ra Vì vậy kiểu câu nghi vấnnày còn được gọi là câu nghi vấn lựa chọn

 Anh có tìm được cây bút không?

 Có quyển sách nào trong ngăn kéo không?

Mô hình tổng quát:

<câu hỏi> = <chủ ngữ> (có*) <vị ngữ> không ?

<câu hỏi> = (có*) <động từ> không? (vd, đi không?)

<câu hỏi> = Có <chủ ngữ> <đại từ nghi vấn> <vị ngữ> không ?

2 có phải không?

 Có phải anh này không?

 Có phải em vẽ tranh này không?

Mô hình tổng quát:

<câu hỏi> = Có phải <danh từ/ngữ> <đại từ xác định> không ?

<câu hỏi> = Có phải <câu> không ?

3 đã chưa?

Trang 31

 Anh hai đã đi chưa?

 Con đã làm bài tập chưa?

Mô hình tổng quát:

<câu hỏi> = <chủ ngữ> đã <vị ngữ> chưa ?

4 xong ( rồi, xong rồi) chưa?

 Anh làm xong bài tập chưa?

Mô hình tổng quát:

<câu hỏi> = <chủ ngữ> <vị ngữ> chưa/xong chưa ?

 Các tiểu từ chuyên dụng: câu nghi vấn có tiểu từ chuyên dụng nếu khôngđược dùng kèm vói các phương tiện khác thì điểm hỏi trong câu sẽ rất mơ

hồ Có thể gọi đây là kiểu câu nghi vấn không rõ trọng điểm Một số tiểu từchuyên dụng là à, đấy à, nhỉ, ư, hả, hở, hử, chăng, không, sao,

Mô hình tổng quát:

<câu hỏi> = <câu> <tiểu từ nghi vấn>

Những động từ, tính từ thường có bổ ngữ là câu hỏi là:

• Những động từ có ý nghĩa hỏi han: hỏi, đòi, nhắn, yêu cầu, điều tra, thămviếng, nói, v.v

• Những động từ có ý nghĩa thông báo: báo, nghe, thấy, thuyết minh, trìnhbày…

• Những động từ có ý nghĩa trạng thái tinh thần hoặc quá trình nhận thức:quyết tâm, nhận được, gặp gỡ, tuân thủ, hiểu rõ…

• Những tính từ: chắc chắn, thích hợp, quan trọng, để ý, quan tâm…

c Câu cầu khiến

Câu cầu khiến có cấu tạo giống câu trần thuật nhưng lại không được dùng đểmiêu tả, nhận định như câu trần thuật Câu cầu khiến nhằm đòi hỏi thực hiện mộthành động, một chuyển biến

Trang 32

Cấu trúc chung: Câu cầu khiến được cấu tạo nhờ những động từ ngoại độngchỉ ý sai khiến: khuyên, sai, bảo, cấm , các phó từ mệnh lệnh: hãy, đừng, đừng,chớ và các trợ từ: đi, thôi, lên

Ví dụ: Không được làm ồn, đi đi em

d Câu cảm thán

Câu cảm thán là câu dùng để bộc lộ tình cảm, cảm xúc Câu cảm thán khôngđòi hỏi có phần nghĩa miêu tả, không bắt buộc phải gán với một sự kiện hay hiệntượng được biểu hiện trong cấu trúc của câu

Câu cảm thán dạng “thuần khiết” sử dụng các cảm từ: ái chà, ôi chao

Câu cảm thán dạng “không thuần khiết” sử dụng các trợ từ đi kèm cấu trúccâu Ví dụ: hỡi ôi !, ô kìa !

Trang 33

CHƯƠNG 4 XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT

4.1 Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận.

Hiện tượng đồng tham chiếu Np – anaphora là hiện tượng đồng tham chiếuhay xảy ra nhất trong hội thoại tiếng Việt

4.1.1 Np- anaphora

Nhắc lại định nghĩa, hiện tượng Np- anaphora là hiện tượng một từ - thường

là đại từ - thay thế cho một danh từ, một cụm danh từ đã nhắc đến ở phía trước

a Cách tiếp cận cũ – thuật toán Hobbs

Phải nói rằng, đây là thuật toán nhận diện đại từ đầu tiên cho những kết quảthực nghiệm khả quan từ những năm 70 của thế kỷ trước Trước khi bắt tay vàonghiên cứu những thuật toán mới, em xin phép nhắc lại điểm cốt lõi của thuật toánnày

Thuật toán này đòi hỏi xây dựng một cây phân tích cú pháp, cây phân tích cónhiệm vụ phân chia câu thành chủ ngữ, động từ, đại từ, bổ ngữ, tính từ… mà khôngthay đổi trật tự từ hay bỏ qua từ trong câu theo chiều phân tích từ trái sang phảiđúng như cấu trúc ngữ pháp tiếng Anh

Trang 34

Hình 1 - Mô phỏng thuật toán Hobbs

Căn bản dựa trên cây phân tích cú pháp, thuật toán duyệt qua bề mặt cây phântích cú pháp theo một trật tự đặc biệt, tìm kiếm một cụm danh từ tương thích về sốlượng (số ít, số nhiều), kiểu loại (giống đực, giống cái ) với đại từ Trật tự duyệtnhư sau:

1 Bắt đầu ở nút NP đại diện cho đại từ cần thay thế

2 Đi ngược lên gốc của cây đến khi gặp nút NP hoặc nút S đầu tiên Gọi nútnày là X, và con đường để dẫn đến X là p

3 Duyệt tất cả các nhánh ở dưới nút X và bên trái nhánh p theo phương pháptìm kiếm rộng Cho là mỗi cụm từ bị thay thế bởi đại từ (antecedent) có một nút NPhoặc S nằm giữa nó và X

4 Nếu X là nút S cao nhất trong câu, duyệt cây phân tích cú pháp của câu đứngtrước theo trật tự từ câu gần nhất vói câu đang xét Mỗi cây được duyệt kiểu tìmkiếm rộng từ trái sang phải, và khi gặp một nút NP, nút đó được cho là cụm từ màđại từ thay thế (antecedent) Nếu X không phải là nút S cao nhất trong cây, tiếp tụcbước 5

5 Từ nút X, tiếp tục đi lên gốc cây cho đến khi gặp được một nút S hoặc NP.Gọi nút mới này là X và con đường duyệt đến nó là p

6 Nếu X là một nút NP và đường p duyệt tới X không chứa nút (mỗi nút NP

có một nút ngay dưới nó đại diện phần danh từ chính của cụm danh từ) nào mà Xngay lập tức bao hàm, gán X là cụm danh từ thay thế (antecedent)

7 Duyệt tất cả các nhánh cây nằm dưới nút X theo trật tự tìm kiếm rộng từ tráisang phải Gán mọi nút NP gặp được là antecedent

8 Nếu X là một nút S, duyệt tất cả các nhánh của nút X đến nhánh bên phải củađường p theo trật tự tìm kiếm rộng từ trái sang phải nhưng không duyệt xuống dướibất cứ nút NP hay S nào gặp được Gán bất cứ nút NP nào gặp được là antecedent

9 Trở lại bước 4

Tìm kiếm rộng trên cây là cách tìm kiếm mà tại đó tất cả các nút ở độ sâu n đượctới thăm trước khi thăm bất cứ nút nào có độ sâu n+1 Bước 2 và bước 3 giải quyết

Trang 35

vấn đề về độ sâu của cây mà tại đó một đại từ phản thân có thể được sử dụng Bước5-9 bao quát cây giữa các nút NP và S Nút 4 tìm kiếm trong câu trước đó

Điểm hạn chế của thuật toán này, đó chính là việc chỉ hiệu quả trong việc xử

lý các đồng tham chiếu nằm trong cùng một câu, trong nhiều trường hợp, để cảithiện hiệu quả yêu cầu phải đưa vào những ràng buộc hạn chế như là:

• Ngày tháng không thể dịch chuyển

• Địa điểm không thể di chuyển

b Cách tiếp cận mới – Đa chiến lược

Ý tưởng của cách tiếp cận mới này là thay vì hoàn toàn phụ thuộc vào trật tựcủa cây cú pháp như thuật toán Hobbs, ta chỉ tìm kiếm các tiền ngữ phía trước đại

từ và sử dụng tập các ràng buộc để xử lý lựa chọn ra tiền ngữ phù hợp nhất với đại

Ngày đăng: 06/05/2015, 10:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3]. Lê Thanh Hương. “Phân tích cú pháp tiếng Việt”, Luận văn tốt nghiệp thạc sĩ, ĐHBK Hà Nội năm 2000 Sách, tạp chí
Tiêu đề: Phân tích cú pháp tiếng Việt
[1]. Daniel Jurafsky, James H. Martin. Speech and language processing, Prentice Hall năm 2000 Khác
[2]. Allen, Jame. Natural language understanding, Addision Wesley năm 1995 Khác
[4]. Diệp Quang Ban. Ngữ pháp tiếng Việt, NXB Giáo Dục năm 1998 [5]. Nguyễn Hữu Quỳnh. Ngữ pháp tiếng Việt, NXB Từ điển Bách KhoaHà Nội năm 2001 Khác
[6]. Bộ giáo dục và đào tạo. Ngữ pháp tiếng Việt, sách Cao đẳng Sư phạm, NXB Giáo dục năm 2000 Khác
[7]. Jaime G Carbonell Anaphora Resolution : A Multi – Strategy Approach - 1988 Khác
[8] Alexander Gelbukh, Grigori Sidorov – On Cohenrence Maintenance in Human – Machine Dialogue with Contextual Ellipese - 2001 Khác
[9]. David I Beaver – The Optimiztion of Discourse Anaphora – 2002 Khác
[10]. Tatjana Scheffler – Ellipsis, Subsentential Speech and the Contextualism Discussion – 2005 Khác
[11]. Regina Barzilay – Modeling Local Cohernce : An Entity – Base Approach – 2009 Khác
[12]. Chương trình tách từ vntagger của tiến sĩ Lê Hồng Phong Khác

HÌNH ẢNH LIÊN QUAN

Hình 2 - Mô phỏng quan hệ từ vựng - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Hình 2 Mô phỏng quan hệ từ vựng (Trang 40)
Hình 3 -  Biểu đồ tuần tự - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Hình 3 Biểu đồ tuần tự (Trang 51)
Hình 4 - Biểu đồ trạng thái máy tổng quát - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Hình 4 Biểu đồ trạng thái máy tổng quát (Trang 52)
Hình 5 - Minh họa sơ đồ hoạt động giai đoạn nhận diện câu - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Hình 5 Minh họa sơ đồ hoạt động giai đoạn nhận diện câu (Trang 52)
Hình 6- Hình biểu đồ lớp gói nhận diện câu. - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Hình 6 Hình biểu đồ lớp gói nhận diện câu (Trang 61)
Bảng thử nghiệm - Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
Bảng th ử nghiệm (Trang 63)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w