Mục đích nội dung của ĐATN Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồngtham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho cáctrường
Trang 1PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1 Thông tin về sinh viên
Họ và tên sinh viên: Đỗ Thái Hà
Điện thoại liên lạc: 0917290 254 Email: hangoit2002@yahoo.com
Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệthông tin và truyền thông – Trường Đại học Bách Khoa Hà Nội
Thời gian làm ĐATN: Từ ngày / /2010 đến / /2010
2 Mục đích nội dung của ĐATN
Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồngtham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho cáctrường hợp hội thoại thông dụng nhất
3 Các nhiệm vụ cụ thể của ĐATN
Phân loại hiện tượng đồng tham chiếu và tỉnh lược
Phân tích đưa ra thuật toán xử lý các trường hợp nhỏ của hiện tượng phân giải đồngtham chiếu và tỉnh lược
Kết hợp các thuật toán xử lý để xử lý được tất cả các trường hợp của phân giảiđồng tham chiếu và tỉnh lược
Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy
Tổng kết, đánh giá hiệu quả đồ án
4 Lời cam đoan của sinh viên:
Tôi – Đỗ Thái Hà - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự
hướng dẫn của Tiến sĩ Lê Thanh Hương
Trang 2Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳcông trình nào khác.
Hà Nội, ngày tháng năm
Tác giả ĐATN
Họ và tên sinh viên
5 Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảovệ:
Hà Nội, ngày tháng năm
Giáo viên hướng dẫn
Trang 3TÓM TẮT NỘI DUNG ĐỒ ÁN TÔT NGHIỆP
Ngôn ngữ tự nhiên luôn rất đa dạng và phong phú bất kể ngôn ngữ bạn sử dụng làngôn ngữ nào Vì thế việc ánh xạ từ ngôn ngữ tự nhiên vào trong các hệ thống máy tính làmột vấn đề vô cùng phức tạp thu hút sự quan tâm nghiên cứu của nhiều chuyên gia Một hệthống hội thoại tự động lý tưởng hiện tại vẫn chỉ là mơ ước của các chuyên gia máytính.Bài toán xây dựng một hệ thống như thế còn rất nhiều thách thức chưa có lời giải toànvẹn Để làm cho máy tính “người” hơn, vấn đề về phân giải đồng tham chiếu và hiện tượngtỉnh lược trong hội thoại là vấn đề không thể không quan tâm nghiên cứu
Đồ án gồm 3 phần lớn
Phần I : Tổng quan
Nội dung của phần này là nêu nên cái nhìn tổng quan về đề tài.Các ý lớn trong phần này :
Nêu lên mô hình tổng quát : Đề tài nghiên cứu về một hệ thống nằm trong hệ thốnghội thoại người – máy bằng tiếng Việt
Tóm tắt tình hình nghiên cứu trên thế giới và tình hình nghiên cứu vấ đề tại ViệtNam Phân tích các khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa,nhập nhằng đại từ quan hệ
Mục tiêu và hướng tiếp cận của đồ án : không hướng vào chiều sâu mà hướng vàochiều rộng – xây dựng chương trình giải quyết tổng hợp các trường hợp hay gặpcủa cả đồng tham chiếu và tỉnh lược trong hội thoại
Phần 2 : Nội dung chính
Phần này trình bày các hướng tiếp cận cụ thể cho từng khía cạnh của vấn đề, tổng hợp cácthuật toán Các ý lớn trong phần này bao gồm:
Phân tích cơ bản ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động
từ, đại từ, cấu trúc câu trần thuật và câu nghi vấn
Phân loại hiện tượng đồng tham chiếu và tỉnh lược, đưa ra cách tiếp cận cho từngloại
Đưa ra kiến trúc từ điển kép theo cây Sematic
Phần 3 : Cài đặt hệ thống
Phần này đi sâu vào việc xây dựng và cài đặt chương trình.Các ý lớn gồm có :
Các thiết kế mô hình tổng quát của hệ thống
Kết quả kiểm thứ và đánh giá
Hướng phát triển tương lai
Trang 4Em xin gửi lời cảm ơn sâu sắc nhất tới cô giáo TS Lê Thanh Hương, người
đã định hướng, giúp đỡ em có được những tri thức, hiểu biết để hoàn thành đồ ánnày
Con xin cảm ơn bố mẹ, những người thân đã luôn ở bên con, động viên vàtạo mọi điều kiện cho con trong quá trình làm đồ án
Xin cảm ơn bạn bè đã luôn động viên, giúp đỡ tôi mỗi khi tôi cần
Trang 5Mục lục
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1
Danh mục các từ viết tắt và thuật ngữ Tiếng Anh 8
Danh mục các bảng 9
PHẦN I TỔNG QUAN 11
CHƯƠNG 1 TỔNG QUAN 11
1.1 Đặt vấn đề 11
1.2 Mô hình tổng quát 11
1.3 Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại 12
1.3.1 Các cách tiếp cận trên thế giới 12
1.3.2 Những vấn đề còn tồn tại 12
1.3.3 Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt 13
1.4 Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong hội thoại tiếng Việt 13
1.4.1 Ngữ pháp phức tạp 13
1.4.2.Nhập nhằng trong việc tách từ và phân loại từ 14
1.4.3 Sự nhập nhằng , đa nghĩa của đại từ 14
1.5 Mục tiêu, giới hạn và hướng tiếp cận của đồ án 15
PHẦN II GIẢI QUYẾT VẤN ĐỀ 16
CHƯƠNG 2 PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC 16
2.1 Hiện tượng đồng tham chiếu – Anaphora 16
2.1.1.Định nghĩa 16
2.1.2 Phân loại 17
2.2 Hiện tượng tỉnh lược - Elliptics 19
2.2.1 Định nghĩa 19
2.2.2.Phân loại 19
CHƯƠNG 3 SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT 20
3.1 Danh từ và cụm danh từ 20
3.2 Động từ và cụm động từ 22
3.3 Các loại từ khác 25
3.4 Các dạng câu 28
a Câu trần thuật 28
Trang 6c Câu cầu khiến 32
d Câu cảm thán 32
CHƯƠNG 4 XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT 33
4.1 Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận 33
4.1.1 Np- anaphora 33
4.1.2 “One” anaphora 37
4.1.3 VP- anaphora 37
4.1.4 S- anaphora 38
4.2 Hiện tượng tỉnh lược câu và hướng tiếp cận 38
4.2.1 Tỉnh lược ngữ pháp - Contextual ellipsis 38
4.2.2 Hướng tiếp cận 40
4.3 Tổng hợp 41
4.3.1.Hướng giải quyết mối quan hệ chủ ngữ - động từ - bổ ngữ 41
4.3.2 Hướng xây dựng cơ sở dữ liệu từ điển mới 42
4.3.2.1 Nguyên nhân 42
4.3.2.2 Cấu trúc từ điển mới 42
4.3.3.Tổng hợp các phương pháp 48
PHẦN 3 XÂY DỰNG HỆ THỐNG 50
CHƯƠNG 5 THIẾT KẾ HỆ THỐNG 50
5.1 Giới hạn bài toán 50
5.2 Vị trí của hệ thống trong hệ thống hội thoại tổng hợp 50
5.3 Thiết kế các usecase chính 51
5.3.1 Biểu đồ tuần tự 51
5.3.2.Biểu đồ trạng thái máy 52
5.4 Thiết kế các gói chương trình 52
5.4.1 Gói truy nhập cơ sở dữ liệu – XMLdataConnection 53
5.4.2 Gói Tiền xử lý – PrepareStructure 54
5.4.3 Gói phát hiện hiện tượng ngôn ngữ - Discover 56
5.4.4 Gói xử lý các hiện tượng ngôn ngữ 58
5.5 Thiết kế lớp 61
CHƯƠNG 6 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 63
6.1 Kiểm thử 63
6.1.1 Giao diện của chương trình 63
6.1.2 Thử nghiệm và kết quả 64
6.2.Đánh giá kết quả 66
Trang 7CHƯƠNG 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68
7.1 Nhận xét ưu và khuyết điểm 68
7.1.1 Ưu điểm 68
7.1.2.Khuyết điểm và tồn tại 68
7.2.Hướng phát triển cho tương lai 69
Tài liệu tham khảo 71
Trang 8Danh mục các từ viết tắt và thuật ngữ Tiếng Anh
1 antecedent Tiền ngữ - từ/câu bị thay thế
3 S - Anaphora Phân giải đồng tham chiếu câu
4 VP - Anaphora Phân giải đồng tham chiếu động từ
5 One - anaphora Phân giải đồng tham chiếu số từ
6 NP – anaphora Phân giải đồng tham chiếu danh từ
7 Pronominal Phân giải đồng tham chiếu đại từ
8 Definite NP Phân giải đồng tham chiếu đại từ xác định
10 Contextual ellipsis Tỉnh lược ngữ pháp
11 Pragmatic ellipsis Tỉnh lược ngữ cảnh
12 Prefer- Constraint Ràng buộc thêm (không bắt buộc)
Trang 9Danh mục các bảng
a Lớp NounConnection 50
b Gói VerbConnection 50
a Lớp WordStruct 51
b Lớp SentenceStruct 51
c Lớp PrepareStructure 52
a EcllipsisDiscover:IDisCoverInterface 53
b Lớp NPAnaphoraDisCover 53
c VPAnaphoraDisCover 54
d OneAnaphoraDisCover 54
e SAnaphoraDiscover 55
a.Lớp NPAnaphoraResolve 55
b Lớp VPAnaphoraResolve 56
c.Lớp SPAnaphoraResolve 56
d.Lớp OneAnaphoraResolve 56
e.Lớp EcllipsisResolve 57
f Lớp MergeClass – Đây là lớp tổng hợp các thuật toán để xử lý chung 57
Trang 10Danh mục các hình vẽ
Hình 1 - Mô phỏng thuật toán Hobbs 33
Hình 2 - Mô phỏng quan hệ từ vựng 39
Hình 4 - Biểu đồ trạng thái máy tổng quát 51
Hình 5 - Minh họa sơ đồ hoạt động giai đoạn nhận diện câu 51
Hình 6- Hình biểu đồ lớp gói nhận diện câu 60
Trang 11Một trong những hướng nghiên cứu quan trọng trong lĩnh vực xử lý ngôn ngữ
tự nhiên là hướng xây dựng một hệ thống hội thoại tự động giữa người và máy Tuyvẫn chưa thể làm cho máy tính có thể “giống người” nhưng trong những năm qua, lĩnh vực này đã đạt được những thành công bước đầu không chỉ với Tiếng Anh mà còn với cả một số ngôn ngữ khác nữa
Để máy tính có thể hiểu ngôn ngữ tự nhiên, một phần không thể thiếu được làviệc xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội thoại Với tiếng Việt, hiện tượng này cũng đã bắt đầu được quan tâm chú ý trong những năm gần đây, hiện tượng đồng tham chiếu, tỉnh lược đã được nghiên cứu một cách riêng rẽ, mặc
dù vậy một nghiên cứu tổng hợp cả hai phương diện trên vẫn là một thiếu sót cần được bổ sung
Bước 3 : Quá trình thay thế Đây là quá trình thay thế câu đầu vào thành câu
đã được xử lý thay thế một từ hoặc một bộ phân câu để trở thành câu hoànchỉnh, rõ nghĩa
Trang 121.3 Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại.
1.3.1 Các cách tiếp cận trên thế giới.
Phân giải đồng tham chiếu và hiện tượng tỉnh lược không phải là vấn đề mới
mẻ trong lĩnh vực xử lý ngôn ngữ tự nhiên Chúng đã được quan tâm nghiên cứu từrất sớm mà thuật toán kinh điển đầu tiên đưa vào cài đặt hiệu quả là thuật toánHobbs do nhà khoa học Jerry R Hobbs công bố vào năm 1976 Kể từ đó đến nay,nhiều cách tiếp cận mới – có thể mới chỉ là một ý tưởng mới hoặc đã được cài đặtthử nghiệm - đã được nghiên cứu và công bố không chỉ với ngôn ngữ nghiên cứu làtiếng Anh mà còn với nhiều ngôn ngữ khác như tiếng Đức, tiếng Pháp, tiếng Nhật… Trong số những cách giải quyết vấn đề đó, có thể nhắc đến các phương phápnhư Centering, Entity-Base, Contrants … Độ chính xác của các thuật toán này biếnđộng tùy vào từng lĩnh vực dữ liệu, nhìn chung có thể đạt kết quả chính xác khoảng
70 % đến 80%
Mặc dù vậy, cho đến nay việc tìm kiếm một giải pháp hoàn chỉnh cho phângiải đồng tham chiếu và hiện tượng tỉnh lược vẫn là một bài toán chưa có lời giải.Các cách tiếp cận tuy nhiều nhưng nhìn chung đều chỉ nhằm vào một phân vùng rấtnhỏ của hiện tượng đồng tham chiếu hoặc tỉnh lược – thường chỉ tập trung vào mộttrường hợp nhỏ như là đồng tham chiếu đại từ, đồng tham chiếu động từ hoặc cáctrường hợp tỉnh lược cơ bản ,các kết quả thử nghiệm hầu hết là trên các bộ dữ liệu
từ hướng lĩnh vực (ví dụ như thuật toán Entity-Base đạt độ chính xác 85 % với bộ
dữ liệu về thiên tai , hơn 80 % đối với bộ dữ liệu về tai nạn )- mà không đưa racách xử lý cho bài toán tổng quát
Hiện nay, các hướng nghiên cứu mới trên thế giới chủ yếu hướng về tập trungvào một phân vùng nhỏ của phân giải đồng tham chiếu hoặc hiện tượng tỉnh lược –thường là đồng tham chiếu đại từ - trên môi trường đa giao diện- môi trường baogồm cả tiếng nói, hình ảnh
Trang 13thiếu hụt một cách đáng ngạc nhiên Các thuật toán cài đặt thành công chủ yếu làcác thuật toán nghiên cứu cho phân giải đồng tham chiếu đại từ, các thuật toán chocác trường hợp khác rất ít và độ chính xác cũng không cao Điều này cũng dễ hiểu
vì ngôn ngữ tự nhiên có cấu trúc vô cùng phức tạp và đa dạng và hiện tượng đồngtham chiếu đại từ cũng là hiện tượng hay gặp nhất trong thực tế
Vì thế, hướng nghiên cứu của đồ án này sẽ không nhằm vào việc xử lý trênmôi trường đa giao diện như xu hướng hiện nay mà nhằm vào việc xây dựng mộtchương trình có thể xử lý được tổng hợp cả phân giải đồng tham chiếu và tỉnh lượchay gặp cho những đoạn hội thoại hàng ngày
1.3.3 Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt.
Lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt cũng là lĩnh vực được quantâm nghiên cứu của các nhà khoa học Việt Nam, trong đó, được quan tâm nhiềunhất là bài toán phân tích cú pháp Các giải pháp cho phân giải đồng tham chiếuđược công bố rộng rãi còn rất ít Vì vậy, cũng như các ngôn ngữ khác, giải pháp chobài toán tổng thể cho cả hiện tượng đồng tham chiếu và tỉnh lược lại càng thiếu hụtnghiêm trọng, gần như không có
Dĩ nhiên, việc xử lý tổng quát một trường hợp nhỏ của hiện tượng đồng thamchiếu và tỉnh lược đã khó, tích hợp giải quyết tất cả các trường hợp đó còn khó hơn.Tuy nhiên, trong thực tế, một hệ thống hội thoại tự động giới hạn người dùng chỉđược sử dụng một phân dạng nhỏ - như là chỉ được sử dụng đồng tham chiếu đại từ
- là hệ thống không thật sự thuyết phục Ngược lại, việc giới hạn lĩnh vực của hệthống là chấp nhận được, ví dụ như khách tham quan đến viện bảo tàng thì chỉ quantâm đến tất cả các thông tin liên quan đến viện bảo tàng Vì thế, đồ án này cũng đặt
ra giới hạn là chương trình hướng lĩnh vực
Đồ án sẽ nghiên cứu trên đối tượng ngôn ngữ là tiếng Việt, có sử dụng lạichương trình tách từ của thầy Lê Hồng Phương
1.4 Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong hội thoại tiếng Việt.
1.4.1 Ngữ pháp phức tạp.
Mặc dù có nhiều điểm căn bản giống với ngữ pháp tiếng Anh – ngôn ngữ tựnhiên được nghiên cứu kỹ càng, tỉ mỉ nhất – nhưng do nhiều yếu tố khác nhau như
Trang 14lịch sử phát triển lâu dài cùng với sự tiếp thu của nhiều nền văn hóa, ngữ pháp tiếngViệt có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vô cùng phong phú Việcxây dựng một lí thuyết ngữ pháp hoàn chỉnh là điều chưa làm được Sự phức tạpcủa ngữ pháp tiếng Việt làm cho việc phân tích cấu trúc câu, phân loại và nhận diệncâu trở nên vô cùng khó khăn…
Bên cạnh đó ngữ pháp tiếng Việt còn có hiện tượng đồng âm, đồng nghĩa,chuyển nghĩa của từ rất phức tạp Ví dụ: từ “phát triển” trong 2 cụm từ “phát triểnđất nước” và “đất nước phát triển” là 2 loại từ khác nhau “Phát triển” trong cụm từthứ nhất là động từ tác động vào danh từ “đất nước” trong khi “phát triển” trongcụm từ thứ hai lại là tính từ bổ nghĩa cho danh từ đất nước
1.4.2.Nhập nhằng trong việc tách từ và phân loại từ.
Đặc điểm Tiếng Việt là ngôn ngữ đơn âm tiết, điều này gây nên khó khănngay từ giai đoạn tách và phân loại từ vựng Ví dụ như câu:
“Cụ /già đi/ nhanh/ quá”
“Cụ già/đi/nhanh /quá”
Mặc dù nội dung trung tâm của đề tài không nhằm vào vấn đề này nhưng giaiđoạn tách từ chính là giai đoạn tiền xử lý của hệ thống, vì thế sự đúng đắn của nó cóảnh hưởng rất lớn đến sự đúng đắn của cả thuật toán
1.4.3 Sự nhập nhằng , đa nghĩa của đại từ.
Một trong những vấn đề phức tạp nhất của tiếng Việt là trong Tiếng Việt córất nhiều đại từ xưng hô Cặp xưng hô giữa 2 ngôi thứ nhất và thứ hai phổ biến như: tớ -ấy, tớ - cậu, tao mày…
Vấn đề rắc rối nằm ở chỗ, tuỳ vào mối quan hệ giữa người nói với nhau, hoặcgiữa người nói với người thứ ba mà các đại từ xưng hô này khác nhau Ví dụ:
Mẹ và con nói chuyện với nhau :
“Mẹ bao giờ đi làm ?”
“Lát nữa”
Hai chị em nới chuyện với nhau :
“Mẹ đã đi làm chưa nhỉ?”
Trang 15“Hình như đi rồi”
“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau Để xử lývấn đề này yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó thực hiện khi xâydựng các thuật toán Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các
hệ thống cụ thể hướng lĩnh vực Ở đây, bằng mặc định, đồ án nghiên cứu cho hệthống hội thoại, do đó ưu tiên xét quan hệ xưng hô ngôi thứ nhất và ngôi thứ haigiữa người và máy
1.5 Mục tiêu, giới hạn và hướng tiếp cận của đồ án
Mục tiêu của đồ án là đưa ra được phương pháp xử lý không phải chỉ riêngcho từng trường hợp đồng tham chiếu hay tỉnh lược riêng lẻ mà là đưa ra phươngpháp giải quyết tổng hợp chung, ít nhất là cho các trường hợp hội thoại thông dụngnhất
Do sự phức tạp của ngữ pháp tiếng Việt – ta sẽ đi sâu vào phần này hơn ởphần sau của bản báo cáo này – việc đưa ra thuật toán có thể giải quyết đúng đắncho tất cả các trường hợp với tỉ lệ chính xác 100% là không thể, hơn nữa mục tiêucủa đồ án tập trung vào phần hội thoại Không có một thuật toán đơn lẻ nào có thể
xử lý đúng đắn toàn bộ các hiện tượng ngữ pháp Vì thế để nâng cao tỉ lệ chính xáccho thuật toán, đồ án sẽ sử dụng phương pháp tiếp cận là chia để trị với hai ý tưởngcủa thuật toán Centering và Gapping, tập trung vào các câu thông thường trong hộithoại
Trang 16PHẦN II GIẢI QUYẾT VẤN ĐỀ
CHƯƠNG 2 PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC
2.1 Hiện tượng đồng tham chiếu – Anaphora.
2.1.1.Định nghĩa.
Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ để thay thế chomột từ, một cụm từ, một phần câu đã được nhắc đến trước đó
Xét một ví dụ đơn giản của anaphora:
Họa sĩ Tô Ngọc Vân sống ở đâu?
Ông ấy hiện tại đang ở thành phố Hồ Chí Minh
Trong ví dụ trên, “Ông ấy” chính là đại từ thay thế cho “họa sĩ Tô NgọcVân” Vấn đề đặt ra là làm sao để hệ thống nhận diện được “Ông ấy” chính là từthay thế cho “họa sĩ Tô ngọc Vân”
Ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu
mà ta gặp hàng ngày trong cuộc sống Xử lý đồng tham chiếu là một vấn đề cực kỳkhó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúcngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó đòihỏi cả hiểu biết “thực” trong đời sống Mặc dù vấn đề này được nhận diện từ khásớm nhưng một giải pháp xử lý đồng tham chiếu hoàn chỉnh vẫn chưa có lời giảicuối cùng Các giải pháp được nghiên cứu trong những năm 70, 80 của thế kỷ trước(điển hình là Hobbs 1976) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyếtđược những trường hợp không có sự mập mờ về ngữ nghĩa
Xét trường hợp sau :
John lấy cái bánh ở trên bàn và ăn nó
John lấy cái bánh ở trên bàn và rửa nó
Có thể thấy ngay rằng mặc dù có cùng một cấu trúc ngữ pháp nhưng nếu “nó”trong câu thứ nhất chỉ đến “cái bánh” thì “nó” trong câu thứ hai lại chỉ đến “bàn”, ta
Trang 17có thể dễ dàng đặt ra ràng buộc cho động từ “ăn” là sự vật đi đằng sau phải là “ănđược” nhưng ta không thể đặt ra luật là đằng sau “rửa” phải là vật không ăn đượcbởi như rau quả hoàn toàn vừa “ăn được” vừa “rửa được”.
Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phântích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp cận khác nhau tuỳtừng loại đồng tham chiếu
2.1.2 Phân loại.
Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:
Từ được thay thế và từ thay thế nằm cùng trong một câu (intra-sententially)
Từ được thay thế và từ thay thế nằm trong nhiều câu (inter- sententially )Các dạng đồng tham chiếu thường gặp trong Tiếng Việt có :
Trang 18 John cho Mary mượn quyển sách - quyển sách cô ấy đã đánh mất (intra-)
John cho Mary mượn quyển sách Cô ấy đánh mất nó trên đường về nhà(inter-)
Sự thay thế không nhất thiết phải là trực tiếp mà có thể xảy ra gián tiếp như:
Tất cả các ngôi nhà trên phố cần sửa lại mái(ở đây “mái” có sự liên quanngầm với “tất cả các ngôi nhà”)
Ross sử dụng thẻ tín dụng nhiều đến nỗi anh chàng tội nghiệp đó phải tuyên
bố phá sản
b VP-anaphora và S-anaphora
Đồng tham chiếu không phải luôn luôn chỉ thay thế cho cho một cụm danh từ
mà nhiều lúc nó lại có vai trò thay thế cho hẳn một cụm động từ hoặc thậm chí làthay thế cho cả một câu
VP- anaphora là trường hợp từ không thay thế cho một từ hoặc cụm danh từphía trước mà thay thế cho một cụm động từ đã nói đến ở phía trước Xét ví dụ sau:
Tuần tới Lan thi học kỳ à ?
Ừ, Trang cũng thế
Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “thi học kỳ”
Tương tự, S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu đãnêu ở phía trước S – anaphora được minh họa thông qua ví dụ sau:
Mary đã mở được một phòng triển lãm tranh Đó là một điều ngạc nhiên
c “One” anaphora
Một dạng đồng tham chiếu nữa không thể không kể trong đến là đồng thamchiếu số từ “one”- anaphora Đây là dạng đồng tham chiếu mà ở đó, số từ được thaythế cho một danh từ (thường là một vật) đứng trước nó
Xét ví dụ một câu hội thoại sau:
Cả hai bức tranh này là của cậu à?
Không, chỉ một bức thôi
Trang 192.2 Hiện tượng tỉnh lược - Elliptics
2.2.1 Định nghĩa
Hiện tượng tỉnh lược là hiện tượng lược bỏ một hay nhiều từ trong cấu trúcngữ pháp khi nghĩa của câu đó có thể hiểu được mà không cần đến những phần đãđược lược bỏ đó
Cũng như hiện tượng đồng tham chiếu, hiện tượng tỉnh lược cũng là hiệntượng phổ biến trong ngôn ngữ tự nhiên Về mặt ngôn ngữ, ta nhận diện một câutỉnh lược mà một phần nghĩa câu cần được tổ chức lại dựa vào ngữ cảnh của câunói Ngữ cảnh đó thường là một tiền ngữ (antecedent), một mệnh đề ở trong câu nóitrước tương ứng với phần đã bị lược bỏ trong câu tỉnh lược
Pragmatic ellipsis : phần lược bỏ của câu được khôi phục nhờ người nghedựa trên tình huống ngoài lĩnh vực ngôn ngữ Ví dụ: Cả hai hành khách nhìnthấy một người đàn ông lạ mặt “Say” – Một người nói Câu đầy đủ phải là
“ông ta say rồi”
Vì hệ thống ta xây dựng là hệ thống hội thoại giữa người và máy nên chúng ta
sẽ chỉ tập trung vào contextual ellipsis
Việc phân loại giữa hiện tượng tỉnh lược và hiện tượng đồng tham chiếu chỉmang ý nghĩa tượng trưng, bởi thực tế các VP anaphora , S anaphora và “oneanaphora” có thể coi là một trường hợp của tỉnh lược câu
Trang 20CHƯƠNG 3 SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT
3.1 Danh từ và cụm danh từ.
a Danh từ riêng
Kí hiệu là Np
Danh từ riêng là những danh từ chỉ tên riêng hay tên địa điểm
Danh từ riêng có cấu tạo như sau:
Chỉ có một từ tên riêng: Thúy Anh, Việt
Gồm từ chỉ họ và từ tên riêng: Bùi Thúy Anh, Nguyễn Việt
Tên địa điểm:
Tên địa danh theo khu vực hành chính, hoặc địa lý: Hà Nội, Huế
Tên núi, tên sông, tên đất : (sông) Hồng, (trường) Đại Học Bách Khoa HàNội
b Danh từ
Kí hiệu là N
Danh từ là từ loại bao gồm những từ có ý nghĩa khái quát sự vật Đó lànhững thực từ chỉ vật thể-người, động vật, thực vật, đồ vật, những hiện tượng tựnhiên, hiện tượng xã hội và những khái niệm trừu tượng được con người nhậnthức và phản ánh như các vật thể tồn tại trong hiện thực
Ví dụ
Danh từ chỉ vật thể: ông, bà, thầy giáo, công nhân, gà, cam, đèn, áo
Danh từ chỉ hiện tượng tự nhiên: mưa, bão, sét, ngày, đêm
Danh từ chỉ hiện tượng xã hội: làng, xã, đội, đoàn
Danh từ chỉ khái niệm trừu tượng: chính trị, đường lối, đạo đức Phân loại:
Trang 21 Danh từ đơn thể :gồm các danh từ chỉ sự vật rời rạc: quần, áo, bạn Nhữngdanh từ này phải kết hợp với danh từ danh từ đơn vị: chiếc quần, manh áo,ông bạn
Danh từ tổng thể : gồm các danh từ có cấu tạo ghép 2 tiếng: quần áo, binhlính, bạn bè, máy móc Danh từ tổng thể không kết hợp với danh từ đơn vịđơn thể mà kết hợp với danh từ đơn vị hợp thể: bộ quần áo, nhóm binh lính,
…
c Cụm danh từ
Cụm danh từ là cụm từ có danh từ làm thành tố trung tâm Cụm danh từ biểuthị sự vật nêu ở thành tố trung tâm với những đặc điểm cụ thể, riêng biệt Trongcâu, cụm danh từ có thể giữ các chức năng ngữ pháp của danh từ: làm chủ ngữ, làm
Trang 22 Cụm danh từ phức tạp với phần phụ sau là cụm giới từ:
Ví dụ: bức ảnh của cơ quan
Cụm danh từ phức tạp với phần phụ sau là mệnh đề phụ
Ví dụ: bức ảnh mà tôi mới mua hôm qua
Một cụm danh từ có thể thiếu phần phụ trước hay phần phụ sau nhưng khôngthể thiếu phần trung tâm
Ví dụ: đi, gặt, học, nói, lao động, suy nghĩ
Trang 23 Động từ biến hóa (Vf): gồm các động từ chỉ sự biến hóa của thực thể/tínhchất Cần có phụ tố đi kèm chỉ kết quá biến hóa: người hóa (thành) ma,nên/thành người, trở thành tốt
Động từ tiếp thụ (Va): gồm các động từ chỉ trạng thái tiếp thụ Cần có phụ tốt
đi kèm: bị/phải/được/chịu mắng/khen/làm
Động từ tình thái (Vv): gồm các động từ chỉ trạng thái ý chí Cần có phụ tố
đi kèm: muốn/dám/quyết/toan nói/làm/nghỉ ngơi
Động từ so sánh (Vc): gồm các động từ dùng để so sánh/đánh giá giữa các sựvật Cần có phụ tốt đi kèm: bằng/kém/hơn bạn/người
Động từ tổng hợp (Vg): gồm các động từ còn lại ngoại trừ động từ “là”: muabán, đánh đập
Các động từ, tùy thuộc vào từng nhóm có những ràng buộc vào chủ ngữ, bổngữ… khác nhau mà khi xử lý các hiện tượng đồng tham chiếu và tỉnh lược đặc thùkhông thể không xem xét đến Chúng ta sẽ làm rõ vấn đề này ở phần sau của đồ án
b Động từ “là”
Đây là động từ có vai trò và đặc thù riêng biệt trong ngữ pháp tiếng Việt, cầnphân tích xử lý khác biệt so với các động từ khác, nó tương đương động từ “to be”trong tiếng Anh
c Cụm động từ
Cụm động từ là cụm từ có động từ làm thành tố trung tâm Cụm động từ biểuthị ý nghĩa, hành động, trạng thái, tính thái nêu ở động từ trung tâm Chức năng cúpháp của cụm động từ trong câu là chức năng cú pháp của động từ chính
Ví dụ: bay ngang qua bầu trời, đang ăn cơm
Cấu tạo cơ bản:
Phần phụ trước Động từ Phần phụ sau
Trang 24Phần phụ trước:
Là các phó từ Ký hiệu là R Ví dụ: hãy nhìn vào, đừng nhảy, đang ăn cơm
đang ăn cơm(VP (R đang)
(V ăn) (N cơm))
Phần phụ sau:
Động từ trung tâm có thể kết hợp với các từ loại khác một cách đa dạng Mỗicách kết hợp có thể coi như một mẫu cú pháp của động từ: động từ đi với danh từ,động từ đi với cụm giới từ
Ví dụ:
Phần phụ sau là cụm danh từ
ăn cơm(VP (V ăn)
(NP bạn) (NP món quà sinh nhật))
Trang 25 Phần phụ sau là cụm động từ
cần viết thư(VP (V cần)
(VP viết thư))
Phần phụ sau là cụm danh từ và cụm động từ
nhờ bạn chép bàn(VP (V nhờ)
(NP bạn) (VP chép bài))
Phần phụ sau là mệnh đề phụ
nghĩ rằng cô ấy ốm(VP (V nói)
(SBAR rằng cô ấy ốm))
3.3 Các loại từ khác.
a Đại từ và sự nhập nhằng của đại từ trong tiếng Việt
Kí hiệu là P
Đại từ là những từ dùng để xưng hô, thay thế và chỉ trỏ Đại từ không phải là
từ loại dùng để biểu thị khái niệm sự vật, hiện tượng hay hành động, trạng thái, tínhchất mà là từ loại dùng thay thế và để chỉ trỏ những từ đã được nêu trong những từngữ đó hoặc đã được xác định trong hoàn cảnh nói, viết cụ thể
Ví dụ: tôi, tao, nó, đây, kia
Phân loại:
Đại từ xưng hô (Pp): gồm các đại từ thay thế cho danh từ chỉ người trongxưng hô Đại từ xưng hô cũng phân biệt theo ngôi và theo số giống như cáctiếng khác nhưng không có sự biến hình từ giống như các ngôn ngữ Anh,
Trang 26Pháp Ngoài ra nó còn có đặc điểm riêng đó là phụ thuộc vào sắc thái biểucảm trong quan hệ giữa người nói và người nghe.
Đại từ chỉ định (Pd): gồm các đại từ dùng để thay thế và chỉ trỏ đối tượngkhông gian, thời gian: đây, đó, kia, ấy, nay, bấy giờ
Đại từ số lượng (Pn): gồm các đại từ chỉ số lượng: bấy, bấy nhiêu, tất cả
Đại từ nghi vấn (Pi): gồm các đại từ để hỏi về người/vật/không gian/thờigian/số lượng/hoạt động/tính chất: ai/gì/đâu/bao giờ/ bao nhiêu, mấy/sao/ thếnào
Đại từ hoạt động, tính chất (Pl): gồm các đại từ chỉ hoạt động, tính chất: thế,vậy, sao
Cũng như danh từ và động từ, đại từ có vai trò rất quan trọng trong cấu trúcngữ pháp của những câu tỉnh lược và tham chiếu Trong các loại đại từ, quan trọngnhất đó là đại từ xưng hô ( đại từ nhân xưng), nhưng đây cũng lại là loại đại từ phứctạp và dễ nhập nhằng nhất trong tiếng Việt
Khác với các ngôn ngữ khác như tiếng Anh, tiếng Pháp…do đặc điểm ngôinhân xưng phức tạp của Tiếng Việt mà các đại từ cũng phong phú và phức tạp hơnnhiều
Ngôi thứ nhất : tôi, tớ, mình, tao…
Ngôi thứ hai : cậu, ấy, mày, chú mày…
Ngôi thứ ba : cô ấy, anh ấy, cô ta, anh ta, họ…
Và một loạt các đại từ chỉ quan hệ trong gia đình như cậu, mợ…
Nhưng vấn đề không chỉ dừng lại ở đó, vấn đề còn nằm ở sự đồng âm giữacác đại từ như cô( she) và cô(aunt), chú/ chú mày (uncle) và (you)…Đòi hỏi phảiđưa ra các luật rằng buộc đặc biệt tuỳ tình huống và ứng dụng để xử lý nếu cầnthiết
Đại từ “nó” trong Tiếng Việt có vai trò khá đặc biệt bởi nó có khả năng thaythế cho ngôi thứ ba của cả người và vật, cả sinh vật sống và bất động vật
Ví dụ:
Con mèo nhà Tý lúc nào cũng thấy nằm ngủ ở sân, bọn trẻ quậy thế mà nócũng chẳng động đậy tý nào
Trang 27 Không biết có chuyện gì xảy ra với Lan mà bạn bè nói thế nào mặt nó cứbuồn rười rượi.
Nhìn chung, việc đặt hạn chế của đại từ này phải tuỳ thuộc vào văn cảnh
b Phó từ
Kí hiệu là R
Phó từ là những hư từ chuyên dùng để bổ sung các ý nghĩa ngữ pháp chođộng từ, tính từ Đó là các ý nghĩa thời-thể, các ý nghĩa về quan hệ giữa hành động,trạng thái, tính chất với thực tại và các ý nghĩa về cách thức nhận thức và phảnánh những quan hệ đó Chức năng ngữ pháp của phó từ là làm thành phần phụ vàdấu hiệu ngữ pháp cho các thành phần câu
Ví dụ: đã, từng, mới, ắt, không, chẳng, chưa
Phân loại:
Phó từ chỉ hướng (Vd): bao gồm các phó từ chỉ hoạt động có bao hàmphương hướng: khách đi vào (nhà), máy bay hạ cánh xuống (sân bay), chạyvào, sản xuất ra
Phó từ thời gian (Rt): bao gồm các phó từ chỉ quan hệ về thời gian của hànhđộng, trạng thái, tính chất được xác định theo một điểm mốc tương ứng vớithời điểm thực tại hoặc thời điểm phản ánh, miêu tả: đã, đang, sẽ, từng, mới,liền
Phó từ mức độ (Rd): bao gồm các phó từ chỉ mức độ cho các tính từ chỉ tínhchất hay động từ ngoại động: rất xinh/rất yêu (tôi), hơi mệt, quá đẹp, xinhlắm
Phó từ so sánh (Rc): bao gồm các phó từ để so sánh hoạt động/trạng thái/tínhchất của các thực thể: cũng, đều, không ngừng
Trang 28 Phó từ kết quả (D): bao gồm các phó từ chỉ hoạt động, bao gồm nghĩa kếtquả: (nghĩ) ra, (tìm) được, (rơi) mất
c Các dạng từ còn lại
Ngoài các dạng từ đã nêu ở trên, tiếng Việt còn có nhiều dạng từ khác như cụmtính từ, số từ, trợ từ, cảm từ, số từ… Do chúng đóng vai trò không quan trọng lắmtrong việc xử lý hiện tượng đồng tham chiếu nên tôi sẽ lược qua phần này
3.4 Các dạng câu.
Trong các tài liệu nghiên cứu, các sách giáo khoa về ngôn ngữ và tiếng Việt,
đã có rất nhiều định nghĩa về câu Có thể rút ra một số điểm chung sau:
Câu là một sản phẩm của hoạt động giao tiếp bằng ngôn ngữ Về phươngdiện ngữ pháp, câu là lõi của phát ngôn, là đơn vị nhỏ nhất của cấu tạo vănbản
Câu được cấu tạo theo quy tắc cú pháp Cấu tạo cú pháp của câu ứng với mộtngữ điệu thể hiện khi phát ngôn hay kết thúc câu, và là cơ sở xác định kiểuloại câu
Những đặc điểm của câu thể hiện ở mặt nội dung ý nghĩa, mặt hình thức cấutạo, mặt chức năng và mục đích sử dụng câu trong giao tiếp (trong văn bản).Dưới đây là cách phân loại câu đơn giản và dễ hiểu nhất
Việt-Diệp Quang Ban)
Tất cả các kiểu câu tiếng Việt (câu đơn, câu ghép) đều có thể dùng câu trầnthuật Theo quan điểm coi cấu trúc chủ-vị là cấu trúc cơ bản của câu tiếng Việt, cấutrúc một câu trần thuật gồm có chủ ngữ và vị ngữ Chủ ngữ thường là cụm danh từ,
Trang 29vị ngữ là cụm động từ hoặc cụm tính từ Xét trong các kiểu câu thì kiểu câu trầnthuật tương đối thuần nhất so với các kiểu câu khác.
Chọn lựa xác định mang tính chất khẳng định hay phủ định
Chọn lựa không xác định, tức là chọn từ hàng loạt khả năngkhác nhau
Thực chất việc phân chia này là dựa vào “cái không rõ” nằm ở thành phầnnào của câu hỏi tương ứng với câu trả lời Câu nghi vấn trong tiếng Việt được cấutạo nhờ các phương tiện sau đây :
Các đại từ nghi vấn: ai, gì, nào, thế nào, sao, bao nhiêu, mấy, bao giờ, baolâu, đâu… Câu nghi vấn dùng đại từ nghi vấn được dùng để hỏi vào nhữngđiểm xác định trong câu điểm hỏi là điểm chứa đại từ nghi vấn Do đó ngay
cả khi câu bị tách khỏi tình huống nói và ngữ cảnh cũng có thể nhận biếtđược điểm hỏi Có thể gọi đây là câu nghi vấn rõ trọng điểm
Vì sao lại thế?
Bao giờ anh đi?
Cái này là cái gì?
Trang 30Mô hình tổng quát:
<câu hỏi> = <chủ ngữ> < động từ “là”> <đại từ nghi vấn> ?
<câu hỏi> = <đại từ chỉ định> <động từ “là”> <đại từ nghi vấn>
<câu hỏi> = <đại từ nghi vấn> <vị ngữ> ?
Kết từ “ hay”: Câu nghi vấn có kết từ hay dùng để hỏi có hạn chế trong khảnăng trả lời một trong những đề nghị được đưa ra Vì vậy kiểu câu nghi vấnnày còn được gọi là câu nghi vấn lựa chọn
Anh có tìm được cây bút không?
Có quyển sách nào trong ngăn kéo không?
Mô hình tổng quát:
<câu hỏi> = <chủ ngữ> (có*) <vị ngữ> không ?
<câu hỏi> = (có*) <động từ> không? (vd, đi không?)
<câu hỏi> = Có <chủ ngữ> <đại từ nghi vấn> <vị ngữ> không ?
2 có phải không?
Có phải anh này không?
Có phải em vẽ tranh này không?
Mô hình tổng quát:
<câu hỏi> = Có phải <danh từ/ngữ> <đại từ xác định> không ?
<câu hỏi> = Có phải <câu> không ?
3 đã chưa?
Trang 31 Anh hai đã đi chưa?
Con đã làm bài tập chưa?
Mô hình tổng quát:
<câu hỏi> = <chủ ngữ> đã <vị ngữ> chưa ?
4 xong ( rồi, xong rồi) chưa?
Anh làm xong bài tập chưa?
Mô hình tổng quát:
<câu hỏi> = <chủ ngữ> <vị ngữ> chưa/xong chưa ?
Các tiểu từ chuyên dụng: câu nghi vấn có tiểu từ chuyên dụng nếu khôngđược dùng kèm vói các phương tiện khác thì điểm hỏi trong câu sẽ rất mơ
hồ Có thể gọi đây là kiểu câu nghi vấn không rõ trọng điểm Một số tiểu từchuyên dụng là à, đấy à, nhỉ, ư, hả, hở, hử, chăng, không, sao,
Mô hình tổng quát:
<câu hỏi> = <câu> <tiểu từ nghi vấn>
Những động từ, tính từ thường có bổ ngữ là câu hỏi là:
• Những động từ có ý nghĩa hỏi han: hỏi, đòi, nhắn, yêu cầu, điều tra, thămviếng, nói, v.v
• Những động từ có ý nghĩa thông báo: báo, nghe, thấy, thuyết minh, trìnhbày…
• Những động từ có ý nghĩa trạng thái tinh thần hoặc quá trình nhận thức:quyết tâm, nhận được, gặp gỡ, tuân thủ, hiểu rõ…
• Những tính từ: chắc chắn, thích hợp, quan trọng, để ý, quan tâm…
c Câu cầu khiến
Câu cầu khiến có cấu tạo giống câu trần thuật nhưng lại không được dùng đểmiêu tả, nhận định như câu trần thuật Câu cầu khiến nhằm đòi hỏi thực hiện mộthành động, một chuyển biến
Trang 32Cấu trúc chung: Câu cầu khiến được cấu tạo nhờ những động từ ngoại độngchỉ ý sai khiến: khuyên, sai, bảo, cấm , các phó từ mệnh lệnh: hãy, đừng, đừng,chớ và các trợ từ: đi, thôi, lên
Ví dụ: Không được làm ồn, đi đi em
d Câu cảm thán
Câu cảm thán là câu dùng để bộc lộ tình cảm, cảm xúc Câu cảm thán khôngđòi hỏi có phần nghĩa miêu tả, không bắt buộc phải gán với một sự kiện hay hiệntượng được biểu hiện trong cấu trúc của câu
Câu cảm thán dạng “thuần khiết” sử dụng các cảm từ: ái chà, ôi chao
Câu cảm thán dạng “không thuần khiết” sử dụng các trợ từ đi kèm cấu trúccâu Ví dụ: hỡi ôi !, ô kìa !
Trang 33CHƯƠNG 4 XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT
4.1 Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận.
Hiện tượng đồng tham chiếu Np – anaphora là hiện tượng đồng tham chiếuhay xảy ra nhất trong hội thoại tiếng Việt
4.1.1 Np- anaphora
Nhắc lại định nghĩa, hiện tượng Np- anaphora là hiện tượng một từ - thường
là đại từ - thay thế cho một danh từ, một cụm danh từ đã nhắc đến ở phía trước
a Cách tiếp cận cũ – thuật toán Hobbs
Phải nói rằng, đây là thuật toán nhận diện đại từ đầu tiên cho những kết quảthực nghiệm khả quan từ những năm 70 của thế kỷ trước Trước khi bắt tay vàonghiên cứu những thuật toán mới, em xin phép nhắc lại điểm cốt lõi của thuật toánnày
Thuật toán này đòi hỏi xây dựng một cây phân tích cú pháp, cây phân tích cónhiệm vụ phân chia câu thành chủ ngữ, động từ, đại từ, bổ ngữ, tính từ… mà khôngthay đổi trật tự từ hay bỏ qua từ trong câu theo chiều phân tích từ trái sang phảiđúng như cấu trúc ngữ pháp tiếng Anh
Trang 34Hình 1 - Mô phỏng thuật toán Hobbs
Căn bản dựa trên cây phân tích cú pháp, thuật toán duyệt qua bề mặt cây phântích cú pháp theo một trật tự đặc biệt, tìm kiếm một cụm danh từ tương thích về sốlượng (số ít, số nhiều), kiểu loại (giống đực, giống cái ) với đại từ Trật tự duyệtnhư sau:
1 Bắt đầu ở nút NP đại diện cho đại từ cần thay thế
2 Đi ngược lên gốc của cây đến khi gặp nút NP hoặc nút S đầu tiên Gọi nútnày là X, và con đường để dẫn đến X là p
3 Duyệt tất cả các nhánh ở dưới nút X và bên trái nhánh p theo phương pháptìm kiếm rộng Cho là mỗi cụm từ bị thay thế bởi đại từ (antecedent) có một nút NPhoặc S nằm giữa nó và X
4 Nếu X là nút S cao nhất trong câu, duyệt cây phân tích cú pháp của câu đứngtrước theo trật tự từ câu gần nhất vói câu đang xét Mỗi cây được duyệt kiểu tìmkiếm rộng từ trái sang phải, và khi gặp một nút NP, nút đó được cho là cụm từ màđại từ thay thế (antecedent) Nếu X không phải là nút S cao nhất trong cây, tiếp tụcbước 5
5 Từ nút X, tiếp tục đi lên gốc cây cho đến khi gặp được một nút S hoặc NP.Gọi nút mới này là X và con đường duyệt đến nó là p
6 Nếu X là một nút NP và đường p duyệt tới X không chứa nút (mỗi nút NP
có một nút ngay dưới nó đại diện phần danh từ chính của cụm danh từ) nào mà Xngay lập tức bao hàm, gán X là cụm danh từ thay thế (antecedent)
7 Duyệt tất cả các nhánh cây nằm dưới nút X theo trật tự tìm kiếm rộng từ tráisang phải Gán mọi nút NP gặp được là antecedent
8 Nếu X là một nút S, duyệt tất cả các nhánh của nút X đến nhánh bên phải củađường p theo trật tự tìm kiếm rộng từ trái sang phải nhưng không duyệt xuống dướibất cứ nút NP hay S nào gặp được Gán bất cứ nút NP nào gặp được là antecedent
9 Trở lại bước 4
Tìm kiếm rộng trên cây là cách tìm kiếm mà tại đó tất cả các nút ở độ sâu n đượctới thăm trước khi thăm bất cứ nút nào có độ sâu n+1 Bước 2 và bước 3 giải quyết
Trang 35vấn đề về độ sâu của cây mà tại đó một đại từ phản thân có thể được sử dụng Bước5-9 bao quát cây giữa các nút NP và S Nút 4 tìm kiếm trong câu trước đó
Điểm hạn chế của thuật toán này, đó chính là việc chỉ hiệu quả trong việc xử
lý các đồng tham chiếu nằm trong cùng một câu, trong nhiều trường hợp, để cảithiện hiệu quả yêu cầu phải đưa vào những ràng buộc hạn chế như là:
• Ngày tháng không thể dịch chuyển
• Địa điểm không thể di chuyển
b Cách tiếp cận mới – Đa chiến lược
Ý tưởng của cách tiếp cận mới này là thay vì hoàn toàn phụ thuộc vào trật tựcủa cây cú pháp như thuật toán Hobbs, ta chỉ tìm kiếm các tiền ngữ phía trước đại
từ và sử dụng tập các ràng buộc để xử lý lựa chọn ra tiền ngữ phù hợp nhất với đại