Khóa luận “Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt” cũng đã nhận được sự hỗ tr
Trang 1i
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Việt Cường, Thạc sĩ Trần Mai Vũ đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho tôi để tôi học tập và nghiên cứu tại trường Đại học Công nghệ
Tôi xin gửi lời cảm ơn tới các anh chị: CN Vũ Tiến Thành, CN Lê Hoàng Quỳnh, CN Nguyễn Tiến Thanh, CN Nguyễn Thanh Sơn, các bạn và các em sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn cũng như việc thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận Khóa luận “Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt” cũng đã nhận được sự hỗ trợ từ đề tài QG.10.38
Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trường
Tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Tiến Tùng
Trang 2ii
Tóm tắt
Trích rút quan hệ gần nghĩa (near-synonym) tiến hành việc trích rút các khái niệm được coi là “gần nhau” hoặc về mặt ngữ nghĩa hoặc dựa vào ngữ cảnh xung quanh chúng Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây dựng từ vựng, mở rộng truy vấn,… Theo Inkpen và cộng sự năm 2010 [6], W.Wang
và cộng sự năm 2010 [30], trích rút quan hệ gần nghĩa là một nội dung nghiên cứu thời
sự
Khóa luận tập trung nghiên cứu các phương pháp trích rút quan hệ gần nghĩa nhằm đề ra giải pháp phù hợp trong việc trích rút các động từ để mở rộng ngữ nghĩa truy vấn trong hệ thống hỏi đáp thực thể tên người tiếng Việt [29] Chúng tôi lựa chọn giải pháp học bán giám sát dựa vào mẫu ngôn ngữ [30] để trích rút động từ gần nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống và từ dữ liệu trên Internet
Thực nghiệm ban đầu trên CSDL câu và trên dữ liệu Web, với động từ đầu vào (“phát minh”), hệ thống cho ra các động từ gần nghĩa với động từ đầu vào (“Khám phá, sáng chế, phát hiện”), (trong đó, độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cùng một cụm) Kết quả này cho thấy giải pháp
đề xuất của chúng tôi có tính khả thi
Trang 3iii
Lời cam đoan
Tôi xin cam đoan giải pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút động từ gần nghĩa dựa trên ngữ cảnh miền ứng dụng của hệ thống hỏi đáp thực thể tên người tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và TS Nguyễn Việt Cường
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo
Sinh viên
Nguyễn Tiến Tùng
Trang 4iv
Mục lục
Lời cảm ơn i
Tóm tắt ii
Lời cam đoan iii
Mục lục iv
Danh sách các bảng vi
Danh sách các hình vẽ vii
Danh sách các chữ viết tắt viii
Mở đầu 1
Chương 1: Khái quát về trích rút quan hệ gần nghĩa 3
1.1 Quan hệ gần nghĩa 3
1.1.1 Quan hệ ngữ nghĩa 3
1.1.2 Quan hệ gần nghĩa 4
1.2 Trích rút quan hệ gần nghĩa 6
Tóm tắt chương 1 8
Chương 2: Học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa 9
2.1 Một số nghiên cứu liên quan trên thế giới 9
2.1.1 Phương pháp DIPRE 9
2.1.2 Phương pháp Snowball 9
2.1.3 Trích rút mẫu tự động sử dụng máy tìm kiếm 11
2.1.4 Phương pháp KnowItAll 11
2.1.5 Phương pháp TextRunner 12
2.2 Một số nghiên cứu liên quan trong nước 13
2.2.1 Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản 13
2.2.3 Mở rộng thực thể 13
2.2.2 Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt 14
Tóm tắt chương 2 15
Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 16
Trang 5v
3.1 Mô hình trích rút quan hệ gần nghĩa 16
3.2 Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 24
3.2.1 Hệ thống hỏi đáp thực thể tên người tiếng Việt 24
3.2.2 Mở rộng truy vấn 25
3.2.3 Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt 26
Tóm tắt chương ba 27
Chương 4: Thực nghiệm và đánh giá 28
4.1 Môi trường và công cụ sử dụng cho thực nghiệm 28
4.2 Thực nghiệm và đánh giá trích rút quan hệ gần nghĩa 29
Kết luận 33
Phụ lục 34
Tài liệu tham khảo 35
Trang 6vi
Danh sách các bảng
Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa) 5
Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm 28
Bảng 3: Các công cụ phần mềm sử dụng 28
Bảng 4: Ví dụ về trích câu và tách từ, gán nhãn 29
Bảng 5: Ví dụ về trích bộ <N/Npi, N/Npj> 30
Bảng 6 Bảng kết quả trên top 3 cụm chứa động từ đang xét 32
Trang 7vii
Danh sách các hình vẽ
Hình 1: Mô hình Snowball 10
Hình 2 : Mô hình trích rút quan hệ gần nghĩa 17
Hình 3: Trích chọn tập câu chứa bộ <N/Npi, V, N/Npj> 18
Hình 4:Trích xuất tập câu đồng dạng với từng câu trong bước 1 19
Hình 5: Lựa chọn V mới 20
Hình 6: Phân cụm 21
Trang 8viii
Danh sách các chữ viết tắt
Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt
CTRW Choose the Right Word Chọn từ đúng
PMI Pointwise Mutual Information Thông tin tương hỗ trên từng
điểm HAC Hierarchical agglomerative
clustering
Phân cụm phân cấp từ dưới lên CRF Conditional Random Field Mô hình trường điều kiện ngẫu
nhiên
Trang 91
Mở đầu
Trích rút quan hệ ngữ nghĩa nói chung và trích rút quan hệ gần nghĩa nói riêng đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên Quan hệ gần nghĩa (near-synonym) là mối quan hệ ngữ nghĩa giữa các khái niệm, về mặt ngữ nghĩa hoặc ngữ cảnh xung quanh khái niệm, gần nghĩa với nhau Trích rút quan hệ gần nghĩa ứng dụng nhiều cho các bài toán như: xây dựng từ vựng [11]; mở rộng truy vấn cho hệ thống hỏi đáp [3, 21] - Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn,…
Trong dịch máy và các hệ thống sinh ngôn ngữ tự nhiên, nhu cầu trích rút các quan
hệ gần nghĩa phải được làm một cách cNn thận [17] Bài toán trích rút quan hệ gần nghĩa
là rất khó khăn bởi vì những từ gần nghĩa có nghĩa rất gần nhau [11], do đó chúng cũng xuất hiện trong những ngữ cảnh tương tự, vì vậy chúng ta cần nắm bắt được sự khác biệt tinh tế, cụ thể của từng từ gần nghĩa
Mục tiêu của khóa luận này là khảo sát, nghiên cứu để đưa ra một phương pháp trích rút quan hệ gần nghĩa tối ưu hơn cho ngôn ngữ tiếng Việt Để tiếp cận mục tiêu này, khóa luận nghiên cứu và giới thiệu một số phương pháp trích rút quan hệ gần nghĩa đang được quan tâm hiện nay Từ đó, đưa ra một phương pháp phù hợp nhất để trích rút quan
hệ gần nghĩa cho ngôn ngữ tiếng Việt, đó là sử dụng học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa Bên cạnh đó, khóa luận cũng áp dụng phương pháp trích rút quan hệ gần nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan tâm không kém – đó là mở rộng truy vấn cho hệ thống hỏi đáp, cụ thể là hệ thống hỏi đáp thực thể tên người cho tiếng Việt
Nội dung của khóa luận được chia thành các chương như sau:
Chương 1: Chương này đề cập tới khái niệm quan hệ ngữ nghĩa nói chung, quan
hệ gần nghĩa nói riêng, một số đặc trưng của quan hệ gần nghĩa, phân biệt đôi chút về gần nghĩa và đồng nghĩa, một số phương pháp trích rút quan hệ gần nghĩa
Chương 2: Đây là chương trình bày một số phương pháp trích rút quan hệ ngữ nghĩa sử dụng kỹ thuật bootstrapping Đồng thời đưa ra phương pháp trích rút quan hệ gần nghĩa phù hợp đối với tiếng Việt
Trang 102
Chương 3: Chương này trình bày mô hình trích rút quan hệ gần nghĩa và áp dụng trích rút quan hệ gần nghĩa để mở rộng truy vấn trong hệ thống hỏi đáp thực thể tên người cho tiếng Việt
Chương 4: Khóa luận trình bày một số thực nghiệm việc trích rút động từ gần nghĩa trong miền ngữ cảnh, ngữ nghĩa của các động từ từ CSDL câu của hệ thống hỏi đáp thực thể tên người cho tiếng Việt và từ dữ liệu trên Internet Kết quả thực nghiệm, lựa chọn top 3 động từ trong mỗi cụm Độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cụm
Phần kết luận và hướng phát triển khóa luận: Tóm lược những điểm chính của khóa luận Chỉ ra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong thời gian tiếp theo
Trang 113
Chương 1: Khái quát về trích rút quan hệ gần nghĩa
Để hiểu và giải quyết được bài toán trích rút quan hệ gần nghĩa, đòi hỏi chúng ta cần phải nắm vững được khái niệm quan hệ gần nghĩa, các đặc trưng của quan hệ gần nghĩa, … Vì thế, khóa luận trong chương này giới thiệu các vấn đề liên quan tới trích rút quan hệ gần nghĩa, làm tiền đề cho việc giải quyết bài toán
1.1 Quan hệ gần nghĩa
Quan hệ ngữ nghĩa trong văn bản là một trong những nội dung của xử lý ngôn ngữ
tự nhiên có liên quan mật thiết tới nhiều bài toán ứng dụng trong khai phá văn bản [1] Có rất nhiều khái niệm hay định nghĩa về quan hệ ngữ nghĩa được đưa ra Theo nghĩa hẹp,
Birger Hjorland đã định nghĩa quan hệ ngữ nghĩa [31]: Là quan hệ về mặt ngữ nghĩa giữa hai hay nhiều khái niệm Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm từ
Ví dụ: Ta có một câu “Colombo tìm ra Châu mỹ”
(Colombo, Châu mỹ) có quan hệ là “tìm ra”
Theo Girju [8], một số quan hệ ngữ nghĩa quan trọng thường được dùng để thể hiện quan hệ giữa các khái niệm như: hyponymy(A là một loại của B), meronymy(A là một phần của B), holonymy(B có A như một phần của nó), synonymy(A đồng nghĩa với B) và antonymy(A trái nghĩa với B)
Xác định quan hệ ngữ nghĩa giữa các khái niệm là một vấn đề quan trọng trong tìm kiếm thông tin Việc làm rõ quan hệ giữa các khái niệm sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu Đồng thời, khi tìm kiếm một thông tin về một vấn đề nào đó, ta có thể
có được những thông tin về các vấn đề khác liên quan tới nó Vì vậy, để tìm kiếm được những thông tin chính xác, chúng ta cần biết các loại quan hệ giữa các khái niệm và đồng thời tìm hiểu các phương pháp để xác định được quan hệ đó
Quan hệ ngữ nghĩa thể hiện quan hệ giữa các khái niệm, khái niệm ở đây có thể là một từ hoặc một cụm danh từ Chúng được biểu diễn dưới dạng cấu trúc phân cấp thông qua các quan hệ Bài toán trích rút quan hệ ngữ nghĩa được đặt ra và yêu cầu cần phải được giải quyết Roxana Girju và cộng sự đã phát biểu bài toán trích rút mối quan hệ ngữ
nghĩa [14] như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu
Trang 12Theo Philip Edmonds và Graeme Hirst, 2006 [23], hai từ được gọi là gần nghĩa
về từ vựng Ví dụ từ “lỗi” và “sai lầm” là hai từ gần nghĩa: “lỗi” (Chỗ sai sót do không
thực hiện đúng quy tắc – điều sai sót, không nên, không phải trong cách cư xử, hành động), “sai lầm” (Trái với yêu cầu khách quan, dẫn đến hậu quả không hay) [18] Ngoài việc chú ý đến sắc thái từ vựng, khi lựa chọn một từ, cần phải chắc chắn rằng nó phù hợp với các từ khác trong một câu Nhiều bài báo nghiên cứu về các cách thức để sắp xếp lựa chọn các từ gần nghĩa phù hợp nhất trong từng ngữ cảnh Vấn đề này rất khó khăn vì những từ gần nghĩa có ý nghĩa rất gần nhau và xuất hiện trong những ngữ cảnh tương tự nhau
Theo InkpenD.Z và Hirst G., 2002 [16]: từ gần nghĩa là những từ về cơ bản là đồng nghĩa, nhưng không hoàn toàn Chúng khác nhau về sắc thái, biểu cảm, hàm ý cũng như ý muốn nhấn mạnh; Trong một số trường hợp, chúng cũng có thể khác nhau về ngữ
pháp hoặc ràng buộc về sự sắp xếp theo thứ tự Ví dụ theo Gove (1984), từ “foe” (kẻ thù) nhấn mạnh vào hoạt động trong chiến tranh hơn là từ “enemy” (kẻ thù) Hoặc là theo Room (1981) từ “forest” và “woods” là do sự kết hợp phức tạp về kích thước, sự khai
hóa, sự hoang vu (được xác định bởi các loại động thực vật trong đó) Một số ví dụ khác được đưa ra trong bảng 1 (Hirst 1995) Tồn tại rất ít các từ đồng nghĩa tuyệt đối Các từ điển đồng nghĩa hiện nay, thực tế là vẫn bao hàm cả những từ gần nghĩa Ta có thể thấy rõ ràng điều này ở các từ điển như Webster’s New Dictionary of Synonyms (Gove 1984) và CTRW (Hayakawa 1994), các cụm từ giống nhau được đưa vào thành từng nhóm và cắt nghĩa sự khác nhau giữa các từ trong nhóm
Trang 135
Bảng 1: Ví dụ về sự khác nhau giữa các từ gần nghĩa (biến thể của các từ gần nghĩa)
Văn phong, tính câu nệ hình thức pissed : drunk : inebriated
<say bí tỉ: say rượu: say>
<tàn phá: hủy diệt>
<gầy nhom: gầy gò: mảnh khảnh>
<rỉ ra: chảy nhỏ giọt>
Nhấn mạnh các khía cạnh khác nhau
của nghĩa
enemy : foe
<kẻ địch: kẻ thù>
Sự kết hợp giữa các từ task : job (in the context of daunting)
Biến thể của các từ gần nghĩa có thế khác nhau ở nhiều khía cạnh DiMarco, Hirst,
và Stede (1993) đã tiến hành phân tích các loại biến thể này, lấy dẫn chứng từ các từ điển
có sự phân biệt về từ gần nghĩa Họ nhận thấy rằng không có giới hạn nguyên tắc nào về các loại biến thể, tuy nhiên có một số lượng nhỏ các loại xảy ra thường xuyên Edmonds (1999) đã đưa ra một phân tích chi tiết về các loại biến thể Sau đây là một số loại biến thể liên quan nhất được lấy ví dụ từ CTRW:
Biến thể về sự biểu hiện (denotational): Từ gần nghĩa có thể khác nhau về tần số họ nhấn mạnh về thành phần nghĩa của chúng (Ví dụ, đôi khi
“invasion” có nghĩa là cuộc tấn công quy mô lớn nhưng không có kế hoạch), trong độ trễ hay sự nhấn mạnh không trực tiếp về thành phần ngữ nghĩa và sự khác nhau về “độ mịn” nghĩa của bản thân ý tưởng đó
Biến thể về biểu cảm, thái độ: Từ gần nghĩa có thể truyền đạt các sắc thái, quan điểm khác nhau về thực thể mà người nói muốn hướng tới trong một hoàn cảnh cụ thể Thái độ có thể: có nghĩa xấu, trung lập hoặc tán thành
Biến thể về văn phong: Biến thể văn phong của từ gần nghĩa bao gồm các mức độ khác nhau: tính hình thức, tính cụ thể, tính hoa mỹ (văn), tính thân mật, …
Trang 146
Trong tiếng Việt, theo Mai Ngọc Trừ và cộng sự, 1997 [4], từ đồng nghĩa là những
từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt về một vài sắc
thái ngữ nghĩa hoặc sắc thái phong cách, … nào đó, hoặc đồng thời cả hai Ví dụ: “cố”,
“gắng”, “cố gắng” là những nhóm từ đồng nghĩa Những từ đồng nghĩa với nhau không
nhất thiết phải tương đương với nhau về số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể có nhiều hơn Chính vì thế một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau Chúng tôi chưa tìm thấy các nghiên cứu
về từ gần nghĩa trong xử lý tiếng Việt
1.2 Trích rút quan hệ gần nghĩa
Đối với trích rút quan hệ gần nghĩa, nhiều nhà nghiên cứu có cách phát biểu và tiếp cận bài toán theo các hướng khác nhau Cách tự nhiên nhất để xác nhận một thuật toán để trích rút là yêu cầu độc giả đánh giá chất lượng đầu ra của thuật toán, nhưng cách đánh giá này sẽ mất rất nhiều thời gian Thay vào đó, người ta xác nhận thuật toán bằng cách xóa các từ được trích rút từ các câu mẫu, để xem liệu các thuật toán có thể khôi phục lại những từ đó không Đó là, người ta tạo ra các khoảng trống từ vựng và đánh giá khả năng các thuật toán lấp khoảng trống đó
Theo Inkpen & Hirst [15], trích rút quan hệ gần nghĩa bao gồm 2 bước: Mở rộng siêu khái niệm; Lựa chọn những từ gần nghĩa nhất với mỗi cụm theo thứ tự ưu tiên Họ thực hiện theo một cách đơn giản: Module lựa chọn từ gần nghĩa tính điểm số chấp thuận cho mỗi từ gần nghĩa; sau đó từ các điểm số chấp thuận này sẽ tính trọng số, cuối cùng sử dụng HALogen1 để tạo sự lựa chọn cuối cùng bằng cách kết hợp giữa các trọng số với các xác suất của mô hình ngôn ngữ
Islam & Inkpen [6] sử dụng mô hình ngôn ngữ 5-gram được xây dựng từ Google với bộ dữ liệu 1T, áp dụng phương pháp thống kê không giám sát để lựa chọn tự động từ gần nghĩa Phương pháp này là tự động, không yêu cầu bất kỳ nguồn tài nguyên tri thức nào của con người (ví dụ như ontology) và có thể được áp dụng cho các ngôn ngữ khác nhau
1 http://www.isi.edu/licensed-sw/halogen/
Trang 157
Inkpen D., 2007 [17] sử dụng mô hình thống kê, tính điểm cho mỗi ứng viên candidates từ gần nghĩa dựa trên điểm số thông tin tương hỗ giữa từ gần nghĩa và nội dung các từ trong ngữ cảnh (đã lọc bỏ các từ dừng) Thông tin tương hỗ theo từng điểm PMI giữa hai từ x và y so sánh khả năng quan sát hai từ với nhau để xác suất của quan sát
x và y độc lập (xác suất xảy ra là ngẫu nhiên):
PMIሺx, yሻ = logଶPሺxሻPሺyሻPሺx, yሻCác xác suất được tính xấp xỉ như sau:
Pሺxሻ =CሺxሻN ; Pሺyሻ = CሺyሻN ; Pሺx, yሻ = Cሺx, yሻNTrong đó: C biểu thị tần số đếm, N là tổng số các từ trong tập ngữ liệu
W.Wang và cộng sự, 2010 [30] đã đề xuất phương pháp tiếp cận xây dựng mẫu tự động để trích rút động từ đồng nghĩa và trái nghĩa từ các bài báo tiếng Anh Theo các tác giả, động từ đóng vai trò quan trọng trong ngôn ngữ tự nhiên, chúng thể hiện các hành động, sự kiện và các trạng thái Động từ giống như các từ loại khác, có thể liên quan thông qua các mối quan hệ đồng nghĩa, trái nghĩa và một số quan hệ khác Bài toán học mối quan hệ giữa các động từ có thể được coi là một dạng trong bài toán trích rút thông tin ( chẳng hạn như trích rút vị trí tên [22] và trích rút quan hệ thượng hạ vị [18]) Điều này có nghĩa rằng tồn tại hướng tiếp cận trích rút dựa vào mẫu ngôn ngữ và đã được áp dụng vào bài toán trích rút quan hệ đồng nghĩa và trái nghĩa của W.Wang và cộng sự, trong bài toán các tác giả có một số yêu cầu đặc biệt: ví dụ như tần số mà người dùng sử dụng hai hoặc nhiều động từ đồng nghĩa trong một câu Trích rút quan hệ đồng nghĩa và trái nghĩa theo W.Wang và cộng sự bao gồm 4 bước chính: Phân tích xác suất, trích xuất tập mồi, xây dựng mẫu và trích rút quan hệ đồng nghĩa/trái nghĩa
Trang 168
Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát về quan hệ ngữ nghĩa nói chung và quan hệ gần nghĩa nói riêng; Nêu khái niệm, các đặc trưng cũng như sự khác biệt giữa các biến thể của từ gần nghĩa; Bài toán trích rút quan hệ gần nghĩa và một số phương pháp trích rút quan hệ gần nghĩa
Trong chương tiếp theo, khóa luận nêu rõ một số phương pháp học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và đưa ra phương pháp trích rút quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt
Trang 17để trích rút quan hệ gần nghĩa
2.1 Một số nghiên cứu liên quan trên thế giới
2.1.1 Phương pháp DIPRE
Năm 1998, Brin đề xuất phương pháp học bán giám sát cho việc trích rút mẫu quan
hệ ngữ nghĩa [27] Phương pháp được tiến hành với mối quan hệ “author-book” với tập
dữ liệu ban đầu khoảng 5 ví dụ cho mối quan hệ này, nó được mô tả qua các bước như sau:
Xây dựng tập mồi ban đầu <A, B> để gán nhãn cho một số dữ liệu
Tìm tất cả các câu có chứa đủ các thành phần của tập mồi ban đầu
Tìm các mẫu quan hệ giữa các thành phần của tập mồi ban đầu Mối quan
hệ được biểu diễn dưới dạng: [order, author, book, prefix, suffix, middle]
Từ các mẫu chưa được gán nhãn thu được tập mồi mới và sau đó tiến hành thêm tập mồi mới này vào kho chứa tập mồi ban đầu cho mối quan hệ đó
Quay lại bước tìm tập mồi và mẫu mới
Phương pháp đạt hiệu quả cao trên dữ liệu HTML trong việc xác định tập mẫu và sinh tập mồi mới Năm 2000 Agichtein và Gravano đề xuất phương pháp Snowball [12] dựa trên ý tưởng của phương pháp DIPRE, phương pháp Snowball tiến hành thực hiện trên dữ liệu không có cấu trúc, xây dựng độ đo để đánh giá độ tin cậy cho việc sinh tập mẫu quan hệ và tập mồi mới được sinh ra và bổ sung thêm việc nhận diện thực thể
2.1.2 Phương pháp Snowball
Cũng dựa trên ý tưởng bootstrapping của phương pháp DIPRE, Snowball là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu quan hệ mẫu làm nhân Sau đó trong quá trình thực hiện tập mẫu và tập quan hệ mới được sinh ra cần được đánh giá chất lượng [12] Giải thuật được thực nghiệm trên mối quan hệ “Organization – location”
Trang 1810
Hình 1: Mô hình Snowball
Phương pháp này gồm các bước như sau:
Học bán tự động để trích rút mẫu: đầu vào là một tập mồi ban đầu và một tập văn bản Mỗi tập mồi gồm hai thực thể biểu diễn dưới dạng <A, B> hay
< thực thể 1, thực thể 2> Hệ thống phân tích, chọn lọc và trích rút các mẫu Sau đó Snowball tính độ chính xác của từng mẫu dựa trên số Positive và Negative của nó và chọn ra top N mẫu có điểm số cao nhất Độ tin tưởng của mẫu được tính theo công thức:
ܾ݈݂݁݅݁ሺܲሻ = ሺܲ ݏ݅ݐ݅ݒ݁ + ܲ ݊݁݃ܽݐ݅ݒ݁ሻܲ ݏ݅ݐ݅ݒ݁
Trong đó, Positive là tập chứa các mẫu mới đã nằm trong danh sách tập mồi Negative là tập chứa các mẫu mới chỉ có đúng một trong hai thành phần xuất hiện trong danh sách tập mồi
Tìm các tập mồi mới cho vòng lặp tiếp theo: Trong top N được chọn, mỗi mẫu sẽ là cặp trong danh sách tập mồi mới, tiếp tục được đưa vào vòng lặp:
Generate Extraction Patterns Augment Table
Trang 1911
Hệ thống sẽ lựa chọn được M dùng làm tập mồi cho quá trình kế tiếp, là cặp được đánh giá tốt nhất Hệ thống sẽ quay lại bước học bán tự động để trích rút mẫu, quá trình này tiếp tục lặp cho đến khi không tìm được cặp mới hoặc lặp theo số lần xác định trước
2.1.3 Trích rút mẫu tự động sử dụng máy tìm kiếm
Năm 2002, Ravichandran và Hovy [10] đã đề xuất áp dụng kỹ thuật bootstrapping
để tìm mẫu quan hệ và những tập mồi mới cho những câu hỏi liên quan tới ngày sinh Tận dụng nguồn tri thức lớn từ các máy tìm kiếm như Google, Yahoo, …, phương pháp này
sử dụng máy tìm kiếm phục vụ cho việc sinh mẫu quan hệ một cách tự động dựa vào các tài liệu web Phương pháp này gồm các bước sau:
Chọn các ví dụ của từng loại câu hỏi đã xác định trước
Chọn các khái niệm trong câu hỏi và câu trả lời để tạo truy vấn vào máy tìm kiếm
Thu thập 1000 trang web có liên quan, chọn tập các câu có chứa cả những khái niệm trong câu hỏi và câu trả lời
Tìm những xâu con hoặc các cụm từ có chứa các khái niệm trong câu hỏi và câu trả lời
Thay thế những từ trong câu hỏi và câu trả lời bằng các nhãn
2.1.4 Phương pháp KnowItAll
Năm 2004, Etzioni và cộng sự [22] đã đề xuất phương pháp KnowItAll để tiến hành trích rút ra những sự vật, khái niệm và các mẫu quan hệ từ các trang web KnowItAll được mở rộng từ một ontology và dựa vào một tập các luật để từ đó trích rút ra các luật cho mỗi lớp và các quan hệ trong ontology Đối với phương pháp này:
Đầu vào: là một tập các lớp thực thể được trích xuất, ví dụ như thành phố, nhà khoa học, bộ phim,…
Đầu ra: Danh sách các thực thể được trích xuất từ các trang web
Các mẫu sử dụng đã được gán nhãn bằng tay, những mẫu này được xây dựng dựa vào việc tách cụm danh từ KnowItAll gồm 3 bước chính:
Bước 1: Trích xuất (Extractor): KnowItAll tạo ra một tập các luật trích xuất cho mỗi lớp và các mẫu chung cho nhiều mối quan hệ khác nhau
Ví dụ: Những mẫu chung là:
Trang 20NP1 “is a” NP2 “of” NP3
“the” NP1 “of” NP2 “is” NP3
Bước 2: Giao diện máy tìm kiếm (Search Engine Interface): KnowItAll tự động lấy những câu truy vấn dựa vào việc trích xuất luật Mỗi luật có các câu truy vấn được tạo ra từ các từ khóa có trong các luật
Bước 3: Đánh giá (Assessor): KnowItAll sử dụng thống kê các truy vấn của máy tìm kiếm để ước tính khả năng trích rút các mẫu trong bước 1 Đặc biệt, trong bước này đã sử dụng một dạng thông tin được gọi là thông tin tương hỗ theo từng điểm (pointwise mutual information – PMI) giữa các từ
và các cụm từ được ước lượng từ các trang web được trả về từ máy tìm kiếm
Single-Pass Extractor: Trích rút bộ dữ liệu cho tất cả những mối quan hệ có thể xảy ra Tìm ra các bộ dữ liệu candidates từ các câu, tiến hành phân loại các candidates và giữ lại những candidates có kết quả nhãn tốt
Redundacy-Based Assessor: Thống kê mỗi bộ dữ liệu được giữ lại dựa vào
mô hình xác suất được Downey và cộng sự giới thiệu [9]
Trang 2113
2.2 Một số nghiên cứu liên quan trong nước
2.2.1 Phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản
Năm 2005, Vũ Bội Hằng [5] đã nghiên cứu, thực nghiệm phát hiện quan hệ ngữ nghĩa Nguyên nhân – Kết quả từ các văn bản Tác giả đã trình bày biểu diễn quan hệ nguyên nhân tường minh với một động từ chỉ nguyên nhân dưới dạng:
<DT1 – động từ chỉ nguyên nhân – DT2> (DT1 và DT 2 là các danh từ/ngữ danh từ)
Thủ tục phát hiện quan hệ nhân quả bao gồm 6 bước chính:
Với mỗi văn bản trong tập dữ liệu Chọn ra các câu có cấu trúc <DT – động
từ - DT 2> từ các văn bản
So sánh động từ trong câu đã chọn với các động từ chỉ nguyên nhân trong bảng động từ chỉ nguyên nhân Nếu động từ này trùng với một trong các động từ chỉ nguyên nhân trong bảng thì xét cặp (DT1, DT2)
Nếu cặp danh từ này đã có trong cơ sở dữ liệu thì tăng giá trị tần suất xuất hiện của chúng lên 1
Nếu cặp danh từ này chưa tồn tại trong cơ sở dữ liệu thì thêm mới nó vào cơ sở dữ liệu
Lặp lại bước hai với tất cả các câu có dạng <DT1 – động từ - DT2> trong văn bản đó
Quay trở lại thực hiện bước 1 với mỗi văn bản trong tập dữ liệu
Sắp xếp các cặp (DT1, DT2) thu được theo thứ tự giảm dần của tần suất xuất hiện
Chọn ra m cặp đầu tiên trong cơ sở dữ liệu Đó là những cặp quan hệ nhân quả cần tìm
2.2.2 Mở rộng thực thể
Năm 2010, chúng tôi [20] đề xuất sử dụng luật ngữ nghĩa, cụ thể là mối quan hệ tương đương, để mở rộng thực thể Luật này sẽ được kết hợp với lần lượt các thực thể được cho trong tập mồi để xây dựng truy vấn đưa vào máy tìm kiếm, từ đó nhận được các thực thể mới để đưa vào tập thực thể “tiềm năng” Phương pháp này bao gồm 7 bước chính:
Trang 2214
Tạo truy vấn: Dựa vào thực thể mồi và các mẫu Ví dụ tập thực thể mồi: {“nokia”, “samsung”, “sony”} và tập mẫu có mẫu “Một số * như”
Chọn m liên kết đầu tiên được trả về bởi kết quả tìm kiếm (m=100)
Thu thập các trang web tương ứng với các liên kết đã được chọn ở bước trên
Tiền xử lý dữ liệu: Loại nhiễu, loại bỏ thẻ HTML, lấy nội dung chính của trang web và tách câu: sử dụng công cụ JvnTextPro
Trích chọn các thực thể “tiềm năng”: Sau khi tách câu, các câu này được đưa vào bộ trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được trích chọn thực thể tương đương dựa vào luật ngữ nghĩa đã được định nghĩa sẵn trong tập các luật Sau bước này sẽ thu được thực thể “tiềm năng”
Xếp hạng các thực thể “tiềm năng” dựa vào 3 thuật toán: Extracted Frequency, Wrapper length và PageRank
Lựa chọn thực thể mới dựa vào tập các thực thể đã được xếp hạng
2.2.3 Nghiên cứu thực nghiệm với hệ thống hỏi đáp tiếng Việt
Năm 2011, chúng tôi [29] đã nghiên cứu thực nghiệm với hệ thống hỏi đáp thực thể tên người cho tiếng Việt, hệ thống gồm 2 pha chính:
Pha phân tích câu hỏi: Tập trung vào phân tích các đặc trưng để lấy ra thông tin của câu hỏi phục vụ cho các bước phía sau
Pha trích xuất câu trả lời:
• Pha trích xuất câu trả lời dựa trên tập câu hỏi và câu trả lời mẫu Câu hỏi đầu vào nếu tồn tại sẵn trong tập này thì hệ thống sẽ đưa ra ngay gợi ý câu trả lời có sẵn đã được lưu
• Pha trích xuất câu trả lời dựa trên tập dữ liệu do chính hệ thống thu thập và đánh chỉ mục Trong pha này hệ thống sẽ sử dụng dữ liệu có sẵn, phân tích và xử lý trả lời nhanh cho các thông tin của câu hỏi
• Pha trích xuất câu trả lời dựa vào máy tìm kiếm như: Google, Yahoo
… Do tốc độ xử lý phụ thuộc vào tốc độ tải các kết quả trả về từ máy tìm kiếm nên tốc độ xử lý của pha này khá chậm Vì thế chúng tôi sử dụng pha này trong trường hợp pha trích xuất câu trả lời từ kho tri thức tự thu thập không đưa ra được kết quả
Để tăng chất lượng câu trả lời của hệ thống, chúng tôi cũng hướng tới việc mở rộng ngữ nghĩa của truy vấn Trong [29], chúng tôi sử dụng từ điển đồng nghĩa có sẵn,
Trang 2315
chưa đề cập tới tri thức miền ứng dụng hỏi đáp thực thể tên người Khóa luận này được đặt ra nhằm tìm ra giải pháp tự động tìm kiếm các từ gần nghĩa thông qua quan hệ gần nghĩa với truy vấn, trước hết là động từ
Đây là một bài toán khó, có sự khác biệt với bài toán trích chọn quan hệ giữa các thực thể Bài toán trích chọn quan hệ giữa các thực thể thường xem xét ngữ cảnh câu còn đối với bài toán trích rút quan hệ gần nghĩa đòi hỏi xem xét trong phạm vi nhiều câu Chúng tôi đã khai thác ngữ cảnh nghĩa của các động từ trong tập hợp các câu trả lời của
hệ thống hỏi đáp thực thể tên người trong CSDL câu và trên Internet
Tóm tắt chương 2
Học bán giám sát để trích rút quan hệ ngữ nghĩa được xem như là một phương pháp tối ưu để giảm thiểu chi phí xây dựng tài nguyên [1] Hướng tiếp cận chính cho việc học hiện nay thường sử dụng kỹ thuật bootstrapping Kỹ thuật này nhận đầu vào là một tập nhỏ các hạt giống (tập mồi) của một mối quan hệ ngữ nghĩa và tiến hành sinh thêm tập mồi mới Kết quả thu được là một tập dữ liệu lớn biểu diễn mỗi quan hệ được quan tâm Theo Richard C Wang và William W Cohen [24], kĩ thuật bootstrapping cho kết quả tốt với tập mồi nhỏ (khoảng từ 3-5 mồi)
Từ những kiến thức về khái niệm, đặc trưng của từ gần nghĩa, một số phương pháp trích rút từ gần nghĩa như sử dụng mô hình ngôn ngữ 5-gram, mô hình thống kê, hay dựa vào mẫu ….(được giới thiệu trong chương 1), cũng như từ một số phương pháp dựa trên
kỹ thuật bootstrapping được giới thiệu trong chương 2, đồng thời dựa vào điều kiện thực
tế về ngôn ngữ tiếng Việt (phương pháp xử lý, tài nguyên ngôn ngữ học, kỹ thuật học máy), chúng tôi đề xuất mô hình học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa phù hợp với ngôn ngữ tiếng Việt được trình bày trong chương tiếp theo
Trang 2416
Chương 3: Mô hình trích rút quan hệ gần nghĩa và áp dụng mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt
3.1 Mô hình trích rút quan hệ gần nghĩa
Qua quá trình khảo sát các phương pháp trích rút quan hệ ngữ nghĩa nói chung và các phương pháp liên quan đến trích rút quan hệ gần nghĩa nói riêng, đồng thời dựa trên điều kiện thực tế về kỹ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kỹ thuật học máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, thêm vào đó là việc khảo sát dữ liệu trên web, cũng như kho dữ liệu câu chứa các thông tin liên quan tới người – Kho CSDL câu đã được chúng tôi tạo ra trong quá trình thực nghiệm mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt [2], chúng tôi nhận thấy rằng tồn tại nhiều câu được
biểu diễn dưới dạng: <Danh từ – Động từ – Danh từ> Từ các kiến thức cơ sở về quan
hệ gần nghĩa, các bài toán về trích rút quan hệ gần nghĩa, một số phương pháp về học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ ngữ nghĩa và quá trình khảo sát dữ liệu, chúng tôi đề xuất phương pháp sử dụng học bán giám sát dựa vào mẫu ngôn ngữ để trích rút quan hệ gần nghĩa
Đầu vào: Động từ/cụm động từ, từ điển giải nghĩa từ tiếng Việt, CSDL câu chứa
thông tin liên quan tới người
Đầu ra: Tập các động từ / cụm động từ gần nghĩa tương ứng
Ví dụ: đầu vào là {phát minh} => đầu ra: {sáng chế, tìm ra, …}
Dưới đây là mô hình cho việc trích rút quan hệ gần nghĩa Để đơn giản, chúng tôi ký hiệu như sau: N/Np – Danh từ/cụm danh từ; V – Động từ
Trang 2517
Mô hình và phương pháp giải quyết
Hình 2 : Mô hình trích rút quan hệ gần nghĩa
Trích chọn các câu có chứa bộ <N/Npi, V, N/Npj>
Trang 2618
Bước 3: Trích rút các V* trong các câu đồng dạng ở bước 2 Lặp lại bước 1 (Quá trình dừng khi không sinh mới được bộ <N/Npi , N/Npj> hoặc V*, hoặc quy định bước dừng)
Bước 4: Tiến hành phân cụm dựa vào tập câu trong bước 1, bước 2 và từ điển giải nghĩa tiếng Việt (dùng để giải nghĩa thành phần động từ) Kết quả là các động từ thuộc một cụm sẽ gần nghĩa nhau
Sau đây, khóa luận sẽ trình bày chi tiết từng bước:
Bước 1: Trích chọn các câu chứa bộ <N/Np i , V, N/Np j >
Với tập các câu đã được tách từ, nhận diện và gán nhãn, lựa chọn trích ra tập câu chứa bộ <N/Npi , V, N/Npj>
CSDL câu
Tìm kiếm Lucene
Danh sách các câu chứa
V
Trang 2719
Bước 2: Trích xuất tất cả các câu đồng dạng với từng câu ở bước 1, chỉ khác biệt trong thành phần động từ: <N/Np i , V * , N/Np j >
Hình 4:Trích xuất tập câu đồng dạng với từng câu trong bước 1
Đầu vào: Tập câu chứa bộ <N/Npi, V, N/Npj>
Đầu ra: Tập câu đồng dạng với từng câu trong bước 1(chỉ khác nhau ở
Trích xuất tập câu đồng dạng với từng câu trong bước 1
<N/Npi, V*, N/Npj>
Tập câu đồng dạng với từng câu trong bước 1, chỉ khác nhau ở thành phần động từ
Truy vấn Máy tìm kiếm
Tách từ, gán nhãn
Trích xuất tập câu đồng dạng với từng câu trong bước 1
<N/Npi, V*, N/Npj>
Tập câu đồng dạng với từng câu trong bước 1, chỉ khác nhau ở thành phần động từ
<N/Npi, V*, N/Npj>
CSDL
câu
Web
Trang 2820
• Bộ tìm kiếm Lucene: Tạo truy vấn từ các bộ <N/Npi, N/Npj> vào CSDL câu, trích ra tập câu chứa bộ
<N/Npi, N/Npj>, sau đó tiến hành tách từ, gán nhãn trích rồi trích ra tập câu đồng dạng với từng câu trong bước 1, chỉ khác nhau ở thành phần động từ, chúng có dạng <N/Npi, V*, N/Npj>
• Máy tìm kiếm: Từ các bộ <N/Npi, N/Npj> tạo truy vấn cho máy tìm kiếm Kết quả trả về là tập snippet, sau đó tiến hành tách câu, tách từ, gán nhãn và lựa chọn tập câu đồng dạng với từng câu trong bước 1, chỉ khác nhau ở thành phần động từ, chúng có dạng <N/Npi,
V*, N/Npj>
Bước 3: Lựa chọn V mới
Hình 5: Lựa chọn V mới
Đầu vào: Tập câu đồng dạng trong bước 2
Đầu ra: Động từ mới
Trang 2921
Bước4: Phân cụm
Hình 6: Phân cụm
Đầu vào: Tập câu trong bước 1, tập câu trong bước 2 và các câu giải nghĩa
trong từ điển nghĩa của từ tiếng Việt liên quan tới các động từ
Đầu ra: Động từ mồi và các động từ gần nghĩa với nó
Xử lý:
Từ tập câu trong bước 1, bước 2 và câu giải nghĩa của các động từ,biểu diễn đặc trưng của các câu dưới dạng vector, tiến hành phân cụm dựa vào thuật toán phân cụm phân cấp HAC, thông qua việc sử dụng bộ công cụ mã nguồn mở ASV-toolbox2
Sau khi phân cụm xong, tiến hành lựa chọn các động từ trong mỗi cụm Độ gần nghĩa của mỗi động từ được tính bằng tần suất xuất hiện của các động từ trong cụm
Trong khóa luận, chúng tôi tiến hành gom nhóm các động từ gần nghĩa, trong đó, các động từ được xác định là gần nghĩa dựa trên ngữ nghĩa và ngữ cảnh của những đặc
2 http://wortschatz.uni-leipzig.de/~cbiemann/software/toolbox/index.htm
Phân cụm
Động từ mồi và các động từ gần nghĩa
Tập các câu chứa bộ
<N/Npi, V, N/Npj>
ở bước 1
Tập câu đồng dạng với từng câu ở bước 1, chỉ khác nhau ở thành phần động từ <N/Npi, V*, N/Npj> ở bước 2
Từ điển nghĩa
của từ tiếng
Việt
Trang 3022
trưng đó Sau đây, khóa luận xin giới thiệu về cách biểu diễn ngữ nghĩa và ngữ cảnh của động từ, đồng thời giới thiệu giải thuật phân cụm phân cấp HAC:
Biểu diễn ngữ nghĩa:
Ví dụ, với động từ “khám phá”, sử dụng bộ từ điển giải nghĩa từ của từ điển tiếng Việt ta thu được câu giải nghĩa: “Khám phá là tìm ra, phát hiện ra cái còn Nn giấu, cái bí mật” Sau đó tiến hành loại bỏ từ dừng và tách từ Khi đó, ngữ nghĩa của nó sẽ được biểu diễn là: <khám phá, tìm ra, phát hiện, Nn giấu, bí mật>
Với những động từ có nhiều nghĩa, chúng tôi thực hiện trích xuất tất cả các nghĩa của từ đó Ví dụ, với động từ “tiến bộ”, có 2 nghĩa:
Nghĩa 1: “phát triển theo hướng đi lên tốt hơn trước”
Nghĩa 2: “phù hợp với xu hướng phát triển của lịch sử thời đại”
Như vậy, ngữ nghĩa của “tiến bộ” được biểu diễn là:
<tiến bộ, phát triển, đi lên, tốt hơn> và <tiến bộ, phù hợp, xu hướng, phát triển, lịch sử, thời đại>
Biểu diễn ngữ cảnh:
Khóa luận này xem xét ngữ cảnh của mỗi câu là động từ và những từ xuất hiện xung quanh động từ - thành phần bên trái và bên phải động từ, cụ thể, trong mẫu <N/Npi, V*, N/Npj> thành phần bên trái, bên phải động từ chính là bộ <N/Npi, N/Npj> Để hiểu rõ khái niệm về ngữ cảnh ở đây, xem xét ví dụ sau đây:
Từ động từ “phát minh” trích ra được tập câu trong bước 1:
S 1= “Samuel Morse phát minh ra mã điện” => ngữ cảnh của câu S1 thể hiện thông qua các từ <Samuel Morse, phát minh, mã điện>
S 2 = “Glaser phát minh ra buồng bọt” => ngữ cảnh của câu S2 thể hiện thông qua các từ <Glaser, phát minh, buồng bọt>
……
S i = “Thái Luân phát minh ra giấy” => ngữ cảnh của câu Si thể hiện thông qua các
từ <Thái Luân, phát minh, giấy>
Đối với các câu trong bước 2 cũng biểu diễn tương tự như vậy
Trang 31Sau đó, tiến hành bi
nghĩa tiếng Việt, trong bướ
một đối tượng dữ liệu, tiến hành phân c
đối tượng câu
Giải thuật phân cụm HAC
Thuật toán phân cụm tích t
rộng rãi và được tích hợp vào các
được coi như một cụm phân bi
nhau nhất hay khác nhau ít nh
cụm duy nhất chứa tất cả các ph
cần phân cụm, k là tham số
ra, q là tham số để dừng thu
hơn một ngưỡng nào đó, thu
Độ tương tự của 2 trang Web d
n hành biểu diễn dưới dạng vector: mỗi câu S i thu th
ớc 1 và bước 2 sẽ được biểu diễn dưới dạng vector M
n hành phân cụm theo giải thuật phân cụm phân c
m HAC
m tích tụ từ dưới lên HAC là thuật toán phân c
p vào các ứng dụng thu thập thông tin [1] Đầ
m phân biệt và sau đó tiến hành ghép lần lượt 2 c
t hay khác nhau ít nhất thành một, cho đến khi tất cả các cụm đư
các phần tử Gọi G là tập các cụm, S là tập h
để dừng thuật toán khi số lượng cụm mong mu
ng thuật toán khi độ tương tự giữa hai cụm được ch
ó, thuật toán HAC được thực hiện như sau:
a 2 trang Web d1 , d2 được định nghĩa là sim(d1
m, có một số phương pháp tính độ tương tự giữa S
a trọng tâm của S1 và S2: sim(S1, S2) = sim(c1, c
a hai cụm S1, S2
ại giữa 2 tài liệu thuộc vào 2 cụm – độ đo single
thu thập từ từ điển giải
ng vector Mỗi câu là
m phân cấp HAC cho
t toán phân cụm được sử dụng
ầu tiên mỗi phần tử
Trang 32Trong khóa luận này, sử dụng độ đo group-average Độ đo group-average tính toán
độ tương tự của 2 cụm dựa trên độ tương tự của toàn bộ cặp trang Web trong 2 cụm, chứ không chỉ dựa trên một cặp trang Web duy nhất [1] Do đó, nó tránh được các trường hợp không mong muốn như 2 độ đo single-link và complete-link (nghĩa là nó tránh được trường hợp tạo ra các cụm không mong muốn
3.2 Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt
3.2.1 Hệ thống hỏi đáp thực thể tên người tiếng Việt
Hệ thống hỏi đáp tự động là hệ thống được xây dựng để thực hiện việc tự động tìm kiếm câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác Các
hệ thống hỏi đáp tự động hiện nay có kiến trúc rất đa dạng, tuy nhiên chúng đều bao gồm
3 thành phân cơ bản [26, 13, 7]:
Phân tích câu hỏi: thành phần này nhằm tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời
Trích chọn tài liệu liên quan: Sử dụng câu truy vấn được tạo ra trong bước phân tích câu hỏi để tìm tài liệu liên quan đến câu hỏi
Trích xuất câu trả lời: Phân tích tập tài liệu trả về từ bước trích chọn tài liệu liên quan và sử dụng các thông tin hữu ích trong bước phân tích câu hỏi để đưa ra câu trả lời chính xác nhất
Đối với hệ thống hỏi đáp thực thể tên người tiếng Việt cũng bao gồm các thành phần như trên [2] Hệ thống nhận đầu vào là câu hỏi về người ở dạng ngôn ngữ tự nhiên
Trang 3325
tiếng Việt Đầu ra là tên thực thể người tương ứng Mô hình hệ thống sử dụng phương pháp phân tích câu hỏi bằng giải thuật học máy CRF cùng với việc áp dụng hai chiến lược trả lời tự động: chiến lược trả lời dựa trên kho tri thức tự thu thập và chiến lược trả lời dựa trên máy tìm kiếm
Hiện nay, thông tin liên quan ngữ cảnh của truy vấn là một vấn đề đang được các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thông tin Theo [28] thì có hai định nghĩa về ngữ cảnh Định nghĩa thứ nhất theo ngôn ngữ học “ngữ cảnh là các phần của bài luận bao quanh từ hay đoạn văn và có thể làm sáng tỏ nghĩa của nó” Định nghĩa thứ hai dựa trên tình huống “ngữ cảnh là các điều kiện tương quan trong đó một điều gì
đó tồn tại hay xảy ra”
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin, cùng hướng giải quyết làm sao cho hệ thống có thể hiểu nhiều hơn và thông minh hơn khi xử lý truy vấn ban đầu của người dùng, thì yêu cầu về một hệ thống có khả năng tạo ra những truy vấn tương đồng hoặc cùng mục tiêu là bài toán quan trọng
Trong bài toán mở rộng truy vấn, một số nhóm nghiên cứu trên thế giới đã sử dụng ontology WordNet [3] Một số nhóm khác đã phát triển ontology để phục vụ nhu cầu mở rộng truy vấn Những định hướng đặc biệt về cấu trúc ontology cần xây dựng bao gồm đề xuất về nhóm thành phần lớp, thể hiện, thuộc tính, hay đề xuất về nhóm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương đương (equivalence), hoặc phát triển một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ
Trang 3426
WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain)
Trong khuôn khổ khóa luận này, chúng tôi đề xuất việc trích rút quan hệ gần nghĩa
để mở rộng câu truy vấn trong hệ thống hỏi đáp thực thể tên người cho tiếng Việt Từ một truy vấn ban đầu của người dùng, mở rộng truy vấn sẽ bổ sung vào đó một số từ, cụm từ hay thuật ngữ gần nghĩa và tạo ra dạng truy vấn mới có thể bao phủ thông tin rộng hơn Như vậy, tài liệu ứng viên thu nhận sẽ nhiều hơn làm cho tỉ lệ bao phủ thông tin tăng lên tương ứng Quá trình thêm những từ, cụm từ hay thuật ngữ này có thể thực hiện bằng tay hoặc tự động Việc mở rộng truy vấn bằng tay đòi hỏi sự am hiểu và thành thạo của con người để đưa ra quyết định, nhằm mồi thêm các thuật ngữ vào truy vấn ban đầu Đối với việc mở rộng truy vấn tự động, các trọng số được tính cho tất cả các từ, cụm từ hay thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ có trọng số cao nhất để đNy vào truy vấn ban đầu Các hàm tính trọng số khác nhau sẽ cho kết quả khác nhau, do đó hiệu suất phụ thuộc vào cách thức tính các trọng số
3.2.3 Mở rộng truy vấn cho hệ thống hỏi đáp thực thể tên người tiếng Việt
Một trong những thách thức đối với hệ thống hỏi đáp là tồn tại nhiều câu hỏi giống nhau về cách hỏi, các thành phần câu hỏi chỉ sai khác nhau ở một số từ/cụm từ cũng như kết quả trả lời như nhau Nguyên nhân dẫn đến vấn này là do các từ/ cụm từ sai khác nói trên là những từ/cụm từ đồng nghĩa/gần nghĩa Việc phát hiện ra các bộ câu hỏi giống nhau cho phép hệ thống nâng cao tốc độ và chất lượng câu trả lời
Ví dụ:
Ai là người tìm ra châu Mỹ ? (1)
Ai là người phát hiện ra châu Mỹ ? (2)
Trong hai ví dụ trên, hai cụm từ “tìm ra” và “phát hiện” là cặp cụm từ gần nghĩa
Cả 2 câu trên đều trả về kết quả là : Christopher Columbus
Có rất nhiều hướng tiếp cận giải quyết vấn đề này, chúng tôi đề xuất việc sử dụng tập các động từ gần nghĩa được tạo ra trong bài toán trích rút quan hệ gần nghĩa nhằm mở rộng tập từ khóa tìm kiếm nâng cao khả năng trích xuất câu trả lời cho người dùng
Chiến lược như sau: Khi người dùng đặt một câu hỏi có dạng như (1), hệ thống hỏi đáp thực thể tên người tiếng Việt [2] phân tích tạo thành tập từ khóa : “tìm ra”, “châu
Mỹ ” ; bằng phương pháp sử dụng tập các từ đồng nghĩa, hệ thống biết rằng cụm từ “tìm
ra ” có cụm từ gần nghĩa là “phát hiện” … tập từ khóa truy vấn sau khi được mở rộng