Vì lý do trên, đề tài đặt mục tiêu nghiên cứu áp dụng các đặc điểm của ngữ pháp tiếng Việt để phân tích các ngữ đoạn trong truy vấn tiếng Việt từ đó xác định ngữ nghĩa của truy vấn để nâ
Trang 1TÓM TẮT
Đề tài đặt mục tiêu xây dựng một mô hình tìm kiếm thông tin dựa trên ngữ nghĩa cụm từ truy vấn cho các văn bản tiếng Việt Theo các kết quả nghiên cứu của đề tài, mô hình có các thành phần chính gồm thành phần phân tích ngữ nghĩa, thành phần lập chỉ mục và thành phần tìm kiếm
Thành phần phân tích ngữ nghĩa là thành phần quan trọng nhất trong hệ thống Thành phần này sử dụng một cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được xây dựng
để mô tả các quan hệ ngữ pháp và ngữ nghĩa giữa các lớp nghĩa Các lớp nghĩa là ý nghĩa thực sự của các từ trong ngữ cảnh xác định Quá trình phân tích ngữ nghĩa gồm các bước xác định lớp nghĩa, xác định quan hệ giữa các lớp nghĩa để sản sinh cấu trúc biểu diễn ngữ nghĩa của các cụm từ truy vấn từ biểu diễn bằng văn bản của nó
Thành phần lập chỉ mục thực hiện việc lập chỉ mục cho cấu trúc biểu diễn ngữ nghĩa của các ngữ đoạn theo cấu trúc chỉ mục nghịch đảo Có hai loại đối tượng để lập chỉ mục: các lớp nghĩa và các quan hệ của các lớp nghĩa Vì vậy, thành phần lập chỉ mục sử dụng hai cấu trúc chỉ mục nghịch đảo
Thành phần tìm kiếm được thiết kế để tìm những câu phù hợp với truy vấn Trong quá trình tìm kiếm, câu truy vấn được phân tích thành các lớp nghĩa và các quan
hệ của nó, gọi là đối tượng tìm kiếm Đối tượng tìm kiếm này được tìm trong cấu trúc chỉ mục thích hợp theo mô hình Extended Boolean với độ đo là độ tương đồng ngữ nghĩa Độ tương đồng ngữ nghĩa được xác định là khoảng cách giữa hai lớp nghĩa trên
cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
Để đánh giá mô hình, một hệ thống tìm kiếm tài liệu văn bản tiếng Việt dựa trên ngữ nghĩa đã được xây dựng theo mô hình đề xuất Hệ thống được đánh giá bằng một tập dữ liệu kiểm thử gồm các truy vấn được xây dựng thủ công cùng với các kết quả của
nó Kết quả đánh giá hệ thống có độ phủ đạt 78.35%, độ chính xác đạt 96,55%, độ F đạt 86,51%
Trang 2Abstract
This project aims at establishing a phrasal query based semantic information retrieval model for Vietnamese texts According to the research results, the model has three main components that are Semantic Analysis component, Indexing component and Searching component
The Semantic Analysis component is the most important component in the model This component uses a Vietnamese lexical ontology which is built to describe the grammatical and semantic relations between semantic classes Semantic classes are the meaning of words in specific context The process of semantic analysis composes of Semantic tagging, Dependency parsing to generate semantic representations of Vietnamese phrases from their representation strings
The Indexing component executes the process of indexing the semantic representation of phrases in Inverted Index structure There are two kinds of term for indexing: the semantic classes and the relations of the semantic classes, therefore Indexing component has two Inverted Index structures
The Searching component is designed to find the appropriate sentences with a query In finding process, the query is analyzed into semantic classes and semantic relations, called terms These terms are searched in the appropriate index structure using Extended Boolean model with the proposed semantic similarity metric The semantic similarity is defined as the distance of two semantic classes on the Vietnamese Lexicon ontology
To evaluate the model, a system of phrasal query based semantic information retrieval has been built according to the model The system is tested with a set of manually created queries and their expected results The evaluation of the system shows
the recall of 78.35%, the precision of 96.55% and the F-measure of 86.51%
Keywords: semantic information retrieval, Vietnamese Lexicon Ontology,
semantic class tagging, semantic similarity, semantic indexing, semantic searching
Trang 3DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
Trang 5DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Hình 1 Mô hình tổ chức từ vựng tiếng Việt 30
Hình 2 Xây dựng Ontology theo chiến lược từ trên xuống 33
Hình 3 Xây dựng Ontology theo chiến lược từ dưới lên 33
Hình 4 Xây dựng Ontology theo chiến lược tổng hợp 34
Hình 5 Sơ đồ thiết kế công cụ hỗ trợ xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt 38
Hình 6 Giao diện công cụ hỗ trợ xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt 34
Hình 7 Minh họa phương pháp tổ chức từ vựng 45
Hình 8 Các thành phần chính trong cấu trúc cú pháp câu tiếng Việt 54
Hình 9 Mô hình tìm kiếm thông tin theo ngữ nghĩa dạng 1 56
Hình 10 Mô hình tìm kiếm thông tin theo ngữ nghĩa dạng 2 57
Hình 11 Mô hình tìm kiếm thông tin theo ngữ nghĩa cụm từ truy vấn 58
Hình 12 Cấu trúc chỉ mục lớp nghĩa 65
Hình 13 Cấu trúc chỉ mục quan hệ nghĩa 66
Hình 14 Kiến trúc bộ phận thu thập 69
Hình 15 Kiến trúc bộ phận lập chỉ mục 71
Hình 16 Kiến trúc phân hệ khai thác 72
Trang 6LỜI CẢM ƠN
Trước tiên, chúng tôi xin chân thành cảm ơn Ban Giám đốc Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) và các Phòng, Ban thuộc ĐHQG-HCM đã xem xét, đánh giá và cho phép chúng tôi thực hiện đề tài nghiên cứu này Với sự tài trợ kinh phí của ĐHQG-HCM, chúng tôi có cơ hội tiến hành nghiên cứu ý tưởng xây dựng một
hệ thống tìm kiếm thông tin văn bản dựa trên ngữ nghĩa Chúng tôi mong muốn nghiên cứu vấn đề này vì tính ứng dụng của nó Bên cạnh đó, những vấn đề nghiên cứu khi thực hiện đề tài này cũng góp phần vào giải quyết một số vấn đề liên quan trong lĩnh vực xử lý ngôn ngữ tự nhiên vốn là lĩnh vực nghiên cứu chuyên sâu của chúng tôi
Chúng tôi cũng chân thành cảm ơn Ban Giám hiệu Trường Đại học Công nghệ thông tin và các Phòng chức năng đã tạo điều kiện thuận tiện nhất cho chúng tôi thông qua việc hỗ trợ các công tác tài chính, hành chính và về thời gian cho chúng tôi thực hiện đề tài này
Một lần nữa chúng tôi xin chân thành cảm ơn!
Nhóm tác giả
Trang 7CHƯƠNG 1 GIỚI THIỆU VẤN ĐỀ
1.1 VẤN ĐỀ TÌM KIẾM THÔNG TIN DỰA TRÊN NGỮ NGHĨA
Vấn đề tìm kiếm thông tin dựa trên ngữ nghĩa được Bertram Raphael [3] đề xuất năm 1964 Trong công trình nghiên cứu của mình, Bertram Raphael đã đưa ra một số quan điểm nhằm giải quyết vấn đề tìm kiếm thông tin dựa trên ngữ nghĩa như sau:
Ngữ nghĩa có được từ nhận thức của con người và được biểu diễn và lưu trữ trong bộ não của con người Vì vậy, để có thể hiểu được ngôn ngữ tự nhiên của con người, cần tìm hiểu cách con người biểu diễn thông tin trong bộ não để biễu diễn tương tự trong máy tính, tạo nên có sự đồng nhất giữa máy tính và bộ não
Ngữ nghĩa được xét theo hai quan điểm: Theo quan điểm thuần túy hình thức, ngữ nghĩa là kết quả của việc sử dụng các quy tắc xây dựng và tổ chức câu kết hợp với các giá trị logic Các quy tắc này được xác định theo logic hình thức Chẳng hạn đối với câu “nếu trời mưa thì đường ướt” có thể chuyển thành “A B”, trong đó A là sự kiện “trời mưa” và B là sự kiện “đường ướt”, và ngữ nghĩa của câu trên phụ tùy thuộc vào giá trị chân lý của A và B Quan điểm này được Irene Heim và Angelika Kratzer [8] phát triển Theo quan điểm mô tả, ngữ nghĩa của một câu ngoài giá trị chân trị của nó còn có ý nghĩa về mặt ngôn ngữ của nó Vấn đề ý nghĩa về mặt ngôn ngữ là vấn đề cần giải quyết trong tìm kiếm thông tin theo ngữ nghĩa
Một từ có thể chứa một nội dung hoặc giữ một chức năng trong câu Những
từ chỉ giữ một chức năng nào đó trong câu được gọi là function word Từ chứa một nội dung nào đó được gọi là content word Loại từ content word được dùng
để gọi tên các đối tượng, sự kiện, sự biến đổi trong thế giới và loại từ function word được dùng để liên kết các content word Tác giả theo quan điểm một câu
không phải là sự kết hợp của các thuật ngữ đơn lẻ Bản thân một câu có thể là
Trang 8một thuật ngữ Trong trường hợp đầy đủ, một câu là để mô tả, giải thích hoặc suy diễn Trong trường hợp rút gọn, một câu được dùng như một thuật ngữ Vì vậy có những câu được dùng làm chủ ngữ trong một câu khác Do đó, ngữ nghĩa không phải chỉ là các đối tượng, mà còn có các quan hệ giữa các đối tượng đó
Tổ chức các từ theo dạng cây với thứ tự “<”chỉ quan hệ chứa trong hoặc thuộc Động từ và các giới từ biểu diễn quan hệ giữa các thực thể Các động từ cũng được tổ chức dạng cây với quan hệ chứa trong hoặc thuộc Giả sử có câu S V1 O, và V1 < V2, trong đó S là chủ ngữ, V1 và V2 là các động từ, O là tân ngữ, thì câu S V2 O là một câu đúng
Ngữ pháp cung cấp, bổ sung thông tin để xác định ngữ nghĩa dễ dàng hơn Trong ngôn ngữ tự nhiên, ngữ pháp có chức năng như những ký hiệu để giúp con người nhanh chóng xác định được ngữ nghĩa trong giao tiếp Vì thế, ngữ pháp cũng có thể dùng để phân lớp ý nghĩa
Các quan điểm về tìm kiếm thông tin dựa trên ngữ nghĩa của Bertram Raphael chi tiết và đầy đủ Mặc dù tác giả đã giới thiệu phương pháp để xác định kết quả tìm kiếm một cách rõ ràng, tuy nhiên vấn đề tổ chức phân lớp từ và xác định các quan hệ giữa chúng cho một phương pháp như vậy là một vấn đề rất phức tạp
Vấn đề tìm kiếm thông tin dựa trên ngữ nghĩa có ý nghĩa lớn trong khai thác dữ liệu
và thu hút sự đầu tư nghiên cứu nhằm tìm ra giải pháp Hiện tại, theo kết quả khảo sát của đề tài này, một số kết quả nghiên cứu về vấn đề tìm kiếm thông tin dựa trên ngữ
nghĩa như sau:
1.1.1 Ngoài nước:
Đối với vấn đề tìm kiếm thông tin dựa trên ngữ nghĩa, giải pháp của của Bertram Raphael được xây dựng chặt chẽ và chi tiết Tuy nhiên, vấn đề chính là xây dựng được một tập từ vựng đủ lớn và có cấu trúc chặt chẽ như đã đề xuất vốn là vấn đề phức tạp Ngoài ra, việc tìm kiếm thông tin dựa trên ngữ nghĩa còn phải đảm bảo hiệu quả của việc tìm kiếm Vì vậy, vấn đề tìm kiếm thông tin theo ngữ nghĩa hiện chưa xử lý vấn đề logic trong câu mà phần lớn tập trung giải quyết vấn đề từ đồng nghĩa, từ đồng âm, từ
Trang 9bao hàm (hypernym) và từ được bao hàm (hyponym) theo quan hệ thượng hạ vị; kế đến
là giải quyết sự liên quan về mặt ngữ nghĩa giữa hai văn bản được xây dựng dựa trên kết quả xác định từ đồng nghĩa và từ đồng âm Vấn đề này được nghiên cứu theo hai hướng chính, gồm: Mở rộng truy vấn (Query Expansion hay Query Enrichment) và chú giải ngữ nghĩa (Semantic Annotation) Nhìn chung, cả hai hướng này đều đang giải quyết một vấn đề trong tìm kiếm thông tin theo ngữ nghĩa đó là xác định chính xác đối tượng
và sự kiện được nhắc đến để tìm kiếm chúng mà chưa giải quyết vấn đề quan hệ giữa
các đối tượng đó
Mở rộng truy vấn:
Công trình nghiên cứu của một số tác giả như Fernández Sánchez [10], Stein L Tomassen [11] và Julian Szymanski [12] cho thấy một số đặc điểm chung trong phương pháp giải quyết vấn đề như sau:
- Các giải pháp theo hướng này tập trung phân tích câu truy vấn thành các từ khóa, sau đó sản sinh tập từ khóa mới như trong [11] Tập từ khóa mới này gồm các từ khóa đã phân tích được và các từ khóa đồng nghĩa với chúng để hình thành các câu truy vấn mở rộng
- Quá trình phân tích từ khóa và sản sinh tập từ khóa có thể dùng từ điển đồng nghĩa hoặc dùng ontology thuộc miền tri thức mà hệ thống tìm kiếm sẽ được áp dụng Việc mở rộng câu truy vấn như trong [10] và [12] có thể dùng cả từ bao hàm hoặc từ bộ phận của từ cần mở rộng
- Các câu truy vấn mở rộng và câu truy vấn gốc sau đó được dùng để tìm kiếm trong tập tài liệu theo mô hình tìm kiếm Extended Boolean [9]
Theo hướng nghiên cứu này, Julian Szymanski [12] sử dụng khái niệm semantic memory, trong đó quan niệm các khái niệm là biểu diễn của trí nhớ về sự vật, hiện tượng trong thế giới thực và từ ngữ chỉ là những nhãn của các khái niệm này Những khái niệm này được biểu diễn bằng các bộ ba object – relation – feature Khi tìm kiếm thông tin, các đặc điểm trong truy vấn sẽ được rút trích Sau đó, dựa vào các đặc điểm này sẽ xác định sự vật chứa các đặc điểm đó và tìm kiếm các tài liệu chứa các sự vật đã được xác định Công trình này của Julian Szymanski giải quyết được vấn đề định danh trong ngôn ngữ Cụ thể là trường hợp một khái niệm được biểu diễn bằng tên riêng, nhưng cũng được biểu diễn bằng một ngữ đoạn mang tính phân tích Ví dụ: “laptop” với
Trang 10“personal computer for mobile use” trong tiếng Anh và “tivi” với “máy truyền hình”
trong tiếng Việt
Chú giải ngữ nghĩa:
Công trình nghiên cứu của các tác giả Thomas C Rindflesch [13], Julio Gonzalo [14], Fausto Giungchiglia [15] và Ofer Egozi [16] cho thấy một số đặc điểm chung của phương pháp này như sau:
- Các giải pháp theo hướng semantic annotation tập trung vào việc phân tích tài liệu và câu truy vấn để xác định các ngữ đoạn có ý nghĩa trong tài liệu Việc phân tích được thực hiện qua ba bước chính: 1) Phân tích ngữ pháp các câu trong tài liệu để xác định các ngữ đoạn 2) Xác định các ngữ đoạn có cấu trúc phù hợp với yêu cầu tìm kiếm của miền tri thức mà hệ thống cần phục vụ 3) Dùng ontology thuộc miền tri thức mà hệ thống sẽ phục vụ để sinh các ngữ đoạn
có nội dung tương đương
- Việc tìm kiếm tài liệu được thực hiện theo mô hình Extended Boolean [9] nhưng đối tượng được dùng để so sánh không phải là từ khóa mà là các ngữ đoạn đã được xác định trong quá trình chú giải ngữ nghĩa
Trong hướng nghiên cứu này, chú giải ngữ nghĩa có thể là kết quả phân lớp tài liệu dựa vào tập các lớp ngữ nghĩa đã được xác định trước như trong [14] và [16] Các lớp ngữ nghĩa này có thể là tựa của các bài viết trên một nguồn đáng tin cậy nào đó như wikipedia theo [16] Một tài liệu thuộc một phân lớp ngữ nghĩa, là tựa của một bài viết, nếu tài liệu đó có độ tương đồng về nội dung với bài viết trên một ngưỡng xác định Một tài liệu có thể liên quan đến nhiều phân lớp ngữ nghĩa Vì thế các phân lớp ngữ nghĩa này sẽ là các chiều trong không gian ngữ nghĩa và mỗi tài liệu sẽ được biểu diễn
bằng một vector ngữ nghĩa xác định
1.1.2 Trong nước:
Ở phạm vi trong nước, hiện chưa có kết quả công bố chính thức về một mô hình tìm kiếm thông tin dựa trên ngữ nghĩa cho tiếng Việt Tuy nhiên, có nhiều công trình nghiên cứu liên quan đến xử lý tiếng Việt như:
- Xây dựng dữ liệu từ vựng cho tiếng Việt có các công trình như: xây dựng dữ liệu chú giải hình thái – ngữ pháp cho từ vựng [21] và xây dựng ngữ liệu được
Trang 11chú giải ngữ pháp [22] nhằm tạo ra một nguồn dữ liệu là các câu đã được chú giải về mặt ngữ pháp và hình thái học cho từng từ xuất hiện trong câu Dữ liệu liệu này rất cần thiết cho việc rút ra các quy tắc ngữ pháp và phục vụ cho các công cụ gán nhãn từ loại tự động, vốn là bước quan trọng để phân tích ngữ pháp Bên cạnh đó, công trình xây dựng từ điển tiếng Việt cho máy tính [23] tổ chức
từ vựng không chỉ dựa vào từ loại, mà còn đưa các yếu tố ngữ nghĩa vào từ loại tạo thành các tiểu loại của chúng Kết quả công trình này rất cần thiết để phục vụ cho việc xây dựng một công cụ phân tích ngữ pháp tự động theo phương pháp Ngữ pháp cấu trúc ngữ đoạn hướng tâm [5] (Head-driven Phrase Structure Grammar)
- Phân tích từ loại trong câu tiếng Việt trong [20] theo mô hình Maximum Entropy dùng trong bộ phân tích từ loại Stanford-Tagger trong [17]
- Vấn đề xử lý ngữ nghĩa tiếng Việt áp dụng cho phạm vi ứng dụng cụ thể có các công bố về xử lý ngữ nghĩa câu hỏi tiếng Việt cho hệ thống trả lời câu hỏi (QA) tiếng Việt trong [18], hệ thống tìm kiếm trong thư viện điện tử trong [19] Các kết quả nghiên cứu này cung cấp nhiều thông tin có giá trị cho việc phân tích và xác định ngữ nghĩa văn bản tiếng Việt Đặc biệt là công trình xây dựng dữ liệu từ vựng điện toán tiếng Việt đã kết hợp yếu tố ngữ nghĩa và ngữ pháp trong biểu diễn từ vựng để phục vụ cho việc phân tích ngữ nghĩa tốt hơn
1.2 MỤC TIÊU NGHIÊN CỨU
Như đã trình bày trong phần giới thiệu, mặc dù đã có nhiều công công trình nghiên cứu về tìm kiếm thông tin theo ngữ nghĩa nhưng hầu hết áp dụng cho các ngôn ngữ Ấn – Âu vốn thuộc ngôn ngữ biến hình trong khi tiếng Việt là một ngôn ngữ đơn lập [1] Vì thế các phương pháp phân tích ngữ pháp và xác định ngữ nghĩa trong các công trình nghiên cứu của nước ngoài không thể áp dụng trực tiếp cho dữ liệu tiếng Việt Vì lý do trên, đề tài đặt mục tiêu nghiên cứu áp dụng các đặc điểm của ngữ pháp tiếng Việt để phân tích các ngữ đoạn trong truy vấn tiếng Việt từ đó xác định ngữ nghĩa của truy vấn để nâng cao độ chính xác của kết quả tìm kiếm
Trang 121.2.1 Khái niệm về tìm kiếm thông tin theo ngữ nghĩa:
Như đã trình bày trong phần 1.1, ngữ nghĩa được hiểu kết quả logic của một biểu thức logic được biểu diễn bằng một tập các câu trong ngôn ngữ tự nhiên Khái niệm này
sẽ phù hợp với việc xử lý để hiểu ý nghĩa của một đoạn văn bản Tuy nhiên, vấn đề tìm tài liệu được đặt ra là xác định những tài liệu chứa những đoạn văn bản cần tìm, và tìm kiếm tài liệu theo ngữ nghĩa là xác định những tài liệu chứa những đoạn văn bản cần tìm nhưng có thể được biểu diễn bằng những từ ngữ khác, tiến xa hơn nữa là có thể được biểu diễn bằng cấu trúc cú pháp khác Vì thế, các hệ thống tìm kiếm thông tin theo ngữ nghĩa xác định mục tiêu cần giải quyết là một đối tượng, hiện tượng hoặc hành vi
có thể được biểu diễn bằng những từ và ngữ khác nhau, nếu sử dụng những từ ngữ cùng chỉ đến một đối tượng, hiện tượng hoặc hành vi thì hệ thống phải nhận biết những từ ngữ này là một
Dựa vào mục tiêu của tìm kiếm thông tin theo ngữ nghĩa như trên, vấn đề tìm kiếm thông tin theo ngữ nghĩa được xác định trong đề tài này là xác định được đối tượng, hiện tượng hoặc sự biến đổi được biểu diễn bằng một cụm từ Việc tìm kiếm thông tin trong mô hình được nghiên cứu là sự tìm kiếm các đối tượng, hiện tượng hoặc
sự biến đổi này chứ không phải tìm kiếm các ký hiệu ngôn ngữ xuất hiện trong ngữ đoạn Bên cạnh đó, tìm kiếm thông tin theo ngữ nghĩa không suy luận trên thông tin của tài liệu để tìm kiếm mà chỉ tìm ngữ nghĩa trực tiếp của từ vựng Ví dụ, một tài liệu có đoạn “tổng thống Mỹ” thì một truy vấn là “Obama” sẽ không thể tìm tài liệu này vì cơ chế xử lý ngữ nghĩa chỉ xử lý ngữ nghĩa của từ vựng trong đó giữa ngữ đoạn “tổng thống Mỹ” và tên riêng “Obama” không có quan hệ ngữ nghĩa về mặt từ vựng gì với nhau mà chỉ có quan hệ về tri thức trong đó định nghĩa đối tượng có tên Obama hiện tại (2014) là tổng thống Mỹ
Với mục tiêu đã đề ra, có bốn nội dung chính cần được nghiên cứu để giải quyết
vần đề này gồm:
1.2.2 Xây dựng một cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt:
Xây dựng một cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt nhằm nghiên cứu phương pháp tổ chức từ vựng theo các đặc điểm ngữ nghĩa và những quan hệ ngữ nghĩa
Trang 13giữa chúng để biểu diễn nghĩa của từ ngữ tiếng Việt và phương pháp xác định ngữ đoạn Việc xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được thực hiện theo trình tự:
- Xác định cấu trúc tổ chức tập từ vựng;
- Chọn tập tài liệu tiếng Việt thuộc một lĩnh vực xác định;
- Xác định tất cả các quan hệ giữa các khái niệm theo ngữ nghĩa phổ biến của chúng;
- Xây dựng chương trình máy tính phục vụ việc nhập từ vựng
1.2.3 Xây dựng cơ chế lập chỉ mục văn bản tiếng Việt dựa trên ngữ nghĩa cụm từ:
Xây dựng cơ chế lập chỉ mục văn bản tiếng Việt dựa trên ngữ nghĩa cụm từ nhằm nghiên cứu phương pháp lập chỉ mục văn bản tiếng Việt dựa trên việc xác định trung tâm của các cụm từ và biểu diễn ngữ nghĩa cụm từ Việc lập chỉ mục nhằm mục đích hỗ trợ quá trình tìm kiếm nhanh chóng hơn Vấn đề xây dựng cơ chế lập chỉ mục văn bản tiếng Việt dựa trên ngữ nghĩa cụm từ được thực hiện qua các bước:
- Nghiên cứu phương pháp phân tích từ loại tiếng Việt;
- Nghiên cứu phương pháp xác định trung tâm của cụm từ;
- Nghiên cứu mô hình biểu diễn ngữ nghĩa cụm từ tiếng Việt;
- Nghiên cứu cơ chế lập chỉ mục dựa trên ngữ nghĩa cụm từ
1.2.4 Tìm kiếm dựa trên ngữ nghĩa cụm từ truy vấn:
Tìm kiếm dựa trên ngữ nghĩa cụm từ truy vấn nhằm nghiên cứu cơ chế tìm kiếm dựa trên ngữ nghĩa của cụm từ truy vấn trong cơ sở dữ liệu chỉ mục ngữ nghĩa Bao gồm:
- Nghiên cứu phương pháp tìm kiếm dựa trên ngữ nghĩa cụm từ truy vấn;
- Nghiên cứu xây dựng chuẩn (metric) đánh giá độ tương đồng giữa hai cụm
Trang 14bản tiếng Việt dựa trên ngữ nghĩa cụm từ truy vấn để phục vụ cho việc thử nghiệm Bao gồm:
- Thiết kế các thành phần chức năng theo mô hình hệ thống;
- Thiết kế các lớp, thư viện để hiện thực các chức năng của hệ thống;
- Tích hợp hệ thống;
- Kiểm thử, sửa lỗi;
- Xây dựng tập dữ liệu mẫu để xác định độ chính xác và độ phủ của hệ thống;
- Đánh giá hệ thống;
1.3 PHẠM VI NGHIÊN CỨU
Đề tài nghiên cứu liên quan đến hai vấn đề trong xử lý ngôn ngữ tự nhiên là tìm kiếm thông tin và phân tích cú pháp Vì thế, phạm vi nghiên cứu của đề tài được xác định như sau:
Đối với vấn đề tìm kiếm thông tin, đề tài đặt mục tiêu nghiên cứu một mô hình tìm kiếm tài liệu theo ngữ nghĩa cụm từ truy vấn vì vậy vấn đề nghiên cứu sẽ khác với các
hệ thống hỏi đáp Cụ thể, đề tài đặt mục tiêu tìm kiếm tài liệu chứa những đối tượng, sự kiện, hiện tượng được biểu diễn bằng cụm từ truy vấn mà không suy diễn dựa trên thông tin có trong tài liệu để trả lời cho truy vấn Kết quả của tìm kiếm là một danh sách các tài liệu có liên quan đến các đối tượng, sự kiện, hiện tượng trong truy vấn Như vậy, giả sử một tài liệu chứa một đoạn văn “tài liệu này không giải quyết vấn đề biểu diễn diễn ngôn tiếng Việt” và có một câu truy vấn “biểu diễn diễn ngôn tiếng Việt” thì tài liệu đó vẫn được liệt kê trong danh sách tài liệu phù hợp với truy vấn, thậm chí có thứ hạng cao trong danh sách tài liệu trả về
Đối với vấn đề phân tích cú pháp, đề tài đặt mục tiêu xử lý ngữ nghĩa của cụm từ truy vấn nhằm xác định đối tượng, sự kiện, hiện tượng được biểu diễn bằng cụm từ Vì thế, mục tiêu quan trọng là xác định được ngữ nghĩa của các từ trong cụm từ đồng thời xác định được quan hệ giữa các từ trong cụm từ gồm quan hệ nhân tố trong khung vị từ, quan hệ bổ nghĩa giữa các từ để tạo thành ngữ đoạn Mặc dù việc xác định các quan hệ này sẽ dẫn đến vấn đề phân tích cú pháp cho tiếng Việt; tuy nhiên, với mục tiêu đã xác định, vấn đề phân tích cú pháp sẽ được tiến hành cho các câu có một cấu trúc vị từ Đối
Trang 15với các câu phức (có liên từ hoặc các dấu câu tương ứng) sẽ được phân chia thành những cụm từ và phân tích trên các cụm từ đó
Trong vấn đề phân tích ngữ nghĩa, phạm vi nghiên cứu của đề tài cũng giới hạn trong việc xử lý ngữ nghĩa trực tiếp của cụm từ, không xử lý các trường hợp nói giảm, nói tránh, hàm ý, ẩn ý
1.4 TỔ CHỨC BÁO CÁO
Báo cáo được tổ chức thành 5 chương gồm: Chương 1 Giới thiệu vấn đề nhằm giới thiệu về vấn đề tìm kiếm thông tin dựa trên ngữ nghĩa và các vấn đề được nghiên cứu giải quyết trong đề tài này Chương 2 Xây dựng một cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt: trình bày đặc điểm ngữ pháp tiếng Việt, phương pháp tổ chức từ vựng tiếng Việt và công cụ hỗ trợ xây dựng dữ liệu từ vựng tiếng Việt Chương 3 Phương pháp phân tích từ loại tiếng Việt Chương 4 trình bày mô hình tìm kiếm văn bản tiếng Việt dựa trên ngữ nghĩa cụm từ truy vấn Kết quả xây dựng hệ thống thử nghiệm và đánh giá
hệ thống được trình bày trong chương 5 Chương 6 trình bày một số kết luận và hướng phát triển
Trang 16CHƯƠNG 2 XÂY DỰNG MỘT CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG
VIỆT
2.1 VẤN ĐỀ XÂY DỰNG CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT
2.1.1 Nhu cầu xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt:
Trong xử lý ngôn ngữ tự nhiên dưới dạng văn bản, mục tiêu chính là có thể xác định
và biểu diễn được nghĩa của một ngữ đoạn hoặc của một câu để từ đó có thể sử dụng để giải quyết các vấn đề về khai thác dữ liệu văn bản Để có thể xác định được ngữ nghĩa của một ngữ đoạn, các vấn đề sau cần được giải quyết theo trình tự: phân tích ngữ pháp, phân tích ngữ nghĩa và phân tích ngữ dụng Phân tích ngữ pháp đặt mục tiêu là xác định được từ loại của mỗi từ và những từ nào liên kết với nhau tạo thành các ngữ đoạn Phân tích ngữ nghĩa dựa trên kết quả phân tích ngữ pháp để xác định ngữ nghĩa của ngữ đoạn Nghĩa của ngữ đoạn không phải là nghĩa của từng từ vựng ghép lại mà phải tuân theo một quy luật ngôn ngữ được đánh dấu bằng ngữ pháp của ngữ đoạn đó Ngữ nghĩa được xác định trong bước phân tích này chỉ là nghĩa thông thường của ngữ đoạn, hay còn gọi
là nghĩa đen Kết quả của phân tích ngữ nghĩa sẽ được sử dụng để phân tích ngữ dụng trong một ngữ cảnh để biết được ý nghĩa thực sự của một ngữ đoạn là gì ngoài ngữ nghĩa thông thường của nó Ví dụ câu “cái mũ của em để ở đâu” có nghĩa thông thường
là một câu hỏi, tuy nhiên trong một ngữ cảnh em học sinh đang ở trong lớp, câu đó có thể có nghĩa là “em hãy cất mũ đi”
Vấn đề xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt cần thiết vì theo trình
tự phân tích từ thấp đến cao, vấn đề xác định từ loại được thực hiện trước tiên và là một bước rất quan trọng Bước xác định từ loại này cần có một dữ liệu từ vựng bao gồm ít nhất hai thông tin: biểu diễn bằng ký tự của từ và phân loại của nó Thông tin này có thể được dùng để phân tích ngữ pháp nhưng với độ chính xác chưa được tốt Nguyên nhân
Trang 17là các quan hệ về mặt ngữ pháp cũng bị chi phối bởi ý nghĩa của từ vựng Ví dụ câu
“Anh ấy cho con tiền” nếu phân tích từ vựng sẽ có “Anh ấy/PRN cho/VB con/N tiền/N”
và sẽ không thể xác định đâu là tân ngữ trực tiếp và tân ngữ gián tiếp trong hai từ “con”
và “tiền” Để kiểm tra khả năng sử dụng tập nhãn từ loại được dùng trong từ điển tiếng Việt để dựa vào nó phân tích ngữ pháp, 2000 ngữ đoạn được gán nhãn một cách thủ công Quá trình gán nhãn rút ra kết luận là không thể chỉ dựa vào các nhãn từ loại để xác định những từ nào có thể tạo thành một ngữ đoạn và trong ngữ đoạn đó thì đâu là từ trung tâm Theo phân tích của tác giả Cao Xuân Hạo [2], từ làm trung tâm trong danh ngữ thường là danh từ đếm được cho thấy yếu tố ý nghĩa của từ cần phải được xem xét trong quá trình xác định chức năng của từ trong ngữ đoạn
Đối với tiếng Anh, vấn đề xây dựng cơ sơ tri thức ngữ nghĩa từ vựng đã được nghiên cứu và có kết quả được sử dụng rộng rãi như WordNet [6], FrameNet [7] Các kết quả nghiên cứu này hỗ trợ cho việc xây dựng các giải pháp cho nhiều vấn đề về xử
lý ngôn ngữ tự nhiên tiếng Anh
Dữ liệu từ vựng tiếng Việt hiện tại được sử dụng rộng rãi chủ yếu là các từ điển được công bố dạng mã nguồn mở hoặc được thương mại hóa với cấu trúc chủ yếu gồm các phần: biểu diễn bằng ký tự của từ, từ loại và nghĩa của từ được diễn giải bằng một đoạn văn bản Mặc dù đã được số hóa và có thể dễ dàng sử dụng trên máy tính để tra cứu và sử dụng để xây dựng công cụ phân tích ngữ pháp tự động, dữ liệu từ vựng này vẫn chưa thể sử dụng để xây dựng các phương pháp xử lý ngữ nghĩa của văn bản Nguyên nhân là các quan hệ giữa các từ vựng chưa được mô tả trong các dữ liệu này
Trong xử lý ngữ nghĩa văn bản tiếng Việt, có nhiều nghiên cứu về việc xây dựng cơ
sở tri thức ngữ nghĩa từ vựng tiếng Việt Tuy nhiên, một số kết quả nghiên cứu chỉ dừng
ở mức tạo một ngữ liệu tiếng Việt đã được chú giải về mặt hình thái học và ngữ pháp [21][22] mà chưa đi đến xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt như mong muốn cần có cấu trúc tương tự như cấu trúc của dữ liệu từ điển tiếng Việt cho máy tính [23] Theo mô tả về cấu trúc từ điển tiếng Việt cho máy tính [23], mỗi từ vựng trong từ điển ngoài thông tin về từ loại và tiểu từ loại còn có vị trí của nó trên cây ngữ nghĩa Đối với các động từ còn có khung vị
từ tương ứng Cách tổ chức này có thể hỗ trợ rất tốt cho việc xây dựng các công cụ phân
Trang 18tích ngữ pháp tiếng Việt chính xác hơn Tuy nhiên, từ điển này hiện chưa được công bố rộng rãi
Với thực trạng trên, để xây dựng mô hình tìm kiếm văn bản tiếng Việt dựa trên ngữ nghĩa cụm từ truy vấn, đề tài đặt ra yêu cầu xây dựng một cơ sở tri thức ngữ nghĩa từ vựng có cấu trúc phù hợp làm cơ sở xây dựng phương pháp phân tích ngữ nghĩa cụm từ tiếng Việt
2.1.2 Khái niệm cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt:
Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được đề xuất trong đề tài nghiên cứu này
là một tập hợp các từ trong tiếng Việt và các mối quan hệ giữa chúng khi được tổ chức thành câu hoặc ngữ đoạn Với khái niệm này, một tập các từ có quan hệ trong cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt tạo thành một đồ thị sẽ là một ngữ đoạn hoặc một câu trong tiếng Việt Như vậy, cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt chính là những câu và ngữ đoạn thực tế được phân tích thủ công theo ngữ nghĩa của chúng Ngữ nghĩa được xác định gồm sự việc, hiện tượng hoặc sự biến đổi được biểu diễn bằng từ ngữ và quan hệ giữa chúng
Trong ngữ pháp, một danh từ đứng sau có thể bổ nghĩa cho danh từ đứng trước tạo thành một ngữ đoạn như “lá cọ”, tuy nhiên “em bánh” trong câu “Lan cho em bánh” không thể là một ngữ đoạn Như vậy, quan hệ giữa hai danh từ không phải lúc nào cũng
có, nó tùy thuộc vào ngữ nghĩa của từng từ Vì thế, cần xây dựng những quan hệ thực tế dựa trên từng câu cụ thể thực tế thành cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt sẽ có giá trị cho việc nghiên cứu về ngữ pháp tiếng Việt tốt hơn, đồng thời là nền tảng để máy tính có thể xác định được những điểm tương đồng giữa hai cụm từ theo cách tiếp cận của đề tài
Theo khái niệm về cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt, tổ chức từ vựng tiếng Việt có thể không trùng khớp với tổ chức tri thức khoa học vì các quan hệ giữa các từ có thể không trùng khớp với các quan hệ thực tế giữa các khái niệm khoa học Ví dụ cụm
từ “cá heo” về mặt từ vựng sẽ được tổ chức là lớp nghĩa “cá” là thượng vị của lớp nghĩa
“heo” cho biết từ “heo” ở đây là một tiểu loại của “cá” tương tự như từ “mập” trong “cá mập” và “voi” trong “cá voi” Tuy nhiên, theo tri thức khoa học, thì “cá heo” là một loại
Trang 19động vật có vú phải được xếp vào nhóm thú chứ không thể xếp vào nhóm cá Đặc điểm này rất quan trọng và cần khẳng định rõ để tránh sự nhầm lẫn khi tổ chức từ vựng
2.2 TỪ TRONG TIẾNG VIỆT
Trước khi xác định mô hình tổ chức từ vựng tiếng Việt để từ đó xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt, một số đặc điểm về từ trong tiếng Việt cần được xem
“hoa” và “hồng” và có nghĩa là một loại cây cụ thể Hầu hết các nhà nghiên cứu
về ngôn ngữ học tiếng Việt theo quan điểm này
- Quan điểm thứ hai cho rằng tiếng Việt là một ngôn ngữ đơn lập, đơn âm tiết, mỗi âm tiết là một hình vị đồng thời cũng chính là một từ, mỗi từ cách nhau bằng một khoảng trắng trong ngữ đoạn Ví dụ “hoa” và “hồng” là hai từ, “hoa hồng” là một ngữ đoạn Quan điểm này được tác giả Cao Xuân Hạo [2] đề xướng
Việc nghiên cứu về phân tích ngữ nghĩa cụm từ tiếng Việt trong đề tài này được tiến hành trên cơ sở từ tiếng Việt theo quan điểm thứ hai vì các lý do sau:
- Tránh được vấn đề xác định ranh giới từ [24] Vấn đề này xuất hiện do quan điểm cho rằng từ có thể có nhiều hơn một hình vị phân biệt nhau bằng khoảng trắng Theo quan điểm này, xét về hình thức, một từ và một ngữ không thể phân biệt được Ví dụ: “hoa”, “hồng”, “hoa hồng”, “khoa học” và “máy tính” là một
từ nhưng “khoa học máy tính” là một ngữ mặc dù xét về cấu tạo nó không khác với “hoa hồng” Từ “hồng” trong ví dụ vừa nêu không có nghĩa là màu hồng mà
Trang 20là tên một loài thảo mộc và được sử dụng trong các ngữ đoạn “một nhánh hồng”,
“một đóa hồng”, v.v Trong khi theo quan điểm xem từ tiếng Việt chỉ có một tiếng (hay một hình vị), vấn đề cấu tạo ngữ đoạn “hoa hồng”, “khoa học”, “máy tính” trở thành vấn đề ngữ pháp và việc giải quyết vấn đề này là xác định các luật cấu thành các ngữ đoạn này Các luật này cũng sẽ được áp dụng trong việc cấu tạo các ngữ đoạn từ các ngữ đoạn chứ không chỉ áp dụng cho việc cấu tạo các ngữ đoạn bởi các từ
- Mô tả sát với cách sử dụng ngôn ngữ trong tiếng Việt hơn Một trong những chức năng quan trọng của ngôn ngữ là gọi tên các đối tượng và sự kiện [2] Trong tiếng Việt, các đối tượng thường được gọi tên bằng ngữ đoạn trong đó những đối tượng có đặc điểm nào đó giống nhau thường được biễu diễn bằng những ngữ đoạn có nhiều điểm giống nhau Ví dụ: “cây cà chua”, “cây cà tím”,
“xe hơi”, “xe gắn máy” Tuy nhiên, “cây cà phê” thì không giống “cây cà chua” như “cây cà tím” Nguyên nhân bởi “cà phê” là phiên âm của từ café vốn không phải từ thuần Việt Vì thế, nếu biểu diễn đúng thì phải là “cây cà-phê” và với cách biểu diễn này, rõ ràng “cây cà-phê” không giống “cây cà chua” bằng “cây
cà tím” Điều này dẫn đến một vấn đề là nếu tổ chức từ vựng theo cách gọi tên trong tiếng Việt, vấn đề tìm kiếm theo ngữ nghĩa sẽ dễ dàng hơn Chẳng hạn trong tiếng Việt, khi tìm kiếm “xe gắn máy”, nếu không có kết quả nào thì có thể trả về kết quả “xe hơi” vì hai đối tượng này đều có chức năng vận chuyển và có điểm chung về mặt hình thức là bắt đầu bằng từ “xe” Khác với trong các ngôn ngữ thường gọi tên đối bằng một từ như tiếng Anh, trong đó “car” và
“motobike” không thể thấy có sự liên quan gì về mặt ý nghĩa nếu chỉ dựa vào biểu diễn bằng ký tự của chúng
- Số lượng từ vựng sẽ ít hơn rất nhiều Theo ước tính [2], tiếng Việt có khoảng
3260 danh từ đơn âm tiết
2.2.2 Phân loại từ
Trong một số nghiên cứu về ngữ pháp tiếng Anh, số lượng phân loại của hệ thống từ vựng tiếng Anh không thống nhất Cụ thể là kết quả nghiên cứu xây dựng Penn TreeBank [4] xác định 36 loại từ có trong tiếng Anh không kể các dấu câu; trong khi đó
Trang 21kho ngữ liệu British National Corpus [31] sử dụng 61 nhãn từ loại Điều này cho thấy việc phân loại từ phụ thuộc vào cách xác định quan hệ giữa các từ trong ngữ đoạn và mỗi quan điểm nhìn nhận khác nhau sẽ có cách xác định khác nhau về quan hệ giữa các
“rất hoa” Cụm từ “rất hoa” không thể là một ngữ đoạn có nghĩa theo cảm nhận bình thường về ngôn ngữ của người Việt Sự khác biệt này xuất phát từ ý nghĩa của từ “đẹp” và từ “hoa” Khác với tiếng Anh, một từ trong tiếng Anh có sự biến đổi về hình thái nên ngoài yếu tố ý nghĩa, còn có thể dựa vào hình thái của nó để xác định từ loại Ví dụ: “beauty” là một danh từ, khi thêm hậu tố “ful” vào sẽ trở thành “beautiful” là một tính từ Trong cả hai trường hợp nghĩa của chúng vẫn là
“đẹp” nhưng khả năng kết hợp thành ngữ đoạn của chúng đã trở nên khác nhau
Ví dụ, để nói “cái đẹp”, người Anh phải dùng “the beauty” và để nói rất đẹp, họ phải dùng “very beautiful” Như vậy, ý nghĩa của từ là một tiêu chí rất quan trọng để phân loại từ trong tiếng Việt
- Nguồn gốc của từ: Hệ thống từ vựng trong tiếng Việt được hình thành từ ba nguồn chính: từ có nguồn gốc thuần Việt là từ do người Việt sáng tạo ra; từ có nguồn gốc Hán-Việt là từ Hán được người Việt sử dụng; từ phiên âm là từ có nguồn gốc từ các ngôn ngữ khác được phiên âm sang tiếng Việt và được sử dụng như tiếng Việt Lý do tách từ Hán-Việt ra khỏi nhóm từ phiên âm vì việc sử dụng các ngữ đoạn chứa từ Hán-Việt vẫn chịu ảnh hưởng của ngữ pháp tiếng Hán Việc tách nhóm từ phiên âm ra khỏi nhóm từ thuần Việt vì biểu diễn bằng
ký hiệu của các từ này không tuân theo cách gọi tên từ thuần Việt Ví dụ: “a xít”, vốn là từ phiên âm, bởi từ acid không thể hiểu như một ngữ đoạn được tạo bởi từ
Trang 22“a” và “xít”, vì thế phải tách các từ phiên âm này để có thể phân tích ngữ pháp
và ngữ nghĩa một cách phù hợp với cách tri giác của người Việt
Dựa trên hai tiêu chí đã nêu, kết hợp với việc tham khảo các công trình nghiên cứu
về xây dựng ngữ liệu từ vựng cho tiếng Việt [21][22][23] và quá trình phân tích thủ công 2000 ngữ đoạn tiếng Việt, chúng tôi đề xuất phân loại từ tiếng Việt theo tiêu chí ý nghĩa trước, sau đó đến tiêu chí nguồn gốc từ như sau:
Theo tiêu chí ý nghĩa của từ, từ tiếng Việt được phân loại thành:
- Danh từ là từ gọi tên các đối tượng, sự kiện hoặc ý niệm Ví dụ như “cây”,
“tết” và“giờ”
- Đại từ là từ được dùng để thay thế cho một danh từ trong ngữ đoạn mà không làm thay đổi ý nghĩa của ngữ đoạn để tránh việc sử dụng danh từ đó nhiều lần
- Vị từ, theo quan điểm của tác giả Cao Xuân Hạo, từ loại được gọi là tính từ
và động từ trong tiếng Việt đều có thể kết hợp với danh từ hoặc đại từ để tạo thành câu Vì thế, tính từ hay động từ trong tiếng Việt chỉ khác nhau ở điểm tính
từ mô tả những thuộc tính tĩnh còn động từ mô tả những quan hệ mang tính chất động Vì thế, vị từ được phân thành hai tiểu loại là vị từ động và vị từ tĩnh như sau:
+ Vị từ động (có thể xem là động từ theo cách phân loại được sử dụng trong [21], [22] và [23]) là từ gọi tên các sự biến đổi, các quan hệ Ví dụ như
“đi”, “biến” và “là” Theo tác giả Cao Xuân Hạo [2], có những vị từ mang ý nghĩa tĩnh nhưng khi kết hợp với từ chỉ hướng thì mang ý nghĩa động, ví dụ như “ngồi” trong “An ngồi đó” mang ý nghĩa tĩnh và trong “An ngồi xuống” thì lại mang ý nghĩa động Theo quan điểm của đề tài, các vị từ này sẽ được xem là vị từ động vì trong những câu cầu khiến chẳng hạn thì “ngồi” có nghĩa là hành động ngồi hơn là trạng thái ngồi
+ Vị từ tĩnh (có thể xem là tính từ theo cách phân loại được sử dụng trong [21], [22] và [23]) là từ gọi tên các tính chất Ví dụ như “dài”, “bền” và
“đỏ”
Trang 23- Phó từ là từ gọi tên các mức độ của các biến đổi, các quan hệ hoặc thuộc tính
- Giới từ là từ xác lập một quan hệ ngữ pháp giữa hai danh ngữ hoặc một vị ngữ và một danh ngữ
Theo tiêu chí nguồn gốc từ, các từ được tiếp tục phân chia vào các tiểu loại:
- Từ thuần Việt
- Từ Hán-Việt
- Từ phiên âm: Từ phiên âm là từ vay mượn trong ngôn ngữ khác và vẫn giữ trọn cách phát âm của từ này trong ngôn ngữ của nó Khi viết, từ phiên âm được biểu diễn bằng một nhóm các tiếng, mỗi tiếng có thể là một từ hoặc chỉ có giá trị tượng thanh Mặc dù được xếp thành loại từ riêng, nhưng ngữ pháp đối với từ phiên âm giống như từ thuần Việt nên từ phiên âm được tổ chức chung trong nhóm từ thuần Việt khi xây dựng Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt Khi đó, các âm được đưa vào cùng một lớp nghĩa mà từ phiên âm biểu diễn
Cách phân loại từ như trên nhằm phân chia từ tiếng Việt theo các ý nghĩa có tầm bao quát lớn nhất nhưng phân biệt được theo cách dùng ngôn ngữ của người Việt Thực
tế, số lượng loại từ theo quan điểm nghiên cứu của đề tài phụ thuộc vào ý nghĩa của từ trong tiếng Việt, nghĩa là nếu hai từ có nội hàm không trùng khớp với nhau thì phải
được tổ chức trong hai loại khác nhau
Trang 242.2.3 Cách gọi tên trong tiếng Việt
Trong tiếng Việt, danh từ thường được sử dụng để gọi tên đối tượng, sự kiện hoặc hiện tượng Các đối tượng, sự kiện hoặc hiện tượng được xem là khái niệm trong phạm
vi đề tài này Trong quá trình nghiên cứu về đặc điểm tiếng Việt dựa trên quan điểm của tác giả Cao Xuân Hạo [2] cho thấy một khái niệm thường được gọi tên bằng một danh ngữ hoặc một ngữ đoạn có cấu trúc như một câu Ví dụ: “cái bàn”, “con gà” và “xe gắn máy” trong đó “cái bàn” và “con gà” được cấu tạo bởi hai danh từ, “xe gắn máy” được cấu tạo bởi hai danh từ và một vị từ tương tự như một câu Đối với trường hợp ngữ đoạn
“cái bàn” hoặc “con gà”, tác giả Cao Xuân Hạo chỉ ra rằng có mối quan ngữ pháp giữa chúng[2] trong đó các từ “cái”, “con” là danh từ đơn vị và từ “gà”, “bàn” là danh từ khối, mối quan hệ ngữ pháp giữa chúng là danh từ khối làm định ngữ cho danh từ đơn
vị Trong trường hợp “xe gắn máy”, chưa có sự lý giải việc nó là một danh ngữ mà không phải là một câu
Theo cách lý giải của tác giả Cao Xuân Hạo, chúng ta có thể nhận diện được một cụm từ có phải là một ngữ đoạn hay không Tuy nhiên, để xác định ngữ đoạn đó có phải
là tên gọi của một khái niệm hay không vẫn chưa được rõ Ví dụ “hình nón” và “hình cái nón” đều là danh ngữ nhưng “hình nón” mới gọi tên một khái niệm, còn “hình cái nón” được hiểu như “hình giống cái nón” Sở dĩ “hình cái nón” không thể dùng để gọi tên một khái niệm vì “hình” được dùng để chỉ hình dáng, và “cái” được dùng để chỉ đối tượng, có nội hàm không bao hàm nhau Vì thế có sự phân biệt giữa “hình” và “cái” dẫn đến cảm nhận chúng không thể liền mạch Trong khi đó, “nón” trong ngữ đoạn “hình nón” là một dạng của hình dáng nên “hình nón” tạo ra cảm nhận liền mạch trong ngữ đoạn
Với phân tích như trên, để xác định một ngữ đoạn dùng để gọi tên khái niệm một cách thống nhất, đề tài này đề xuất một phương pháp xác định theo nội hàm của các từ trong ngữ đoạn Theo đó, nếu một ngữ đoạn gồm các danh từ, trong đó danh từ đứng trước có nội hàm bao gồm nội hàm của danh từ đứng liền sau nó theo thứ tự từ trái sang phải đối với từ thuần Việt và theo thứ tự từ phải sang trái đối với từ Hán-Việt thì ngữ đoạn đó là tên gọi của một khái niệm Để kiểm chứng phương pháp này, đề tài đề xuất việc xây dựng từ vựng thành một cấu trúc cây theo quan hệ hàm chứa, trong đó các từ
Trang 25trong một ngữ đoạn được dùng để gọi tên một khái niệm là các danh từ Ví dụ: “Xe gắn máy” được xác định là tên gọi của một khái niệm và được phân tích thành các danh từ
“xe”, “gắn”, “máy” trong đó “xe” là một danh từ, “gắn” là một danh từ chỉ một loại xe,
“máy” là một danh từ chỉ một loại “xe gắn” Tương tự như “cá rô phi” trong đó “cá” là danh từ, “rô” là danh từ chỉ một loại “cá”, “phi” là một danh từ chỉ một loại “cá rô” Mặc dù cách tổ chức này có điểm gây thắc mắc là “gắn” bản thân là một vị từ động Tuy nhiên, vẫn có thể xem “gắn” như là một nhãn để gọi tên một loại xe nào đó Tương
tự, “hồng” là vị từ tĩnh có ý nghĩa chỉ màu sắc, nhưng “hoa hồng” thì không phải là hoa
có màu hồng bởi vì “hồng” trong “hoa hồng” dùng để chỉ một loại hoa
2.2.4 Vấn đề về từ ghép và từ láy
Theo quan điểm trình bày như trên, vấn đề từ ghép đẳng lập và từ ghép chính phụ được giải quyết như sau:
- Đối với từ ghép đẳng lập, bản thân từ ghép này là hai từ mà nếu đứng riêng lẻ
nó vẫn mang ý nghĩa như trong trường hợp đi đôi với nhau Ví dụ: “hoa quả”
là chỉ đối tượng hoa và quả nói chung Ngữ đoạn “hoa quả” được xem là từ ghép và nếu diễn giải bằng ngữ đoạn “hoa và quả” thì vẫn không làm thay đổi ngữ nghĩa của nó Vì vậy, từ ghép đẳng lập vẫn được xem là một ngữ đoạn gồm hai từ
- Đối với từ ghép chính phụ, là một ngữ đoạn gồm hai từ trong đó đó có một từ chính mang ý nghĩa và một từ bổ sung có thể bổ nghĩa cho từ chính Ví dụ:
“cây thông” là một từ ghép chính phụ trong đó yếu tố chính là từ “cây” và yếu
tố phụ là từ “thông” bổ nghĩa cho từ “cây”, cho biết thông tin tiểu loại của cây đang muốn nói đến Trường hợp này là cách gọi tên trong tiếng Việt như đã nêu nên có thể dùng các quan hệ tiểu loại để có thể biểu diễn chính xác từ ghép dạng này
- Từ láy là từ có phần phụ âm, vần hoặc cả tiếng của từ được lặp lại Trong từ láy, có một tiếng chính mang ý nghĩa phần còn lại hỗ trợ về mặt âm cho từ chính, hoặc có thể trong từ láy không có thành phần nào mang ý nghĩa nhưng tất cả các tiếng đi với nhau được hiểu chung một nghĩa nào đó Trong từ láy có
Trang 26tiếng chính, ví dụ “vui vẻ” thì nghĩa của từ “vui” có thể sử dụng một mình, vì thế, từ vẻ thêm vào không có ý nghĩa gì Vì thế, về mặt tổ chức, từ “vui” là một
vị từ còn từ “vẻ” là một tiểu từ Đối với trường hợp tất cả các tiếng mới tạo thành một nghĩa, ví dụ “đủng đa đủng đỉnh” của tác giả Nguyễn Tài Cẩn Trong trường hợp này, ngữ đoạn cần được biểu diễn thành “đủng-đa-đủng-đỉnh” mới thể hiện rõ ràng là một từ Và như vậy, ngữ đoạn (từ láy theo tác giả Nguyễn Tài Cẩn) có hình thức giống như một từ phiên âm Vì thế, toàn bộ các tiếng sẽ được đưa vào cùng một lớp nghĩa biểu diễn ý nghĩa của “đủng đa đủng đỉnh”
2.3 MÔ HÌNH TỔ CHỨC CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT
Dựa trên khái niệm về tìm kiếm thông tin đã trình bày trong Chương I, để xác định hai ngữ đoạn có tương đương hay không thì phải xác định các đối tượng được nói đến trong hai ngữ đoạn đó có giống nhau hay không Vì thế, theo hướng tiếp cận của đề tài, việc phân loại từ tiếng Việt cần phải chi tiết đến mức hai từ có nội hàm không trùng khớp với nhau phải được tổ chức trong hai loại khác nhau chứ không dựa vào ý nghĩa chung của chúng Ví dụ, trong từ điển hiện hành, những từ gọi tên một sự vật hay hiện tượng nào đó được xếp chung vào lớp danh từ Cách phân loại này hoàn toàn dựa vào ngữ nghĩa của từ nhưng chỉ dừng lại ở mức chung Một số từ loại có tiểu từ loại nhưng tiểu từ loại này cũng mang ý nghĩa chung cho rất nhiều nghĩa cụ thể của từng từ trong tiểu loại đó
Hiện tại, máy tính chưa thể dựa vào ngôn ngữ để nhận biết thế giới như con người Nghĩa là máy tính chưa thể dựa vào ngôn ngữ để tái hiện được những hiện tượng nào đã diễn ra Con người nhận biết các sự kiện, hiện tượng đã diễn ra bằng các giác quan, sau
đó dùng ngôn ngữ để gọi tên các sự kiện, hiện tượng đó và tổ chức sắp xếp các tên gọi
đó để diễn tả gần đúng nhất những gì đã diễn ra Vì thế, ý nghĩa của một phát ngôn chính là những sự kiện, hiện tượng đã diễn ra đó Các sự kiện, hiện tượng này có thể diễn ra trong thế giới thực hoặc trong suy nghĩ của con người Trong khi đó, máy tính chỉ dựa vào ký hiệu ngôn ngữ để xử lý
Trang 27Vì thế, ngữ nghĩa được máy tính xử lý trong phạm vi đề tài này không thể trùng khớp với nhận thức của con người mà chỉ có thể dừng lại ở mức phân biệt các sự kiện, hiện tượng dựa vào ngôn ngữ Sự phân biệt ở đây bao gồm: xác định hai sự kiện, hiện tượng là khác nhau, là giống nhau hoặc có thể sử dụng để thay thế nhau trong một chừng mực nào đó Ví dụ: cho các ngữ đoạn 1) “kéo màn”, 2) “khép màn”, 3) “cái kéo”,
và 4) “cái dao” Nếu có một phương pháp nào đó có thể xác định ngữ đoạn 1 và 2 là giống nhau, ngữ đoạn 1, 3 và 4 là khác nhau, ngữ đoạn 3 và 4 có thể sử dụng thay thế cho nhau ở một ý nghĩa thực tế nào đó thì có thể xem đó là một phương pháp xác định ngữ nghĩa Mục tiêu tổ chức cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt mà đề tài này hướng đến là có thể xây dựng được một phương pháp xác định ngữ nghĩa dựa trên cấu trúc của nó Vì thế, việc phân loại từ tiếng Việt phải rất chi tiết
Vấn đề tổ chức từ vựng tiếng Việt được nghiên cứu theo quan điểm của Cao Xuân Hạo [2], nghĩa là quá trình xác định từ và từ loại phải dựa vào ý nghĩa của nó thông qua khả năng kết hợp của nó trong các ngữ đoạn Quá trình xác định ý nghĩa của một từ được thực hiện theo hướng xác định ý nghĩa của ngữ đoạn trước khi xác định ý nghĩa của mỗi từ trong ngữ đoạn Lý do xác định ý nghĩa của ngữ đoạn trước khi xác định ý nghĩa của mỗi từ vì theo quan điểm của Bertram Raphael[3], một ngữ đoạn cũng là một thuật ngữ, nghĩa là nó có một ý nghĩa nhất định chứ không phải là sự cộng gộp ý nghĩa của từng từ Vì vậy, những từ tham gia vào ngữ đoạn phải đảm bảo sự có mặt của nó góp phần vào việc biểu diễn ý nghĩa đó của ngữ đoạn Nghĩa là ý nghĩa của từ phụ thuộc vào ý nghĩa của ngữ đoạn Trong thực tế, khi phát ngôn, con người sẽ chọn ý nghĩa cần biểu đạt trước, sau đó mới chọn từ và quy tắc ngữ pháp tạo thành ngữ đoạn mang ý nghĩa đó
Tuy vậy, trong quá trình xây dựng mô hình tổ chức từ vựng tiếng Việt, sự phân loại
từ và các quan hệ giữa các từ đã có trong các công trình nghiên cứu trước[21][22][23] cũng như từ điển[25][26] sẽ được sử dụng như giả thiết để việc xác định mô hình dễ dàng hơn Trong quá trình phân tích ngữ pháp bằng tay đối với các ngữ đoạn, các giả thiết này cũng được kiểm chứng theo tiêu chí phân loại đã được trình bày ở mục 2.2 Vì thế, kết quả xây dựng mô hình tổ chức từ vựng tiếng Việt có thể không hoàn toàn tương ứng với ngữ pháp tiếng Việt hiện tại Do mục tiêu của đề tài đặt ra là sử dụng máy tính
Trang 28để xác định ngữ nghĩa của một ngữ đoạn tiếng Việt nên mô hình tổ chức từ vựng tiếng Việt cần phải đảm bảo mục tiêu này trước nhất và không nhằm mục tiêu thay thế mô hình ngữ pháp tiếng Việt hiện tại
Mô hình tổ chức từ vựng tiếng Việt được nghiên cứu trong đề tài này gồm các thành
phần:
2.3.1 Từ
Là đơn vị cơ bản trong mô hình tổ chức từ vựng tiếng Việt được nghiên cứu Trong công trình nghiên cứu xây dựng phương pháp tìm kiếm thông tin theo mô hình ngữ nghĩa trí nhớ [12], một từ được xem là nhãn của một khái niệm Khái niệm mới thực sự
là đối tượng cần xử lý Khái niệm được hiểu là tất cả những gì não bộ ghi nhận được từ một hiện tượng nào đó thông qua các giác quan Cách nhìn nhận đơn vị từ như vậy đã đưa ra một hướng mới trong phân tích ngữ nghĩa trong đó từ chỉ là phương tiện để biểu diễn khái niệm và việc phân tích ngữ nghĩa chính là phân tích quan hệ giữa các khái niệm đó Cách nhìn nhận từ như vậy khá phù hợp với đặc điểm của tiếng Việt như đã nêu Vì vậy, đề tài xác định từ tiếng Việt là một tổ hợp gồm ý nghĩa và biểu hiện bằng ngôn ngữ của nó, điều này có nghĩa là hai từ là một chỉ khi ý nghĩa và biểu hiện bằng ngôn ngữ của chúng giống nhau Ví dụ từ “kéo” trong ngữ đoạn “kéo ghế lại” và từ
“kéo” trong “dao, kéo” là hai từ khác nhau, cũng như từ “tìm” và “kiếm” là hai từ khác
Việt hay Hán-Việt của nó để xác định vị trí của từ sẽ được tổ chức
Trang 29- Quan hệ đồng nghĩa (synonym): cho biết hai từ có cùng một nghĩa Quan hệ này có vẻ thừa vì các từ đồng nghĩa với nhau có thể được đặt trong một lớp nghĩa Tuy nhiên, từ vựng tiếng Việt có nguồn gốc thuần Việt và Hán-Việt có đặc điểm kết hợp khác nhau trong việc tạo ngữ đoạn nên phải phân thành hai nhóm khác nhau Vì thế cần có quan hệ đồng nghĩa để xác định chúng có chung một lớp nghĩa Quan hệ này được đặt tên là hasSyn
- Quan hệ phản nghĩa (antonym): Cho biết hai từ có ý nghĩa trái ngược nhau Quan hệ này được đặt tên là hasAnt
- Quan hệ bổ nghĩa: cho biết một từ có thể được dùng để sung các tính chất cho một từ khác Quan hệ này được đặt tên là hasComp và được ký hiệu là comp khi xử lý
- Quan hệ ám chỉ: cho biết một từ có thể có nghĩa của một từ khác nhưng hai
từ này không thực sự là đồng nghĩa Ví dụ từ “chua” trong ngữ đoạn “cây cà chua” không thực sự mang ý nghĩa là vị chua của từ “chua” nhưng nó ám chỉ đến ý nghĩa này Bởi vì khi gọi tên “cây cà chua”, người ta đã dùng đặc điểm vị chua để gọi tên Quan hệ này được đặt tên là hasImply
- Quan hệ nhân tố: cho biết một từ có thể là nhân tố trong một quan hệ về ý nghĩa Nhân tố ở đây được hiểu như thành phần actor trong khung của động từ theo cấu trúc từ vựng được sử dụng trong phân tích ngữ pháp ngữ đoạn hướng tâm [5] Ví dụ: “gà ăn thóc” thì xét về mặt ý nghĩa, “gà” là nhân tố của “ăn” Quan hệ này được đặt tên là hasActor và ký hiệu là actor khi xử lý
- Quan hệ tham tố trực tiếp: cho biết một từ có thể là một tham tố trực tiếp trong một quan hệ về nghĩa Tham tố trực tiếp được hiểu như direct object trong
Trang 30[5] Trong ví dụ “gà ăn thóc” thì “thóc” là tham tố trực tiếp của “ăn” Quan hệ này được đặt tên là hasDObj và được ký hiệu là dobj khi xử lý
- Quan hệ tham tố gián tiếp: cho biết một từ có thể là một tham tố gián tiếp trong một quan hệ về nghĩa Tham tố gián tiếp được hiểu như indirect object trong [5] Ví dụ: “mẹ cho An tiền” thì “tiền” là tham tố gián tiếp của “cho” Quan hệ này được đặt tên là hasIDObj và được ký hiệu là idobj khi xử lý
- Quan hệ biểu thị: là một quan hệ chỉ mang tính hình thức trong mô hình, nó cho biết một từ được biểu diễn bằng ký hiệu ngôn ngữ nào Quan hệ này được đặt tên là hasLabel
Với các thành phần như trên, mô hình được tổ chức dạng cây theo quan hệ
thượng-hạ vị có phần giống như mô hình kết hợp từ của Bertram Raphael [3], các quan hệ khác được xác định tùy theo khả năng kết hợp các lớp nghĩa Mô hình này có thể biểu diễn các quan hệ cần thiết để phân tích ngữ nghĩa của một cụm từ để làm cơ sở cho việc so
Quan hệ phần tử của lớp Thực thể
Lớp đối tượng
Liên từ
Trang 31sánh sự tương đồng về ý nghĩa giữa hai cụm từ Mô hình cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được xác định như Hình 1
2.4 PHƯƠNG PHÁP XÂY DỰNG CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT
Dựa trên mô hình đã xác định như trên, cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
được xây dựng theo các bước như sau:
2.4.1 Thu thập ngữ liệu văn bản tiếng Việt
Trong phạm vi đề tài này, tập ngữ liệu được chọn là các bài báo thuộc chuyên mục khoa học công nghệ được tải từ báo điện tử Sài gòn giải phóng và Khoa học Việc thu thập ngữ liệu này được thực hiện qua các bước:
- Tải các trang web theo chuyên mục khoa học công nghệ từ các website Khoa học1 và Báo Sài gòn giải phóng2
- Dùng phần mềm để xác định nội dung chính của trang web, loại bỏ các liên kết, quảng cáo và hình ảnh Nội dung chính được lưu lại dưới dạng tập tin văn bản
- Chuyển mã tự động các tập tin văn bản về bảng mã Unicode UTF-8 do tài liệu trên báo điện tử Sài gòn giải phóng sử dụng bảng mã Unicode tổ hợp
Kết quả của bước này thu được 3324 tập tin văn bản với tổng kích thước thực là
8.14MB
2.4.2 Gán lớp nghĩa
Để gán lớp nghĩa, nội dung trong các tập tin văn bản được được tách thành các ngữ đoạn Việc tách văn bản thành ngữ đoạn được thực hiện dựa trên các dấu câu Kết quả thu được 44144 ngữ đoạn Hiện tại, đề tài đã thực hiện gán nhãn từ loại theo tập từ loại
sử dụng trong các từ điển cho 2000 ngữ đoạn theo phương pháp thủ công Việc gán nhãn từ loại được thực hiện theo trình tự như sau:
Trang 32- Chọn một ngữ đoạn
- Hiểu nghĩa đen của ngữ đoạn
- Xác định từ loại theo tập từ loại sử dụng trong các từ điển cho mỗi từ trong ngữ đoạn
- Dựa vào từ và từ loại, tra từ điển Hán-Việt [27] để xác định nghĩa Hán-Việt, nếu không tìm được nghĩa thích hợp với nghĩa của ngữ đoạn thì tra từ điển tiếng Việt [25] để xác định nghĩa của từ thuần Việt và chọn nghĩa phù hợp với ý nghĩa ngữ đoạn
- Căn cứ vào nghĩa của từ và các loại từ vựng như đã nêu ở mục 2.2 để tạo lớp nghĩa phù hợp Lớp nghĩa chứa từ đang xét là nhãn của nó Như vậy, nhãn của mỗi từ là một tiểu loại trong các từ loại nêu ở mục 2.2 và số lượng tiểu loại rất
lớn
2.4.3 Phương pháp xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
Xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt là xây dựng ontology về từ vựng tiếng Việt với các thành phần như đã xác định trong mục 3 Một số vấn đề liên quan đến việc xây dựng ontology cho từ vựng tiếng Việt được giải quyết trong đề tài
này gồm:
Chiến lược xây dựng
Có ba chiến lược nhằm xây dựng ontology cho một miền tri thức gồm:
- Chiến lược từ trên xuống: Chiến lược này xây dựng ontology bằng cách
xác định các phạm trù bao quát nhất có trong miền tri thức và đưa vào chúng vào ontology Đối với mỗi phạm trù này, tìm trong miền tri thức đó những phạm trù nào có nội hàm lớn nhất chứa trong nó để đưa các phạm trù này vào làm những phạm trù con của nó Quá trình này tiếp diễn đến khi không thể xác định những phạm trù con Đối với mỗi phạm trù, liệt kê các phần tử thuộc miền tri thức thỏa nội hàm của nó mà không thỏa nội hàm của phạm trù con của nó Chiến lược này có thể được minh họa bằng Hình 2
Trang 33- Chiến lược từ dưới lên: Chiến lược này xây dựng ontology bắt đầu từ các
phần tử thuộc miền tri thức cần xây dựng, xác định phạm trù nhỏ nhất có nội hàm chứa mỗi phần tử này Từ những phạm trù này tiếp tục tìm những phạm trù trong miền tri thức có nội hàm nhỏ nhất chứa chúng Quá trình này tiếp diễn đến khi không thể xác định được phạm trù nào thuộc miền tri thức có nội hàm chứa các phạm trù đã xác định Chiến lược này có thể được minh họa bằng Hình 3
- Chiến lược tổng hợp: Chiến lược này xuất phát từ các phần tử thuộc miền
tri thức cần xây dựng Tuy nhiên, bằng một cách nào đó, có thể xác định
Bước 2 Bước 1
Trang 34được những phạm trù thuộc miền tri thức có nội hàm chứa các phần tử này nhưng không phải là nhỏ nhất Từ mỗi phạm trù xác định được, tìm các phạm trù thuộc miền tri thức có nội hàm chứa trong nó và chứa các phần tử thuộc phạm trù đang xét Quá trình này tiếp diễn cho đến khi không còn một phạm trù nào thuộc miền tri thức mà chưa được xác định Chiến lược này có thể được minh họa bằng Hình 4
Chiến lược xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được chọn là chiến lược tổng hợp để tận dụng các kết quả phân loại từ vựng của các công trình nghiên cứu
về tiếng Việt đã có Trong quá trình xây dựng, các phạm trù được xác định chính là các lớp nghĩa, các phần tử là các từ trong tiếng Việt, quan hệ chứa trong của các phạm trù là
quan hệ hàm chứa đã xác định trong mục 3.3
Biểu diễn trên máy tính:
Trong đề tài này, cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được biểu diễn bằng ngôn ngữ OWL [28] Ngôn ngữ OWL biểu diễn các lớp, quan hệ và thực thể thông qua các tiên đề có dạng: Subject – Predicate – Object Các tiên đề này được biểu diễn bằng ngôn ngữ RDF/XML và được lưu trữ dưới dạng tập tin văn bản, rất thuận tiện cho việc đọc và chỉnh sửa Ngôn ngữ OWL được chọn vì khả năng sử dụng rộng rãi của nó và
Trang 35tính khả chuyển của nó đối với nhiều dạng biểu diễn trên máy tính khác Bên cạnh đó,
có nhiều công cụ hỗ trợ để xây dựng ontology sử dụng ngôn ngữ OWL
Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được biểu diễn theo ngôn ngữ OWL sử dụng trong Protégé[29] như sau:
- Các lớp nghĩa: được biểu diễn bằng các Class
- Các quan hệ: được biểu diễn bằng các Object Property
- Các từ: được biểu diễn bằng các Individual
Một số quy tắc nhập từ vựng:
Đối với ngữ đoạn thuần Việt dùng để gọi tên một sự vật, hiện tượng: mỗi từ theo
thứ tự từ trái qua phải trong ngữ đoạn có đặc điểm là nội hàm của nó hàm chứa nội hàm của từ liền sau nó, ví dụ: “cây cà chua”, “xe gắn máy” Trường hợp này, các từ trong ngữ đoạn này được xác định là danh từ, và được đưa vào các lớp nghĩa tương ứng với nội hàm của nó Ở đây, các danh từ “chua”, “gắn”, “máy” là tên gọi của các loại đối tượng và có quan hệ ám chỉ đến các từ tương ứng Quy tắc này dựa theo đặc điểm gọi tên của từ thuần Việt được rút ra trong quá trình tìm hiểu cách gọi tên khái niệm theo
tiếng Việt Theo đó, một khái niệm thường được biểu diễn bằng một cụm các danh từ
Đối với các cụm phiên âm: tạo một lớp nghĩa trong loại danh từ phiên âm cho sự
vật hiện tượng này Mỗi từ trong ngữ đoạn này được đưa vào lớp nghĩa vừa tạo Sau đó tạo một lớp nghĩa đồng nghĩa với nó trong loại danh từ thuần Việt và đặt mối quan hệ đồng nghĩa giữa các từ trong hai lớp nghĩa này Ví dụ: để đưa cụm “cà phê” vào cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt, một lớp nghĩa “café” sẽ được tạo trong loại danh
từ phiên âm Lớp nghĩa này chứa các ký hiệu “cà” và “phê” Kế đến tạo một lớp nghĩa
phê” thuộc nội hàm của lớp nghĩa “cây” có chứa từ phê” Trong lớp nghĩa
“cà-phê” này, tạo các từ vựng “cà”, ““cà-phê” và “cà-“cà-phê”
Đối với các ngữ đoạn không thuộc hai dạng trên: tách ngữ đoạn thành từng từ và
xác định nghĩa của nó dựa theo sự hiểu biết của người xây dựng kết hợp với từ điển tại [25], [26] và [27] Từ đó xác định các lớp nghĩa chứa các từ này Ví dụ “trợ giúp” là ngữ đoạn gồm “trợ” là một động từ Hán-Việt và “giúp” là một từ thuần Việt, hai từ này
có cùng ý nghĩa
Trang 362.5 CÔNG CỤ HỖ TRỢ XÂY DỰNG CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT
Với mô hình và phương pháp xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
đã được xác định như trên, Protégé [29] có thể được sử dụng để xây dựng Tuy nhiên có một số đặc điểm của ngôn ngữ OWL và Protégé dẫn đến những bất tiện như sau:
- Tên lớp và thực thể phải là duy nhất Trong khi đó, như đã phân tích, có rất nhiều từ được biểu diễn bằng ngôn ngữ giống nhau nhưng phải được đưa vào các lớp nghĩa khác nhau, vì thế phải chọn cách đặt tên tương tự như đường dẫn trong tổ chức hệ thống tập tin Điều này dẫn đến việc phải nhập lại tên lớp nghĩa nhiều lần
- Giao diện chưa được hỗ trợ tốt để nhập các Object Property và các Annotation Trong khi số lượng quan hệ mà tương ứng với nó là Object Property giữa các từ vựng là rất lớn
Vì thế, để hỗ trợ cho việc xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt cần xây dựng một công cụ hỗ trợ, không chỉ nhằm khắc phục nhược điểm trên khi sử dụng Protégé, mà còn hỗ trợ cho việc tạo một ngữ liệu được chú giải thủ công để tạo ngữ liệu cho việc xây dựng công cụ phân tích ngữ pháp tự động theo hướng nghiên cứu của đề
tài
2.5.1 Chức năng của công cụ
- Nhập các lớp nghĩa và các từ vựng dựa trên nền tảng đã được thiết kế với Protégé
- Tải danh sách các ngữ đoạn đã được gán nhãn từ loại Đối với mỗi từ trong ngữ đoạn, công cụ sẽ tìm kiếm các từ trong cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt có biểu diễn ngôn ngữ giống với từ đang xét để người sử dụng có thể chọn nghĩa cho nó Nếu nghĩa tương ứng với từ đang xét chưa tồn tại thì có thể tạo ngay trong giao diện của công cụ Nghĩa của từ được chọn sẽ là chú giải của
từ Các từ của ngữ đoạn cùng với chú giải của nó sẽ được lưu trữ để làm ngữ liệu cho việc xây dựng công cụ phân tích ngữ pháp
- Cho phép các quan hệ giữa các lớp nghĩa vào chú thích Dựa vào chú thích này, công cụ sẽ tạo các quan hệ cho lớp nghĩa có chú thích này một tập các lớp
Trang 37nghĩa khác được ghi trong chú thích mà không phải dùng giao diện để nhập thủ công cho từng cặp từ vựng Ví dụ: động từ “ăn” có nhân tố có thể là các danh từ
“cá”, “mèo”; và tham tố thứ nhất của nó cũng là những từ này Giả sử các từ
“cá”, “mèo” là lớp nghĩa nằm trong lớp nghĩa “động_vật” Khi đó, trong chú thích của từ “ăn” chỉ cần ghi: “hasActor động_vật, hasDObj động_vật” thì khi thực hiện chức năng tạo quan hệ, các quan hệ “ăn hasActor cá”, “ăn hasActor mèo”, “ăn hasDObj cá”, … sẽ được sản sinh
- Sản sinh các quan hệ dựa vào chú thích của mỗi lớp nghĩa
- Lưu cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt theo chuẩn OWL
2.5.2 Sơ đồ thiết kế
Công cụ hỗ trợ xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt được thiết kế theo sơ đồ bên dưới
2.5.3 Giao diện công cụ
Giao diện công cụ như Hình 6, gồm 6 phần:
- Danh sách các ngữ đoạn: tải từ ngữ liệu được đặt ở phần dưới cùng của
màn hình Khi chọn một ngữ đoạn trong danh sách này, ngữ đoạn được chọn sẽ
Công cụ hỗ trợ Tải ngữ liệu
Tạo lớp nghĩa
Tạo
từ vựng
Nhập chú thích
Tạo các quan hệ
Hình 5: Sơ đồ thiết kế công cụ hỗ trợ xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
Trang 38hiển thị vào vùng ngữ đoạn được chọn đồng thời xác định các từ trong ngữ đoạn
và liệt kê vào danh sách từ
- Vùng ngữ đoạn được chọn: được đặt ở vị trí trên cùng màn hình
- Liệt kê danh sách từ trong ngữ đoạn: được đặt bên trái màn hình Khi một
từ được chọn, từ và chú giải của nó sẽ được hiển thị vào các vùng tương ứng
- Vùng thông tin từ vựng và nhãn được gán: được đặt ngay dưới vùng ngữ
đoạn được chọn Khi nội dung chú giải cho từ đã được xác định có thể cập nhật vào danh sách từ bằng cách nhấn phím <Enter>
- Vùng tổ chức các lớp nghĩa: được bố trí ở giữa màn hình Các lớp nghĩa
được biểu diễn dưới dạng cây Có thể thêm các lớp nghĩa bằng tổ hợp phím CTRL-J, CTRL-K và xóa bằng tổ hợp phím CTRL-I và CTRL-O Mỗi khi một lớp nghĩa được chọn, các từ vựng thuộc lớp nghĩa đó được hiển thị trong vùng từ vựng
- Vùng từ vựng: được bố trí ở bên phải màn hình theo dạng danh sách Thông
tin chú thích của mỗi từ vựng được hiển thị bên dưới nó Có thể thêm một từ thuộc lớp nghĩa đang chọn bằng tổ hợp phím CTRL-K, thêm chú thích cho từ đang chọn bằng tổ hợp phím CTRL+J Khi nhấp đôi vào một đối tượng trong danh sách này, đối tượng này sẽ được chọn làm chú thích
Hình 6: Giao diện công cụ hỗ trợ xây dựng cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt
Trang 39CHƯƠNG 3
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP CỤM TỪ TIẾNG VIỆT
3.1 MÔ HÌNH CÚ PHÁP TIẾNG VIỆT
Đối với mô hình cú pháp tiếng Việt, hiện nay có hai quan điểm nhìn nhận khác nhau
đó là: quan điểm cho rằng cú pháp tiếng Việt có mô hình đề-thuyết và quan điểm cho rằng cú pháp tiếng Việt có mô hình S-V-O
Theo quan điểm cú pháp tiếng Việt có mô hình đề-thuyết, tác giả Cao Xuân Hạo [2] cho rằng các câu có ý nghĩa nhận định một vấn đề nào đó trong tiếng Việt chắc chắn phân tích được theo cấu trúc đề-thuyết Trong cấu trúc đề thuyết, phương tiện để xác định ranh giới giữa đề và thuyết trong câu là vị trí có thể thêm các từ “thì”, “mà” và “là”
mà không làm khác nghĩa của nó Mặc dù phương tiện để xác định ranh giới giữa đề và thuyết theo tác giả Cao Xuân Hạo rất rõ ràng, nhưng đa số các ngữ đoạn có chứa vị từ (trong 2577 ngữ đoạn được gán nhãn thủ công) thì các từ “thì” (25 lần), “mà” (60 lần)
và “là” (180 lần) không thường xuyên xuất hiện Nếu theo cách này, chỉ có thể xác định
đề và thuyết một cách thủ công bằng cách xác định vị trí có thể thêm các từ “thì”, “mà”
và “là” vào từng ngữ đoạn mà không làm thay đổi nghĩa của ngữ đoạn đó
Theo quan điểm cú pháp tiếng Việt có mô hình S-V-O, tức là chủ từ - động từ - túc
từ thì chủ từ hoặc chủ ngữ là tham tố thứ nhất hay còn gọi là chủ thể của vị từ và vị từ phải được chia theo đặc điểm của chủ ngữ Tuy nhiên, trong tiếng Việt, vị từ không thay đổi hình thái theo tham tố thứ nhất của nó; đồng thời, cấu trúc tham tố của vị từ cũng không được đảm bảo trong nhiều câu tiếng Việt [2] Ví dụ: “áo này mặc rất mát” có vị
từ “mặc” có tham tố thứ nhất là một danh ngữ chỉ người nhưng “áo này” không phải là một danh ngữ chỉ người; đồng thời, trước “rất mát” phải là một danh ngữ theo khung vị
từ của “mát” nhưng lại là vị từ “mặc”
Mặc dù trong tiếng Việt, nhất là trong giao tiếp hàng ngày, số lượng câu trong đó khung vị từ không được đảm bảo như trên là phổ biến nhưng đối với các văn bản tiếng
Trang 40Việt viết về các tin tức khoa học, qua quá trình gán nhãn từ loại thủ công cho 2577 ngữ đoạn, thì số lượng câu này không nhiều Nguyên nhân là trong các văn bản tin tức khoa học, các ý thường được diễn đạt bằng các câu trần thuật trong đó khung vị từ thường được đảm bảo
Trong tìm kiếm thông dựa trên ngữ nghĩa, vấn đề xác định khái niệm mà ngữ đoạn diễn đạt và quan hệ giữa các khái niệm dựa trên khung vị từ để từ đó so sánh nội dung của hai ngữ đoạn đóng vai trò quan trọng hơn cả Trong cấu trúc đề thuyết, đề được xác định là cái được nói đến và thuyết là cái diễn giải thêm thông tin cho đề Với cách phân tích này, gần như chưa làm rõ được quan hệ giữa các khái niệm như thế nào ngoài quan
hệ diễn đạt thêm ý giữa thuyết và đề
Từ những nhận định trên, trong phạm vi nghiên cứu của đề tài, mô hình cú pháp V-O được chọn để phân tích cú pháp tiếng Việt Mặt dù mô hình này không đúng hoàn toàn trên tiếng Việt, nhưng nó có thể áp dụng trong một số trường hợp sử dụng các câu theo mô hình S-V-O để diễn đạt ý Đặc biệt là trong các văn bản viết về các vấn đề khoa học và công nghệ
S-3.2 PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP CỤM TỪ TIẾNG VIỆT
Theo nhận định trên, cú pháp của câu sẽ được phân tích theo mô hình S-V-O Câu ở đây được hiểu là một ngữ đoạn có chứa vị từ và để tránh việc gọi chủ ngữ, S được gọi là chủ thể của vị từ, O được gọi là tham tố trực tiếp của vị từ Đối với một số vị từ, trong khung vị từ của nó còn có tham tố gián tiếp và đối với một số vị từ khác thì trong khung
vị từ của nó chỉ có chủ thể
Theo mô hình S-V-O, bên cạnh vấn đề xác định các danh ngữ vốn có thể làm chủ thể hoặc tham tố trực tiếp hay gián tiếp cho khung vị từ, vấn đề xác định khung vị từ là rất quan trọng Xác định được khung vị từ có thể nói là xác định được cú pháp của một
câu Quá trình phân tích cú pháp từ tiếng Việt được thực hiện như sau: