Xây dựng ontology phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho tiếng việt

Đối với tiếng Việt, nghiên cứu [20] của các tác giả Nguyễn Quang Châu và Phan Thị Tươi sử dụng hệ thống luật, trong đó quan tâm đến ý nghĩa các từ quan hệ giữa các cụm từ để xác định cụm

Trang 1

Tp HCM, ngày 30 tháng 11 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên : Vũ Chí Hiếu Giới tính : Nam / Nữ Ngày, tháng, năm sinh : 06/02/1982 Nơi sinh :TP Hồ Chí Minh

2- NHIỆM VỤ LUẬN VĂN :

- Nghiên cứu các ontology hiện có vể cấu trúc, phương pháp xây

dựng và rút trích thông tin

- Nghiên cứu văn phạm tiếng Việt mức từ và cụm danh từ

- Xây dựng một ontology thử nghiệm tiếng Việt phục vụ cho việc rút trích cụm danh từ đặc trưng cùng các cơ chế bổ sung vào cấu trúc dữ liệu của ontology cũng như truy xuất thông tin từ ontology đề xuất

3- NGÀY GIAO NHIỆM VỤ : 15/01/2008

4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

(Họ tên và chữ ký) QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS Phan Thị Tươi

Cán bộ chấm nhận xét 1 : PGS TS Đồng Thị Bích Thuỷ

Cán bộ chấm nhận xét 2 : TS Quản Thành Thơ

Luận văn thạc sĩ được bảo vệ tại

HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 2 năm 2009

Trang 3

Lời cảm ơn

Tôi xin chân thành cảm ơn cô PGS TS Phan Thị Tươi Cô đã tận tình hướng dẫn, chỉ bảo cũng như động viên tôi hoàn thành luận văn này

Xin chân thành cảm ơn nghiên cứu sinh Nguyễn Quang Châu đã tận tình giúp

đỡ, giúp tôi hoàn thành luận văn

Xin chân thành cảm ơn nghiên cứu sinh Nguyễn Chánh Thành đã luôn nhiệt tình giúp đỡ, đóng góp những ý kiến phản biện quý báu

Xin chân thành cảm ơn các bạn trong nhóm cũng như các bạn trong lớp đã giúp

đỡ và tạo điều kiện cho tôi trong quá trình thực hiện luận văn

Trang 4

Tóm tắt

Các cụm từ đặc trưng là các cụm từ mô tả nội dung của văn bản Do đó việc rút trích chính xác chúng có ý nghĩa rất lớn trong các trong việc xử lý ngôn ngữ tự nhiên Để rút trích chính xác các cụm từ đặc trưng ngữ nghĩa, cần phải có một cơ sở tri thức chứa các đối tượng trong thế giới thực Tuy nhiên, hầu như chưa có nghiên cứu nào dựa trên hướng tiếp cận này để giải quyết bài toán cho tiếng Việt Luận văn này đề xuất một phương pháp xây dựng một ontology nhằm phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa của văn bản Ontology sẽ được xây dựng tự

động một phần Các từ, cụm danh từ được rút trích và ánh xạ một cách bán tự động đến các khái niệm tương ứng

Trang 5

Abstract

Key phrases are phrase that describe accurately the subject of a document Extraction of them has great meaning in natural language processing In order to extract key phrase correctly, it needs to have a knowledge base which contains objects in real world However, few of research based on this direction for the key phrase extraction in Vietnamese This thesis propose a method for building ontology used in key phrase extraction A part of the ontology is made automatically Nouns and noun phrases are extracted from document and mapped semiautomatically to coresponding concepts

Trang 6

Mục Lục

Lời cảm ơn………i

Tóm tắt……….ii

Abstract……… …iii

Danh mục hình……… vi

Danh mục bảng biểu……….vii

Chương 1 : Tổng quan………1

1.1 Phát biểu vấn đề……… 1

1.2 Rút trích cụm danh từ đặc trưng ngữ nghĩa……….4

1.2.1 Khái niệm về cụm từ đặc trưng ngữ nghĩa………4

1.2.2 Bài toán rút trích cụm danh từ đặc trưng ngữ nghĩa……… 5

1.3 Ontology……… 6

1.3.1 Định nghĩa ontology……… 7

1.3.2 Các chức năng chính của ontology………7

1.3.3 Phân loại ontology……….8

1.3.4 Một số ngôn ngữ biểu diễn ontology……….9

1.3.4.1 Ngôn ngữ RDF………10

1.3.4.2 Ngôn ngữ RDFS……….11

1.3.4.3 Ngôn ngữ OWL……… 11

1.3.4.4 Ngôn ngữ CycL……… 12

1.3.4.5 Ngôn ngữ SWRL………13

Chương 2 : Các nghiên cứu liên quan……….14

2.1 Ontology……… 14

2.2 Xây dựng ontology từ tài liệu văn bản tự do……… 21

2.2.1 Xây dựng ontology mới……… 21

Trang 7

2.2.2 Mở rộng ontology đã tồn tại………23

2.3 Chú thích ngữ nghĩa……….26

Chương 3 : Mô hình ontology đề nghị……….28

3.1 Phương pháp………28

3.2 Nhận diện các khái niệm từ vựng………31

3.3 Chú thích ngữ nghĩa cho các khái niệm từ vựng……….33

3.3.1 Chú thích ngữ nghĩa dựa trên từ điển……… 34

3.3.2 Chú thích ngữ nghĩa dựa trên độ tương tự……… 35

3.4 Chú thích ngữ nghĩa cho các thực thể……… 38

3.4.1 Chú thích ngữ nghĩa dựa trên từ điển……… 38

3.4.2 Chú thích ngữ nghĩa dựa trên các khái niệm đã được làm rõ………… 39

Chương 4 : Hiện thực và đánh giá……… 41

4.1 Hiện thực hệ thống……… 41

4.1.1 Ontology được xây dựng bằng tay……… 41

4.1.2 Khối truy vấn ontology………42

4.1.3 Khối chú thích ngữ nghĩa dựa trên từ điển……… 43

4.1.4 Khối chú thích ngữ nghĩa dựa trên độ tương tự……… 44

4.1.5 Khối chú thích ngữ nghĩa dựa trên các khái niệm đã được làm rõ…… 46

4.2 Đánh giá……… 47

4.2.1 Kết quả xây dựng ontology……….47

4.2.2 Tính ứng dụng của ontology………49

Chương 5 : Kết luận……… 51

5.1 Đóng góp của luận văn………51

5.2 Hướng phát triển……… 52

Tài liệu tham khảo……….53

Trang 8

Danh Mục Hình

Hình 1.1 Hệ phân cấp của đối tượng trong thế giới thực……….6

Hình 1.2 Phân loại ontology………9

Hình 1.3 Mô tả RDF tổng quát……… 10

Hình 2.1 Cơ sở tri thức của OpenCyc………15

Hình 2.2 Ontology Proton……… 17

Hình 3.1 Cấu trúc ontology………30

Hình 3.2 Mô hình rút trích và chú thích các khái niệm và thực thể cho ontology……… 31

Hình 3.3 Mô hình chú thích ngữ nghĩa cho từ, cụm danh từ……….34

Hình 3.4 Mô hình chú thích ngữ nghĩa cho các thực thể……… 38

Hình 4.1 Cấu trúc ontology………42

Hình 4.2 Khối truy vấn ontology……… 43

Hình 4.3 Module rút trích cụm danh từ đặc trưng……….49

Trang 9

Danh mục bảng biểu

Bảng 4.1 Kết quả rút trích và ánh xạ các từ, cụm danh từ chỉ khái niệm …….48 Bảng 4.2 Kết quả rút trích và ánh xạ các từ, cụm danh từ chỉ thực thể …….48 Bảng 4.2 Kết quả nhận diện cụm danh từ đặc trưng……… 50

Trang 10

Các hệ thống truy hồi thông tin (Information Retrieval), rút trích thông tin (Information Extraction), tóm tắt văn bản (Text Summarization), … đã được phát triển nhằm khai thác một cách tự động các nguồn thông tin trên Internet Một vấn đề cốt lõi trong các hệ thống nói trên là việc rút trích các cụm từ đặc trưng ngữ nghĩa trong văn bản Cụm từ đặc trưng là các cụm từ mô tả nội dung của văn bản Do đó việc rút trích chính xác chúng có ý nghĩa rất lớn và là mối quan tâm của các nhà ngôn ngữ học, cũng như các nhà khoa học trong lãnh vực xử lý ngôn ngữ tự nhiên bằng máy tính

Ta hãy xem xét kỹ hơn thế nào là cụm từ đặc trưng ngữ nghĩa Xét ví dụ sau :

Máy tính được trang bị màn hình LCD

Trong câu văn trên có hai cụm danh từ “máy tính” và “màn hình LCD” Dễ thấy

là đối tượng chính được nhắc đến trong câu là màn hình và cụm danh từ đặc trưng hơn là cụm “màn hình LCD” Vấn đề đặt ra là làm thế nào chọn ra được cụm danh

từ đặc trưng ngữ nghĩa trong hai cụm danh từ trên Để giải quyết vấn đề này, cần phải có một cơ sở tri thức khá lớn (như hệ phân cấp hay mạng ngữ nghĩa) chứa các

Trang 11

đối tượng trong thế giới thực để xác định chính xác các cụm từ đặc trưng ngữ nghĩa Tuy nhiên, hầu hết các hướng tiếp cận giải quyết bài toán đều dựa trên phương pháp thống kê, học máy Lý do là vì phương pháp này không đòi hỏi nhiều công sức để xây dựng cơ sở tri thức hoặc từ điển nhưng lại có độ chính xác tương đối cao Tuy nhiên, một khó khăn lớn của phương pháp này là trong một số trường hợp, nó không thể rút trích các cụm từ hợp lý nhưng có tần suất thấp Đối với tiếng Việt, nghiên cứu [20] của các tác giả Nguyễn Quang Châu và Phan Thị Tươi sử dụng hệ thống luật, trong đó quan tâm đến ý nghĩa các từ quan hệ giữa các cụm từ để xác định cụm danh từ đặc trưng Một điểm yếu của phương pháp này là nó không thể cho biết cụm danh từ nào là đặc trưng nếu xét trong ngữ cảnh một đoạn Đó lại là một trong những điểm mạnh của phương pháp sử dụng cơ sở tri thức Tuy nhiên, hầu như chưa có nghiên cứu nào (đối với tiếng Việt) sử dụng hướng tiếp cận dùng

cơ sở tri thức để nhận biết ngữ nghĩa của các cụm từ, dù phân tích cho thấy hướng tiếp cận này là rất tiềm năng

Cơ sở tri thức, với nền tảng là ontology, ngày càng được sử dụng rộng rãi với

sự ra đời và phát triển của Web có ngữ nghĩa (Semantic Web) Một ontology, theo [30] là một tập hợp có cấu trúc phân cấp các thuật ngữ dùng để mô tả một lĩnh vực nào đó và có thể được dùng như một bộ khung cho một cơ sở tri thức Nói một cách đơn giản, ontology cung cấp mô hình đặc tả các khái niệm, còn cơ sở tri thức bao gồm nền tảng là một ontology cộng với các thông tin cụ thể

Mục tiêu của luận văn là xây dựng một ontology phục vụ cho việc rút trích các cụm danh từ đặc trưng ngữ nghĩa Ontology xây dựng phải biểu diễn được ngữ nghĩa của tài liệu, cụ thể là ngữ nghĩa của từ, cụm danh từ trong tài liệu Một phần quan trọng trong ngữ nghĩa của tài liệu là các thực thể có tên (Named Entity – NE) được đề cập đến trong tài liệu Các thực thể có tên là con người, tổ chức, nơi chốn,

và các đối tượng khác được tham khảo thông qua tên [4], ví dụ như “Bill Clinton”,

“Microsoft”, “Hà Nội”, … Một ontology về các thực thể có tên nổi tiếng là Proton [32] Tuy nhiên, ngữ nghĩa của tài liệu sẽ không được khai thác trọn vẹn nếu chỉ quan tâm đến các thực thể có tên Các từ mô tả các khái niệm, thuộc tính, quan hệ,

Trang 12

… đóng vai trò quan trọng đối với ngữ nghĩa hoàn chỉnh của tài liệu, như trong ví

vậy, ngữ nghĩa của tài liệu là sự kết hợp giữa các đối tượng xuất hiện trong tài liệu

và các từ mô tả khái niệm, thuộc tính, quan hệ, … Các ontology như OpenCyc[17] được xây dựng khá toàn diện Ngoài các thực thể có tên, các khái niệm (không gian, thời gian, bàn, ghế, …), các quan hệ (anh, em, thành phần, …) đều được định nghĩa trong ontology Do đó, OpenCyc khá thích hợp với vai trò ontology phục vụ cho việc rút trích cụm từ đặc trưng Một vấn đề đặt ra là làm thế nào các ontology có thể được sử dụng hiệu quả bởi các ứng dụng xử lý ngôn ngữ tự nhiên khi xử lý các tài liệu (được viết bằng ngôn ngữ tự nhiên mà chỉ có con người đọc hiểu được) Đối với các ứng dụng sử dụng các ontology được định nghĩa hình thức (formal ontology), ngữ nghĩa của tài liệu sẽ được nắm bắt thông qua quá trình chú thích ngữ nghĩa tự động Một ontology với cách tiếp cận từ vựng là Wordnet [18], trong đó các từ được tổ chức thành các tập từ đồng nghĩa (synset) mô tả các khái niệm Ưu điểm của Wordnet là các khái niệm được hình thành bởi các từ, nên quá trình chú thích ngữ nghĩa không còn cần thiết Thế nhưng, Wordnet chủ yếu tập trung vào miền tri thức ngôn ngữ Các khái niệm được định nghĩa thuần tuý theo ngôn ngữ và các thuộc tính quan hệ của nó không hề được đề cập SUMO [24] kết hợp hai hướng tiếp cận bằng cách ánh xạ các khái niệm trong Wordnet vào các khái niệm trong ontology của nó Các ánh xạ này có tác dụng như những chỉ mục xác định ngữ nghĩa của các từ, ngữ trong tài liệu Chúng tôi nhận thấy, cách tiếp cận như vậy là hoàn toàn hợp lý cho những ứng dụng xử lý ngôn ngữ tự nhiên, cụ thể là rút trích cụm danh từ đặc trưng ngữ nghĩa

Trang 13

Trong luận văn này, chúng tôi xây dựng một ontology tiếng Việt với hướng tiếp cận giống như trên để phục vụ cho việc rút trích cụm danh từ đặc trưng ngữ nghĩa cho câu tiếng Việt Ontology bao gồm một ontology mức trên (top-level), mà chúng tôi tạm gọi là TO1, một ontology từ vựng (lexical ontology) với cấu trúc tương tự như tổ chức danh từ trong Wordnet, DO2, và một ontology định nghĩa hình thức (formal ontology) với các khái niệm tương ứng DO3 DO3 được rút trích từ ontology của OpenCyc với các khái niệm liên quan đến lĩnh vực máy tính Các từ, cụm danh

từ trong DO2 được rút trích từ các tài liệu và được ánh xạ đến các lớp tương ứng trong DO3 Tuy nhiên, một từ, cụm danh từ không phải lúc nào cũng chỉ tương ứng với một khái niệm Trong những miền tri thức khác nhau, từ, cụm danh từ sẽ có những ý nghĩa khác nhau hoặc những ý nghĩa cụ thể hơn trong miền tri thức đó Ví

dụ như từ “dữ liệu” mang nghĩa chung là những số liệu, tư liệu, thông tin được dựa vào để giải quyết vấn đề Tuy nhiên, trong các bài báo nói về lĩnh vực máy tính, “dữ liệu” mang một nghĩa cụ thể hơn, vẫn là các thông tin như văn bản, số liệu, âm thanh, hình ảnh, … nhưng được lưu trữ trong máy tính Để biểu diễn vấn đề nhập nhằng này, chúng tôi đã xây dựng các ánh xạ tương ứng với các miền tri thức khác nhau Một từ, cụm danh từ, tuỳ theo lĩnh vực đang được đề cập, sẽ tương ứng với một khái niệm trong ontology

Luận văn cũng khảo sát các hệ thống chú thích ngữ nghĩa để làm cơ sở cho việc xây dựng ánh xạ từ các từ, cụm danh từ đến các khái niệm tương ứng Các ánh xạ này được xây dựng một cách tự động theo hướng tiếp cận kết hợp giữa từ điển và phương pháp thống kê Sau đó, kết quả của quá trình ánh xạ sẽ được chỉnh sửa bằng tay và được lưu trữ vào ontology

1.2 Rút trích cụm danh từ đặc trưng ngữ nghĩa

1.2.1 Khái niệm về cụm từ đặc trưng ngữ nghĩa

Trong [20], cụm từ đặc trưng ngữ nghĩa được định nghĩa (định nghĩa của Feather và Sturges) như sau :

Trang 14

a.Định nghĩa :

Trong khoa học thư viện và thông tin, từ đặc trưng (từ khóa) được định nghĩa là

“từ mô tả ngắn gọn và chính xác chủ đề hay khía cạnh của chủ đề, mà nó được thảo luận trong văn bản”

Tương tự, cụm từ đặc trưng là các cụm từ mô tả nội dung của văn bản

b.Tiêu chí ngữ nghĩa :

Các cụm từ đặc trưng ngữ nghĩa cho câu truy vấn là các cụm từ xác định các

đối tượng chính được đề cập đến trong thông tin của phát ngôn

Ví dụ : Cho biết các trường Đại học ở Tp.Hồ Chí Minh?

Ở đây, tiêu chí ngữ nghĩa là đi xác định “các trường Đại học” và “Tp.Hồ Chí

Minh” là hai cụm từ đặc trưng ngữ nghĩa cho câu, chứ không phải là đi xác định đối tượng nghi vấn của câu là “các trường Đại học”

1.2.2 Bài toán rút trích cụm danh từ đặc trưng

Xét ví dụ sau:

“Máy tính được trang bị màn hình LCD.”

Trong câu này, chúng ta có hai đối tượng trong thế giới thực là “Máy tính” và

“màn hình LCD” Tương ứng chúng ta có hai cụm danh từ là “Máy tính” và “màn hình LCD” Bài toán đặt ra là lựa chọn cụm từ nào mà nó đặc trưng cho ngữ nghĩa cho câu Để giải quyết vấn đề này cần phải có một cơ sở tri thức (như hệ phân cấp, hay mạng ngữ nghĩa) mà nó chứa các đối tượng trong thế giới thực (như trong Hình 1.1), để xác định một cách chính xác các cụm từ đặc trưng ngữ nghĩa cho câu Khó khăn lớn cho chúng ta phải xây dựng mạng ngữ nghĩa và cú pháp cho tiếng Việt trong các lĩnh vực nghiên cứu

Từ những phân tích nêu trên, có thể thấy được tiềm năng của hướng tiếp cận dùng mạng ngữ nghĩa cho bài toán rút trích cụm danh từ đặc trưng Để giải quyết trở ngại chính trong hướng tiếp cận này, luận văn sẽ khảo sát, nghiên cứu các

Trang 15

phương pháp xây dựng mạng ngữ nghĩa, để từ đó, phục vụ cho việc nghiên cứu bài toán rút trích cụm danh từ đặc trưng

Hình 1.1 : Hệ phân cấp của đối tượng trong thế giới thực

1.3 Ontology

Xuất phát từ lĩnh vực triết học, ontology được hiểu là một hệ thống các phân loại mô tả, giải thích các sự vật theo một thế giới quan nào đó Gruber [7] gọi đó là

“Sự mô tả có hệ thống về sự tồn tại” Ontology độc lập với ngôn ngữ mô tả nó

nhưng lại phụ thuộc vào thế giới quan triết học của từng triết gia Cụ thể, một cá nhân được phân loại thuộc về một khái niệm nào đó tuỳ thuộc vào quan điểm của

triết gia về cá nhân đó Ví dụ, khái niệm chuột là một loài gặm nhấm, có thể xinh

xắn hoặc xấu xí là tuỳ thuộc vào quan điểm của mỗi người Tuy nhiên khái niệm

chuột thì độc lập với ngôn ngữ mô tả nó, Mouse trong tiếng Anh hoặc Maus trong

tiếng Đức đều chỉ tới một loại sinh vật [27]

Khái niệm ontology trong khoa học máy tính được vay mượn từ triết học và được sử dụng trong lĩnh vực trí tuệ nhân tạo Trong lĩnh vực mới này, khái niệm

Máy tính

Màn hình LCD

Trang 16

ontology cũng mang một ý nghĩa mới dù không tách biệt với ý nghĩa ban đầu của

Từ các định nghĩa trên, có thể nhận thấy một số đặc điểm cơ bản của ontology [23]:

- Ontology được dùng để mô tả một lĩnh vực cụ thể

- Các thuật ngữ và quan hệ giữa chúng được định nghĩa rõ ràng trong lĩnh vực

1.3.2 Các chức năng chính của Ontology

Ứng dụng của ontology trong thực tế là rất rộng lớn, bao gồm nhiều lĩnh vực như biểu diễn tri thức, xử lý ngôn ngữ tự nhiên, rút trích thông tin, quản lý tri thức,

Trang 17

thư viện điện tử, hệ thống thông tin địa lý, … Trong [23], tác giả đã liệt kê một số chức năng chính của ontology

- Ontology cung cấp những thông tin mô tả ngữ nghĩa của dữ liệu Thông qua ontology, tri thức có thể được chia sẻ và tái sử dụng, con người có thể giao tiếp được với máy tính Máy tính có thể hiểu các quan hệ ngữ nghĩa trong ontology, theo nghĩa là thông qua các khái niệm mô tả các thực thể và các mối quan hệ giữa chúng, ontology có thể trả lời các câu hỏi về các chủ đề trong miền dữ liệu của chúng

- Ontology cũng có thể được dùng để xây dựng cơ sở tri thức Một cơ sở tri thức gồm có nền tảng là một ontology cộng với tập các đối tượng, thực thể của các lớp Người sử dụng có thể truy vấn, chia sẻ, và làm giàu thêm cơ sở tri thức

- Ontology còn được dùng để tổ chức và phân loại thông tin Dựa trên ontology, người dùng có thể xây dựng các công cụ để phân loại, thu thập tri thức

- Một ứng dụng khác của ontology là việc hợp nhất ngữ nghĩa giữa những tài nguyên thông tin khác biệt nhau Dựa trên ngữ nghĩa thống nhất của một ontology, các tri thức giống nhau nhưng ở những dạng khác nhau có thể được tích hợp và chia sẻ một cách dễ dàng

- Trong các ứng dụng rút trích thông tin, ontology được sử dụng để phân giải nhập nhằng ngữ nghĩa các câu truy vấn, mở rộng hoặc thu hẹp các khái niệm truy vấn để đưa ra những kết quả truy vấn tốt hơn

1.3.3 Phân loại Ontology

Theo [8], Ontology được phân loại theo mức độ tổng quát đối với miền dữ liệu,

cụ thể như hình 1.2 :

Trang 18

Hình 1.2 : Phân loại ontology

- Top-level ontology : đặc tả các khái niệm tổng quát, độc lập với tri thức

trong các lĩnh vực cụ thể, ví dụ như không gian, thời gian, sự kiện, hành động, …

- Domain ontology và Task ontology : mô tả những khái niệm, tri thức tổng

quát trong những lĩnh vực cụ thể (thuốc, ô tô, …) hay trong những hoạt động, nhiệm vụ cụ thể (chNn đoán, bán hàng, …) Các ontology này được

xây dựng bằng cách chuyên biệt hoá các khái niệm trong top-level ontology

- Application ontology : mô tả những khái niệm kế thừa từ domain-ontology

lẫn task-ontology Nó thường tương ứng với vai trò của các thực thể trong miền ứng dụng khi thực thi các hoạt động cụ thể.Ví dụ như “thành phần dự trữ”, “các đơn vị thay thế được”,

1.3.4 Một số ngôn ngữ biểu diễn Ontology

Cũng như các loại mô hình dữ liệu khác, ontology cũng cần một ngôn ngữ để biểu diễn Ngữ nghĩa của ontology, tính chính xác, tính diễn đạt, … phụ thuộc vào khả năng biểu diễn của ngôn ngữ Trong phần này, chúng tôi khảo sát một số ngôn ngữ biểu diễn ontology thông dụng

Trang 19

1.3.4.1 Ngôn ngữ RDF (Resource Description Framework) [29]

Tài nguyên thông tin trên internet hiện này là vô cùng rộng lớn Tuy nhiên hầu hết đều ở dạng thức mà chỉ có con người hiểu được Do đó, để có thể sử dụng các tài nguyên này một cách hiệu quả, cần phải có thêm những dữ liệu mô tả thông tin

về chúng, hay còn gọi là các siêu dữ liệu (metadata) Từ đó, dẫn đến nhu cầu phải

chuNn hoá cách biểu diễn các siêu dữ liệu này

RDF, được phát triển bởi Word Wide Web Consortium (W3C), là một chuNn cho phép mã hoá, trao đổi và tái sử dụng các siêu dữ liệu có cấu trúc RDF cho phép các siêu dữ liệu có thể cộng tác với nhau thông qua những quy ước về ngữ nghĩa, cú pháp và cấu trúc RDF sử dụng XML (eXtendsible Markup Language) làm cú pháp chuNn để trao đổi và xử lý siêu dữ liệu Do được dùng để biểu diễn ngữ nghĩa của

dữ liệu, nên, RDF cũng rất thích hợp để biểu diễn tri thức

RDF cung cấp một mô hình để biểu diễn tài nguyên nói chung Tài nguyên gồm

có các thuộc tính (đặc điểm và tính chất) Tài nguyên được định nghĩa bởi một định

danh duy nhất là URI (Universal Resource Identifier) Các thuộc tính của tài nguyên

thuộc về một (hoặc nhiều) kiểu thuộc tính Mỗi kiểu thuộc tính có miền giá trị tương

ứng Kiểu thuộc tính mô tả mối quan hệ giữa tài nguyên và giá trị thuộc tính của nó Giá trị thuộc tính có thể là các giá trị đơn giản (số, chuỗi ký tự, …) hoặc cũng có thể

là tài nguyên khác Tập hợp các thuộc tính liên kết với một tài nguyên được gọi là

một mô tả của tài nguyên đó Hình 1.3 thể hiện một mô tả RDF tổng quát

Kiểu thuộc tính 3

Trang 20

RDF coi tất cả các đối tượng, sự vật là các tài nguyên, mô hình RDF dùng để biểu diễn tài nguyên Do đó, dưới góc độ biểu diễn ontology, RDF không có các cơ chế định nghĩa từ vựng, cú pháp để biểu diễn ontology

1.3.4.2 Ngôn ngữ RDFS (RDF Schema)

Như đã nói ở trên, RDF cung cấp một mô hình dữ liệu mô tả các đối tượng (tài nguyên) và mối quan hệ giữa chúng Tuy nhiên, mô hình RDF chỉ mô tả ngữ nghĩa khá đơn giản Trong RDF, tất cả các đối tượng đều là tài nguyên, hoàn toàn không

có cơ chế mô tả các lớp và các thuộc tính một cách rõ ràng

RDFS được xây dựng như là một sự mở rộng ngữ nghĩa của RDF Nó cung cấp tập từ vựng mô tả các lớp và các thuộc tính của các đối tượng, cũng như cây phân cấp ngữ nghĩa giữa các lớp đối tượng Có thể nói, RDFS là một ngôn ngữ biểu diễn ontology đơn giản Tuy nhiên, khi cần thực hiện các suy diễn với ontology, thì điều

đó nằm ngoài khả năng biểu diễn ngữ nghĩa của RDFS Ví dụ : RDFS không thể chỉ

ra được lớp Person và lớp Car là hai lớp rời nhau, hoặc một nhóm tứ tấu có chính xác bốn thành viên

1.3.4.3 Ngôn ngữ OWL (Web Ontology Language)

Được giới thiệu bởi W3C, OWL là ngôn ngữ chuNn biểu diễn ontology cho Web ngữ nghĩa So với RDFS, tập từ vựng định nghĩa lớp và thuộc tính của OWL phong phú hơn như : quan hệ giữa các lớp, sự tương đương, thuộc tính của quan hệ,

… Hay nói cách khác, OWL có tính diễn đạt cao hơn và hỗ trợ suy diễn tốt hơn so với RDFS OWL được phân chia thành ba ngôn ngữ con : OWL Lite, OWL DL và OWL Full

- OWL Lite : OWL Lite thích hợp cho việc xây dựng ontology chỉ gồm có hệ phân cấp và các ràng buộc đơn giản Ví dụ : đối với ràng buộc số lượng, OWL Lite chỉ cho phép các giá trị là 0 hoặc 1 OWL Lite có độ phức tạp nhỏ nhất trong ba ngôn ngữ Do đó, xây dựng các công cụ hỗ trợ, xử lý nó cũng đơn giản hơn hai ngôn ngữ còn lại

Trang 21

- OWL DL : được đặt tên như vậy vì OWL DL dựa trên logic mô tả

(description logics) OWL DL thích hợp với nhu cầu cần tính diễn đạt, biểu cảm cao trong khi vẫn giữ được tính đầy đủ (tất cả các kết luận đều có thể

được tính toán) và tính khả quyết (tất cả các tính toán đều trong thời gian hữu hạn) OWL DL bao gồm đầy đủ các thành phần xây dựng nên OWL, tuy nhiên chúng chỉ được sử dụng với những ràng buộc nhất định (ví dụ, một lớp có thể là lớp con của nhiều lớp nhưng nó không thể là thực thể của một lớp)

- OWL Full : cung cấp tính diễn đạt cao và sự tự do cú pháp của RDF nhưng không bảo đảm tính đầy đủ và tính khả quyết OWL Full cho phép ontology

có thể gia tố thêm ngữ nghĩa của từ vựng (RDF hay OWL) đã định nghĩa trước Do vậy, không chắc chắn một hệ thống suy diễn có thể hỗ trợ đầy đủ các đặc điểm của OWL Full

1.3.4.4 Ngôn ngữ CycL [33]

CycL được phát triển bởi Cycorp và được dùng trong hệ thống cơ sở tri thức OpenCyc Được xây dựng dựa trên logic bậc nhất với một số mở rộng, CycL cung cấp tính diễn đạt cùng độ chính xác cao, nâng cao khả năng suy luận của hệ thống Một số đặc điểm của CycL :

- Các khái niệm được biểu diễn bởi các hằng chuỗi

- Hệ phân cấp các khái niệm được xây dựng bằng cách gom nhóm các hằng biểu diễn khái niệm qua các quan hệ tổng quát hoá và đặc biệt hoá

- Các luật và khẳng định hỗ trợ các suy diễn về các khái niệm

- Chân trị của các mệnh đề trong CycL phụ thuộc vào ngữ cảnh Các ngữ

cảnh trong CycL được gọi là các Microtheories

Trang 22

1.3.4.5 Ngôn ngữ SWRL [12]

Được đề nghị năm 2004 bởi National Reasearch Council of Canada, Netword Inference và đại học Stanford đồng thời liên kết với uỷ ban Joint US/EU ad hoc Agent Markup Language SWRL (Semantic Web Rule Language) là sự kết hợp giữa các ngôn ngữ OWL DL và OWL Lite và Unary/Binary Datalog RuleML SWRL mở rộng OWL với các luật dạng mệnh đề Horn Các luật được viết dưới dạng suy diễn gồm có phần giả thiết (thân của luật) và phần kết luận (đầu của luật) Với sự mở rộng này, khả năng suy diễn của ontology trở nên mạnh mẽ hơn rất nhiều nhưng tính khả quyết lại mất đi, dẫn đến khó khăn trong việc hiện thực

Trang 23

Chương 2 :

Các nghiên cứu liên quan

Trong chương này, chúng tôi trình bày các nghiên cứu liên quan đến việc xây dựng ontology Đầu tiên, các cấu trúc ontology phổ biến trên thế giới sẽ được trình bày trong 2.1 Tiếp đó, các phương pháp xây dựng ontology cũng được khảo sát (phần 2.2, 2.3) nhằm mục đích tự động xây dựng (một số thành phần của) ontology

2.1 Ontology

Như đã trình bày trong phần 1.3.1, ontology là một tập hợp có cấu trúc phân cấp các thuật ngữ dùng để mô tả một lĩnh vực nào đó Tuỳ vào miền dữ liệu cần mô tả cũng như mục đích của ứng dụng, ontology sẽ được xây dựng theo những cách thức khác nhau, Wordnet [18] là một ontology mô tả các tri thức từ vựng, OpenCyc [17]

là ontology hình thức mô tả các tri thức thường nhật, Proton [32] là ontology về các thực thể có tên, …Trong phần này, chúng tôi sẽ khảo sát một số ontology thông dụng có liên quan đến đề tài

OpenCyc [17], được phát triển bởi CyCorp, là một trong những hệ thống cơ sở

tri thức và suy diễn lớn nhất hiện nay OpenCyc hiện có khoảng 155000 khái niệm

và 2,5 triệu khẳng định (assertion) về các lĩnh vực thường nhật trong cuộc sống Ontology của OpenCyc bao gồm một hệ phân cấp rộng lớn các khái niệm và

các quan hệ giữa chúng Ontology được chia thành upper ontology, core theories và domain-specific theories :

Trang 24

Hình 2.1: Cơ sở tri thức của OpenCyc

- Upper ontology : gồm các khái niệm và quan hệ hết sức trừu tượng như sự

vật, cá nhân, sự kiện, … và các mối quan hệ giữa chúng

- Core theories : bao gồm các khái niệm và các suy diễn về các sự việc

chung như không gian, thời gian, quan hệ, … Đây là những khái niệm chủ yếu liên quan đến các suy diễn thông thường

- Domain-specific theories : chứa các lý thuyết về các lĩnh vực cụ thể như

vật lý, hóa học, tài chính, kinh tế, … Các khái niệm, quan hệ mang tính chuyên biệt này làm cho OpenCyc trở nên một cơ sở tri thức hết sức hữu ích

Các khẳng định, các luật trong OpenCyc được xếp vào trong các microtheory

tuỳ theo ngữ nghĩa cụ thể Có thể coi các microtheory như các ngữ cảnh trong đó các luật được mô tả một cách đúng đắn và nhất quán Cách tổ chức này có những thuận lợi :

- Suy diễn hiệu quả hơn vì không gian tìm kiếm có thể được thu hẹp Quá trình tìm kiếm chỉ cần tập trung vào những thông tin có liên quan thay vì trong toàn bộ cơ sở tri thức

Trang 25

- Việc xây dựng cơ sở tri thức đơn giản và hiệu quả hơn Người phát triển ontology và cơ sở tri thức có thể sử dụng các khẳng định và luật súc tích, ngắn gọn Ví dụ, với những microtheory chứa các khẳng định và các luật trong ngữ cảnh đất nước Nam Phi vào năm 1995, người phát triển có thể sử dụng một khẳng định ngắn gọn : “Mandela là tổng thống” Nếu không có microtheory, người phát triển sẽ phải chỉ rõ các thông tin về ngữ cảnh trong khẳng định đó, như : “Mandela là tổng thống Nam Phi năm 1995”

- Microtheory cho phép tránh được những mâu thuẫn toàn cục trong cơ sở tri thức Trong một cơ sở tri thức rộng lớn như OpenCyc, với luật liên quan tới những chủ đề, lý thuyết và quan điểm khác nhau , mâu thuẫn xảy ra là điều không thể tránh khỏi Thông qua microtheory, các suy diễn có thể được thực hiện trong một nhóm các thông tin nhất quán với nhau

Ngôn ngữ biểu diễn của OpenCyc là CycL, với cú pháp kế thừa từ logic bậc nhất và ngôn ngữ lập trình hàm Lisp CycL cung cấp khả năng suy diễn rất tốt dựa trên tính diễn đạt và độ chính xác cao

Nhìn chung OpenCyc là một ontology mạnh với những khái niệm logic và toàn diện Tuy nhiên, sự logic và toàn diện đó làm cho các khái niệm trở nên phức tạp và trừu tượng hơn Việc thao tác trên chúng không dễ dàng với những người dùng bình thường

Proton (PROTo ONtology) [32], được phát triển bởi Ontotext Lab trong dự án

Semantic Knowledge Technologies (SEKT)

Ontology Proton có khoảng 300 lớp và 100 thuộc tính, bao gồm các khái niệm chung, cần thiết cho các ứng dụng chú thích ngữ nghĩa, đánh chỉ mục, truy hồi thông tin, … Proton có những đặc điểm sau :

- Độc lập với miền dữ liệu

- Các khái niệm được định nghĩa đơn giản (light-weight)

Trang 26

- Ontology chủ yếu tập trung vào các thực thể có tên (như Người, Tổ chức, Địa điểm, …) Không hỗ trợ các khái niệm trừu tượng (không có thực thể) như “yêu”, “ghét”, …

Proton gồm các module : System , Top, Upper và KM (Knowledge Management) và được chia thành ba mức như trong hình 2.2

Hình 2.2 : Ontology Proton

- System module : là module ở mức ứng dụng, định nghĩa các khái niệm

cần thiết cho các ứng dụng như chú thích ngữ nghĩa, truy hồi thông tin, …

Trong System module chứa lớp Entity, là lớp cha cho tất cả các đối tượng

và sự vật trong thế giới thực, lớp Alias mô tả các bí danh của một thực thể,

và các thông tin về thực thể được rút trích từ EntitySource, …

Trang 27

- Top module : mô tả các khái niệm cơ bản, phổ biến về thế giới thực Bắt đầu bằng các khái niệm cơ bản như Object – mô tả các đối tượng tồn tại, vị

trí, chủ thể, …; Happening – sự kiện và các tình huống; Abstract – các khái

niệm trừu tượng khác với Object và Happening Ở bên dưới là các khái niệm chung về thế giới thực như Person, Organization, Location, Government, …cùng với các tính chất và quan hệ của chúng Top module thường là mức được dùng để đối sánh với các ontology khác

- Upper module : mô tả các khái niệm chuyên biệt hoá so với Top module

Kế thừa từ upper module, người phát triển có thể xây dựng các ontology chuyên biệt tuỳ theo nhu cầu

- KM module : gồm các khái niệm chuyên biệt hỗ trợ các ứng dụng quản lý

tri thức nhu User, UserProfile, WeightedTerm, …

Proton được biểu diễn bằng OWL Lite, ngôn ngữ đơn giản nhất trong họ ngôn ngữ OWL

SUMO [24] được phát triển bởi IEEE SUO Working Group, với mục đích tạo

ra một ontology chuNn làm nền tảng cho các ứng dụng như truy hồi thông tin, suy diễn tự động, xử lý ngôn ngữ tự nhiên, … SUMO upper-ontology được cấu thành bằng cách kết hợp các ontology : upper-ontology của Sowa, upper-ontology của Russell và Norvig, tiên đề về thời gian của James Allen, …vào một cấu trúc chặt chẽ Người phát triển ứng dụng có thể dễ dàng mở rộng SUMO cho miền dữ liệu cụ thể hoặc kết hợp với ontology sẵn có bằng cách ánh xạ các khái niệm

Tương tự như OpenCyc, SUMO cũng được chia thành Top-level, Middle-level and Domain-Specific ontology

SUMO được biểu diễn bằng SUO-KIF, ngôn ngữ logic bậc nhất với tính diễn đạt cao Do đó SUMO hỗ trợ rất tốt các suy diễn trên các khái niệm Tuy nhiên, đó cũng lại là điểm gây khó khăn cho người phát triển vì hiện chưa có ngôn ngữ truy vấn ontology nào hỗ trợ logic bậc nhất

Trang 28

Một ưu điểm của SUMO là ontology được liên kết chặt chẽ với Wordnet, hệ thống tri thức từ vựng rất lớn Mỗi từ trong Wordnet đều được ánh xạ ngữ nghĩa đến một khái niệm trong SUMO Điều này có ý nghĩa rất lớn, vì các ứng dụng xử lý ngôn ngữ tự nhiên có thể nắm bắt được các tri thức về các khái niệm một cách nhanh chóng và chính xác

WordNet [18], là hệ thống tham khảo từ vựng trực tuyến, được xây dựng dựa

trên lý thuyết về ngôn ngữ tâm lý học, nghĩa là dựa trên cách thức tổ chức, ghi nhớ tri thức của bộ não con người để có thể mô phỏng và tổ chức tri thức

Từ vựng trong WordNet gồm có danh từ, động từ, tính từ, trạng từ là các từ loại chiếm số lượng lớn trong tiếng Anh và chủ yếu tập trung vào miền tri thức ngôn ngữ Các thực thể như tên riêng, địa danh, tổ chức, … hầu như không được đề cập

trong WordNet Các thông tin mô tả thuộc tính của khái niệm, ví dụ như tên, địa chỉ, giới tính, … của khái niệm nhân viên, cũng không được mô tả

Từ vựng trong WordNet được tổ chức thành các synset (tập các từ tương đồng

về ngữ nghĩa) Một từ mang nhiều nghĩa có thể thuộc về nhiều synset Như vậy, synset diễn tả một khái niệm biểu diễn nghĩa của các từ chứa trong nó trong một ngữ cảnh cụ thể

Quan hệ trong WordNet gồm có các quan hệ từ vựng (quan hệ giữa các form), và các quan hệ ngữ nghĩa (quan hệ giữa các word-meaning, hay quan hệ giữa các khái niệm) Các mối quan hệ ngữ nghĩa, do đó, là quan hệ giữa các synset Các mối quan hệ từ vựng và quan hệ ngữ nghĩa tạo thành mạng ngữ nghĩa liên kết các từ

word-với nhau, như tên gọi của hệ thống Các mối quan hệ trong WordNet : Synonymy, Antonymy, Hyponymy, Hypernymy, Meronymy, Morphological Relations, …

Danh từ trong WordNet được tổ chức dựa trên cặp quan hệ nền tảng là Hyponymy/Hypernymy Hai quan hệ này tương ứng với mối quan hệ lớp cha/lớp con trong các hệ phân cấp ngữ nghĩa Do đó có thể xem hệ thống danh từ trong WordNet là một ontology về từ vựng Giữa các khái niệm trong WordNet còn có cặp quan hệ holonymy/meronymy, tương ứng với mối quan hệ toàn thể/bộ phận Ví

Trang 29

dụ : cánh chim {wing} là meronymy của con chim {bird}, và con chim là holonymy của cánh chim

Cơ sở tri thức của WordNet hiện có khoảng 155000 từ trong khoảng 117000

synsets Mặc dù không phải là một ontology đúng nghĩa xét trên góc độ phát triển

ontology vì dư thừa và không nhất quán, nhưng WordNet là nguồn tài nguyên từ vựng có giá trị Hiện nay, Wordnet đã được sử dụng như một cơ sở tri thức trong rất nhiều nghiên cứu cũng như ứng dụng xử lý ngôn ngữ tự nhiên Các phiên bản của Wordnet cho các ngôn ngữ khác như Trung Quốc, Pháp, Đức, Ả Rập, … đã được xây dựng

VN-KIMO là một phần trong đề tài khoa học cấp nhà nước, đề tài Web có ngữ

nghĩa do PGS TS Cao Hoàng Trụ làm chủ nhiệm đề tài VN-KIMO được xây dựng dựa trên KIMO Cũng tương tự như KIMO, miền dữ liệu mà KIMO nhắm đến là các thực thể trong các tin tức hằng ngày Các khái niệm trong KIMO là các thực thể

có tên về các nhân vật, tổ chức, núi non, sông ngòi và các địa điểm nổi tiếng

Từ các nghiên cứu trên, chúng tôi nhận thấy, Wordnet có cấu trúc thích hợp để lưu trữ ngữ nghĩa cho các từ, cụm từ Tuy nhiên, hạn chế của Wordnet so với các ontology khác là nó chỉ mô tả các tri thức từ vựng mà không quan tâm đến các thuộc tính của đối tượng trong thế giới thực Do đó, chúng tôi hướng tới ý tưởng xây dựng ontology gồm có các thành phần từ vựng và khái niệm, kết hợp ưu điểm của Wordnet và các ontology mức khái niệm như SUMO, OpenCyc, …

Tuy nhiên, xây dựng một ontology với ý tưởng như vậy một cách thủ công sẽ mất rất nhiều công sức Vì vậy, chúng tôi khảo sát một số phương pháp xây dựng ontology một cách (bán) tự động, giúp cho việc xây dựng ontology dễ dàng và ít tốn công sức hơn

Trang 30

2.2 Xây dựng ontology từ tài liệu văn bản tự do

Ontology có thể được học (xây dựng một cách tự động) từ rất nhiều nguồn khác nhau Tuy nhiên, trong luận văn chỉ nghiên cứu các hướng tiếp cận trên các tài liệu văn bản tự do (free text), vốn tồn tại rất nhiều ở dạng tài liệu Web

Trong các tài liệu, các khái niệm thường được xác định bởi danh từ hoặc cụm danh từ Do vậy, hầu hết các hướng tiếp cận đều sử dụng các danh từ hoặc cụm danh từ để xây dựng ontology mà không quan tâm nhiều đến các từ loại khác Theo [2], các nghiên cứu xây dựng ontology bằng phương pháp học máy có thể phân biệt theo hai hướng tiếp cận :

- Xây dựng một ontology mới

- Mở rộng một ontology đã tồn tại

2.2.1 Xây dựng ontology mới

Hướng tiếp cận này chủ yếu sử dụng các phương pháp gom cụm (clustering) để

xây dựng cây phân cấp ngữ nghĩa Một độ đo khoảng cách giữa các thuật ngữ phải được định nghĩa làm tiêu chuNn cho việc gom cụm Yếu tố quyết định của các phương pháp này là phải chọn một độ đo khoảng cách tốt và một giải thuật gom cụm phù hợp

Khoảng cách ngữ nghĩa giữa các thuật ngữ trong trường hợp này phụ thuộc rất nhiều vào ngữ cảnh của các thuật ngữ đó, vì theo [9], các từ tương tự nhau xuất hiện trong những ngữ cảnh giống nhau Nghĩa là, nếu các từ càng chia sẻ những thông tin ngữ cảnh giống nhau, thì chúng càng tương tự nhau Thông tin ngữ cảnh có thể được tính dựa trên các từ xuất hiện xung quanh từ trung tâm Các kỹ thuật trong hướng tiếp cận theo ngữ cảnh có thể được chia thành :

Kỹ thuật dựa trên cửa sổ

Thông tin ngữ cảnh của một từ được xem xét trên một số lượng các từ xung quanh nó Một văn bản cửa sổ có thể là một nhóm từ, một câu, hoặc một đoạn văn

Trang 31

bản Banerjee và Pederson [1] sử dụng kỹ thuật dựa trên cửa sổ để phân giải nhập nhằng ngữ nghĩa của từ Các tác giả định nghĩa cửa sổ của một từ đơn giản là một

nhóm 2 * n từ trước và sau nó Một từ có nghĩa tương ứng với một khái niệm khi

các thông tin ngữ cảnh của nó gần giống nhất với mô tả ngữ nghĩa của khái niệm

đó

Kỹ thuật dựa trên việc phân tích cú pháp

Các kỹ thuật dựa trên phân tích cú pháp hầu hết sử dụng các mối quan hệ vị tham số (động từ-túc từ, chủ từ-động từ)

từ-Một trong những nghiên cứu đầu tiên về gom cụm ngữ nghĩa sử dụng kỹ thuật phân tích cú pháp là nghiên cứu của Hindle [11] Ông tính toán độ tương tự giữa các danh từ dựa trên các động từ chúng chia sẻ Cụ thể,

SIM(n 1 , n 2 ) = ∑i (SIM sub (v i , n 1 , n 2 ) + SIM obj (v i , n 1 , n 2 ))

Trong đó, SIMsub và SIMobj được tính giống nhau :

00

min

) , n (v , C ) ,n (v C ))) , n

(v ), C , n (v abs(Max(C

) , n (v , C ) ,n (v C )) , n

(v , n), C (v (C

k i obj j

i obj k

i obj j i obj

k i obj j

i obj k

i obj i

2

log

f(n v) : tần suất xuất hiện của n là khách thể của v trong tài liệu

f(n) : tần suất xuất hiện của n trong tài liệu

f(v) : tần suất xuất hiện của v trong tài liệu

N : số lượng các mệnh đề trong tài liệu

Trang 32

Một hướng tiếp cận khác trong xây dựng hệ phân cấp ngữ nghĩa là hướng tiếp cận dựa trên phương pháp nhận dạng mẫu

Trong [3], tác giả sử dụng các mẫu nhận dạng của Hearst [10] giúp nhận dạng các quan hệ hypernymy (quan hệ cha trong cây phân cấp ngữ nghĩa) Với mỗi danh

từ trong tập huấn luyện, một véc tơ chứa tần suất xuất hiện của các danh từ khác ở dạng đồng vị ngữ với chúng được tạo ra Độ tương tự giữa hai danh từ được tính toán dựa trên công thức cosine giữa hai véc tơ biểu diễn ngữ cảnh của chúng Để có được các quan hệ hypernymy, tác giả sử dụng các mẫu nhận dạng Ví dụ : với mẫu câu “B is a (kind of) A”, dễ dàng nhận thấy A là hypernym của B Hoặc với mẫu

“X, Y and other Zs”, có thể suy ra rằng Z là hypernym của X và Y Phương pháp trong [3] đạt độ chính xác khoảng 35-55%

2.2.2 Mở Rộng Ontology Đã Tồn Tại

Việc mở rộng ontology được xem như là công việc phân loại các khái niệm mới vào ontology Các thông tin của ontology sẽ được sử dụng như tập huấn luyện để tạo ra bộ phân loại cho các đối tượng chưa biết

Trong [35], tác giả đã sử dụng phương pháp kết hợp giữa cú pháp và thống kê

để mở rộng WordNet Ý tưởng của phương pháp như sau

Để phân loại từ w vào hệ phân cấp T, sử dụng tập ngữ liệu C :

- Tìm trong tập ngữ liệu C tập các từ gần w nhất về nghĩa, gọi tập các từ này

Các giá trị ứng với hàng i, cột j của ma trận là số lần xuất hiện của từ ở hàng i trong cửa sổ ngữ cảnh (15 từ) của từ ở cột j được thống kê trong kho ngữ liệu Như thế,

Trang 33

mỗi từ ứng với các hàng sẽ được biểu diễn bằng một véc tơ có giá trị là số lần đồng xuất hiện của nó với các từ phổ biến Thay vì chỉ xây dựng một véc tơ cho mỗi từ, tác giả đã xây dựng các véc tơ ứng với các từ loại của từ đó (ở đây là danh từ và động từ) Do ma trận này rất thưa, tác giả đã sử dụng phương pháp phân tích ngữ

nghĩa ngầm định (latent semantic analysis) để rút gọn kích thước ma trận từ 1000 cột thành 100 Sau đó, độ tương tự giữa các từ được tính toán theo độ đo cosine

Để xác định vị trí tương ứng trong hệ phân cấp với tập các từ, gọi là S, tìm được

ở bước trên, tác giả làm như sau : với mỗi w ϵ S, tìm tập có thứ tự H(w) gồm các

hypernym của w trong T Gọi H = U H(w), ý tưởng của tác giả là tìm một hypernym

h Є H của w bao phủ nhiều nhất và gần nhất các từ trong S Do đó, tác giả đã định nghĩa một hàm quan hệ giữa w và h như sau :

∈

H(c) h

.

-c H

h )

/dist(c, h

250

Trong đó, C(w) là tập các nghĩa có thể có của w Giá trị của dist(c, h) có thể

được tính đơn giản là số nút trung gian giữa c và h

Hypernym h với giá trị α lớn nhất là nút được chọn để thêm từ w chưa biết vào

đó Độ chính xác đạt được là 85% với danh từ chung, 34% với danh từ riêng và 65% với động từ

Wischel [36] sử dụng phương pháp cây quyết định để mở rộng các khái niệm trong GermaNet (hệ thống tương tự WordNet trong tiếng Đức) Phương pháp của ông gồm các bước :

- Xác định các khái niệm tương ứng với danh từ hoặc cụm danh từ

- Dùng cây quyết định để thêm khái niệm mới vào cây phân cấp ngữ nghĩa

Để xác định các khái niệm, tác giả kết hợp phương pháp thống kê và nhận dạng mẫu

Ở phương pháp thống kê, tập tài liệu T thuộc lĩnh vực cần quan tâm được dùng

để mở rộng ontology T được chọn sao cho bao phủ tốt các khái niệm trong lĩnh vực

Định dạng
Số trang	67
Dung lượng	638,08 KB