Luận văn này đưa ra một cách tiếp cận mới cho việc tìm kiếm ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu độ đo về mặt ngữ nghĩa giữa hai kiểu ý niệm, kiểu
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2LỜI CẢM ƠN
Trước hết, tôi xin gởi lời biết ơn chân thành sâu sắc đến Thầy Cao Hoàng Trụ, người
đã tận tình hướng dẫn, định hướng cho tôi từ phương pháp nghiên cứu khoa học đến cách thức trình bày vấn đề trong suốt quá trình làm luận văn tốt nghiệp
Tôi gởi lời cảm ơn đến các thành viên Huỳnh Ngọc Tuyên, Đỗ Thanh Hải trong nhóm
hiện thực hệ thống VNKIM đã hỗ trợ tôi về mặt kĩ thuật trong quá trình hiện thực đề tài Tôi xin gởi lời cảm ơn đến các tác giả của các bài báo mà tôi đã sử dụng để nghiên cứu
và tham khảo trong luận văn tốt nghiệp này
Con xin cảm ơn ba mẹ đã động viên, khuyến khích con trong suốt quá trình làm luận văn tốt nghiệp
Trang 3TÓM TẮT
Tri thức có thể được biểu diễn như là các đồ thị gồm các ý niệm và quan hệ giữa các ý niệm Luận văn này đưa ra một cách tiếp cận mới cho việc tìm kiếm ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu độ đo về mặt ngữ nghĩa giữa hai kiểu ý niệm, kiểu quan hệ và các ràng buộc thuộc tính trên kiểu ý niệm đó Trong đó, chúng tôi dẫn
ra cách tính độ đo tương tự và bao phủ giữa các kiểu ý niệm, kiểu quan hệ dựa trên số lượng thực thể của các kiểu ý niệm, kiểu quan hệ đó có trong cơ sở tri thức Từ đó, chúng tôi tính được độ đo tương tự và độ đo bao phủ giữa một đồ thị truy vấn và một kết quả
Mặt khác, để tận dụng khả năng tìm kiếm có sẵn của hệ thống Sesame, công trình này
sử dụng kĩ thuật biến đổi truy vấn để tìm các đồ thị kết quả mà gần với đồ thị truy vấn của người sử dụng Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có thể được xem là các đồ thị tri thức Một đồ thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật biến đổi truy vấn và được sử dụng để truy vấn các đồ thị RDF kết quả Những đồ thị RDF kết quả mà được so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ thị truy vấn ban đầu để tính toán các độ đo và trả về cho người sử dụng
Trang 4SUMMARY
Knowledge can be presented as graphs, including concepts and relations between concepts The work of this thesis proposes a new approach for semantic search engine by fuzzy matching of knowledge graphs based on studying the semantic measures between concept types, relation types and attribute value constraints In this work, we derived the similarity and subsumption degrees between concept types, relation types calculated from the population of their entities in the knowledgebase From these points, we propose the similarity and subsumption degrees between a query and a result graph
Moreover, in order to reuse the existing platform of Sesame, this work utilizes the query modification tatic as a solution to retrieve the knowledge graphs which are similar to user’s query knowledge graph It means that knowledge is presented in RDF statements, which are also knowledge graphs Due to query modification technique, a new query knowledge graph is generalized from user’s query graph and used for searching results Then, knowledge graphs retrieved from generalized knowledge graph will be matched with original graph to calculate the measures and return to the user
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
TÓM TẮT 2
SUMMARY 3
MỤC LỤC 4
DANH MỤC CÁC HÌNH 5
DANH MỤC CÁC BẢNG 6
1 - PHÁT BIỂU VẤN ĐỀ 7
2 - CƠ SỞ LÝ THUYẾT 10
2.1 - Ngôn ngữ truy vấn đồ thị tri thức 10
2.1.1 Sesame và SeRQL 10
2.1.2 Đồ thị ý niệm 13
2.2 - Độ tương tự giữa các từ 15
2.2.1 Hướng tiếp cận dựa trên kho ngữ liệu 15
2.2.2 Hướng tiếp cận dựa trên ontology 17
2.3 - Độ đo giữa các chuỗi 25
2.3.1 Các độ đo dựa trên chuỗi 25
2.3.2 Các độ đo dựa trên token 27
3 - CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC 32
3.1 - Độ tương tự giữa các kiểu thực thể 32
3.2 - Độ bao phủ giữa các kiểu thực thể 35
3.3 - Độ bao phủ giữa các tên thực thể 37
3.4 - Độ đo giữa đồ thị truy vấn và kết quả 39
4 - THIẾT KẾ VÀ HIỆN THỰC GIẢI THUẬT SO TRÙNG MỜ ĐỒ THỊ TRI THỨC 42
4.1 - Kĩ thuật biến đổi truy vấn 42
4.2 - Ánh xạ đồ thị ý niệm truy vấn sang ngôn ngữ truy vấn SeRQL 50
4.3 - Giải thuật so trùng mờ các đồ thị ý niệm 57
5 - ĐÁNH GIÁ 64
6 - KẾT LUẬN 71
7 - HƯỚNG MỞ RỘNG 72
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 73
TÀI LIỆU THAM KHẢO 74
Trang 6DANH MỤC CÁC HÌNH
Hình 1: Đồ thị RDF cho truy vấn SeRQL 13
Hình 2: Minh họa về đồ thị ý niệm 14
Hình 3: Minh họa ý niệm chung thấp nhất của hai ý niệm 20
Hình 4: Minh họa ý tưởng của Jiang-Conrath 23
Hình 5: Ví dụ minh họa ý tưởng của Jaro 27
Hình 6: Sự phân cấp các kiểu ý niệm trong ontology 32
Hình 7: Sự so sánh giữa độ tương tự và độ bao phủ giữa hai kiểu thực thể 36
Hình 8: Ví dụ về đồ thị ý niệm truy vấn 40
Hình 9: Một ví dụ đồ thị ý niệm truy vấn 41
Hình 10: Một đồ thị ý niệm kết quả 41
Hình 11: Một trường hợp dùng kĩ thuật biến đổi truy vấn 43
Hình 12: Kết quả một trường hợp dùng kĩ thuật biến đổi truy vấn 43
Hình 13: Ví dụ minh họa giải thuật biến đổi truy vấn 47
Hình 14: Đồ thị ý niệm truy vấn mới sau khi dùng giải thuật biến đổi truy vấn 49
Hình 15: Giải thuật so trùng mờ đồ thị tri thức 58
Hình 16: Minh họa bảng kết quả trả về khi thực hiện truy vấn SeRQL 59
Hình 17: Một truy vấn của công cụ soạn thảo đồ thị ý niệm truy vấn 65
Hình 18: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ 66
Hình 19: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ (tiếp theo) 67
Hình 20: Ví dụ minh họa kết quả tìm kiếm các thực thể có tên trong đồ thị truy vấn 68
Trang 7DANH MỤC CÁC BẢNG
Bảng 1: Bảng mô tả sự ánh xạ giữa các kiểu thực thể trong đồ thị ý niệm truy vấn ở hình 13 và các
kiểu thực thể mới sau khi thực thi bước biến đổi truy vấn 48Bảng 2: Bảng lưu trữ các biến trong truy vấn SeRQL của ví dụ ở hình 13 56
Trang 8để có thể biểu diễn, tổ chức thông tin, và xây dựng nên một mô hình tìm kiếm thích hợp là điều cần thiết
Một dạng chuẩn cho việc biểu diễn nội dung, thông tin của các tài liệu và ngữ nghĩa tri thức trên Web là dùng các phát biểu RDF (Resource Description Framework), mà trong đó, các phát biểu có thể xem như là các đồ thị Từ đó, các hệ thống quản lý thông tin và tri thức dần dần xuất hiện Cụ thể là Sesame ([14]) với ngôn ngữ truy vấn SeRQL ([23]) cho việc lưu trữ và truy vấn các đồ thị RDF Tất cả chúng đều là mã nguồn mở và đã được sử dụng trong các hệ thống lớn
Công trình mà chúng tôi đang nghiên cứu và hiện thực cũng sử dụng các phát biểu RDF
để lưu trữ và biểu diễn tri thức, đồng thời sử dụng Sesame và ngôn ngữ truy vấn mạnh, cho phép tìm kiếm chính xác của nó là SeRQL để quản lý và truy vấn các đồ thị RDF Một đồ thị RDF bao gồm các kiểu ý niệm, kiểu quan hệ và các ràng buộc về giá trị thuộc tính trên kiểu ý niệm Trong đó, các kiểu ý niệm, kiểu quan hệ được định nghĩa trong một mạng phân cấp ontology Do đó, mục tiêu của luận văn này là đưa ra cách tiếp cận mới cho việc tìm kiếm theo ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu các độ đo khoảng cách ngữ nghĩa giữa các kiểu ý niệm, giữa các kiểu quan hệ và các độ đo giữa các giá trị thuộc tính
Mục tiêu đặt ra của công trình đã hướng chúng tôi nỗ lực nghiên cứu các độ đo giữa các
ý niệm, mà cụ thể là nghiên cứu các độ đo giữa các từ của các công trình trước đây mà cách tiếp cận được phân chia làm hai hướng chính, gồm cách tiếp cận dựa trên tập ngữ liệu và cách tiếp cận dựa trên ontology Trong cách tiếp cận dựa trên tập ngữ liệu, khoảng cách ngữ nghĩa giữa các từ đại diện cho các ý niệm và các quan hệ được xác định dựa trên sự đồng xuất hiện của chúng trong các ngữ cảnh khác nhau trong một tập ngữ liệu Trong cách tiếp cận dựa trên ontology, khoảng cách về mặt ngữ nghĩa được xác định dựa trên các mạng ngữ nghĩa gắn liền với sự liên hệ giữa các từ Tuy nhiên, các phương pháp theo các cách tiếp cận trên không thể
Trang 9áp dụng được cho các nhãn kiểu không có ý nghĩa bởi vì chúng đều dựa trên sự xuất hiện thực
sự và ý nghĩa của các từ có trong một tập ngữ liệu
Cơ sở tri thức của công trình mà chúng tôi nghiên cứu được xây dựng dựa trên ontology, gồm các nhãn kiểu ý niệm và nhãn kiểu quan hệ Do đó, để thực hiện việc tính khoảng cách ngữ nghĩa giữa các ý niệm được đại diện bởi các nhãn kiểu ý niệm và nhãn kiểu quan hệ đó, chúng tôi thực hiện việc sửa đổi công thức tính khoảng cách ngữ nghĩa giữa các
từ dựa trên mạng phân cấp ontology của Jiang-Conrath ([13]) Cụ thể như sau, thay vì tính xác suất xuất hiện của các từ trong công thức dựa trên một tập ngữ liệu, chúng tôi dẫn ra xác suất xuất hiện của các kiểu ý niệm hoặc kiểu quan hệ được tính dựa trên số lượng thực thể của kiểu ý niệm hoặc kiểu quan hệ đó có trong cơ sở tri thức của công trình đang làm
Mặt khác, các độ đo khoảng cách ngữ nghĩa trên là độ đo tương tự giữa hai kiểu ý niệm, kiểu quan hệ Đó là các độ đo đối xứng Điều này hướng chúng tôi đến việc nghiên cứu các
độ đo bất đối xứng Bởi vì trên thực tế, chúng ta có thể cần đo và tính xem một đồ thị truy vấn bao phủ một đồ thị kết quả một giá trị là bao nhiêu Trong công trình, chúng tôi đưa ra một độ
đo bao phủ bất đối xứng cho các kiểu thực thể cũng dựa trên nền tảng xác suất của độ đo khoảng cách ngữ nghĩa của Jiang-Conrath
Ngoài việc nghiên cứu các độ đo giữa các từ của các công trình trước đây để đưa ra phương pháp mới cho công trình của mình, chúng tôi còn tiến hành nghiên cứu các độ đo giữa các giá trị thuộc tính Trong công trình của luận văn, chúng tôi giới hạn chỉ nghiên cứu các độ
đo giữa các giá trị thuộc tính chuỗi là tên của thực thể Các cách tiếp cận của các công trình trước đây về độ đo giữa các chuỗi được chia làm hai phương pháp, gồm phương pháp đo chuỗi tĩnh và phướng pháp đo chuỗi dựa trên các token Trong công trình này, chúng tôi áp dụng phương pháp SoftTF-IDF ([1]), là phương pháp đo lai ghép giữa phương pháp đo chuỗi tĩnh và phương pháp đo dựa trên token cho việc tính độ đo giữa các thuộc tính chuỗi là tên thực thể
Nếu xét về khía cạnh hiện thực, việc tiến hành triển khai xây dựng một hệ thống rút trích xấp xỉ các đồ thị tri thức ngay từ ban đầu là công việc khó khăn, đòi hỏi nhiều thời gian
và công sức Vì vậy, chúng tôi sử dụng kĩ thuật biến đổi truy vấn như là một giải pháp chiến lược, đồng thời sử dụng lại các chức năng so trùng có sẵn của Sesame và ngôn ngữ truy vấn của nó là SeRQL cho việc quản lý và so trùng chính xác các đồ thị tri thức
Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có thể được xem là các đồ thị tri thức có trong cơ sở tri thức được quản lý bởi hệ thống Sesame Một đồ
Trang 10thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật biến đổi truy vấn và được sử dụng để truy vấn các đồ thị RDF kết quả thông qua ngôn ngữ SeRQL Những đồ thị RDF kết quả mà được
so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ thị truy vấn ban đầu để tính toán các độ đo tương tự và bao phủ và trả kết quả về cho người sử dụng
Trang 11Cùng với sự xuất hiện với chuẩn RDF và RDFS, nhiều ngôn ngữ truy vấn RDF và RDFS đã ra đời như RQL và RDQL Tuy nhiên, các ngôn ngữ này vẫn còn thiếu khả năng biểu diễn biểu thức đường dẫn đủ mạnh để có thể đơn giản biểu thức truy vấn Vì vậy, Sesame đưa ra một ngôn ngữ SeRQL (Sesame RDF Query Language) như là một ngôn ngữ RDF và RDFS mới, thừa hưởng tất cả các đặc điểm tốt của RQL và RDQL, và hỗ trợ một số đặc điểm mới mạnh hơn SeRQL cũng hỗ trợ khả năng bao phủ (subsumption), nghĩa là một kiểu ý niệm hoặc một quan hệ trong câu truy vấn có thể so trùng (match) được với các kiểu con của nó trong cơ sở tri thức
Thành phần cơ bản của truy vấn SeRQL là các URI (univeral resource identifiers), hằng, và biến Một URI trong Sesame có thể được viết dưới hai dạng, hoặc là URI đầy đủ, ví
dụ, ta có <http://www.dit.hcmut.edu.vn/vnkim/vnkimkb.rdf#Quốc_gia_1> là danh hiệu URI của thực thể quốc gia Việt Nam trong cơ sở tri thức, hoặc ta có thể viết ở dạng URI viết tắt là <vnkimkb_rdf:Quốc_gia_1> Trong trường hợp viết tắt, tiếp đầu ngữ vnkimkb_rdf sẽ được ánh xạ thành chuỗi đầy đủ là http://www.dit.hcmut.edu.vn/vnkim/vnkimkb.rdf tự động bởi hệ thống tìm kiếm Sesame Các thuộc tính của các đối tượng mang giá trị hằng thuộc các kiểu dữ liệu cơ bản như số thực, số nguyên, chuỗi, Các biến đại diện cho các danh hiệu URI của các đối tượng hoặc các giá trị thuộc tính của đối tượng mà chúng ta muốn
có và được chỉ ra trong câu truy vấn thông qua các tên biến
Trang 12Sau đây là một ví dụ về ngôn ngữ truy vấn SeRQL Câu truy vấn sau có ý nghĩa là “Tìm tất cả các thành phố cấp một được định vị ở quốc gia Việt Nam”
SELECT CityID, CityLabel
FROM
{CityID} <rdfs:label> {CityLabel},
{CityID} <rdf:type> {<http://www.dit.hcmut.edu.vn/vnkim/vnkimo.rdfs#Thành_phố_cấp_một>}, {CityID} <http://www.dit.hcmut.edu.vn/vnkim/vnkimo.rdfs#được_định_vị_ở>
{<http://www.dit.hcmut.edu.vn/vnkim/vnkimkb.rdf#Quốc_gia_1>}
Trong câu truy vấn trên, CityID và CityLabel lần lượt là các biến đại diện cho danh hiệu URI
và nhãn của các đối tượng có trong kết quả sẽ được trả về từ câu truy vấn
Các câu truy vấn chọn của ngôn ngữ SeRQL được xây dựng từ bốn mệnh đề cơ bản chủ yếu, gồm SELECT, FROM, WHERE, và USING NAMESPACE Mệnh đề SELECT được
sử dụng để xác định các biến nào phải được trả kết quả về theo đúng thứ tự đã liệt kê Mệnh
đề FROM chứa các biểu thức đường dẫn sẽ được so trùng vào trong cơ sở tri thức để tìm kiếm kết quả Mệnh đề WHERE biểu diễn các ràng buộc trên các giá trị của các biến Cuối cùng, mệnh đề USING NAMESPACE được dùng để khai báo các không gian tên được sử dụng cho việc ánh xạ các URIs được viết tắt
Ví dụ, truy vấn SeRQL viết đầy đủ cho truy vấn “Tìm tất cả các công ty tin học và dịch
vụ tin học ở Việt Nam mà có số nhân viên lớn hơn 100 người” là:
số lượng nhân viên của đối tượng công ty tương ứng có danh hiệu URI được chỉ ra ở biến x1
Trang 13Mệnh đề FROM chứa các biểu thức đường dẫn lần lượt mô tả rằng đối tượng có danh hiệu được đại diện bởi biến x1 có nhãn được đại diện bởi biến z1, đối tượng có danh hiệu được đại diện bởi biến x1 đó thuộc lớp <vnkimo_rdfs:Tin_học_và_dịch_vụ_tin_học>, đối tượng có danh hiệu x1 có thuộc tính <vnkimo_rdfs:số_lượng_nhân_viên> có giá trị được đại diện bởi biến p1, và cuối cùng, đối tượng có danh hiệu x1 có quan hệ
<vnkimo_rdfs:được_định_vị_ở> với đối tượng có danh hiệu URI trong cơ sở tri thức là
<vnkimkb_rdf:Quốc_gia_1> Mệnh đề WHERE trong ví dụ trên chỉ ra rằng biến p1 bị ràng buộc về giá trị phải lớn hơn một số nguyên là 100
Một đặc điểm nổi bật của SeRQL so với các ngôn ngữ truy vấn RDF / RDFS khác là nó cho phép các biểu thức mô tả không giới hạn chiều dài Ví dụ, biểu thức đường dẫn trong mệnh đề FROM của ngôn ngữ SeRQL cho truy vấn “Tìm tất cả các thành phố cấp một ở quốc gia có tên là Việt Nam” có thể như sau:
{CityID} <rdf:type> {<vnkimo_rdfs:Thành_phố_cấp_một>},
{CityID} <vnkimo_rdfs:được_định_vị_ở> {CountryID},
{CountryID} <rdf:type} {<vnkimo_rdfs:Quốc_gia>},
{CountryID} rdfs:label {“Việt Nam”}
Biểu thức đường dẫn thứ hai, thứ ba và thứ tư trong truy vấn trên có thể được kết hợp và được viết lại như biểu thức đường dẫn có chiều dài bằng hai như sau: {CityID}
<vnkimo_rdfs:được_định_vị_ở> {CountryID} <rdfs:label> {“Việt Nam”}
Ngoài ra, SeRQL còn hỗ trợ khả năng viết tắt nhằm làm đơn giản câu truy vấn Khi một đối tượng có nhiều quan hệ với các đối tượng khác, thay vì phải lặp lại các đối tượng đó ở nhiều biểu thức đường dẫn khác nhau, SeRQL cho phép biểu diễn các biểu thức đường dẫn
mà sử dụng chung một đối tượng bằng cách sử dụng dấu chấm phẩy Chẳng hạn, biểu thức đường dẫn cho ví dụ “Tìm tất cả các thành phố cấp một ở quốc gia có tên Việt Nam” có thể được viết tắt như sau:
{CityID} <rdf:type> {<vnkimo_rdfs:Thành_phố_cấp_một>} ; <vnkimo_rdfs:được_định_vị_ở> {CountryID},
{CountryID} <rdf:type} {<vnkimo_rdfs:Quốc_gia>} ; {CountryID} rdfs:label {“Việt Nam”}
Trong SeRQL, ta có thể biểu diễn biểu thức đường dẫn trong mệnh đề FROM thành một đồ thị Trong đó, các nút và các cạnh của đồ thị biểu diễn biểu thức đường dẫn có thể là các biến, URI, hoặc hằng Trong ví dụ trên, ta có CityID và CountryID là các biến, “Việt Nam” là hằng, <vnkimo_rdfs:Thành_phố_cấp_một> và <vnkimo_rdfs:Quốc_gia> là các URIs Biểu thức đường dẫn của truy vấn SeRQL này có thể được minh họa như là một đồ thị
ở hình 1
Trang 14Hình 1: Đồ thị RDF cho truy vấn SeRQL
Như vậy, biểu thức đường dẫn của ngôn ngữ truy vấn SeRQL có thể được xem như là một đồ thị Tất cả các phát biểu RDF trong kho dữ liệu tri thức cũng có thể được xem như một
đồ thị Điều này dẫn đến việc tìm kiếm các kết quả khi truy vấn với ngôn ngữ SeRQL có thể xem như việc so trùng các đồ thị truy vấn chứa biểu thức đường dẫn với các đồ thị RDF trong kho dữ liệu đó
Tuy nhiên, ngôn ngữ truy vấn SeRQL lại không thân thiện với người sử dụng bình thường bởi vì bản thân nó là một ngôn ngữ có quy định rõ các quy tắc, ràng buộc về mặt từ vựng cũng như về mặt cú pháp Điều này dẫn đến việc những người sử dụng không chuyên về mặt kĩ thuật sẽ gặp khó khăn khi muốn thực hiện một truy vấn trên cơ sở tri thức bằng ngôn ngữ SeRQL Do đó, chúng ta có thể cần đến một phương tiện khác để có thể biểu diễn thông tin, ngữ nghĩa cần truy vấn của người sử dụng
Mặt khác, chúng ta lại có đồ thị ý niệm là một cách biểu diễn thông tin, tri thức hiệu quả, dễ đọc, trực quan, và thân thiện với người sử dụng Bên cạnh đó, theo ([31]), có một sự ánh xạ tương ứng giữa đồ thị ý niệm và đồ thị RDF Điều này dẫn đến việc nghiên cứu sử dụng đồ thị ý niệm như là công cụ truy vấn ở mức giao diện người dùng như ở công trình [28] Trong phần tiếp theo sau, chúng tôi sẽ trình bày các khái niệm cơ bản về đồ thị ý niệm
2.1.2 Đồ thị ý niệm
Định nghĩa: Một đồ thị ý niệm là một đồ thị gồm các đỉnh ý niệm được nối xen kẽ với
các đỉnh quan hệ thông qua các cạnh Mỗi đỉnh ý niệm được vẽ bằng hình chữ nhật, được đặt nhãn bởi một cặp kiểu ý niệm (concept type) và giá trị tham khảo của ý niệm (concept referent) Mỗi đỉnh ý niệm biểu diễn cho một thực thể lần lượt có kiểu là thành phần kiểu ý niệm được chỉ ra và có giá trị là giá trị tham khảo được chỉ ra trong đỉnh ý niệm Mỗi đỉnh quan hệ được vẽ bởi một hình tròn hoặc elip và được gán nhãn bởi một kiểu quan hệ biểu diễn
Trang 15cho một quan hệ của các thực thể của các đỉnh ý niệm nối với nó Các ý niệm được kết nối với cùng một quan hệ được gọi là các ý niệm láng giềng (neighbour concepts) của quan hệ đó Hình 2 sau đây là một ví dụ về đồ thị ý niệm mô tả một câu có nghĩa là “Casumina là một công ty được định vị ở một quốc gia thuộc Châu Á”
Hình 2: Minh họa về đồ thị ý niệm
Trong ví dụ trên, [Công_ty:Casumina], [Quốc_gia:*], [Lục_địa:Châu_á] là các ý niệm có là các kiểu ý niệm lần lượt là Công_ty, Quốc_gia, Lục_địa, trong khi đó, (được_định_vị_ở) và (là_một_phần_của) là các quan hệ có các kiểu quan hệ lần lượt là được_định_vị_ở và là_một_phần_của Các giá trị tham khảo Casumina và Châu_á của các ý niệm [Công_ty:Casumina] và [Lục_địa:Châu_á] là các thành phần cụ thể (individual markers) Thành phần tham khảo * của ý niệm [Quốc_gia:*] là thành phần tổng quát (generic marker) biểu diễn một thực thể mà không cần chỉ ra cụ thể Hai ý niệm với hai thành phần cụ thể khác nhau là khác nhau
Mỗi kiểu quan hệ có sự quy định trước về bậc của nó, tức số lượng các kiểu ý niệm tham gia vào quan hệ, và chỉ rõ các kiểu ý niệm tham gia vào quan hệ có kiểu đó Tóm lại, chúng ta có thể xem một kiểu quan hệ là một kiểu mà mỗi bộ thực thể của kiểu quan hệ đó nhận các đối số là các kiểu ý niệm được chỉ ra trong kiểu quan hệ
Trong ví dụ trước, kiểu quan hệ được_định_vị_ở có bậc là hai và có các kiểu đối số lần lượt là Đối_tượng và Nơi_chốn Khi đó, kiểu ý niệm Đối_tượng được gọi là kiểu ý niệm miền (domain) của kiểu quan hệ được_định_vị_ở, kiểu ý niệm Nơi_chốn được gọi là kiểu ý niệm đích (range) của kiểu quan hệ được_định_vị_ở Các cạnh có nhãn 1 và 2 nối với quan hệ này lần lượt sẽ là các kiểu con tương ứng của Đối_tượng và Nơi_chốn Cụ thể, trong ví dụ minh họa ở hình 2, kiểu ý niệm Công_ty là kiểu ý niệm con của kiểu ý niệm Đối_tượng và kiểu ý niệm Quốc_gia là con của kiểu ý niệm Nơi_chốn
Khi đó, một đồ thị ý niệm là đúng đắn (well-typed) nếu như tất cả các quan hệ có trong
đồ thị đều được thỏa mãn ràng buộc về kiểu ý niệm domain và range của nó Nghĩa là, ta sẽ
có đồ thị ý niệm sau [Công_ty:Casumina] → (được_định_vị_ở) → [Quốc_gia:*] là đúng
Trang 16đắn, nhưng đồ thị ý niệm [Công_ty:Casumina] → (được_định_vị_ở) → [Tổ_chức_thương_mại:*] là không đúng vì kiểu ý niệm Tổ_chức_thương_mại không phải là một kiểu ý niệm con của kiểu ý niệm Nơi_chốn
Khoảng cách ngữ nghĩa hoặc độ đo tương tự nhau về ngữ nghĩa ý nói đến sự khác nhau hoặc tương tự nhau giữa các biểu thức ngữ nghĩa như các ý niệm, các từ, các thuật ngữ, các câu, hoặc các đoạn Các công trình nghiên cứu trước đây chủ yếu là tính khoảng cách ngữ nghĩa giữa các từ (words) hoặc các thuật ngữ (terms) Các nghiên cứu này chủ yếu tập trung vào hai hướng tiếp cận như sau:
+ Hướng tiếp cận dựa trên kho ngữ liệu
+ Hướng tiếp cận dựa trên ontology
Dựa vào số lượng tri thức mà hệ thống giả định trước cho việc tính toán độ đo giữa hai
ý niệm, phương pháp tiếp cận dựa trên kho ngữ liệu còn gọi là phưong pháp nghèo tri thức (knowledge-poor), và phương pháp dựa trên ontology còn gọi là phương pháp giàu tri thức (knowledge-rich)
2.2.1 Hướng tiếp cận dựa trên kho ngữ liệu
Với cách tiếp cận của các phương pháp dựa trên kho ngữ liệu, người ta tiến hành khảo sát các mối liên hệ giữa các từ có trong kho ngữ liệu (corpus) Cách tiếp cận này không sử dụng tri thức được giả định trước cho việc tính toán Các tính chất đặc trưng của kĩ thuật này là:
+ Không đòi hỏi phải có trước miền tri thức
+ Không có thông tin ngữ nghĩa đính kèm theo
+ Không có tài nguyên tĩnh như từ điển, hoặc từ đồng nghĩa đi kèm theo
Ý tưởng của cách tiếp cận này là những từ giống nhau sẽ được sử dụng trong các ngữ cảnh giống nhau, và ngữ cảnh giống nhau sẽ sử dụng các từ giống nhau Tóm lại, sự phân bố
Trang 17của sự đồng xuất hiện của các từ trong các ngữ cảnh khác nhau sẽ được sử dụng để đánh giá, ước lượng khoảng cách ngữ nghĩa giữa các từ ([3], [4], [8]) Kĩ thuật này cố gắng nỗ lực để rút ra tần suất xuất hiện của các từ có trong các ngữ cảnh khác nhau để tính toán độ giống nhau giữa các từ Hay nói chính xác hơn, độ giống nhau được tính vào các ngữ cảnh mà các
từ đó chia sẻ hoặc không, cũng như sự quan trọng của các ngữ cảnh này đối với mỗi từ Các
từ cùng chia sẻ một số lượng lớn ngữ cảnh thì được xem là giống nhau
Một cách tính độ đo dựa trên hướng tiếp cận này là một nhóm các từ được chọn là các
từ đặc trưng với các giải thuật hiệu quả như thông tin tương hỗ hoặc qua thống kê Sau đó, ngữ cảnh cục bộ của mỗi từ sẽ sinh ra vector đặc trưng của nó Khi đó, mỗi từ được đại diện bởi một vector mà mỗi thành phần của vector là số lần mà từ đó đồng xuất hiện với từ khác cho trước có trong một tập ngữ liệu Sau đó, độ giống nhau giữa các từ được tính bằng cách
sử dụng phép tính khoảng cách vector (ví dụ như cosin của góc tạo bởi hai vector)
Các ngữ cảnh được phân chia theo hai cách khác nhau Do đó, tiếp cận này cũng được phân chia làm hai kĩ thuật khác nhau:
+ Kĩ thuật dựa trên các cửa sổ (windows-based techniques)
+ Kĩ thuật dựa trên cú pháp (syntactic-based techniques)
• Kĩ thuật dựa trên các cửa sổ
Kĩ thuật dựa trên các cửa sổ xét một số lượng từ nhất định chung quanh một từ cụ thể, gọi là một văn bản cửa sổ (window text) của từ đó, hoặc là ngữ cảnh của từ đó Một văn bản cửa sổ có thể là một nhóm từ, một câu, hoặc có thể là một đoạn Đối với kĩ thuật này, các thông tin ngôn ngữ về từ loại, các nhóm cú pháp không được sử dụng để biểu diễn cho ngữ cảnh của từ
• Kĩ thuật dựa trên cú pháp
Ngược lại với kĩ thuật dựa trên cửa sổ, kĩ thuật dựa trên cú pháp đòi hỏi các thông tin ngôn ngữ cụ thể để chỉ ra ngữ cảnh của từ Trước hết, nó đòi hỏi phải có từ loại cho mỗi từ trong kho ngữ liệu Sau đó, kho ngữ liệu đã được gắn từ loại đó sẽ được phân đoạn thành các nhóm từ cơ bản Cuối cùng, một số kĩ thuật heuristic đơn giản sẽ được áp dụng cho mối quan
hệ giữa các nhóm từ đó Mỗi khi quá trình phân tích cú pháp được thực hiện, mỗi từ trong văn bản được gắn với một tập các ngữ cảnh cú pháp Sau đó, một phương pháp thống kê tần suất của các ngữ cảnh dùng chung được thực hiện để xác định các từ tương tự nhau
Trang 18Trong cả hai kĩ thuật dựa trên cửa sổ và dựa trên cú pháp, các từ sẽ được so sánh với nhau về mặt phân bố ngữ cảnh của chúng Sự phân tích cú pháp mở ra dãy các ngữ cảnh chính xác hơn so với kĩ thuật dựa trên cửa sổ Khi ngữ cảnh cú pháp thể hiện các phụ thuộc của ngôn ngữ gắn liền với các mối quan hệ ngữ nghĩa cụ thể, chúng được xem như là các manh mối cho việc nhận dạng các từ có quan hệ nhau về mặt ngữ nghĩa
Đối với hướng tiếp cận dựa trên kho ngữ liệu, khi ngữ cảnh cú pháp được định nghĩa theo các cách khác nhau, chúng ta sẽ có các cách tiếp cận dựa trên cú pháp khác nhau Mặt khác, cách tiếp cận dựa trên kho ngữ liệu cho phép tự do về mặt tri thức và không phụ thuộc vào miền mà ta đang sử dụng Tuy nhiên, cách tiếp cận này bỏ qua các mối liên hệ về mặt ngữ nghĩa của các từ trong ngữ nghĩa của ngôn ngữ tự nhiên
2.2.2 Hướng tiếp cận dựa trên ontology
Khác với hướng tiếp cận dựa trên kho ngữ liệu, hướng tiếp cận dựa trên ontology sử dụng tất cả các tri thức ngữ nghĩa được định nghĩa trước, cụ thể là sự phân loại từ (taxonomy) Cách tiếp cận này còn gọi là cách tiếp cận dựa trên tài nguyên từ vựng (lexical resource based) Trong cách tiếp cận này, các tài nguyên từ vựng được xây dựng thành một mạng hoặc một đồ thị có hướng Sự giống nhau giữa các khái niệm sẽ được tính dựa trên các tính chất của các đường nối giữa các khái niệm có trong đồ thị
Cách tiếp cận này đòi hỏi có sự sắp xếp một số thông tin ngữ nghĩa đã được mã hóa trước như: cấu trúc tri thức phụ thuộc vào miền (domain) mà ta đang mô tả, tập các văn bản dùng để huấn luyện có đính kèm ngữ nghĩa, hoặc các tài nguyên ngữ nghĩa được tạo thủ công như các từ điển đồng nghĩa có cấu trúc Roget, WordNet, … Vì vậy, cách tiếp cận này mắc phải sự thiếu sót lớn và bị giới hạn do những tài nguyên từ vựng được làm bởi con người như lượng từ vựng bị giới hạn, những từ vựng trong các tài nguyên đó có thể không cần thiết hoặc không chứa các từ vựng tổng quát cần thiết cho miền cần làm Ngoài ra, tiêu chuẩn phân loại các từ có thể không rõ ràng, cách phân loại kém và không cung cấp đủ sự phân biệt giữa các
từ, hoặc đôi khi lại cung cấp quá chi tiết không cần thiết, và trên hết, đó là sự cố gắng về công sức và thời gian để xây dựng danh sách các từ đồng nghĩa bằng tay
Các độ đo khoảng cách ngữ nghĩa giữa các từ của cách tiếp cận dựa trên ontology thì đơn giản, trực quan, và dễ hiểu Tuy nhiên, nó có nhược điểm là cách tiếp cận này có nhiều quan điểm chủ quan trong việc tính toán khoảng cách ngữ nghĩa giữa các từ Hiện nay, cách tiếp cận này chủ yếu được phân chia thành các hướng như sau
Trang 19• Hướng tiếp cận dựa trên việc xây dựng từ điển đơn ngữ
Trong các phương pháp tiếp cận dựa trên việc xây dựng từ điển đơn ngữ, một từ điển đơn ngữ sẽ được chuyển thành một mạng bằng cách tạo một nút cho mỗi từ đầu mục từ trong
từ điển (headword) và liên kết mỗi nút với các nút khác cho tất cả các từ có sử dụng trong định nghĩa của nó Độ giống nhau giữa các từ được tính bằng sự lan tỏa trên mạng này ([15], [16], [21])
Cách tiếp cận này hoạt động kém hiệu quả, tuy nhiên đây là một phương pháp có thể áp dụng dễ dàng cho hầu hết các ngôn ngữ tự nhiên do nó chỉ cần sử dụng từ điển đơn ngữ của ngôn ngữ đó
• Hướng tiếp cận dựa trên mạng phân cấp ngữ nghĩa
Hầu hết các phương pháp dựa trên mạng phân cấp ngữ nghĩa đều sử dụng WordNet để thực hiện việc nghiên cứu WordNet là một từ điển điện tử miễn phí chứa một số lượng lớn các danh từ, động từ, tính từ, và trạng từ tiếng Anh Nó tổ chức các ý niệm có liên quan nhau thành các tập từ đồng nghĩa (synonym sets hoặc synsets) Mỗi tập từ đồng nghĩa có một chú thích (gloss) định nghĩa khái niệm mà nó miêu tả Ví dụ: {car, auto, automobile, machine, motorcar} là tập tập các từ đồng nghĩa tạo thành một synset và được diễn tả khái niệm bởi chú
thích như sau: “four wheel motor vehicle, usually propelled by an internal combustion
được kết nối với nhau thông qua các mối quan hệ: hypernym (Has-a), hyponym (Is-a),
meronym (Part-of, Member-of, Substance-of), và holonym (Part, Member,
Trang 20và B là một holonym của A Ví dụ: tập đồng nghĩa chứa accelerator là meronym của car và
car là holonym của accelerator
Hướng tiếp cận dựa trên mạng phân cấp ngữ nghĩa này được phân chia làm hai hướng
tiếp cận, gồm các hướng tiếp cận dựa trên cạnh và hướng tiếp cận dựa trên nút và lai ghép như
sau
Hướng tiếp cận dựa trên cạnh (Edge-based approaches)
Một phương pháp đơn giản để đo sự giống nhau của hai khái niệm trong phương pháp
tiếp cận này là đếm số cạnh dọc theo con đường ngắn nhất giữa các khái niệm
+ Độ đo của Sussna
Hai ý niệm c1 và c2 trong mạng phân cấp được gọi là anh em nếu như nó có cùng một ý
niệm cha chung Ý tưởng của phương pháp Sussna ([25]) là các ý niệm anh em ở sâu bên dưới
trong sự phân loại từ thì gần nghĩa nhau hơn những ý niệm anh em nằm ở trên
Sussna phân tích mỗi cạnh nối hai nút liền kề c1 và c2 trong mạng danh từ WordNet
tương ứng với hai cạnh có hướng biểu diễn các quan hệ ngược nhau Mỗi quan hệ như vậy
được gắn một trọng số hoặc một giá trị nằm trong khoảng [minr; maxr] Ví dụ: quan hệ
hypernymy, hyponymy, holonymy, và meronymy có các trọng số nằm trong khoảng minr = 1
và maxr = 2 Trọng số của mỗi cạnh có hướng thuộc một quan hệ r xuất phát từ một nút c1
được xác định bởi một hệ số phụ thuộc vào tổng số cạnh có cùng loại quan hệ r xuất phát từ
c1
)(edges
min -maxr)wt(c
1 r
r r 1
2
)r'wt(cr)wt(c)
,(dist
2 1
2 1
2 1
s c c × depth c depth c
→+
→
trong đó, r là mối quan hệ giữa c1 và c2, và r’ là chiều ngược lại, depth(c) là tổng số nút dọc
theo con đường ngắn nhất từ c đến nút gốc trong cây phân cấp
Cuối cùng, khoảng cách ngữ nghĩa giữa hai nút ci và cj là tổng khoảng cách giữa các cặp
các nút liền kề dọc theo con đường ngắn nhất nối giữa chúng Con đường ngắn nhất giữa hai
nút là con đường chứa số lượng ý niệm trung gian ít nhất
Trang 21+ Độ đo của Wu và Palmer
Trong công trình của mình, Wu và Palmer ([30]) đã đưa ra cách tính độ giống nhau về ngữ nghĩa giữa hai ý niệm trong mạng phân cấp như sau:
)),((2
)),(,()),(,(
)),((2
)
,
(
2 1 2
1 2
2 1 1
2 1 2
1
c c LCS depth c
c LCS c len c
c LCS c len
c c LCS depth c
c
sim WP
×++
×
Trong đó, LCS(c1, c2) là ý niệm chung thấp nhất (lowest common subsumer) của hai ý niệm
c1 và c2 trong cây phân cấp ngữ nghĩa và được minh họa như ở hình 3, depth(c) là tổng số nút dọc theo con đường ngắn nhất từ nút chứa ý niệm c đến nút gốc, và len(c1, LCS(c1, c2)) là tổng số nút dọc theo con đường từ c1 đến ý niệm chung thấp nhất của c1 và c2
Hình 3: Minh họa ý niệm chung thấp nhất của hai ý niệm
+ Độ đo của Leacock - Chodorow
Phương pháp của Leacock và Chodorow ([17]) cũng dựa trên chiều dài của con đường ngắn nhất giữa hai ý niệm trong WordNet Tuy nhiên, công thức ở một dạng khác:
)(max
2
),(log
),
2 1
c depth
c c len c
c sim
WordNet c
+ Độ đo của Hirst và St-Onge
Các phương pháp trên chỉ xem xét đến mối quan hệ is-a cho danh từ trong WordNet Hirst và St-Onge ([9]) đã đưa ra một độ đo ngữ nghĩa bằng cách xét nhiều mối quan hệ khác trong WordNet và không giới hạn cho danh từ
C1
C2
LCS(C1, C2)
Trang 22Ý tưởng của phương pháp Hirst và St-Onge là hai ý niệm là gần nhau về ngữ nghĩa nếu
các tập đồng nghĩa của chúng trong WordNet được nối nhau bởi một con đường không quá dài và không thay đổi hướng quá thường xuyên
d k length path
C c c
Trong đó, d là số lần thay đổi hướng trong con đường từ c1 đến c2, C và k là những hằng số
Nếu không tồn tại một con đường như thế thì relHS(c1, c2) bằng không
Hướng tiếp cận dựa trên thông tin nút và lai ghép
Bản chất của cách tiếp cận này là lai ghép hai cách tiếp cận dựa trên corpus và dựa trên
ontology Cách tiếp cận dựa trên thông tin nút và lai ghép này đi tìm khoảng cách ngữ nghĩa
dựa trên sự kết hợp cấu trúc phân loại từ vựng với thông tin thống kê có từ kho ngữ liệu để
tìm khoảng cách ngữ nghĩa giữa các nút thông qua những tính toán dẫn xuất từ sự thống kê phân bố của dữ liệu có trong kho ngữ liệu
+ Độ đo của Resnik
Resnik ([22]) đã kết hợp phương pháp dựa trên kho ngữ liệu và phương pháp dựa trên
ontology để đưa ra một độ đo dựa trên một công thức về lượng tin, là một giá trị được gán cho
mỗi ý niệm trong mạng phân cấp dựa trên những tính toán tìm được từ kho ngữ liệu
Ý tưởng then chốt của cách tiếp cận này là sự giống nhau của hai ý niệm là khả năng
mà chúng chia sẻ thông tin dùng chung Lượng thông tin chung của hai ý niệm được xác định
bởi lượng tin của ý niệm thấp nhất trong mạng phân cấp ngữ nghĩa mà bao phủ (subsume) cả
hai ý niệm đó Ý niệm này được gọi là ý niệm chung thấp nhất (lowest common subsumer) của hai ý niệm Khi đó, ý niệm chung thấp nhất của hai ý niệm c1 và c2 được kí hiệu là LCS(c1, c2) và được minh họa như ở hình 3
Từ đó, Resnik đưa ra công thức tính độ đo như sau:
)),(Pr(
log)
,(c1 c2 LCS c1 c2
Trong đó, Pr(c) là xác suất gặp một thể hiện của ý niệm c trong kho ngữ liệu, LCS(c1, c2) là ý
niệm chung thấp nhất của hai ý niệm c1 và c2 trong mạng phân cấp các ý niệm
Trong các thử nghiệm của Resnik, xác suất xuất hiện của các ý niệm trong mạng phân
cấp được tính theo tần suất xuất hiện của các danh từ được lấy từ kho ngữ liệu Brown Corpus
của ngôn ngữ tiếng Anh:
Trang 23w count
c = ∑w∈W c) ( ))
Trong đó, W(c) là tập các danh từ trong kho ngữ liệu mà nghĩa của chúng được bao phủ
(subsume) trong ý niệm c, N là tổng số lượng danh từ có trong kho ngữ liệu mà cũng có trong
từ điển WordNet
Chúng ta nhận xét rằng, độ đo này chỉ xem xét lượng tin của ý niệm chung thấp nhất
của cả hai ý niệm cần đo mà không xem xét lượng tin của các ý niệm cũng như không xem
xét chiều dài đường đi giữa hai khái niệm Giới hạn của cách tiếp cận này là nhiều ý niệm có
thể có cùng một ý niệm chung thấp nhất và có cùng giá trị cho độ giống nhau giữa chúng Ví
dụ, trong WordNet, ý niệm vehicle là ý niệm chung thấp nhất của các ý niệm như jumbo jet,
tank, house trailer, ballistic missile Theo cách tính độ đo của Resnik thì khi lấy từng cặp ý
niệm trên để tính độ đo thì các kết quả đều có giá trị như nhau
+ Độ đo Jiang – Conrath
Để giải quyết nhược điểm của Resnik, phương pháp của Jiang và Conrath ([13]) là tổng
hợp các kĩ thuật dựa trên nút và trên cạnh bằng cách đưa vai trò của các cạnh vào công thức
tính độ giống nhau và sử dụng thông tin thống kê từ kho ngữ liệu để thực hiện việc tính toán
Ý tưởng then chốt của độ đo của Jiang – Conrath là khoảng cách ngữ nghĩa của một
liên kết nối một ý niệm c với cha của nó là par(c) trong mạng phân cấp là lượng tin còn lại
của ý niệm c mà không nằm trong par(c)
Theo định nghĩa về lượng tin còn lại của lý thuyết thông tin, ta có lượng tin còn lại của
ý niệm c không nằm trong ý niệm cha nó là par(c) thì tỉ lệ với xác suất có điều kiện
|Pr(
log))
(,
Theo định nghĩa của xác suất có điều kiện, ta có:
))(Pr(
))(Pr(
))(
|Pr(
c par
c par c c
par
Thay phương trình 2.9 vào phương trình 2.8, ta có được:
))(Pr(
))(Pr(
log))
(,(
c par
c par c c
par c
Trang 24Do bất kì một thể hiện nào của một ý niệm con trong cây phân cấp ngữ nghĩa tự động là
một thể hiện của cha nó, nghĩa là c∧ par(c)=c, nên ta có được )Pr(c∧ par(c))=Pr(c
Thay vào phương trình 2.10, ta có được:
))(Pr(
log)Pr(
log))
(,
Theo định nghĩa của lượng tin trong lý thuyết thông tin, ta có:
))log(Pr(
Khi ta đã có khoảng cách ngữ nghĩa của một nút c với cha của nó, khoảng cách ngữ
nghĩa của hai nút c1 và c2 bất kì trong mạng phân cấp sẽ được tính bằng tổng các khoảng cách
dọc theo con đường đi ngắn nhất giữa hai nút ý niệm mà đi qua ý niệm chung thấp nhất của cả
hai ý niệm đó Hình 4 sau đây sẽ minh họa cho chúng ta thấy ý tưởng này
Hình 4: Minh họa ý tưởng của Jiang-Conrath
∑
∈
=
) , (
\ , ( 2
1
2 1 2 1
))(,()
,(
c c LCS c c Path c
JC
Thay công thức tính khoảng cách ngữ nghĩa của một ý niệm với cha của nó vào phương
trình 2.14 Sau khi triệt tiêu các thành phần đối ngẫu nhau, ta có được công thức tính độ đo
khoảng cách ngữ nghĩa giữa hai ý niệm bất kì c1 và c2 trong mạng phân cấp như sau
)),((2)()(),(c1 c2 IC c1 IC c2 IC LCS c1 c2
Hay nói cách khác:
C1
C2LCS(C1, C2)
Trang 25log)Pr(
(log)),(Pr(
log2),
Trong đó, LCS(c1, c2) là ý niệm chung thấp nhất của hai ý niệm c1 và c2, Pr(c) là xác suất xuất
hiện của ý niệm c trong mạng phân cấp và được tính như trong phương pháp của Resnik
+ Độ đo của Lin
Lin ([18]) cho rằng tất cả các độ đo trên đều gắn liền với một ứng dụng, miền, và một
tài nguyên cụ thể Lin đưa ra một độ đo tổng quát thông qua ba nhận xét trực quan như sau:
- Sự giống nhau giữa hai đối tượng A và B gắn liền với sự dùng chung thông tin của
chúng Chúng càng chia sẻ nhiều tính chung, chúng càng giống nhau
- Sự giống nhau giữa A và B gắn liền với sự khác nhau giữa chúng Chúng càng có
nhiều điểm khác, chúng càng ít giống nhau
- Sự giống nhau đạt tối đa giữa A và B đạt được khi A và B là duy nhất
Dựa trên các giả thiết, định nghĩa và công cụ của lý thuyết thông tin, Lin đo sự giống
nhau giữa hai đối tượng A và B bằng tỉ số giữa lượng tin cần thiết để phát biểu tính chất
chung giữa A và B và lượng tin cần thiết để mô tả chúng
),(Pr(
log
)),(Pr(
log),(
B A descr
B A comm B
A
Trong đó, comm(A, B) là thành phần mô tả thông tin dùng chung giữa A và B, descr(A, B) là
thành phần mô tả A và B
Dựa vào định nghĩa trên, độ giống nhau giữa hai khái niệm c1 và c2 trong một mạng
phân cấp là một hệ quả của lý thuyết này:
)Pr(
log)Pr(
log
)),(Pr(
log2),(
2 1
2 1 2
1
c c
c c LCS c
c sim L
Budanitsky và Hist ([2]) đã thực hiện việc nghiên cứu và tính toán thử nghiệm các độ đo
của các công trình nghiên cứu trên WordNet dựa trên một ứng dụng xử lý ngôn ngữ tự nhiên
cụ thể và dựa trên sự nhận xét của các chuyên gia về ngôn ngữ Các kết quả nghiên cứu, so
sánh, và đánh giá cho thấy rằng độ đo ngữ nghĩa của Jiang-Conrath cho các kết quả tốt nhất,
tiếp theo là Lin và Leacock-Chodorow, Resnik và sau đó mới đến Hist – St-Ongle
Trang 262.3 - Độ đo giữa các chuỗi
Bên cạnh việc nghiên cứu các độ đo giữa các ý niệm mà cụ thể là giữa các từ của các công trình trước đây, chúng tôi còn nghiên cứu các độ đo mờ giữa các giá trị thuộc tính, mà trong công trình, chúng tôi giới hạn chỉ nghiên cứu độ đo giữa các giá trị chuỗi là tên thực thể Bên cạnh phương pháp đo dựa vào học máy để học được hàm đo thích hợp cho các chuỗi trên mỗi miền, các phương pháp đo chuỗi của các công trình trước đây có thể được chia thành hai hướng tiếp cận, gồm hướng tiếp cận dựa trên chuỗi và hướng tiếp cận dựa trên token
2.3.1 Các độ đo dựa trên chuỗi
Một lớp quan trọng của các độ đo dựa trên chuỗi (string based measure) là các độ đo dựa trên khoảng cách soạn thảo (edit distance) Trong phương pháp này, khoảng cách giữa hai chuỗi s và t là được tính là chi phí tối thiểu cần thiết cho các thao tác soạn thảo để chuyển từ chuỗi này sang chuỗi kia Các thao tác soạn thảo bao gồm: sao chép, chèn, thay thế, xóa Tùy theo cách quy định đánh trọng số cho các thao tác soạn thảo khác nhau trên mỗi miền mà ta
có các độ đo khác nhau
Leveinstein là một độ đo khoảng cách soạn thảo đơn giản, trong đó, các thao tác soạn thảo như xóa, chèn, thay thế đều có chi phí bằng một, thao tác sao chép có chi phí bằng không Gọi D(s, t, i, j) là khoảng cách soạn thảo giữa i kí tự đầu tiên trong s và j kí tự đầu tiên trong t, si là kí tự thứ i của chuỗi s, tj là kí tự thứ j của chuỗi t, thì ta có thể tính đệ quy D(s, t,
i, j) là giá trị nhỏ nhất của các giá trị sau:
+ )D(s,t,i − j1, −1 nếu s i = t j
+ 1D(s,t,i − j1, −1)+ nếu thực hiện thay thế tj cho si
+ 1D(s,t,i, j−1)+ nếu thực hiện chèn vào kí tự tj
Trang 27loại chi phí cho thao tác chèn, bao gồm một chi phí cho việc chèn kí tự đầu tiên của chuỗi và
một chi phí khác cho việc chèn các kí tự tiếp theo
Monge–Elkan ([19]) đưa ra một kĩ thuật so trùng đệ quy cho hai chuỗi dài s và t bằng
cách chia hai chuỗi s và t ra thành các chuỗi con s = a1 aK và t = b1 bL Sau đó, độ đo giống
nhau giữa hai chuỗi s và t của Monge-Elkan được định nghĩa là:
j sim A B K
t s sim
),('max1
),
Trong đó, sim' là một độ đo giống nhau thứ hai nào đó Trong công trình của
Monge-Elkan, Monge-Elkan thực hiện sim' là độ đo của Smith-Waterman
Một độ đo khác tuy không dựa trên mô hình khoảng cách văn bản nhưng cũng thuộc
vào các độ đo dựa trên chuỗi là độ đo của Jaro ([11], [12]) Ý tưởng của phương pháp Jaro là
độ đo được tính toán dựa trên số lượng và trật tự các kí tự dùng chung giữa hai chuỗi
Cho trước các chuỗi s = a1 ak và t = b1 bL, kí tự ai trong s là được gọi là chung với t
nếu tồn tại một bj = ai trong t mà i−H ≤ j≤i+H, trong đó H = min(|s|, |t|)/2
Đặt s'=a'1 a'K' là các kí tự có trong s mà chung với t theo đúng thứ tự có trong s,
'
1 '
'
' b b L
t = là các kí tự có trong t mà chung với s theo đúng thứ tự có trong t Ta định nghĩa
một sự chuyển đổi vị trí (transposition) cho s’, t’ là một vị trí i thỏa a'i≠b'i Đặt Ts’,t’ là một
nửa số chuyển đổi vị trí cho s’ và t’ Độ đo tương tự của hai chuỗi s và t của Jaro là:
)'
'''(3
1),
s
T s t
t s
s t
s
++
⋅
Để hiểu được ý tưởng bên trong của phương pháp này, ta xét hai chuỗi cần tiến hành so
sánh là: s = HƯƠNG GIANG và t = HƯƠNGG GIANG Xét ma trận M được tạo ra từ hai
chuỗi trên, trong đó, M(i, j) = 1 nếu kí tự thứ i của chuỗi s bằng với kí tự thứ j của chuỗi t
Độ đo Jaro dựa trên số lượng kí tự trong s mà chung với t Nếu xét về khía cạnh ma trận
M thì kí tự thứ i của s chung với t nếu Mi, j = 1 tại một vị trí (i, j) mà “đủ gần” với đường chéo
chính của ma trận M Ở đây, khái niệm “đủ gần” được thể hiện thông qua quy định |i – j| <
min(|s|, |t|)/2 trong công thức của Jaro và được làm đậm trên hình vẽ ma trận như ở hình 5
Trang 28Hình 5: Ví dụ minh họa ý tưởng của Jaro
Winkler ([29]) đã tiến hành mở rộng độ đo của Jaro bằng cách chỉnh sửa trọng số cho phần tiếp đầu ngữ giống nhau có trong hai chuỗi cần so sánh s và t
Đặt P là số kí tự của tiếp đầu ngữ chung dài nhất của s và t
Đặt P’ = max (P, 4) Ta có độ đo Jaro-Winkler được tính như sau:
)),(1
(10
'),()
2.3.2 Các độ đo dựa trên token
Ý tưởng của cách tiếp cận dựa trên token (token-based measures) là thứ tự của các từ và trật tự cú pháp là không quan trọng Ví dụ, các chuỗi “Huỳnh Tấn Đạt” hay “Đạt Tấn Huỳnh”
Trang 29là như nhau, kể cả khi chúng khác nhau về khoảng cách soạn thảo Để hiện thực được ý tưởng
này, các chuỗi s và chuỗi t cần đo được phân tích thành tập các từ (hoặc token) tương ứng là S
và T Độ đo giống nhau giữa hai chuỗi được xem xét và tính toán dựa trên số lượng các từ
dùng chung giữa hai chuỗi này
Một độ đo đơn giản và thường hiệu quả trong cách tiếp cận này là của Jaccard ([10])
Độ đo tương tự giữa hai chuỗi s và t của Jaccard được tính bằng số lượng token dùng chung
giữa hai chuỗi chia cho tổng số lượng token của cả hai chuỗi Độ đo đo này được biểu diễn
bởi công thức sau:
Một độ đo khác thường được sử dụng rộng rãi trong cộng đồng rút trích thông tin là
TF-IDF (term frequency inverse document frequency) để giải quyết bài toán xác định độ đo giống
nhau giữa một tài liệu và một truy vấn Phương pháp TF-IDF xem chuỗi truy vấn q và tài liệu
dj là một dãy các từ khóa Mỗi từ khóa như vậy được gán một trọng số Ý tưởng của phương
pháp này là:
+ Một tài liệu có chứa nhiều xuất hiện của một từ khóa k được xem là quan trọng hơn
một tài liệu có chứa ít sự xuất hiện của từ khóa k đó Nếu một từ khóa k xuất hiện nhiều lần
trong một tài liệu thì một truy vấn mà có chứa từ khóa k đó nên nhận được tài liệu đó làm kết
quả Hay nói cách khác, nếu một từ khóa có sự xuất hiện càng cao trong tài liệu thì trọng số
của từ khóa đó càng cao Điều này thể hiện tầm quan trọng của từ khóa trong tài liệu và trong
câu truy vấn
+ Một từ khóa xuất hiện trong nhiều tài liệu được xem là ít quan trọng hơn từ khóa xuất
hiện trong ít tài liệu Sự ít xuất hiện của một từ khóa k trong các tài liệu khác nhau sẽ thể hiện
một trọng số về tầm quan trọng của nó trong tài liệu có chứa từ khóa k đó
Tóm lại, một từ khóa xuất hiện thường xuyên trong tài liệu nhưng hiếm xuất hiện trong
những tài liệu còn lại thì được đánh trọng số cao Từ ý tưởng trên, độ đo TF-IDF sử dụng
thành phần TF (term frequency) để đo tần suất xuất hiện của một từ khóa ki trong một tài liệu
dj và IDF (inverse document frequency) dùng để đo thông tin của một từ khóa ki dựa vào sự
hiếm gặp của từ khóa ki đó trong cả tập ngữ liệu Trong công trình [1], các tác giả đã áp dụng
cách tính thành phần tf và idf trong công trình như sau
Trang 30Gọi freqi,j là số lần xuất hiện của từ khóa ki trong trong tài liệu dj, tfi,j là thành phần TF
của từ khóa ki trong tài liệu dj trong phương pháp TF-IDF Khi đó, tfi,j được tính bởi công
thức:
)1log( ,
Nếu từ khóa ki không xuất hiện trong dj thì tfi,j = 0
Mặt khác, đặt idfi là đại lượng IDF của từ khóa ki Ta có idfi được tính bởi công thức
)log(
j tf idf
Tương tự, gọi tfi,q là đại lượng TF của từ khóa ki trong truy vấn q Trọng số của một từ khóa ki
trong truy vấn q sẽ được tính là:
i q i q
i tf idf
Điểm cần chú ý trong phương pháp TF-IDF là các từ khóa ki có trong câu truy vấn đều
phải là các từ đã được đánh chỉ mục trong một hệ thống rút trích và thành phần idfi cũng được
tính dựa trên tập ngữ liệu
Sau khi biểu diễn một tài liệu và truy vấn thành một dãy các trọng số, một tài liệu dj và
một truy vấn q lần lượt có thể được biểu diễn thành hai vector có t chiều
), ,,
( 1,j 2,j ,j
d = và q =(w1,q,w2q, ,w t,q) Trong đó, t là số lượng từ khóa được đánh
chỉ mục trong hệ thống rút trích thông tin Khi đó, độ tương tự giữa một truy vấn q và một tài
liệu dj được đo bằng cosin của góc tạo bởi hai vector d j và q Một cách hình thức, ta có
i j
t i
q i j
j
j j
w w
w w q
d
q d q d sim
1
2 , 1
2 ,
1
, ,)
,
Trang 31Nếu từ khóa ki không xuất hiện trong dj thì tfi,j = 0 Điều này dẫn đến wi,j = 0 Do đó, công thức trên có thể được viết lại ở dạng khác như sau:
k
j i
q d k
q i j i j
i j
i
j i
w w
w w q
d sim
2 ,
2 ,
, ,
) , (
Nếu ta xem mỗi chuỗi tên thực thể là một tài liệu cần rút trích thì phương pháp TF-IDF được áp dụng cho việc đo độ tương tự giữa hai chuỗi tên thực thể s và t lần lượt có tập các token S và T sẽ là:
t S
k s i
T S k
t s i
w w
w w T
S IDF TF
i
i
2 ,
2 ,
, ,
) ,
Theo sự đánh giá của [1], trong các phương pháp đo dựa trên chuỗi thì độ đo của Monge-Elkan là tốt nhất, kế tiếp đến là của Jaro-Winkler, rồi mới đến Jaro Trong các phương pháp dựa trên token thì độ đo TF-IDF là tốt nhất
Chúng ta nhận xét rằng với độ đo TF-IDF, nếu chúng ta truy vấn tìm kiếm với chuỗi tên
“Tấn Đạt” và kết quả trả về là chuỗi tên “Huỳnh Tấn Đạt” thì kết quả độ đo sẽ bằng với tìm với chuỗi tên “Huỳnh Tấn Đạt” mà kết quả trả về là “Tấn Đạt” Điều đó có nghĩa là độ đo của phương pháp TF-IDF là đối xứng, nghĩa là độ đo khi truy vấn chuỗi s mà kết quả trả về t thì bằng với độ đo khi chuỗi truy vấn là t mà kết quả trả về là s (sim(s, t) = sim(t, s)) Mặt khác, trong cách tiếp cận của TF-IDF, độ đo này chỉ quan tâm đến các từ trong chuỗi truy vấn của người sử dụng mà cũng nằm trong kết quả
Giả sử s là chuỗi cần truy vấn với tập các token là S, t là một chuỗi kết quả với tập token là T Chúng ta phân tích rằng nếu S là tập token cần truy vấn, điều đó có nghĩa là S là cái mà chúng ta muốn rằng T thỏa với một đo lớn nhất có thể có Hay nói cách khác, chúng ta muốn T càng giống S càng tốt Phương pháp TF-IDF trước đây tiến hành tính toán độ đo chỉ dựa trên tập các token thuộc S mà cũng nằm trong T Trong khi đó, các token khác trong T
mà tương tự với các token còn lại trong S thì bị bỏ qua mặc dù các token này cũng góp phần thể hiện T càng giống với S
Trang 32Do đó, chúng ta nên tính thêm vào độ đo các trọng số của các token u thuộc S mà có tồn tại một token v ở trong T rất giống với u bởi vì sự hiện diện của token v có trong T thể hiện T càng giống S Khi đó, thay vì trọng số của token v sẽ bằng trọng số của token u nếu v giống hoàn toàn u thì lúc này, do v chỉ tương tự với u nên trọng số của nó sẽ nhỏ hơn trọng số của u và có giá trị phụ thuộc vào u và v có độ tương tự nhau là bao nhiêu
Dựa trên ý tưởng nói trên, các tác giả của [1] đã đưa ra một độ đo mới bằng cách lai ghép cách tiếp cận của độ đo TF-IDF, kết hợp với ý tưởng sử dụng độ đo mức hai của Monge-Elkan, và sử dụng độ đo của Jaro-Winkler như là độ đo mức hai thành một độ đo mới là SoftTF-IDF Trong đó, độ đo giữa chuỗi truy vấn s và chuỗi kết quả t lần lượt có tập các từ là
S và T được tính không chỉ phụ thuộc vào các từ vừa có trong S vừa có trong T mà còn phụ thuộc vào các từ có trong S mà tương tự với một từ nào đó xuất hiện ở trong T
Đặt )CLOSE(θ,S,T là tập các từ w∈ mà tồn tại một S v∈ nào đó thỏa T
một truy vấn S và kết quả T sẽ được tính như sau:
t S
k s i
T Close k
S i t
s i
i i
i
w w
T w N w w T
S IDF SoftTF
2 ,
2 ,
) , , (
, ,
) ,
Trong các thử nghiệm và đánh giá của [1], các tác giả đã sử dụng độ đo Jaro-Winkler là
độ đo mức hai sim' và chọn hệ số ngưỡng là θ =0.9 Các thử nghiệm và đánh giá khi áp dụng các độ đo vào việc so trùng các tên thực thể cho kết quả rằng, độ đo SoftTF-IDF cho kết quả tốt nhất, tốt hơn Jaro-Winkler và TF-IDF khi thực hiện việc áp dụng so sánh các chuỗi tên thực thể
Chúng ta nhận xét rằng trong khi độ đo của phương pháp TF-IDF là độ đo đối xứng thì
độ đo của phương pháp SoftTF-IDF là bất đối xứng Lý do là phương pháp SoftTF-IDF chỉ ra
rõ các từ sẽ được sử dụng để tìm các trọng số tf và idf cho việc thực hiện tính toán độ đo là
),
,
( S T
mức ngưỡng θ =0.9 với một từ nào đó có trong kết quả T
Trang 333 - CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC
Như đã trình bày ở phần trước, việc giải quyết bài toán so trùng mờ các đồ thị tri thức là tìm ra các độ đo về mặt ngữ nghĩa giữa hai đồ thị ý niệm Như chúng ta đã biết, đồ thị ý niệm bao gồm các ý niệm và quan hệ tạo thành, nên phương hướng để thực hiện việc đo khoảng cách ngữ nghĩa của hai đồ thị ý niệm là tìmra độ đo ngữ nghĩa giữa các kiểu ý niệm và các kiểu quan hệ có trong hai đồ thị
3.1 - Độ tương tự giữa các kiểu thực thể
Cơ sở tri thức chứa tất cả các thực thể của công trình được xây dựng dựa trên một ontology tên là VNKIMO (được minh họa một phần ở hình 6), là mạng phân cấp ngữ nghĩa các kiểu thực thể Trong đó, mỗi kiểu thực thể có thể là một kiểu ý niệm hoặc một kiểu quan
hệ Trong khi đó, theo ([2]), độ đo của Jiang và Conrath được đánh giá là độ đo tốt nhất trong hướng tiếp cận dựa trên mạng phân cấp ngữ nghĩa Trong đó, lượng tin của một ý niệm của phương pháp Jiang và Conrath được tính thông qua xác suất xuất hiện của từ biểu diễn cho ý niệm đó có trong tập ngữ liệu
Hình 6: Sự phân cấp các kiểu ý niệm trong ontology
Trang 34Trong công trình nghiên cứu của luận văn, chúng tôi cũng dựa trên ý tưởng của cách
tiếp cận lai ghép của Jiang và Conrath để đo khoảng cách ngữ nghĩa giữa các kiểu ý niệm và
các kiểu quan hệ trong mạng phân cấp VNKIMO ontology với một biến đổi khác Thay vì
tính độ đo khoảng cách ngữ nghĩa giữa hai kiểu thực thể dựa trên xác suất xuất hiện của các
nhãn kiểu của nó có trong tập ngữ liệu, chúng tôi tính độ đo khoảng cách ngữ nghĩa dựa trên
xác suất xuất hiện được tính dựa vào số lượng thực thể của các kiểu thực thể có trong cơ sở tri
thức của công trình đang làm
Theo cách lý luận của chúng tôi, do bản chất của một từ đại diện cho một kiểu thực thể
xuất hiện trong mạng phân cấp VNKIMO ontology đóng vai trò chỉ là nhãn đại diện cho lớp ý
niệm mà nó mô tả Do đó, chúng ta không thể thực hiện việc tính xác suất xuất hiện của các
nhãn kiểu trong một tập ngữ liệu như trong phương pháp của Jiang-Conrath
Mặt khác, do có sự phân cấp cấu trúc trong ontology nên chúng tôi lý luận rằng một
kiểu thực thể càng có nhiều thể hiện trong cơ sở tri thức thì xác suất xuất hiện của kiểu thực
thể đó càng lớn và lượng tin của nó sẽ càng ít Những kiểu thực thể càng nằm gần gốc thì
lượng tin của chúng càng ít do số lượng thể hiện của chúng càng lớn Ngược lại, những kiểu
thực thể càng nằm ở các nút lá thì chúng càng chi tiết và lượng tin của chúng càng cao Hay
nói cách khác, xác suất xuất hiện của một kiểu thực thể trong cơ sở tri thức sẽ là một hàm tính
theo số lượng thể hiện của kiểu thực thể đó
Dựa vào những lý luận vừa nêu trên, trong bài báo công bố công trình nghiên cứu của
mình ([26]), chúng tôi đã định nghĩa xác suất xuất hiện của một kiểu ý niệm trong cơ sở tri
thức được tính bởi công thức như sau:
N c Pop
c) ( )/
Trong đó, Pop(c) là tổng số lượng thực thể của kiểu ý niệm c có trong cơ sở tri thức và N là
tổng số lượng thực thể trong cơ sở tri thức
Trong công thức được chỉ ra ở phương trình 3.1, tổng số lượng thực thể của một kiểu ý
niệm c trong cơ sở tri thức được tính một cách đệ quy bằng số lượng thực thể trực tiếp của
chính kiểu ý niệm c cộng với số lượng thực thể của các kiểu ý niệm con của c
Ta xét một ví dụ cụ thể như sau, giả sử ta có một kiểu ý niệm có nhãn là A trong mạng
phân cấp ontology có hai kiểu ý niệm con là B và C Tổng số lượng thực thể của kiểu ý niệm
B và C trong cơ sở tri thức lần lượt là 40 và 50 Số lượng thực thể trực tiếp có kiểu ý niệm A
trong cơ sở tri thức là 10
Trang 35Khi đó, tổng số lượng thực thể của kiểu ý niệm A có trong cơ sở tri thức sẽ là Pop(A) =
10 + 40 + 50 = 100 Do đó, khoảng cách ngữ nghĩa giữa B và A là lượng tin còn lại của B mà
100
40log(
))
|log(Pr(
))(,
)(log
))(,(
c par Pop
c Pop c
par c
tính độ đo khoảng cách dựa trên số lượng thực thể, một kiểu ý niệm c sẽ càng giống với kiểu
ý niệm cha nó nếu như tổng số lượng thực thể của kiểu ý niệm c càng lớn và gần bằng với số lượng thực thể của kiểu ý niệm cha nó là par(c) Điều này cũng tương tự như trong thế giới thực, nếu thế giới này có rất nhiều con chim cánh cụt và có rất ít những con chim khác, thì chúng ta có khái niệm “Con chim cánh cụt” sẽ giống với khái niệm “Con chim” nhiều hơn so với những khái niệm con chim khác Ngược lại, nếu thế giới này có rất ít con chim cánh cụt
và có rất nhiều con chim khác, thì chúng ta sẽ có khái niệm “Con chim cánh cụt” sẽ ít giống với khái niệm “Con chim” hơn so với những khái niệm con chim khác
Cũng dựa trên ý tưởng trên, trong công trình của chúng tôi, do bản thân các từ đại diện cho các kiểu ý niệm chỉ là nhãn không có nghĩa, nên chúng tôi đưa ra độ đo được tính dựa trên số lượng thực thể của kiểu ý niệm có trong cơ sở tri thức như là một giải pháp Điều đó
có nghĩa là, nếu số lượng thực thể của cơ sở tri thức thay đổi thì độ đo giữa các kiểu ý niệm cũng sẽ thay đổi
Áp dụng công thức tính xác suất xuất hiện của một kiểu ý niệm theo số lượng thực thể
có trong cơ sở tri thức ở phương trình 3.1 vào công thức tính khoảng cách ngữ nghĩa giữa hai
ý niệm của Jiang và Conrath ở phương trình 2.16, ta có được công thức tính khoảng cách ngữ nghĩa giữa hai kiểu ý niệm c1 và c2 trong VNKIMO ontology như sau:
))/)(log(
)/)((log(
)/)),((log(
2),
Sau khi khai triển logarith và đơn giản biểu thức, ta có được:
))(log)((log)),((log2),
Độ đo khoảng cách ngữ nghĩa giữa hai kiểu ý niệm càng nhỏ thì độ giống nhau giữa chúng càng lớn và ngược lại Để đo được độ đo tương tự giữa hai ý niệm, chúng tôi thực hiện chuyển công thức tính khoảng cách ngữ nghĩa giữa hai ý niệm thành độ đo tương tự về ngữ nghĩa và tỉ lệ về khoảng [0, 1] thông qua công thức sau:
Trang 361)
,(
2 1 2
1
c c dist c
c sim
+
Độ đo tương tự giữa hai kiểu ý niệm dựa trên số lượng thực thể trên có thể được áp
dụng để tính độ tương tự giữa hai kiểu quan hệ trong mạng phân cấp ngữ nghĩa Trong đó, số
lượng thực thể của một kiểu quan hệ sẽ được tính bằng tổng số lượng các cặp thực thể tham
gia vào các quan hệ có kiểu quan hệ đó
3.2 - Độ bao phủ giữa các kiểu thực thể
Dựa vào công thức tính độ tương tự giữa hai kiểu thực thể ở phương trình 3.3, chúng ta
nhận xét rằng các độ đo trên là đối xứng cho cả việc đo độ giống nhau giữa các từ cũng như
giữa các kiểu thực thể Điều đó có nghĩa là, độ đo tương tự chỉ quan tâm đến hai đối tượng
giống với nhau là bao nhiêu Ví dụ, độ tương tự giữa khái niệm “Sinh_viên” trong câu truy
vấn “Tìm sinh viên”, và khái niệm “Sinh_viên_cao_học” trong kết quả tìm được một sinh
viên cao học cụ thể nào đó, thì bằng với độ đo tương tự giữa khái niệm “Sinh_viên_cao_học”
trong câu truy vấn “Tìm sinh viên cao học” và khái niệm “Sinh_viên” trong kết quả trả về là
một sinh viên cụ thể nào đó
Tuy nhiên, trên thực tế, chúng ta nhận thấy rằng, việc truy vấn để tìm một sinh viên mà
kết quả trả về là một sinh viên cao học là câu trả lời hợp lý và logic hơn, bởi vì mọi sinh viên
cao học đều là sinh viên Trong khi đó, trường hợp sau chỉ là một cách trả lời xấp xỉ gần đúng
với cái mà người sử dụng cần truy vấn Tóm lại, chúng ta có thể cần đến một độ đo để đánh
giá xem một câu truy vấn có bao phủ một kết quả hay không và bao phủ kết quả với một độ
đo là bao nhiêu
Như vậy, không giống như độ đo tương tự là một độ đo đối xứng, độ đo bao phủ là một
hàm đo bất đối xứng Hay nói cách khác, độ đo tương tự là một độ đo không có hướng, trong
khi đó, độ đo bao phủ là một độ đo dựa trên các khoảng cách ngữ nghĩa có hướng
Từ việc nhận ra vấn đề như vậy, chúng tôi tiến hành xem xét lại ý tưởng và phương
trình của Jiang-Conrath về việc tính độ tương tự giữa hai ý niệm c1 và c2 trong phương trình
2.10:
))(Pr(
))(Pr(
log))
(
|Pr(
log))
(,(
c par
c par c c
par c c
par c
Phương trình trên đã gợi ý và đưa ra cho chúng tôi ý tưởng cho việc định nghĩa một độ đo bao
phủ giữa hai kiểu thực thể Đó là, khoảng cách ngữ nghĩa có hướng từ kiểu t1 đến kiểu t2 là
Trang 37lượng tin còn lại của kiểu t1 mà không nằm trong kiểu t2 Trong công trình công bố ([26]) của
mình, chúng tôi đã đưa ra định nghĩa độ đo bao phủ giữa một kiểu thực thể t1 và kiểu thực thể
t2 trong một mạng phân cấp ontology như sau:
)Pr(
)Pr(
log)
|Pr(
log)
(
2
2 1 2
1 2
1
t
t t t
t t
t
Trong đó, t1∧ là kiểu con chung lớn nhất của hai kiểu tt2 1 và t2, xác suất xuất hiện của một
kiểu thực thể được tính theo số lượng thực thể của kiểu thực thể đó có trong cơ sở tri thức
Cách tính xác suất dựa theo số lượng thực thể được tính toán tương tự như ở độ đo tương tự
đã trình bày ở phương trình 3.1
Sau đó, độ đo bao phủ giữa một kiểu thực thể đối với một kiểu thực thể khác được định
nghĩa là một hàm nghịch đảo của khoảng cách ngữ nghĩa có hướng.từ t1 đến t2 và được tỉ lệ về
trong khoảng [0 1] như sau:
)(
1
1)
(
2 1 2
1
t t dist t
t Sub
S →+
=
Hình 7 sau đây sẽ minh họa cho chúng ta thấy được sự so sánh giữa độ đo tương tự và
độ đo bao phủ giữa hai kiểu thực thể
Hình 7: Sự so sánh giữa độ tương tự và độ bao phủ giữa hai kiểu thực thể
Định nghĩa độ đo bao phủ giữa hai kiểu thực thể trên thỏa mãn một cách trực quan các
trường hợp đặc biệt sau:
) (t1 t2Sub →
Trang 38+ Nếu t1 là một kiểu cha của t2, điều đó có nghĩa là t1∧t2=t2, thì Sub(t1→ t2)=1nhưng Sub(t2 → t1)<1
+ Nếu t1 và t2 là phân li nhau , nghĩa là t1∧t2=∅, thìSub(t1 →t2)=Sub(t2 →t1)=0
3.3 - Độ bao phủ giữa các tên thực thể
Như đã trình bày ở phần trước, ngoài các kiểu thực thể gồm kiểu ý niệm và kiểu quan
hệ, đồ thị tri thức còn có các ràng buộc về giá trị thuộc tính của các ý niệm Trong công trình nghiên cứu của luận văn, chúng tôi giới hạn chỉ nghiên cứu độ đo giữa các trị thuộc tính chuỗi, mà cụ thể là các tên của các thực thể tiếng Việt Trong đó, chúng tôi áp dụng phương pháp tính độ đo giữa hai chuỗi SoftTF-IDF trong việc so sánh hai tên thực thể
Xét về mặt ý tưởng và công thức, chúng tôi hoàn toàn sử dụng lại phương pháp cũng như công thức của SoftTF-IDF Tuy nhiên, trong phương pháp SoftTF-IDF, độ đo giữa hai tên thực thể được tính toán dựa trên tất cả các chuỗi có trong tập ngữ liệu là tập tất cả các tên thực thể được so trùng Trong đề tài này, do bản chất của bài toán đặt ra là tính độ tương tự của hai chuỗi tên thực thể có trong đồ thị tri thức, nên chúng tôi đã áp dụng phương pháp SoftTF-IDF trong một ngữ cảnh khác
Trước hết, chúng ta xét một vài ví dụ cụ thể như sau Khi người sử dụng thực hiện truy vấn “Tìm người có tên là Nguyễn Văn An”, thì chuỗi “Chu Văn An” là một chuỗi tên của thực thể thuộc kiểu ý niệm là con người Tương tự như vậy, nếu xét một ví dụ khác như câu truy vấn “Tìm công ty truyền thông có tên Tuổi Trẻ”, thì khi đó, chuỗi “Tuổi Trẻ” trong trường hợp này là một tên của thực thể thuộc kiểu ý niệm là công ty truyền thông
Qua các ví dụ trên, chúng ta nhận xét rằng trong một câu truy vấn để tìm các thực thể
có tên, một cái tên bao giờ cũng là tên của một thực thể thuộc một kiểu ý niệm xác định nào
đó Kiểu ý niệm đó được xác định thông qua ý niệm bị ràng buộc bởi quan hệ có_tên với thực thể mà ta đang xét Do đó, trong quá trình áp dụng phương pháp SoftTF-IDF để giải quyết vấn đề của mình, chúng tôi đưa ra ý tưởng là tiến hành xem xét và tính toán trọng số của các từ có trong chuỗi tên thực thể dựa trên tập tất cả các tên của các thực thể thuộc kiểu ý niệm mà chuỗi tên có trong kết quả tìm kiếm thuộc vào
Cụ thể, chúng ta xét lại ví dụ tìm người có tên “Chu Văn An” ở ví dụ trước Giả sử trong các kết quả trả về từ hệ thống truy vấn tìm kiếm kết quả, ta có một thực thể thuộc kiểu ý niệm con người có tên là “Nguyễn Văn An” Khi đó, các trọng số của các từ dùng trong việc tính toán độ đo SoftTF-IDF giữa chuỗi “Chu Văn An” và chuỗi “Nguyễn Văn An” sẽ được