Thuật toán khớp Ontology dựa trên đồ thị trọng số

Khớp Ontology nhằm vào tìm kiếm cácánh xạ giữa mối quan hệ ngữ nghĩa giữa các thực thể của các Ontologykhác nhau.. Nhiều giải pháp khớp khác nhau đã được đề xuất dựa trên nhiềuquan điểm

Trang 1

Lời cảm ơn 1

MỞ ĐẦU 2

I Giới thiệu 4

II Các kỹ thuật khớp mức phân tử 7

2.1 Kỹ thuật khớp dựa vào so khớp chuỗi (String - based) 7

2.1.1 Tiền tố 9

2.1.2 Hậu tố 9

2.1.3 Khoảng cách soạn thảo 9

2.1.4 Khoảng cách n-gram 10

2.2 Các kỹ thuật dựa trên ngôn ngữ (Language-based) 11

2.2.1 Tách từ (Tokenization) 12

2.2.2 Biến đổi về dạng cơ bản của từ (Lemmatization) 13

2.2.3 Loại bỏ từ dừng (stopword elimination) 13

2.3 Các kỹ thuật dựa trên ràng buộc 13

2.3.1 So sánh kiểu dữ liệu 13

2.3.2 So sánh khoảng giá trị (Multiplicity comparison) 14

2.4 Cơ sở ngữ nghĩa (Linguistic resources) 15

2.5 Liên kết dùng lại (Alignment reuse) 15

III Các kỹ thuật khớp mức cấu trúc 16

3.1 Các kỹ thuật dựa trên đồ thị 16

3.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy) 16

3.3 Kho cấu trúc (Repository of structures) 17

3.4 Các kỹ thuật dựa vào mô hình 18

3.5 Các kỹ thuật phân tích và thống kê dữ liệu 18

IV Thuật toán khớp Ontology dựa trên đồ thị trọng số 19

KẾT LUẬN VÀ KIẾN NGHỊ 25

TÀI LIỆU THAM KHẢO 26

Trang 2

Lời cảm ơn

Em xin bày tỏ lòng biết ơn chân thành đối với PGS.TS Đỗ Văn Nhơn,

người đã dạy cho em chuyên đề “Biểu diễn tri thức và ứng dụng” Những

kiến thức Thầy truyền đạt đã giúp em lần đầu tiên được tiếp cận một cáchđầy đủ về khái niệm Biểu diễn tri thức và hiểu được các vấn đề ứng dụngcủa nó, đặc biệt đã gợi ý cho em phương pháp xử lí các bài toán Biểu diễntri thức rất thiết thực cho chuyên môn

Vì điều kiện thời gian và khả năng có hạn nên tiểu luận không thểtránh khỏi những thiếu sót Em rất mong nhận được ý kiến đóng góp củathầy đề tiểu luận được hoàn thiện

Xin chúc Thầy cùng các Thầy cô trong Trường Đại học Côngnghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh lời chúcsức khoẻ, hạnh phúc và đạt được nhiều thành công trong sự nghiệpnghiên cứu và đào tạo nguồn nhân lực CNTT cho đất nước Việt Nam

Trang 3

Với Web có ngữ nghĩa, người ta đang hướng tới xây dựng những bộngữ nghĩa cho dữ liệu trên Internet, xây dựng một mạng dữ liệu ngữ nghĩaliên kết toàn cầu, giúp ích cho việc tìm kiếm và truy tìm thông tin trên Webhiện nay.

Trong Web có ngữ nghĩa, dữ liệu có cấu trúc và các Ontology mô tảngữ nghĩa của dữ liệu Các Ontology cho phép người sử dụng tổ chứcthông tin theo các phân loại (taxonomy) khái niệm, mỗi khái niệm có cácthuộc tính, và Ontology còn mô tả các mối liên hệ giữa các khái niệm.Ontology là thành phần trọng tâm của Web có ngữ nghĩa Nó cho phépcác ứng dụng thống nhất với nhau về các thuật ngữ được dùng để trao đổi.Tuy nhiên, trong nhiều trường hợp, cùng một loại thông tin được mô hìnhhóa theo nhiều cách khác nhau gây khó khăn cho việc trao đổi thông tin

Trang 4

Trong môi trường mở như Web, các Ontology được phát triển và bảotrì một cách độc lập trong môi trường phân tán Do đó hai hệ thống có thể

sử dụng hai Ontology khác nhau để mô tả cho hai lĩnh vực tương tự nhau,vấn đề này được gọi là không thống nhất Ontology Để tập hợp dữ liệu từcác Ontology khác nhau, chúng ta phải biết các ánh xạ ngữ nghĩa giữa cácthành phần của chúng Quá trình tìm các ánh xạ này được gọi là khớpOntology (Ontology Matching) Khớp Ontology nhằm vào tìm kiếm cácánh xạ giữa mối quan hệ ngữ nghĩa giữa các thực thể của các Ontologykhác nhau Nhiều giải pháp khớp khác nhau đã được đề xuất dựa trên nhiềuquan điểm như cơ sở dữ liệu, hệ thống thông tin, trí tuệ nhân tạo,…

Bên cạnh vai trò quan trọng của Web có ngữ nghĩa, các Ontology cònđược biết đến thông qua nhiều ứng dụng khác như: phục hồi và trích rútthông tin, tích hợp thông tin, tích hợp thông tin trong doanh nghiệp, thươngmại điện tử, các hệ thống ngang hàng (peer-to-peer), các hệ thống thuậtngữ tin sinh và y học,…

Đề tài này nhằm mục đích tìm hiều về Ontology và các kỹ thuật khớpOntology, trên cơ sở đó áp dụng vào một số bài toán khớp Ontology

Trang 5

I Giới thiệu

Mục đích của khớp Ontology là để tìm ra mối quan hệ giữa các thựcthể biểu diễn trong các Ontology khác nhau Thông thường, những mốiquan hệ này là các quan hệ tương đương được phát hiện thông qua thước

đo sự gióng và khác nhau giữa các thực thể của các Ontology

Tiến trình khớp là tiến trình nhằm xác định liên kết A’ giữa một cặpOntology o và o’ Ngoài hai Ontology o và o’, tiến trình khớp có thể sửdụng một số tham số khác, cụ thể là:

(i) Liên kết đầu vào A giữa 2 Ontology o và o’;

(ii) Các tham số khớp p, ví dụ: trọng số, ngưỡng;

(iii) Các tài nguyên mở rộng dùng bởi tiến trình khớp Ví dụ: kiếnthức chung và từ điển chuyên ngành

Có thể định nghĩa tiến trình khớp như sau:

Định nghĩa 1 Tiến trình khớp là một hàm f từ một cặp Ontology o và o’,

một liên kết vào A, tập hợp các tham số p, tập các thẻ và các tài nguyên r,trả lại một liên kết A’ giữa các Ontology này:

A’ = f(o, o’, A, p, r)Hình 1 Minh họa tiến trình khớp

o

A

o '

A’

Matching

resources parameters

Trang 6

Trong trường hợp khớp nhiều hơn hai Ontology chúng ta sử dụng địnhnghĩa khớp đa Ontology sau:

Định nghĩa 2: Tiến trình khớp đa Ontology có thể được xem như một

hàm f từ tập các Ontology {o1,…, on}, một liên kết vào A, tập các tham số

p, tập cá thể và các tài nguyên r, trả về một liên kết A’ giữa các Ontology:

A’=f(o1,…, on,A, p, r}

Dựa trên tiến trình khớp nói trên, người ta đã xây dựng nhiều kỹ thuậtkhớp Ontology khác nhau, có thể phân loại các kỹ thuật này dựa theo haiphân loại tổng hợp trong Shvaiko and Euzerat, 2005], dựa vào các thuộctính nổi bật của các chiều khớp

Trang 7

Hình 2 Phân loại các kỹ thuật khớp

Tìm hiểu một số kỹ thuật khớp Ontology

Language-Linguistic resounces lexicons, thesauri

Constraint -based Type similarity, key properties

Alignment reuse Entire schema or ontology, fragment

Upper level, Domain specific, ontologies SUMO, DOLCE, FMA

Data analysis and statistics frequency distributation

Graph-based Graph honomophism, path, children, leases

Taxonomy

- based Taxonomy structure

Repository

of structures Structure metadata

Linguistic resounces lexicons, thesauri

Linguistic

Basic techniques Granularity/ Input interpretation

Trang 6

Trang 8

Các phân loại được biểu diễn dạng cây với các lá, mỗi lá là một kỹthuật khớp và các ví dụ cụ thể của chúng Một số phương pháp cơ bản đểđánh giá sự giống nhau hoặc các mối quan hệ giữa các thực thể Ontology

sẽ được trình bày chi tiết dưới đây

II Các kỹ thuật khớp mức phân tử.

Các kỹ thuật mức phân tử xem xét các thực thể Ontology hoặc cáctrường hợp của chúng một cách riêng biệt, bỏ qua mối quan hệ giữa chúngvới các thực thể khác hoặc các trường hợp của chúng

2.1 Kỹ thuật khớp dựa vào so khớp chuỗi (String - based)

Các kỹ thuật khớp dựa vào so khớp chuỗi thường dùng để khớp cáctên và các mô tả tên của các thực thể Ontology Những kỹ thuật này xemcác chuỗi như dãy các chữ cái trong một bảng chữ cái Chúng dựa vào đặctrưng sau: các chuỗi càng giống nhau thì càng có khả năng để chỉ rõ cùngcác khái niệm Thông thường, các hàm khoảng cách ánh xạ một cặp cácchuỗi đến một số thực, số thực có giá trị càng nhỏ thì các chuỗi càng giốngnhau Kỹ thuật khớp dựa vào so khớp chuỗi được sử dụng rộng rãi trongcác hệ thống khớp tiền tố, hậu tố, khoảng cách soạn thảo và khoảng cách n-gram

Có nhiều cách để so sánh các chuỗi phụ thuộc vào cách các chuỗiđược xem xét: chẳng hạn, dãy chính xác các chữ cái, dãy không đúng cácchữ cái, tập các chữ cái, tập các từ

Ta cần phân biệt giữa: (i) các kỹ thuật dùng để rút gọn các chuỗi sosánh đến một dạng chung, (ii) các kỹ thuật chuỗi con hoặc dãy con dựa vàocác chữ cái chung giống nhau giữa các chuỗi, (iii) các khoảng cách soạnthảo giúp cho việc đánh giá một chuỗi như thế nào có thể là một bản lỗi củachuỗi khác, (iv) các thước đo thống kê mà sự thiết lập ý nghĩa quan trọngcủa một từ trong một chuỗi phù hợp với mối quan hệ giữa hai chuỗi và (v)các hướng so sánh

Trang 9

Trước khi so sánh các chuỗi thực sự có ý nghĩa trong ngôn ngữ tựnhiên, chúng ta xem xét các trường hợp thực tế sau:

- Trường hợp tiêu chuẩn hóa: Biến đổi mỗi ký tự chữ cái trong chuỗithành chữ thường Ví dụ, CD  cd và SciFi  scifi

- Loại bỏ các ký hiệu dấu Ví dụ, Montréal  Montreal

- Chuẩn hóa khoảng trống: Chuẩn hóa tất cả các ký tự để trống(khoảng trống, xuống dòng, hoặc dãy các ký tự trống, xuống dòng) thànhmột ký tự trống đơn

- Xóa bỏ các dấu liên kết các từ Ví dụ, peer-reviewed  peerreviewed

- Loại bỏ các ký tự số Ví dụ, book25545-18  book

- Loại bỏ các dấu chấm câu Ví dụ C.D  CD

Định nghĩa 3 Đẳng thức xâu: Một đẳng thức xâu là một hàm

0 1

:SS 

 mà x,yS,  (x,x)  1 và nếu x ≠ y, (x,y) = 0

Thước đo này không giải thích được hai xâu khán nhau như thế nào

Vì thế người ta sử dụng khoảng cách Hamming để so sánh hai xâu bằngcách đếm số các vị trí khác nhau trong hai xâu

Định nghĩa 4 Khoảng cách Hamming Khoảng cách Hamming là một

s

t s i

, max )

,

(

) , min(



Hai xâu được xem là giống nhau khi xâu này là xâu con của xâu kia

Định nghĩa 5 Kiểm tra xâu con Kiểm tra xâu con là một hàm:

Trang 10

Thước đo này có thể được tinh chế thành một xâu con tương tự cácthước đo tỷ lệ của các thành phần con chung giữa hai xâu.

Định nghĩa 6 Xâu con giống nhau Xâu con giống nhau là một hàm

0 1

:SS

 mà  x,y  S, và t là xâu con chung dài nhất của x và y:

y x

t y

x



 2 ) , (

Nhận hai chuỗi đầu vào và so sánh sự giống nhau của tiền tố

Ví dụ: net = network; hay hot = hotel

2.1.2 Hậu tố

Nhận hai chuỗi đầu vào và so sánh sự giống nhau của hậu tố

Ví dụ: phone = telephone; hay word = sword

2.1.3 Khoảng cách soạn thảo

Một khoảng cách soạn thảo giữa hai đối tượng là giá trị tối thiểu củacác phép toán được áp dụng cho một trong các đối tượng để thu được đốitượng khác Khoảng cách soạn thảo được thiết kế để đo sự đồng dạng giữacác xâu mà có thể chứa các lỗi chính tả

Định nghĩa 7 Khoảng cách soạn thảo Đưa ra một tập Op các phép toán

xâu (Op = S  S), và một hàm giá trị w: Op  R, mà với cặp các xâu bất

kỳ tồn tại một dãy các phép toán biến đổi xâu đầu tiên thành xâu thứ hai(và ngược lại), khoảng cách soạn thảo là một hàm không đồng dạng

Op Op

t s

)) ( (

);

( min 1)

, (



Trang 11

Trong xâu khoảng cách soạn thảo, các phép toán thường được xem xétgồm phép chèn một ký tự ins(c,i), thay thế một ký tự bởi một ký tự khácsub(c,c’,i) và xóa bỏ một ký tự del(c,i)-1 Có thể dễ dàng kiểm tra thấy cácphép toán này được quy cho một giá trị và khoảng cách giữa hai xâu làtổng giá trị của mỗi phép toán trên giá trị nhỏ nhất của tập các phép toán.Khoảng cách (s,t) từ một chuỗi s đến một chuỗi t là một số tối thiểucác thao tác soạn thảo đơn giản (chèn, xóa, thay thế, đổi chỗ) để biến đổichuỗi s thành chuỗi t

Định nghĩa 8 Đồng dạng n-gram Đặt ngram(s,n) là tập các xâu con của s

độ dài n Đồng dạng n-gram là hàm: : S x X  R mà:

min

) , ( )

, ( )

, (

n t ngram n

s mgram t

s



Hàm này hoàn toàn hiệu quả khi chỉ một vài ký tự bị mất

Ví dụ: đồng dạng 3-gram giữa “article” và “aricle” là 2/4 = 0,5; trongkhi đồng dạng 3-gram giữa “article” và “paper” là 0 và đồng dạng 3-gramgiữa “article” và particle là 5/5 = 1

Trong trường hợp các xâu quá nhỏ, có thể thêm các ký tự vào đầuhoặc cuối các xâu để xử lý xâu

2.2 Các kỹ thuật dựa trên ngôn ngữ (Language-based)

Các kỹ thuật dựa trên ngữ nghĩa xem các tên như các từ trong một vàingôn ngữ tự nhiên, ví dụ tiếng Anh Các kỹ thuật này dựa vào các kỹ thuật

Trang 12

xử lý ngôn ngữ tự nhiên khai thác các thuộc tính hình thái học của các từđầu vào.

Chúng ta xem các chuỗi như dãy các ký tự Khi xem xét hiện tượngngôn ngữ, các chuỗi này trở thành các văn bản Các văn bản này có thểđược phân đoạn thành các từ: dễ dàng xác định dãy các chữ cái nhận được

từ một mục trong một từ điển (theoretical, peer, reviewed, journal, article).Những từ này không xuất hiện trong một cặp mà trong một dãy có cấu trúc

cú pháp Các từ thông thường, như peer, mang một ý nghĩa và tương ứngvới một vài khái niệm, nhưng các khái niệm này hữu ích hơn khi được vậndụng đúng trong một văn bản như các thuật ngữ, ví dụ “peer-review”, hoặc

hệ của chúng giúp đánh giá sự tương tự của các thực thể Ontology tên vàchú giải Mặc dù điều này dựa vào một vài kiến thức ngôn ngữ học, chúng

ta phân biệt các phương pháp này chỉ dựa vào các thuật toán và sử dụngcác tài nguyên mở rộng như từ điển

Các phương pháp bên trong: Tiêu chuẩn hóa ngôn ngữ học

Tiêu chuẩn hóa ngôn ngữ học nhắm vào rút gọn mỗi dạng của mộtthuật ngữ đến một vài dạng tiêu chuẩn có thể được thừa nhận dễ dàng Ví

dụ thuật ngữ (theory paper) có thể xuất hiện dưới nhiều dạng khác nhau(Bảng 1) Có ba kiểu chính của biến đổi thuật ngữ: hình thái học (biến đổidạng và hàm của một từ dựa vào cùng gốc), cú pháp (biến đổi cấu trúc ngữ

Trang 13

pháp của một thuật ngữ) và ngữ nghĩa (biến đổi dạng của thuật ngữ, thường

sử dụng hypernym (từ hoặc cụm từ mà nghĩa của nó chứa nghĩa của từkhác) hoặc hyponym (từ hoặc cụm từ mà nghĩa của nó được bao gồm trongnghĩa của từ khác)

Bảng 1 Các dạng của thuật ngữ theory paper

Morphological Inflection

DerivationInflectional-Derivational

Theory papersTheoretical paperTheoretical papers

Syntactic Insertion

PermutationCoordination

Theory review paperPaper on theoryPhilosophy and theory paper

Morphosyntactic

Derivation-CoordinationInflection-Permutation

Philosophical and theoretical paperPapers on theory

2.2.1 Tách từ (Tokenization)

Tokenization phân tích các chuỗi đầu vào thành dãy các phần tử dựavào dấu hiệu đoán nhận dấu tách câu như dấu chấm, dấu cách, các ký tựtrống, các số,…

Ví dụ: Hands-Free_Kits  <hands, free, kits>hands, free, kits>

Peer-reviewed periodic publication  <hands, free, kits>peer, reviewed, periodic,publication>

Trang 14

2.2.2 Biến đổi về dạng cơ bản của từ (Lemmatization)

Các chuỗi nằm dưới các phần tử được phân tích hình thái học để rútgọn chúng về các dạng cơ bản và đưa ra tất cả các dạng cơ bản có thể cócủa chúng

Ví dụ: reviewed  review

Kits  kit

2.2.3 Loại bỏ từ dừng (stopword elimination)

Các phần tử được thừa nhận như các mạo từ, các giới từ, các liên từ,…(thường các từ như “to” hoặc “a”), được đánh dấu để loại bỏ bởi vì chúngđược xem như các từ không có ý nghĩa (rỗng) để khớp

Ví dụ: collection of article collection article

Một khi các kỹ thuật này được áp dụng, các thực thể Ontology đượcbiểu diễn như tập các thuật ngữ chứ không phải các từ

2.3 Các kỹ thuật dựa trên ràng buộc

Các kỹ thuật dựa trên ràng buộc là các thuật toán giải quyết các ràngbuộc nội tại được áp dụng để định nghĩa các thực thể, như các kiểu, các yếu

tố trong tập (vô số) các thuộc tính, các khóa Các kỹ thuật này dựa vào cấutrúc nội tại của các thực thể

2.3.1 So sánh kiểu dữ liệu

So sánh thuộc tính bao gồm so sánh kiểu dữ liệu thuộc tính Ở đâychúng ta phân biệt giữa kiểu dữ liệu tương ứng với cách các giá trị đượclưu trữ trong máy tính (như integer, float, string hoặc uri) và phạm vi mô tảtập con của các kiểu dữ liệu thực tế (như [1012 hoặc “*book”) Trong mụcnày ta xem xét các kiểu dữ liệu

Các kiểu dữ liệu không tách rời hoàn toàn, mặc dù có các luật mà mộtđối tượng của một kiểu có thể được xem như một đối tượng của kiểu khác

và các luật mà một giá trị của một vài kiểu có thể được biến đổi trong biểudiễn bộ nhớ của kiểu khác

Định dạng
Số trang	27
Dung lượng	228 KB