Semantic web Kick – off in Finland vision, Technologies, Research, and Applications; May 19, 2002.. Richard Benjamins, Jesús Contreras; Six challenges for the semantic web; April 2002..
Trang 1tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
24 Information processing
25 Natural language processing
B ng 10 Các câu truy v(n th nghi&m
K t qu th ng kê truy v(n theo t"ng l!nh v#c:
Công th c th ng kê:
chính xác c$a l nh v c = trung bình c ng(ph n tr m chính xác c$a t ng t trong l nh v c ó)
Trang 2tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Computer & information science:
Trang 3tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Nh*n xét:
- 7ng d!ng ch& xây d ng trên hai l nh v c là ngh thu t và khoa h c máy tính nên m i tài li u a vào u c phân vào m t trong hai l nh v c này do ó làm gi m i chính xác
- S tài li u tr v cho m i t trong cùng m t l p con trong ontology là không b0ng nhau do ph ng pháp x% lí câu truy v#n là: l#y nh ng tài
li u trong cùng l p con c$a ontology và 1ng th i l#y nh ng tài li u có
t khoá có trong v i t khoá c$a câu truy v#n
- chính xác trong vi c phân lo i tài li u theo t ng l p con ch a cao do các l p con trong ontology thi t k ch a y $, ch a bao hàm h t các khái ni m trong m t l nh v c và s t trong m t l nh v c ch a nhi u và
y $
- M"t khác, chính xác trong vi c phân lo i c$a tài li u còn b nh
h ng do s l ng t c$a n i dung trong tài li u ít (tài li u ch& ch a a
Trang 4tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
o Lu n v n ã trình bày c s lý thuy t v nguyên lý v n hành c/ng
nh u và khuy t i m c$a m t h th ng search engine
o Lu n v n trình bày rõ mô hình Web ng ngh a cùng v i các i
t ng c$a nó nh RDF, OWL, …
o Trình bày các v#n v ng ngh a c/ng nh các h ng gi i quy t trong vi c x% lí ngôn ng t nhiên nh0m giúp máy tính “hi u” c câu h2i c$a ng i dùng
o T nh ng c s nghiên c u lí thuy t, lu n v n ã ra mô hình cho
vi c xây d ng công c! tìm ki m ng ngh a, và th c hi n cài "t m t công c! tìm ki m các tài li u i n t% phù h p v i ng ngh a c$a câu truy v#n c$a ng i dùng
o Lu n v n có th xác nh t ng i chính xác l nh v c mà tài li u thu c v Và ph n nào xác nh c l nh v c c$a câu truy v#n c$a
Trang 5tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
5.1.2 Khuy t i6m:
Tuy nhiên, do v#n v ng ngh a là m t v#n ph c t p và r ng l n nên lu n
v n ch& ra m t s h ng nghiên c u hi n nay m t s l nh v c h u h n, không th bao hàm h t c các khái ni m c/ng nh ngôn ng c$a con ng i
Nh ng v#n c xu#t trong lu n v n nh0m m!c ích a ra m t h ng
gi i quy t mang tính ch#t tham kh o nên có th s* có nhi u i m ch a t i u, c n
c hoàn thi n h n
Trong ch ng trình ng d!ng, lu n v n s% d!ng c s d li u các t "c tr ng cho t l nh v c, c s d li u này c xây d ng ch$ y u d a vào WordNet, song v n còn h n ch v s l ng các t riêng cho t ng chuyên ngành N u câu truy v#n c$a
ng i dùng h2i v nh ng t không n0m trong c s d li u thì có th s* không tìm th#y k t qu Và vi c phân lo i các t l nh v c mang tính ch$ quan nên có th ch a t i
u
Vi c phân lo i tài li u theo l nh v c t ng i t t do có s l ng t khá nhi u
nh ng vi c phân lo i câu truy v#n c$a ng i dùng, s% d!ng m t l ng t r#t ít nên có
m t s câu truy v#n không có k t qu tr v Ngoài ra, lu n v n ch& s% d!ng c s d li u các tài li u l u s6n v trên máy ch$ nên
s l ng các tài li u ch a l n
5.2 H ng phát tri6n
Ch ng trình ng d!ng c$a lu n v n c xây d ng d a trên nh ng v#n c
b n, song nó có th phát tri n ngày càng hoàn thi n và t i u h n Nh ng h ng phát tri n c$a lu n v n:
- M r ng tìm ki m trong t#t c các l nh v c
- Tìm ki m trên nhi u ontology, phân lo i ontology
- Th c s tìm ki m online
- 7ng d!ng cho Ti ng Vi t
Trang 6tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
II Sách, eBooks:
[II.1] Ying Ding, Dieter Fensel, Michel Klein, and Borys Omelayenko The Semantic Web: Yet another Hip? Data and knowedgle engineering, 2002 [II.2] Eero Hyvonen Semantic web Kick – off in Finland vision, Technologies, Research, and Applications; May 19, 2002
[II.3] inh i n, Giáo trình X% Lý Ngôn Ng T Nhiên, tháng 12/2004
[II.4] Dr V Richard Benjamins, Jesús Contreras; Six challenges for the semantic web; April 2002
[II.5] Nicola Guarino; Some Ontological Principles for Designing Upper Level Lexical Resources; 28 – 30 May 1998
[II.6] Urvi Shah, Tim Finin, Anupam Joshi, R Scott Cost, James Mayfield; Information Retrieval on the Semantic Web*
[II.7] Luke K McDowell; Meaning for the Masses: Theory and Applications for Semantic Web and Semantic Email Systems; 2004
[II.8] Gareth Osler;The Semantic Web Through Semantic Data – A Four Tier Architecture Model ; 4 Mar 2005
Trang 7tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[II.9] Julius Stuller; Network of Excellence Semantic Web; 7 June 2002 [II.10] Peter Dolog and Wolfgang Nejdl; Challenges and Benefits of the Semantic Web for User Modelling
[II.11] Pang Wang; A Search Engine Based on the Semantic Web; May, 2003 [II.12] Karen Sparck Jones; What’s new about the Semantic Web? Some questions; December 2004, 18 – 23
[II.13] Mark Klein, Abraham Bernstein; Searching for Services on the Semantic Web Using Process Ontology; July 30 – August 1, 2001
[II.14] Michael Sintek, Stefan Decker; TRIPLE – A Query Language for the Semantic Web; November 2 2001
[II.15] Stefan Decker, Vipul Kashyap; The Semantic Web: Semantics for Data
on the Web; September 10 2003
[II.16] Catherine C Marshall; Taking a Stand on the Semantic Web; 2003 [II.17] Eric Miller, Ralph Swick; Semantic Web Activity: Adcanced Development; 07/09/2003
[II.18] Tim Berners – Lee; Semantic Web Road map; 10/14/1998
[II.19] Raul Corazzon; Ontology A resource guide for philosophers; 06/01/2005
[II.20] John F.Sowa; Guided Tour of Ontology; June 03 2005
[II.21] John F Sowa; Building, Sharing, and Merging Ontologies; June 03
[II.25] Stiching SURF; DARE use of Dublin Core, version 2.0; December
2004
Trang 8tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[II.26] CEN/ISSS MII – DC (WI3) Report; Guidance for the Deployment of Dublin Core Metadata in Corporate Environments; 8/20/2004 DRAFT
[II.27] Kazuhiko Asou, Takako Nakahara, Takao Namiki; A report on Dublin Core based research information service on mathematics; 10/26/2001
[II.28] Western States Digital Standards Group, Metadata Working Group; Western States Dublin Core Metadata Best Practices, Version 2.0; 01/12/2005 [II.29] Jay Cross, CEO, Internet Time Group; eLearning; mid – 1999
[II.30] ADOBE; A primer on electronic document security; 11/2004
[II.31] Gerhard U Bartsch; Introduction to Electronic Document Management Whitepaper ; March 16 2003
[II.32] Andreas Hotho; Using Ontologies to Improve the Text Custering and Classification Task; January 14 2005
[II.33] Norman Paskin; DOI: implementing a standard digital identifier as the key to effective digital rights management; March 9 2000
III Website:
[III.1] W3C SemanticWeb Activity http://www.w3.org/2001/sw
[III.2] Semantic web server http://www.semanticwebserver.com
[III.9] DAML http://www.daml.org
[III.10] RDF Data http://www.rdfdata.org
Trang 9tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
[III.11] National Information Standards Organization http://www.niso.org
[III.12] Intellidimension: Delivering a Platform for the Semantic Web
http://www.intellidimension.com/
[III.13] eLib http://purl.org/metadata/dublin_core
Trang 10tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
PH L C
1 Cú pháp RDF:
rdfs:Resource T#t c m i th c mô t b i RDF c g i là resources và là thành viên c$a class rdfs:Resource
L p này t ng ng v i khái ni m chung type ho"c là catalog c$a tài nguyên
RDF class membership (quan h thành viên l p RDF) c s% d!ng i di n cho types và catalog c$a tài nguyên Hai l p có th có cùng thành viên
rdf:Property rdf:Property i di n cho nh ng tài nguyên có thu c tính RDF
rdfs:Datatype rdfs:Datatype i di n cho nh ng tài nguyên có các ki u d li u RDF
rdf:type Thu c tính rdf:type cho bi t m t tài nguyên là thành viên c$a class nào
Khi m t tài nguyên có m t thu c tính rdf:type mà giá tr c$a thu c tính này là m t s class xác nh, thì chúng ta nói r0ng tài nguyên là m t instance of c$a class xác nh này
Trang 11tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Giá tr c$a thu c tính rdf:type s* luôn là m t tài nguyên – tài nguyên này là m t th
hi n (instance) c$a rdfs:Class Tài nguyên này c bi t nh là rdfs:Class b n thân nó
là m t tài nguyên c$a m t rdf:type rdfs:Class (B n thân nó c/ng là m t ki u – type c$a m t l p)
rdfs:subClassOf Thu c tính rdfs:subClassOf i di n cho m i quan h chu5n hoá gi a các class c$a
m t tài nguyên Thu c tính rdfs:subClassOf là m t transitive
rdfs:subPropertyOf Thu c tính rdfs:subPropertyOf là m t th hi n (instance) c$a rdf:Property, c s% d!ng xác nh m t thu c tính là m t chu5n c$a m t cái khác
H th ng c#p b c thu c tính con có th c s% d!ng trình bày h th ng c#p b c c$a các ràng bu c v range và domain
Chú ý: Thu t ng “super – property” ôi khi c s% d!ng cho bi t m i quan h
gi a m t s thu c tính v i nhi u thu c tính ph bi n khác, ví d! là m i quan h rdfs:subPropertyOf
rdfs:range
M t th hi n c$a rdf:Property c s% d!ng cho bi t các class nào mà giá tr c$a
m t thu c tính s* là thành viên c$a nó
Giá tr c$a m t thu c tính rdfs:range luôn luôn là m t Class Thu c tính rdfs:range b n thân nó có th c s% d!ng bi u di-n i u này: The rdfs:range of rdfs:range is the class rdfs:Class i u này cho th#y r0ng b#t k3 m t tài nguyên nào là giá tr c$a thu c tính range s* là m t class
Thu c tính rdfs:range ch& c áp d!ng i v i các thu c tính i u này c/ng c miêu t trong RDF thông qua vi c s% d!ng thu c tính rdfs:domain The rdfs:Domain
of rdfs:range is the class rdf:Property i u này cho th#y r0ng thu c tính range áp d!ng i v i các tài nguyên mà b n thân nó c/ng là các thu c tính (property)
rdfs:domain
M t th hi n c$a rdf:Property c s% d!ng cho bi t class nào s* có thành viên là b#t k3 m t tài nguyên nào sao cho thu c tính c$a nó c ch& nh
Trang 12tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
The rdfs:domain of rdfs:domain is the class rdf:Property i u này cho th#y r0ng thu c tính domain c s% d!ng trên các tài nguyên là các thu c tính
The rdfs:range of rdfs:domain is the class rdfs:Class i u này cho th#y r0ng b#t k3
m t tài nguyên nào mà là giá tr c$a m t thu c tính domain s* là m t class
rdfs:label Thu c tính rdfs:label c s% d!ng cung c#p phiên b n tên c$a tài nguyên mà con
ng i có th c c
rdfs:comment Thu c tính rdfs:comment c s% d!ng cung c#p s mô t tài nguyên mà con ng i
Các l p và các thu c tính RDF Container rdfs:Container
L p rdfs:Container là m t super – class c$a các l p Container c$a RDF, ví d!: rdf:Bag, rdf:Seq, rdf:Alt
rdf:Bag
L p rdf:Bag i di n cho c#u trúc container ‘Bag’ c$a RDF, và là m t l p con c$a l p rdfs:Container
Trang 13tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
m t l p con (subclass) c$a rdf:Property M i thu c tính trong quan h thành viên c$a container là m t rdfs:subPropertyOf c$a thu c tính rdfs:member
rdfs:member Thu c tính rdfs:member là m t siêu thu c tính (super – property) c$a các thu c tính trong quan h thành viên c$a container
rdf:List
L p rdf:List i di n cho l p các danh sách li t kê (Lists) c$a RDF Nó c s% d!ng
v i các construct nh ‘first’, ‘rest’, và ‘nil’, và nó c h tr trong cú pháp RDF/XML
rdf:first Thu c tính rdf:first i di n cho m i quan h gi a rdf:List và ph n t% (item) u tiên c$a nó
rdf:rest
Trang 14tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
Thu c tính rdf:rest i di n cho m i quan h gi a ph n t% (item) rdf:List v i các ph n t% còn l i trong danh sách (list), ho"c v i ph n t% cu i c$a nó (ví d!, rdf:nil)
rdf:nil Tài nguyên rdf:nil i di n cho m t rdf:List r ng (empty)
Các l p và các thu c tính RDF Utility rdfs:seeAlso
Thu c tính rdfs:seeAlso c s% d!ng cho bi t m t tài nguyên có th cung c#p thông tin RDF thêm vào v tài nguyên ch$ (subject resource)
rdfs:isDefinedBy Thu c tính rdfs:isDefinedBy là m t thu c tính con c$a rdfs:seeAlso, và cho bi t tài nguyên nào ang nh ngh a tài nguyên ch$
rdf:value Thu c tính rdf:value nh n bi t giá tr ch$ y u (th ng là chu i) c$a m t thu c tính khi giá tr thu c tính là m t tài nguyên có c#u trúc (structured resource)
rdf:Statement
L p rdf:Statement i di n cho các phát bi u v các thu c tính c$a các tài nguyên rdf:Statement là domain (l nh v c) c$a các thu c tính: rdf:predicate, rdf:subject và rdf:object
Các th hi n (instance) rdf:Statement c l p khác có th có cùng giá tr cho các thu c tính predicate, subject và object c$a chúng
rdf:subject Ch$ c$a m t phát bi u (statement) RDF
Thu c tính rdf:subject cho bi t m t tài nguyên là ch$ c$a m t s phát bi u RDF
Trang 15tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
The rdfs:domain of rdf:subject is rdf:Statement and the rdfs:range is rdfs:Resource Thu c tính này có th c s% d!ng xác nh tài nguyên nào c mô t b i m t phát bi u RDF
The rdfs:domain of rdf:object is rdf:Statement Thu c tính range không c nh ngh a cho thu c tính này b i vì các giá tr c$a rdf:object có th bao g1m c Literals
và Resources Thu c tính này có th c s% d!ng xác nh túc t c$a m t phát
bi u RDF
2 RDF Gateway:
Công ty Intellidimension, n0m t i Windsor, Vermont (USA) ã t o ra m t n n RDF th ng m i c g i là RDF Gateway i m m nh c$a công c! này là tính d- s% d!ng và mang chuy n RDF Gateway ch& gi i h n trên n n Microsoft Windows, hi n nay v n ch a có m t k ho ch nào cho s ra i c$a m t phiên b n cho Linux hay m t
h i u hành khác
S n ph m RDF Gateway ra i cùng lúc v i s ra i c$a công ty Intellidimension vào tháng 6 n m 2000 Phiên b n ki m nghi m beta c$a nó c ra
m t vào n m 2001 Nh ng nhà l p trình ã xu#t và th o lu n các tính n ng c$a h
th ng trong di-n àn th o lu n chung c$a W3C Cu i cùng thì phiên b n th ng m i 1.0 ra i vào ngày 3 tháng 3 n m 2003
Trang 16tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
B i vì ây là m t ph n m m th ng m i, nên nó c/ng c n có b n quy n Tuy nhiên v n là mi-n phí i v i các m!c ích h c t p phát tri n
2.1 Ki n trúc c a RDF Gateway:
RDF Gateway là m t server nh và nhanh, nó có th liên k t các tính n ng c$a
m t h qu n tr c s d li u và web server Nó c thi t k nh là m t khung n n cho vi c t p h p, truy v#n, chuy n i và phân ph i d li u RDF
Hình 24: Ki n trúc c a RDF Gateway
o B x lý b n mã RDFQL (RDFQL Script Processor) RDFQL Script Processor là m t máy o u tiên (preemptive virtual machine) có th biên d ch, l u tr , và th c thi các o n script RDFQL RDFQL là m t ngôn ng scripting phía server d a trên ECMA Script (Java Script) RDFQL tích h p các m r ng truy v#n t a SQL d- dàng truy c p n b máy c s d li u suy di-n c$a RDF Gateway RDFQL script processor cho phép các trang (pages) – có s k t
Trang 17tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
h p c$a script và n i dung t nh t ng t nh Microsoft Active Server Pages (ASP) Server c c k t n i n RDFQL thông qua m t th vi n c$a các i t ng bên trong (Server, Session, Request, Response, …)
o Database Engine RDF Gateway có m t b máy c s d li u suy di-n – c thi t k t
n n không h tr ho"c có h tr RDF Nó th c hi n ánh giá truy v#n theo chi n l c bottom – up, c t ch c liên o n theo t#t c các tài nguyên d li u xác nh Kh
n ng suy lu n logic c$a b máy cung c#p s h tr cho cú pháp các lu t khai báo c$a RDFQL B máy c s d li u không truy c p n m t h th ng qu n lý d li u bên ngoài
o Data Service Interface: (Giao di&n d-ch v d% li&u) Giao di n d ch v! d li u cho phép các tài nguyên d li u t bên ngoài
c tích h p v i RDF Gateway M t nhà cung c#p d ch v! d li u là m t mô – un
th c thi giao di n này và bi u di-n các n i dung c$a m t ki u xác nh c$a tài nguyên
d li u nh là d li u RDF RDFQL cho phép t ch c liên o n các câu v#n tin c thi hành thông qua nhi u d ch v! d li u Giao di n m này làm cho nó có th s% d!ng b#t k3 m t nhà cung c#p d ch v! d li u s6n có hi n t i nào ho"c phát tri n m t nhà cung c#p theo ý mình cho m t ngu1n d li u
o Authentication/Security:
RDF Gateway có m t mô hình b o m t d a trên quy n và s cho phép
i u khi n truy xu#t n server và các tài nguyên c s d li u RDF Gateway h tr cho nh ng user c$a nó và các role c/ng nh user và group c$a NT M t NT user luôn
ch ng th c b0ng cách s% d!ng m t s u4 nhi m c$a NT cho tài kho n S h tr c$a RDF Gateway cho i v i các user và group c$a NT làm cho có th qu n tr b o
m t t bên ngoài
o Network IO Giao di n m ng h tr c HTTP và TCP/IP d a trên giao th c T ng
nh p xu#t m ng (network IO layer) h tr l c 1 ch ng th c m ng b o m t nh là
Trang 18tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
NT Challenge/ Response (NTLM) M t client k t n i n server thông qua m t interface (giao di n)
o Package Management RDF Gateway cho phép th c thi các ng d!ng c phát tri n và tri n khai nh là các package M t package bao g1m các trang server RDF, các trang HTML, các hình nh ho"c b#t k3 m t ki u file nào khác
o Component Management RDFQL h tr COM trong script phía server c$a nó i u này cho phép tính n ng c$a RDF Gateway có th c m r ng ho"c i v i các ng d!ng c tích
o Bi6u di;n các b ba RDF vào trong các b ng d% li&u:
H bi n hoá RDBMS ( RDBMS paradigm) c$a vi c l u tr d li u trong các b ng c l p vào l u tr các b ba RDF (triples) Mô hình d li u c$a các
b ng là m t b ba bao g1m: predicate, subject, và object Các c t c$a b ng không có tên nh ng luôn ch a 3 thành ph n c$a b ba này theo th t L u ý là predicate là thành ph n u tiên Có m t c t tu3 ch n th t cho l u tr siêu d li u v triple (b ba), siêu d li u này c g i là “context” c$a b ba Tr ng context có th l u tr
m t nh danh tài nguyên mà nh danh này có th c s% d!ng gi i quy t các v#n
b o m t ho"c nh n di n tài nguyên c$a b ba ho"c b#t k3 m t tính n ng quen thu c nào
o Other data sources: (Các ngu.n d% li&u khác) Các ngu1n d li u bên ngoài và các c s d li u ang ho t ng c truy xu#t t server c bao quanh các i t ng c$a ngu1n d li u M t i t ng
Trang 19tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
ngu1n d li u (datasource object) có c#u trúc gi ng nh m t table, ch a ng các b
ba trong các dòng Có s h tr cho các b ng trong b nh và nó có th t o các trình bao b c cho d li u bên ngoài
o Databases
Vi c l u tr các b ng c phân thành các ph n trong c s d li u
M t server có th ch a nhi u c s d li u khác nhau, m t b ng có th c t o trong
m t c s d li u Format c$a c s d li u là m t nh d ng file s h u, m i c s
Exception handling (b t l i) Import các file script khác
Comments (các chú thích) Các câu l nh (phát bi u) trong RDF Gateway
Các câu l nh cho RDF Gateway bao g1m m i khía c nh c$a server và giúp ng i l p trình truy c p n t#t c các tính n ng c$a nó M t ví d! là công c! c#u hình server, công c! này là m t trang web c vi t b0ng RDFQL c thông d ch
b i m t web server c tích h p, và cho phép truy xu#t n t#t c các i t ng c$a server nh là: các table, các database, user và package
tìm ra c các dataset c$a b ba RDF, m t i t ng RDF node
c cung c#p, nó thu th p t#t c các predicate và subject c$a m t i t ng ã cho và làm cho nó có th thay i giá tr c$a các subject
ch y các câu truy v#n trên server, m t t p các câu l nh c s d li u
c n ph i s6n sàng Các câu l nh c s d li u óng gói trong RDFQL script, câu l nh