1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Phát Triển Các Kỹ Thuật Xây Dựng Và Khai Thác Thông Tin Web Có Ngữ Nghĩa.docx

218 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Các Kỹ Thuật Xây Dựng Và Khai Thác Thông Tin Web Có Ngữ Nghĩa
Tác giả Cao Hoàng Trụ
Người hướng dẫn PGS. TS. Cao Hoàng Trụ
Trường học Đại Học Bách Khoa TP.HCM
Thể loại báo cáo tổng kết
Năm xuất bản 2006
Thành phố TP.Hồ Chí Minh
Định dạng
Số trang 218
Dung lượng 3,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Microsoft Word bia BCTK doc Tr−êng®¹ihäcb¸chkhoatp HåchÝminh B¸oc¸otængkÕt®ÒtµicÊpnhµn−ícM s èkc01 21 Nghiªncøupḩ ttriÓnç cküthuËtX©yd ùngvµkhaith¸cth«ngtinWebcãng÷ngh Üa ChñnhiÖm®Òtµi pgS Ts Caohoµ[.]

Trang 1

BáocáotổngkếtđềtàicấpnhànướcMãs

ốkc01.21

NghiêncứupháttriểncáckỹthuậtXâyd ựngvàkhaithácthôngtinWebcóngữngh

ĩa

Chủnhiệmđềtài:pgS.Ts.Caohoàngtrụ Cơquanchủtrì: đạihọcbáchkhoatp.Hồchíminh

6385

29/5/2007

TP.HồChíMinh–12/2006

Trang 2

BỘKHOAHỌCVÀCÔNGNGHỆTRƯỜNGĐ ẠIHỌCBÁCHKHOA–ĐHQGTP.HCM

268LýThườngKiệt,Q.10,TP.HCM

Báocáotổngkếtkhoahọcvàkỹthuậtcủađềtài:Nghiênc

ứupháttriểncáckỹthuậtxâydựngvàkhaithácthôngt inWebcóngữnghĩa

Mãsốđềtài:KC.01.21

Chủnhiệmđềtài:CaoHoàngTrụ

TP.HCM12/2006

Trang 3

Tómtắt

Saugầnhaithậpniênrađờivàpháttriểntừnăm1989,WorldWideWeb(WWW)đãtrởthànhmộtmôitrườnglưutrữvàchuyểntảithôngtinkhôngthểthiếutrongmộtthờiđạimàmáytínhlàcôngnghệđònbẩychohầuhếtmọilĩnhvựccủakinhtế,chínhtrị,vàxãhội.Vớisựpháttriểnvũbãovàbùngnổthôngtintrênnó,giờcũnglàlúcWWWcầnchuyểnsangmộtthếhệmớiđểcóthểđượckhaithácmộtcác

hhiệuquảphụcvụcholợiíchcủaloàingười.ĐólàthếhệWebcóNgữnghĩa(SemanticWeb),đượcT

imBerners-Lee,chađẻcủaWWW,phácthảoravàonăm1998

Ởthếhệhiệntại,thôngtinđượclưutrữtrongcáctrangWebdướidạngvănbản,hìnhảnh,vàâmthanhmàchỉcóconngườimớiđọc,nhìn,nghevàhiểuđược.Vớilượngt h ô n g tinvôcùnglớntrênWWWnhưhiệnnay,conngườikhôngthểtựmìnhtìmkiếm,xửlý,vàkhaithácchúng,màcầncósựtrợgiúpcủamáytính.Muốnvậy,trướchếtmáytínhphảihiểuđượcthôngtinlưutrữtrongcáctrangWebđểcóthểxửlýchúngmộtcáchtựđộng,tứclàcáctrangWebphảicóngữnghĩađốivớimáytính.MụctiêuvàviễncảnhnàycủaWebcóngữnghĩađãthuhútsựquantâmvàđầutưcủanhiềunhànghiêncứuvàcáctổchứctrênthếgiới

Ngoàinhữngvấnđềvềlýthuyếtvàcôngnghệchung,việcđưangữnghĩavàocáctrangWebcònphụthuộcvàongônngữtựnhiênvàmiềntrithứccụthểcủatừngquốcgia.Đ ócũnglàýnghĩacủađềtàinày,nhằmnghiêncứupháttriểncáckỹthuậtxâydựngvàkhaithácthôngtinWebcóngữnghĩatiếngViệt.Nhưlàbướckhởiđầu,đềtàitậptrungvàomứcđộngữnghĩacơbảnnhấtcủamộttrangWeblàlớpcủacácthựcthểcótên,nhưconngười,tổchức,nơichốn,xuấthiệntrongđó.Trêncơsởngữnghĩanày,đềtàipháttriểnmộtứngdụngcungcấptựđộngthôngtinvềcácthựcthểchonhữngngườiđọctintrênWeb

Trướchết,đềtàixâydựngmộtcơsởtrithứcvềcácthựcthểphổbiếnnhấtởViệtN a m vàtrênthếgiới.Bướctiếptheo,đềtàinghiêncứuvàhiệnthựccáckỹthuậtđểxửlýtiếngViệtvàrúttríchlớpthựcthểtrêncáctrangWebmộtcáchtựđộng.Đồngthời,đềtàinghiêncứucácđộđovàkỹthuậtxửlýtruyvấnđểngườisửdụngcóthểtruyhồichínhxáchoặcgầnđúngthôngtintừcơsởtrithứcđãxâydựngvàkhotàiliệuWebđãđượcchúthích.Trêncáccơsởnày,đềtàipháttriểncácphầnmềmứngdụngrúttríchvàtruyhồithôngtinchongườisửdụngđầucuối,vàxâydựngmộthệthốngmáychủđểđápứngnhiều

y ê u cầuđồngthời.Cáckếtquảđạ tđượctạon ê n mộtnềntảngchoWebcóngữnghĩatiếngViệt,đủđểhiệnthựcmộtsốứngdụngtiêubiểuvàcóthểpháttriểntiếpthànhmộtcơsởhạtầnghoànchỉnh

Trang 4

Mụclục

Danhmụchình vii

Danhmụcbảng x

Chương1 Giới thiệu 1

1.1 Thôngtintómtắtvềđềtài 1

1.2 Độngcơthựchiệnđềtài 4

1.3 Phạmvivàmụctiêucủađềtài 5

1.4 Cấutrúccủaquyểnbáocáo 8

Chương2 Thamkhảocácnghiêncứuliênquanvàthiếtkếhệthống 11

2.1 Webcóngữnghĩa 11

2.2 Cáccôngnghệvàngônngữhỗtrợ 17

2.3 HệthốngKIM 28

2.4 KiếntrúccủaVN-KIM 32

Chương3 XâydựngOntologyvàcơsởtrithức 39

3.1 OntologyvàcơsởtrithứccủaKIM 39

3.2 ThiếtkếvàxâydựngOntology 41

3.3 Xâydựngcơsởtrithức 50

3.4 Vấnđềbídanh 55

Chương4 Rúttríchvàchúthíchlớpcủacácthựcthểcótên 57

4.1 NhậndạngmãtiếngViệtvàkhốivănbảntin 57

4.2 Gánnhãntừloạivànhậnbiếtdanhtừriêng 65

4.3 Nhậnbiếtlớpthựcthể 70

4.4 Vấnđềđồngthamchiếuvàmậpmờthựcthể 81

Chương5 TruyvấncơsởtrithứcvàkhocáctrangWebcóngữnghĩa 89

5.1 Truyvấncơsởtrithức 89

5.2 Độtươngtựvàđộbaophủ 93

5.3 Truyvấngầnđúng 101

5.4 TruyvấnkhocáctrangWebcóngữnghĩa 106

Trang 5

Chương6 Xâydựnghệthốngmáychủvàxửlýsongsongcácyêucầu 111

6.1 Thiếtkếvàhiệnthựcmôhìnhxửlýsongsong 111

6.2 Pháttriểndịchvụchúthíchngữnghĩa 115

6.3 Pháttriểndịchvụtruyhồitrithứcvà tàiliệu 118

6.4 Thửnghiệmtảicủacácdịchvụ 121

Chương7 Pháttriểncácphầnmềmcôngcụvàứngdụng 127

7.1 Phầnmềmxâydựngvàquảntrịcơsởtrithức 127

7.2 Phầnmềm truyhồi thôngtin 132

7.3 Plug-inrúttríchvàtruyhồithôngtin 141

Chương8 Tổngkết 145

8.1 Tómtắtcáckếtquảđạtđược 145

8.2 Hướngpháttriển 152

Lờicảmơn 153

Tàiliệuthamkhảo 155

Phụlục:Cácbáocáokỹthuật,hướngdẫnsửdụngphầnmềm,bàibáokhoahọc 171

Trang 6

Danhmụchình

2.1.1 CáctầngcủaWebcóngữnghĩa 12

2.1.2 Biểudiễnngữnghĩabằngđồthịkháiniệm 15

2.2.1 KiếntrúccủaSesame 21

2.2.2 BiểudiễnđồthịcủamộttruyvấnSeRQL 23

2.2.3 Mộtđồthịkháiniệmvídụ 26

2.2.4 Mộtđồthịkháiniệmvớiliênkếtđồngthamchiếu 27

2.2.5 Mộtđồthịkháiniệmbịphủđịnh 28

2.2.6 Cácđồthịkháiniệmlồngnhau 28

2.3.1 RúttríchthôngtinbởiKIM 29

2.3.2 KiếntrúctổngquátcủaKIM 31

2.3.3 MộtmẫutruyvấncốđịnhcủaKIM 32

2.4.1 KiếntrúccủaVN-KIM 33

2.4.2 ThànhphầnrúttríchthôngtincủaVN-KIM 35

2.4.3 TruyhồithôngtintrongVN-KIM 36

3.2.1 Sơđồphâncấplớpthựcthểvềtổchức 43

3.2.2 Sơđồphâncấplớpthựcthểvềtổchứcnhànước 44

3.2.3 Sơđồphâncấplớpthựcthểvềtổchứcgiáodụcvàđàotạo 44

3.2.4 Sơđồphâncấplớpthựcthểvềtổchứcthươngmại 45

3.2.5 SơđồphâncấpquảnlýcủacácđơnvịhànhchínhởViệtNam 46

3.2.6 Sơđồphâncấplớpthựcthểvềđơnvịhànhchính 46

3.2.7 Sơđồphâncấplớpthựcthểvềđiểmđặcbiệt 48

4.1.1 MộttrangWebvớicáckhốivănbảntintức 60

4.1.2 VịtrícáckhốivănbảntintứctrongtậptinHTML 60

4.1.3 HaitrangWebcócùngkhungmẫu 62

4.2.1 PhânđoạntừtrongVN-KIM 66

4.2.2 Vídụvềmộtđồthịtrạngtháitrongphânđoạntừ 67

4.2.3 Vídụvềcácluậtnhậndiệnngàytháng 68

4.2.4 Môhìnhkếthợpluậtvàxácsuấtđểgánnhãntừloại 70

4.3.1 SơđồcácbướcchúthíchngữnghĩatrongVN-KIM 72

4.3.2 CácbướcxửlýchitiếtcủasotrùngmẫutrongVN-KIMIE 75

Trang 7

4.3.3.Mộtluậtloạibỏchúthíchsaichochuỗicóviếthoachữđầu 75

4.3.4 Hailuậtnhậndiệncáctênthựcthểphủlấpnhau 76

4.3.5 Mộtluậtnhậndiệnthựcthểdựatrênngữliệu 77

4.3.6 Mộtluậtnhậndiệnthựcthểdựatrênngữcảnh 77

4.3.7 Mộtluậtgiảiquyếtcácchúthíchgâymâuthuẫn 78

4.3.8 Mộtluậtsinhra chúthíchcuốicùng 78

4.4.1 KếthợpphângiảiđồngthamchiếuvàmậpmờtrongVN-KIMIE 81

4.4.2 HàmkiểmtrasựđồngthamchiếutrongVN-KIMIE 84

4.4.3 Giảithuậtloạibỏnhậpnhằngdựavàomốiquanhệgiữacácthựcthể 86

4.4.4 Cácbướcloạibỏmậpmờdựatrênsựđồngthamchiếu 87

5.1.1 Mộtđồthịkháiniệmtruyvấn 90

5.1.2 GiảithuậtdịchđồthịkháiniệmtruyvấnsangSeRQL 91

5.1.3 Soạnthảomộtđồthịkháiniệmtruyvấn 92

5.1.4 CácphátbiểuSeRQLtươngđươngvàkết quảtrảvề 93

5.2.1Đ ộ baophủsovớiđộtươngtự 98

5.3.1 Mộtđồthịkháiniệmtruyvấnvàsựtổngquáthoácủanó 102

5.3.2 GiảithuậttổngquáthoávàdịchđồthịkháiniệmtruyvấnsangSeRQL 103

5.3.3 Mộtđồthịtrảlờigầnđúng 104

5.3.4 Mộtvídụkhácvềđồthịtruyvấnvàtrảlời 104

5.3.5 Đồthịkháiniệmtruyvấnvàtìmkiếmgầnđúng 105

5.3.6 Đồthịkháiniệmtruyvấnvàtìmkiếmchínhxác 105

5.4.1 KiếntrúccủaHTTPLuceneServer 106

5.4.2 CấutrúcXMLcủakếtquảtrảvề 108

6.1.1 KiếntrúccủahệthốngmáychủxửlýsongsongSWGchoVN-KIM 112

6.1.2 ĐoạnmãbằngJavakhaibáomộtlớptrongVOIService 114

6.1.3 MôhìnhhoạtđộngcủacácdịchvụvànhómmáychủcủaVN-KIM 115

6.2.1 Quátrìnhtiếpnhậnvàxửlýyêucầuchúthích 116

6.2.2 Cácbướccủadịchvụchúthíchngữnghĩa 117

6.2.3 Điềukhiểncácmodulethựchiệnquátrìnhchúthích 118

6.3.1 Quátrìnhtiếpnhậnvàxửlýyêucầutruyhồitrithức 120

6.3.2 Giảithuậtphântảitruyvấncơsởtrithức 120

6.3.3 Quátrìnhtiếpnhậnvàxửlýyêucầutruyhồitàiliệu 121

Trang 8

6.4.1 ĐápứngthờigiancủaServerchúthích 122

6.4.2 ĐápứngthờigiancủaSesameServer 124

6.4.3 ĐápứngthờigiancủaLuceneServer 125

7.1.1 GiaodiệnsoạnthảolớpcủaVN-KIMOntologyBuilder 129

7.1.2 GiaodiệnsoạnthảothuộctínhcủaVN-KIMOntologyBuilder 129

7.1.3 GiaodiệnchínhcủaVN-KIMKBAccess 130

7.1.4 GiaodiệnchínhcủaVN-KIMKBProject 131

7.1.5 GiaodiệntạoProjectmớicủaVN-KIMKBProject 132

7.2.1 SoạnthảocácnútkháiniệmtrongVN-KIMQER 133

7.2.2 RàngbuộccácthuộctínhthựcthểtrongVN-KIMQER 134

7.2.3 SoạnthảocácnútquanhệtrongVN-KIMQER 135

7.2.4 HoàntấtmộtđồthịtruyvấnvớiVN-KIMQER 135

7.2.5 Tìmkiếm chínhxáctrongVN-KIMQER 136

7.2.6 TìmkiếmgầnđúngtrongVN-KIMQER 137

7.2.7 TruyvấnbằngSeRQLtrongVN-KIMQER 138

7.2.8 TruyvấnbằngmẫucốđịnhtrongVN-KIMQER 139

7.2.9 Tìmkiếm tàiliệutrongVN-KIMQER 140

7.2.10 Chọncácthựcthểđểtìmtàiliệu 140

7.2.11 CáctàiliệutrảvềtừVN-KIMQER 141

7.3.1 VN-KIMPlug-invàmộttrangWebsaukhiđượcchúgiải 142

7.3.2 DuyệtcácthựcthểđãđượcnhậndiệnvớiVN-KIMPlug-in 142

7.3.3 TìmkiếmthựcthểvàtàiliệuvớiVN-KIMPlug-in 143

Trang 9

1.1.1 Thôngtintómtắtvềđềtài 1

1.1.2 Danhsáchcácthànhviênchínhcủađềtài 2

1.1.3 Danhsáchcácthànhviênthamgiathựchiệnđềtài 3

1.3.1Danhmụccácsảnphẩmkhoahọccôngnghệcủađềtài 7

3.3.1 Nguồntàiliệuthamkhảochotừngmiềnthựcthểtrongcơsởtrithức 51

3.3.2 Thốngkêsốlượngcácthựcthểthuộcbalớpcấptrên 54

3.3.3 Thốngkêsốlượngngữliệutươngứngvớibalớpcấptrên 54

3.3.4 Thốngkêsốlượngthựcthểthuộccáclớpchính 54

4.1.1 TốcđộthựcthicủamodulechuyểnmãtiếngViệt 59

4.1.2 Kếtquảthửnghiệmgiảithuậtnhậndạngkhốivănbảntintức 64

4.2.1Kếtquảcủaphươngphápxácsuấtvàphươngphápkếthợp 70

4.3.1 Sốliệuthửnghiệmtrênbalớpcơsở 80

4.3.2 Sốliệuthửnghiệmtrênmườilớpchitiết 80

4.3.3 SốliệuthửnghiệmởcôngtyVYCvàbáoNgườilaođộng 80

5.4.1CácURLđểkếtnốiđếnHTTPLuceneServer 108

6.4.1 Độgiảmthờigianhoànthànhchúthích 123

6.4.2 Độgiảmthờigianhoànthànhtruyhồithựcthể 124

6.4.3 Độgiảmthờigianhoànthànhtruyhồitàiliệu 125

8.1.1 Cácphầnmềmchủyếucủađềtài 146

8.1.2 Cácbàibáokhoahọcliênquanđếnđềtài 149

8.1.3 Cácsinhviênvàluậnántốtnghiệpliênquanđếnđềtài 150

Trang 10

Bảng1.1.1Cácthôngtincơbảnvềđềtài 1.Tênđềtài

Trang 11

6 ThuộcChươngtrình

NGHIÊNCỨUKHOAHỌCVÀPHÁTTRIỂNCÔNGNGHỆTHÔNGTINVÀTRUYỀNTHÔNG

Rúttríchvàtruyhồithôngti n

Trang 13

1.2 Độngcơthựchiệnđềtài

Nhưchúngtađãthấy,WorldWideWeb(gọitắtlàWeb)đãtrởthànhmộtkhotàngthôngtinkhổnglồcủanhânloạivàmộtmôitrườngchuyểntảithôngtinkhôngthểthiếuđượctrongthờiđạicôngnghệthôngtinngàynay.SựphổbiếnvàbùngnổthôngtintrênWebcũngđặtramộttháchthứcmớilàlàmthếnàođểkhaithácđượcthôngtintrênWebmộtcáchhiệuquả,màcụthểlàlàmsaođểmáytínhcó

thểtrợgiúpxửlýtựđộngđược

chúng.Muốnvậy,trướchếtmáytínhphảihiểuđượcthôngtintrêncáctàiliệuWeb,trongkhiởthếhệWebhiệntạithôngtinđượcbiểudiễndướidạngvănbảnthômàchỉconngườimớiđọchiểuđược

ĐiềunàyđãthúcđẩysựrađờicủaýtưởngWebcó

ngữnghĩa(SemanticWeb),mộtthếhệmớicủaWeb,màlộtrìnhpháttriểncủanóđãđượcTimBerner

s-Lee,chađẻcủaW e b , phácthảoratừnăm1998([6],

[7]).WebcóngữnghĩalàsựmởrộngcủaWebhiệntạimàtrongđóthôngtinđượcđịnhnghĩarõràngsaochoconngườivàmáytínhcóthểcùnglàmviệcvớinhaumộtcáchhiệuquảhơn.MụctiêucủaWebcóngữnghĩalàđểpháttriểncácchuẩnchungvàcôngnghệchophépmáytínhcóthểhiểuđượcnhiềuhơnthôngtintrênWeb,saocho

chúngcóthểhỗtrợtốthơnviệckhámpháthôngtin,tíchhợpdữliệu,vàtựđộnghóacáccôngviệc.Đểthúcđẩycáchoạtđộngvàtạođiềukiệnchocácnhànghiêncứugặpgỡ,traođổikinhnghiệm,vàhợptáctrongviệcgiảiquyếtcácvấnđềnóitrên,cộngđồngWebcóngữnghĩatrênthếgiớiđãtiếnhànhtổchứcthườngniêncáchộithảovàhộinghịquốctếvềWebcóngữnghĩa.H ộithảoquốct ếlầnđầutiênđ ư ợ ctổchứctạiT r ườngĐ ạ ih ọcStanford,Mỹ,từngày30/7đếnngày01/8/2001.Tiếpsauđó,hộinghịquốctếlầnthứnhấtđượctổchứcởSardinia,Ý,từngày09đếnngày12/6/2002.Từđóđếnnay,sốbáocáochọnlọccóchấtlượngcaongàycàngtăngởcáchộinghịtiếptheo

Cũngnhưtrênthếgiới,InternetvàWebđãtrởnênrấtphổbiếnvàđượcứngdụngrộngrãiởViệtNam.ỞmứcđơngiảncáctrangWebtĩnhvàđộngđượcsửdụngđểgiớithiệu,quảngcáo,hayđăngtintứcvềmộttổchức,mộtcôngty,haymộttrườngđạihọc.Webcũngđãđượcsửdụngnhưmột

đặthàng,đăngkýmuavé,tracứusáchthưviện,hayđàotạotừxa.Nhậnthấytìmkiếmthôngtinlàmộtnhucầuquantrọngvàrấtlớntrongmôitrườngl à m việcvớiWeb,mộts ốcôngtyở ViệtNa m

Trang 14

cũngđãnghiêncứup h á t triểnc á c độngcơt ì m k i ếmcáctàiliệuWebtiếngViệt,n h ưNETNAMhayVINASEEK.Trongcáctrườngđạihọc,nhiềuđềtàitốtnghiệpcủasinhviêncũngđãđượcthựchiệnvềvấnđềpháttriểncáchệthônghỗtrợcácdịchvụkháchsạn,dulịch,đạilýbánvé,thươngmạiđiệntử,quảnlýđàotạo,

hiệntại,tứclàchưacóngữnghĩa.Cầnphânbiệtrõlà,mặcdùcácđộngcơtìmkiếmhiệnnaycóđềcậpvàxửlýsựtươngtựvềcáctừkhoátìmkiếm,đó

chỉlàmộtphầnngữnghĩaởmứctừvựng,chứchưaởmứcthựcthểvàluậnlýnhưởWebcóngữnghĩa([17],[18]).Như

đãtrìnhbàyở trên,hướngpháttriểnnàychỉmớibắtđầutrênthếgiớigầnđây,nêncũngkhôngngạcnhiênkhikháiniệmWebcóngữnghĩacònchưađượcbiếtđếnmộtcáchrộngrãiởViệtNam

ngữnghĩađanglàmộtchủđềnghiêncứunóngbỏngtrênthếgiới,vàlàmộtxuthếtấtyếuđểconngườicóthểquảnlývàkhaithácđượcmộtcáchhiệuquảkhotàngthôngtinkhổnglồvàkhôngngừngpháttriể

lờigiảivàcầnđượcnghiêncứu.ĐâylàmộttháchthứcvàcũnglàmộtcơhộiđểcácnhàkhoahọcởViệtNamcóthểthamgianghiêncứutạoranhữngđộtphávềlýthuyếtvàcôngnghệ,vừađónggópvàothànhquảc h un gc ủat hếgiới,vừacóthểứngdụngđểpháttriểnWebở Vi ệtNa m màkhôngphảinhậpkhẩutấtcảcáccôngnghệtừnướcngoài

Đềtàinàyđượcđềxuấtthựchiệntrongbốicảnhnóitrên.Mộtmặt,đềtàinhằmđểxâydựngmộtcơsởhạtầngchoWebViệtcóngữnghĩa,baogồmmộtcơsởtrithứcvàcáccôngcụphầnmềmcơbảnnhất.Mặtkhác,đềtàicũngmuốntạoramộtsảnphẩmcóứngdụngthựctiễntrênWebtiếngViệt,đểchothấyýnghĩavàthúcđẩyviệcnghiêncứuvàpháttriểnWebcóngữnghĩaởViệtNam

1.3 Phạmvivàmụctiêucủađềtài

Đềtàicócácmụctiêuchínhsauđây:

1 TiếpcậnlýthuyếtvàứngdụngkếtquảđãcóvềWebcóngữnghĩa.NghiêncứumởrộngchúngchotiếngViệtvàcảitiếnchúngđểtănghiệuquảsửdụng

Trang 15

2 Pháttriểncácgiải

phápkỹthuậthỗtrợxâydựngvàkhaithácWebcóngữnghĩa,đểxâydựngmộtcơsởtrithứcvềcácthựcthểcótên(conngười,tổchức,nơichốn, )quantrọngnhấtởViệtNam,vàmộthệthốngchúthíchngữnghĩatựđộngcáctàiliệuWebtiếngViệt

3 PháttriểnvàứngdụngcácdịchvụdựatrênnềnWebcóngữnghĩa,chophépngườisửdụngđăngtảivàkhaithácthôngtintrêncơsởtrithứcđãxâydựngvàcáctàiliệuWebđãđượcchúthíchngữnghĩa

Đểđạtđượccácmụctiêunóitrêncủađềtài,cácnộidungcầnnghiêncứulà:

1 XâydựngOntologyvàcơsởtrithứcchocácthựcthểcótênthườngđượcđềcậpđếntrongcáctintứcởViệtNam,baogồmcácnhânvật,thànhphố,côngty,tổchức, :

- ThamkhảoOntologycủacáccơsởtrithứctươngtựhoặcliênquanđãcóđể

thiếtkếvàxâydựngOntologychođềtài

- NghiêncứuvàmởrộngcácphầnmềmmãnguồnmởđãcóđểlưutrữvàquảntrịOntologyvàcơsởtrithức

- Thuthậpthôngtin, thiếtkếvà xâydựngcơsởtrithứcvềcácthựcthểcótênở

ViệtNam

2 Hiệnthựcđộngcơrúttríchthôngtinvàchúthíchngữnghĩachocácthựcthểcót ê n trongcáctàiliệuWebtiếngViệt:

Trang 16

2 Chỉrúttríchthôngtinởmứcđộlớpcủathựcthểcótên,vàđộchínhxácvàđộđầyđủvàokhoảng80%nhưcáchệthốngtươngtựtrênthếgiớidùngchotiếngAnh.

3 Hệthốngmáychủđủđểtrìnhdiễncácứngdụngcủađềtài,nhưngđượcthiếtkếđểmởrộngđượcvớinhiềumáychủhơnchomộthệthốngWebcóngữnghĩatiếngViệtphụcvụnhiềungườisửdụngthậtsự

Bảng1.3.1trìnhbàycácsảnphẩmkhoahọccôngnghệcùngcácchỉtiêukinhtếkỹthuậtmàđềtàiđăngkýthựchiện

Trang 17

gc h o WebcóngữnghĩatiếngAnh,vớicácchứcnăngtươngtựvớihệthốngmàđềtàixâydựng.Mục2.4môtảkiếntrúchệthốngcủađềtàicùngcácthànhphầnchínhyếutrongđó.

Chương3trìnhbàyviệcxâydựngOntologyvàcơsởtrithứccủaVN-KIM.Mục

3.1phântíchcácđặctínhcủaOntologyvàcơsởtrithứccủahệthốngKIMmàđềtàithamkhảo.Mục3.2trìnhbàyviệcthiếtkếchitiếtcáclớptrongOntologycủaVN-KIM.Mục

3.3môtảcácphươngthứcvàquátrìnhthuthậptrithức.Mục3.4đềcậpđếnvấnđềcáct ê n khácnhaucủacùngmộtthựcthể,vàviệcthuthậpvàchuẩnhoácácbídanhnày.Nộidungcủachươngnàylàsựbổsungvàcậpnhậtcủa[16]

Chương4 trìnhb à y việcrúttríchv à chúthíchlớpc ủacácthựct h ểc ó t ê n t r o n g KIM.Mục4.1giảiquyếtvấnđềnhậndạngmãkítựvàcáckhốivănbảntintrêncáct r a n g WebtiếngViệt.Mục4.2trìnhbàybướcgánnhãntừloạivà nhậndạngtênriêngt r o n g quátrìnhrúttríchthôn

thuậtnhậndạngthựcthể.Mục4.4bànvềvấnđềđồngthamchiếuvàmậpmờthựcthểcủacáctênthựcthể.Chươngn à y dựatrênc á c kếtq u ảcủa[77],[78],[98],[99],[102],[105],và

[109]

Chương5trìnhbàyviệctruyvấncơsởtrithứcvàkhocáctrangWebđãchúthícht r o n g KIM.Mục5.1môtảcácngônngữvàphươngthứcđểtruyvấncơsởtrithức.Mục5.2địnhnghĩacácđộđosotrùnggầnđúngcácđồthịtrithức,baogồmđộtươngtựvàđộbaophủ.Mục5.3giớithiệukỹthuậtbiếnđổitruyvấnđểtìmcâutrảlờigầnđúngchotruyvấn.Mục5.4trìnhbàyviệclưutrữ,lậpchỉmục,vàtruyhồicáctrangWebđã

Trang 18

VN-đượcchúthíchtheocácthựcthểcótên.Nộidungcủachươngnàylàsựtổng hợpcủa[18],[19],[20],[21],[41],[58]và[97].

Chương6trìnhbàyviệc xâydựnghệthốngmáychủvàxửlýsongsong cácyêucầuc h o

tríchvàtruyhồithôngtin.Mục6.2

pháttriểncácdịchvụtrênmáychủđểrúttríchvàchúthíchlớpcủacácthựcthể.Mục6.3pháttriểncácdịchvụtruyvấncơsởtrithứcvàkhocáct r a n g Webcóngữnghĩatrênmáychủ.Chươngnàytómtắtcáckếtquảđãđượctrìnhbàychitiếttrong[97],[100],[103],và[109]

Chương7 t r ì n h bàyviệcpháttriểncácphầnmềmc ô n g

cụvàứngdụngcủaVN-KIM.Mục7.1giớithiệuphầnmềmcôngcụphổdụngđểxâydựngvàquảntrịcơsởtrithức.Mục7.2gi

ới thiệu phầnmềmứng dụng trên Windows chophép truyvấncơsởtrithứcbằngđồthịkháiniệm.Mục7.3giớithiệuphầnmềmPlug-

inđểnhậndạngthựcthểtrênWebtiếngViệt,vàtruyvấncơsởtrithứcvàkhotrangWebđãđượcchúthíchcủaVN-KIM.Chươngnàydựatrênnộidungcủa[19],[41],[109]và[127]

Chương8tổngkếtbáocáo.Mục8.1tómtắtcáckếtquảđãđạtđược,baogồmcácphầnmềm,bàibáokhoahọc,luậnántốtnghiệpKỹsư,Thạcsĩ,vàTiếnsĩ.Mục8.2đềxuấthướngpháttriểntiếpcủađềtàitrongtươnglai

Trang 19

Thamkh¶o c¸cnghiªncøuliªn quan

vµthiÕtkÕ

hÖ thèng

10

Trang 20

Chương2

Thamkhảocácnghiêncứuliênquan vàthiếtkếhệthống

vàloạicủamốiliênkếtlà“tácgiảcủa”

Trang 21

4 Khôngcầnsựthậttuyệtđối:

KhôngphảitấtcảmọithôngtintrênWebđềulàsựthật,vàsựđúngđắnc ủachúngđượcđánhgiábởitừngứngdụngcụthểxửlýthôngtinđó.Webcóngữnghĩavìvậyphảicókhảnăngsuyluậnvớicácthôngtinkhôngchắcchắn,khôngchínhxác,vàcóthểmâuthuẫnnữa.TheoTimBerners-

Lee,logiccổđiểnkhônglàmđượcđiềunày,màcầnđếnlogicmờ(FuzzyLogic)([140]).

5 Hỗtrợsựtiếnhoá:

Cáck h á i n i ệmtươngt ựnhauthườngđượcđịnhnghĩab ởinhiềunhómngườikhácnhau,ởnhữngnơikhácnhau,hoặcbởicùngmộtnhómngườinhưngở nhữngthờiđiểmkhácnhau.Webcóngữnghĩavìvậycầnchophépviệcmởrộngvàkếthợpcáccôngviệcđộclậpsửdụngcáctừvựngkhácnhau,cũngnhưviệcthêmthôngtinmớimàkhôngluônbuộcphảisửađổithôngtincũ

6 Thiếtkếtốithiểu:

Đểcóthểchiasẻvàtíchhợpthôngtin,Webcóngữnghĩacầncónhữngngônngữhayhệthốngđượcchuẩnhoá.Tuynhiêncáctiêuchuẩnnàyphảilàtốithiểuđểkhôngràngbuộcquánhiềuviệcpháttriểncácứngdụngtrênđó

Trust Proof

DigitalS ignature

Logic Ontology RDF XML

Hình2.1.1CáctầngcủaWebcóngữnghĩa

Trang 22

CácnguyênlýnóitrênđượchiệnthựcbằngcáctầngcủaWebcóngữnghĩanhưởHình2.1.1.TầngUnicodevàURIxácđịnhcáckítựvàphươngtiệnđểđịnhdanhcácđốitượng.TầngXML(eXtensibleMarkupLanguage)cungcấpmộtngônngữchungđểbiểudiễndữliệu.TầngR D F ( R e s o u r

2 ChuẩnhoácácngônngữbiểudiễnOntologychoWebcóngữnghĩa:

NhómWebOntcủaW3Cchủtrìcôngviệcnày.MụctiêucủanhómlàdựatrênvàmởrộngcáclượcđồRDFđểcóthểbiểudiễncácquanhệphứctạphơngiữacácđốitượng.D ựánDAML+OIL,kếthợpcủadựánDAMLởTrườngĐạihọcStanford,M ỹ,vàd ựánOILcủaTrườngĐạih ọcVrije,H à Lan,đãk h ởiđộngchohướngnghiêncứunày.NhómđãhoàntấtphiênbảnđầutiêncủangônngữOWL(WebOntologyLanguage)

Trang 23

3 PháttriểnnângcaoWebcóngữnghĩa(SemanticWebAdvancedDevelopment

-SWAD):

HướngnàynhằmđểnghiêncứuthựchiệncácdựánpháttriểnthêmcácthànhphầncơsởhạtầngchoWebcóngữnghĩa,cụthểnhưtạocáccôngcụchongườipháttriểnhệthống,rúttríchthôngtinvàchúthíchngữnghĩamộtcáchtựđộng,suydiễnvàchứngminhluậnlý,tíchhợpOntologyvàchiasẻthôngtin, Hiệntạih a i d ựánS W A D tiêubiểucóquymôlớnvàmangtínhdàihạnl à SWAD-EuropevàSWADOxygen.SWAD-

Europebaog ồm15g ó i côngviệckhácnhaunghiêncứunhững

vấnđềnhưcácdịchvụWebcóngữnghĩa,

tíchhợpt h ô n g tinvớicôngnghệXML,cáchệthốngtintưởngphânbố, Trongkhiđó

S W A D OxygenởViệnCôngnghệMassachusetts,Mỹ,đangnghiêncứukếthợpcáccôngnghệkhácnhauvềxửlýtiếngnói,hìnhảnh,chúthíchngữnghĩa, đểtạoramộtmôitrườnghợptáctốthơngiữangườivàmáy

Trongb a hướngnghiêncứuchínhn ó i trên,chúngt ô i ng h ĩrằnghướngthứb a l à hướngthíchhợpvớihoàncảnhvàđiềukiệncủaViệtNam,vìtheohaihướngđầuchúngt a khócóthểcạnhtranhđượcvớicácnhómnghiêncứulớnvàuytín caotrênthếgiớit r o n g việcđềnghịcácngônngữchuẩn.Hơnnữa,theohướngthứbachúngtacóthểpháttriểnsớmđượccácứngdụngthựctiễncủaWebcóngữnghĩaởViệtNam

TronghướngthứbavềSWADnóitrên,mộtvấnđềđượccácnhàkhoahọcquant â m nhấtvàcũnglànềntảngnhấtcủaWebcóngữnghĩalàlàmthếnàođểnhúngngữnghĩavàocáctàiliệuWeb,màhiệnnayđượcviếtbằngngônngữtựnhiênvàchỉcóconngườimớiđọchiểuđược.HơnnữaviệcnhúngngữnghĩanàyphảiđượcthựchiệnmộtcáchtựđộngđểcóthểchuyểnđổihàngtỷcáctàiliệuWebđãcósẵnsangcáctàiliệutươngứngchoWebcóngữnghĩa([42],

[111]).Muốnvậy,vấnđềđầutiêncầngiảiquyếtl à rúttríchtựđộngngữnghĩacủamỗitàiliệuWebrồichúthíchlạingữnghĩanàyvàotàiliệuđó.Vềvấnđềnàyhiệntạicóhaicáchtiếpcậnchínhtuỳtheocấpđộngữnghĩamuốnđạtđến.Cáchthứnhấtlàrúttríchvàchúthíchngữnghĩađầyđủcho

mỗitàiliệuWeb,baog ồmcácthựcthểvàquanhệgiữachúngđượcđềcậptrongtàiliệu.Cáchthứhailà

chỉrúttríchvàchúthíchngữnghĩachocácthựcthểcótên(NamedEntity)trongtàiliệu([27],[32]).

Trang 24

mliênkết(LinkGrammar)vàchuyểnđổicáccâuởvănphạmn à y sangđồt h ịR D F hoặcđ ồ t h ịk

h á i niệm,nhưngđ ộ chínhx á c đ ạ tđượcc h ỉkhoảng60%vàchỉápdụngchomộtmiềnhẹpcụthể

Hình2.1.2Biểudiễnngữnghĩabằngđồthịkháiniệm

Ngữnghĩacủacácthựcthểcótêntuychỉlàmộtphầnngữnghĩacủatoànbộtàiliệu,nhưngnếucóthểrúttríchvàchúthíchchúngmộtcáchtựđộngvớiđộchínhxáctươngđốicao

thìcũngđãcóýnghĩathựctiễnlớn.Mộtứngdụngrấtrõrànglà

trongviệcđọctintứctrênWeb.HiệntạicáctintứctrênWebcũngchỉmớiởdạngvănbảnthôngthườngđểconngườiđọc,vànhiềukhingườiđọcgặpphảicácthựcthểcótên,như“CungvănhóaLaođộng”trongvídụtrên,nhưngkhôngbiếtrõnóởđâu,haycácthôngtinliênquanđếnnónhưthếnào.Mộtvídụkháclàcácquảngcáocủacáccôngtydulịchthườngcónhiềuthựcthểcótênnhưđịadanh,thắngcảnh,nhânvậtmàngườiđọcrấtquantâmvàmuốnbiếtthêmchitiết.Nếucómộthệthốngcókhảnăngrúttríchvàchúthíchngữnghĩatựđộngchocácthựcthểcótêntrongnhữngbảntinnhưvậy,thìbảntinsẽchuyểntảiđượcnhiềuthôngtinđếnngườiđọchơn

Trang 25

ôngtySaigonTourist”.Sosánhvớicácđộngcơtìmkiếm(SearchEngine)trêncáctàiliệuWebchỉlàc

ácvănbảnthô

nhưGooglehiệnnay,kếtquảtrảvềlàtấtcảcáctàiliệuWebcóchứacáctừlà,hoặctươngtựvới,cáctừkhoátrongtruyvấn,màrấtnhiềutrongsốđókhôngphảilàtàiliệumàngườit ì m kiếmcần.Mộtvídụkháclà,vớimộtcơsởtrithứccụthểvàcáctàiliệucóchúthíchngữnghĩa,

ngườisửdụngcóthểđặtramộttruyvấnphứctạpnhư“Tìmcác

trangWebnóivềcáchộichợdiễnratạiTP.HCMtrongnăm2003”,màcácđộngcơtìmkiếmhiệnnaychưahỗtrợđược

Việc xácđịnhngữnghĩachocácthựcthểcótênlà khôngđơngiảnvàkhôngthểchỉdựavàocáctừđiển.Vídụđểxácđịnhxemthựcthểmàtừ“SàiGòn”trongmộttàiliệuámchỉđếnlàmộtthànhphốhaylàmộtđốitượngloạinàokhác,cầnphảibiếtđượcngữcảnhnơitừđóxuấthiện.Mộtvídụkhácvềsựmậpmờngữnghĩakhinhậndạngthựcthểlàt r o n g mộttàiliệucóxuấthiệntêncủamộtcôngtyvàtêncủamộtconđườngvà,ởthànhphốHồChíMinhchẳnghạn,cóhaiconđườngcócùngtêngọi.Khiđó,đểxácđịnhđólàconđườngnào,hệthốngphảidựavàomộtcơsởtrithứcđểxemcôngtynàycóquanhệvớiconđường nàothìsẽliên kếtngữnghĩatênconđườngtrongtàiliệuvớiconđườngđó.Vìvậymộthệthốngchúthíchngữnghĩachocácthựcthểcótêncầncócácthànhphầncơbảnsau:

1 Ontology:địnhnghĩacáclớpthựcthể,baogồmsựphânloạicủacáckháiniệmthựcthểvàquanhệgiữachúng

2 Cácdanhhiệuthựcthể:phânbiệtcácthựcthểvớinhauvàđượcliênkếtvớicácmôtảngữnghĩacủachúng

3 Cơsởtrithức:môtảcácthôngtincụthểvềcácthựcthể

Quátrìnhchúthíchngữnghĩachomộttàiliệutrướchếtdựatrêncácthànhphầnnàyđểrúttríchthôngtintừtàiliệuđó.Sauđócáctàiliệuđãcóchúthíchsẽđượclậpchỉmụctheocácthựcthểcótênđểphụcvụ

choviệctruyhồithôngtin(InformationRetrieval)nhanh.

Trang 26

2.2 Cáccôngnghệvàngônngữhỗtrợ

ĐểxâydựngvàpháttriểnmộthệthốngchúthíchngữnghĩachocácthựcthểcótêntiếngViệt,đềtàicầncáccôngnghệhỗtrợviệcxửlýngônngữtựnhiênvàrúttríchthôngtin,quảntrịvàtruyvấncơsởtrithức,vàlưutrữvàlậpchỉmụcchocáctrangWebđãchúthíchngữnghĩa.Cáccôngnghệmãnguồnmởliênquanhiệncólàsựlựachọnthíchhợp,cóthểđượcsửdụngvàsửađổichohệthốngcầnxâydựng,tiếtkiệmđượcthờigianvàchiphípháttriển.HệthốngVN-

KIMdựatrênbacôngnghệchínhlàGATEvớivănphạmJAPE,SesamevớingônngữtruyvấnSeRQL,vàLucene.Ngoàir a , VN-

KIMc ò n s ửdụngđồthịkháiniệmnhưmộtngônngữtruyvấn,dễđọchơnphátbiểuSeRQLvàlinhhoạthơncácmẫutruyvấncốđịnh

GATEvà JAPE

GATE(GeneralArchitectureforTextEngineering)đượcpháttriểnbởiTrườngĐạihọcSheffield,Anh,từnăm1995([34]),làmộtcơsởhạtầngđểxâydựngvàpháttriểncácthànhphầnphầnmềmxửlýngônngữtựnhiên,đặcbiệtlàtronglĩnhvựcrúttríchthôngtin.Hiệnnay,GATEđangđượcsửdụngrộngrãitrongcácdựánnghiêncứuvàpháttriểnvềrútt r í c h t h ô n g t i n c h o c á c tiếngA n h ,

H y Lạp,TâyBanNha,ThụyĐiển,Đức,Ý , Pháp, GATEhỗtrợviệcpháttriểnphầnmềmởbakhíacạnh:

Trang 27

TậpcáctàinguyênnàyđượcgọilàCREOLE(CollectionofREusableObjectsforLangugeE

ngineering),vàđượcđónggóithànhcáctậptin.jarcủaJavacùngvớimộtsốdữliệuởdạngXML.V

ớicáctàinguyêncósẵnnày,ngườilậptrìnhchỉcầntậptrungvàoviệcxâydựngcácthànhphầnchuyênbiệtchoứngdụngđangpháttriển,màkhôngcầnquantâmquánhiềuđếnthànhphầnphầnmềmcơb

đầu,nhờvậygiảmđượccôngsứcvàthờigianxâydựng Ngoàira,người lập trìnhcòncóthểmởrộngchứcnăngchoứngdụngmộtcáchd ễdàngbằngcácht í c h h ợpt h ê m cácthànhphầnmớiv à tậndụngkhảnăngtươngtácgiữathànhphần

NềncủaGATEcungcấpmộtmôhìnhthiếtkếcóthểtáisửdụngchocáchệthốngphầnmềmvềkỹthuậtngônngữvàmộtthưviệncácmodulephầnmềmxâydựngsẵncóthểđượcsửdụng,mởrộng,và

điềuchỉnhtheocácyêucầuriêngcủamộtứngdụngcụthể.Cácmodulephầnmềmnàychủyếudùngchoxử

lýngônngữnhưmodulegánnhãntừloạihaymodulegánnhãnngữnghĩa,…Bêncạnhđó,nềncủaGATEcònhiệnthựcviệctổchứcvàquảnlýcácloạitàinguyênngôn

ngữcơbảnnhưtàiliệuvàchúthích,cungcấpkhảnăngnhậndạngcáctàinguyên,vàhỗtrợcáchoạtđộngxuấtnhậpnhưgiảimãdạngtậptinh a y

cơsởdữliệu.Cụthể,v ềmặtlậptrình,nềnc ủaG A T E gồmh a i tậpt i n l à gate.jarvàguk.jar,đượcs

ửdụngđơngiảnbằngcáchtảichúngvàomộtthưmụcvàthiếtlậpbiếnđườngdẫntươngứng,sauđógọi

MôitrườngpháttriểncủaGATEnhằmgiúpngườisửdụnggiảmthiểutốiđathờigiancầnthiếtđểxâydựngmộthệthốngkỹthuậtngônngữmớihaysửađổimộthệthốngđã

cósẵn,bằngcáchcungcấpmộtgiaodiệnxâydựngtrựcquanvàmột cơchếtìmlỗiđầy

Trang 28

đủ.Cáccôngcụcósẵntrongmôitrườngpháttriểngiúpngườisửdụngdễdànghiểnthịdữliệutạimỗibướctrongsuốtquátrìnhxửlý,đểgiảithíchcáckếtquảvàtìmlỗicủachươngtrình.VìGATElàmộtmôhìnhdựatrêncácthànhphần,nóchophépngườisửdụngdễdàngliênkếthaykhôngliênkếtcácthànhphầnxửlývớinha u.Điềunàytạothuậnlợichoviệcsosánhsựthayđổicủakếtquảthuđượckhithayđổicấuhìnhcủahệthốngđểkiểmtratínhhiệuquảcủanó,haysosánhgiữacácphiênbảnhiệnthựckhácnhaucủamộtmodulechứcnăngnàođó.

Riêngchocáctàinguyênxửlý,GATEcungcấpJAPE(JavaAnnotationPatternsE n g i n

e ) đểđịnhnghĩavàthựcthicácluậtnhậndiệnthựcthểc ót ê n ([33]).VănphạmJAPElàmộtvănphạmsotrùngmẫu,theođómỗiluậtJAPEgồmcóvếtráivàvếphảingăncáchnhaubởidấumũitên

lệnhsẽthaotáctrêncácchúthíchsotrùngvớivếtrái.N g o à i ramỗiluậtcòncótênvàđộưutiêndongườilậptrìnhquiđịnh.CácluậtJAPEcóthểgomthànhtừngnhómđểđượcthựcthituầntựtheotừngphachođếnkhihoàntấtchúthíchchomộtthựcthể

tronglậptrìnhbằnghợpngữ(Assembly).Thayvìđặctảđầyđủcác

mẫucầnnhậndạngtrongvếtráicủamộtluậtJAPE,ngườilậptrìnhđưacácthôngtinnàyvàomộtMacro.Khicầnsửdụng,chỉcầngọicácMacrotươngứngtrongvếtráicủaluật.Vídụ,

ngườitrongtiếngAnhnhư“Mr”,“Mr.”,“Miss”,“Ms.”,“Doctor”,…:

Trang 29

1.2.4 Trongtươnglai,SesamecóthểsẽhỗtrợthêmmộtsốchuẩndữliệudựatrênRDFkhácnhưOWL,DAML+OIL,…

thểmởrộngvàđiềuchỉnhđượcchocácmôitrườngđiềuh à n h k h á c n h a u Ý tưởngnàyđãđượch iệnthựct r o n g mộtkiếntrúcmoduletổngquát,chophépSesamecóthểđượccàiđặttrêncáchệ

Trang 30

cácphươngthứccơbảnđểlưutrữ,truyvấn,vàthaotácdữliệuRDF,cònviệchiệnthựctốiưucácphươngthứcđóthìdomộthệquảntrịcơsởdữliệucụthểđượcsửdụngđảmnhận.Bêncạnhcáccơchếlưutrữtrêntậptinvàbộnhớ,SesamehiệnđanghỗtrợbahệquảntrịcơsởdữliệulàPostgreSQL,MySQLvàOracle9i.Hơnnữa,cáctầnglưutrữvàsuydiễncòncóthểđặtchồnglênnhau,nênnhữngngườipháttriểncóthểthêmvàocáctầngmớiđểhỗtrợthêmcáctácvụnhưghinhớlại,xửlýđồngthờihaysuydiễn.VìkháchhàngcóthểđangsửdụngcácmôitrườngđiềuhànhkhácnhaunhưmộtmáychủWebhoặcmộtứngdụngđơnlẻ,Sesamecungcấpmộtcơchếtruyềnthônglinhhoạt.BằngcáchđặttấtcảcácphươngthứctruyềnthôngchungởmoduleRequestRouter,v à cácphươngthứcchotừnggiaothứccụthểởcácbộxửlýgiaothức,SesamecóthểhỗtrợcácgiaothứctruyềnthôngkhácnhaunhưHTTP,RMIvàSOAP.

Trang 31

trị,bảomậtvàtheodõiphiênbản.NgônngữtruyvấncủaSesamelàSeRQL(SesameRDFQueryLanguage),mộtngônngữtruyvấnR D F /

vnkimkb.rdf#Quốc_gia_1>,hoặcdạngrútgọnnhư<vnkimkb_rdf:Quốc_gia_1>.Trongtrườnghợpsa

vnkimkb.rdf>bởiđộngcơtruyvấncủaSesame.CácgiátrịnguyêntửRDFbiểudiễncáctínhchấtcủacácđốitượng vàcóthểđượctuỳýgắnvớicácthẻkiểudữliệuvàngônngữ.Cácbiếnlàcácdanhhiệutàinguyênphổdụng cầnđượctruy vấn vàđượcđịnhdanh trongc â u truyvấnbằngtên

TấtcảcácphátbiểuRDFtrongmộtkhodữliệucóthểxemnhưmộtđồthị,vàviệct ì m kiếmcóthểđượcthựchiệnbằngcáchsotrùngmộtđồthịtruyvấn,baogồmcácbiểuthứcđườngdẫn,vớiđồthịR

vớicácngônngữtruyvấnRDF/RDFSkháclànóchophépcácbiểuthứcđườngdẫncóchiềudàituỳý.Vídụ,cácbiểuthứcđườngdẫncóchiềudàibằng1trongSeRQLchotruyvấn“TìmtấtcảcácthànhphốởViệtNam”cóthểlà:

Trang 32

<vnkimo_rdfs:Thành_phố>

fs:Thành_phố>và<vnkimo_rdfs:Quốc_gia>làcácdanhhiệutàinguyênphổdụng.TruyvấnSeRQLnàycóthểđượcminhhọabằngmộtđồthịnhưởHình2.2.2

Thành_phố <vnkimo_rdfs:được_định_vị_ở> Quốc_gia <rdfs:label> “Vietnam”

<rdf:type>

<vnkimo_rdfs:Quốc_gia>

Hình2.2.2BiểudiễnđồthịcủamộttruyvấnSeRQL

RE,vàUSINGNAMESPACE.MệnhđềSELECTđượcdùngđểxácđịnhcácbiếnnàocógiátrịphảitrả

ndùngđ ể á n h x ạc á c danhhiệutàinguyênphổdụngviếttắt.Vídụ,câutruyvấnSeRQLđầyđủcho“TìmtấtcảcácthànhphốởViệtNamcódânsốtrênmộttriệu”là:

SELECTThành_phốF

ROM

{Thành_phố}rdf:type{<vnkimo_rdfs:Thành_phố>}, {Thành_phố}vnkimo_rdfs:được_định_vị_ở{Quốc_gia}, {Thành_phố}vnkimo_rdfs:dân_số{Dân_số},

WHERE

{Quốc_gia}rdf:type{<vnkimo_rdfs:Quốc_gia>}, {Quốc_gia}rdfs:label{“Vietnam”}

Dân_số>"1000000"^^<xsd:positiveInteger>US INGNAMSPACE

ns#>r d f s =<http://www.w3.org/2000/01/rdf-schema#>

rdf=<http://www.w3.org/1999/02/22-rdf-syntax-vnkimo_rdfs= <http://www.vn-kim.hcmut.edu.vn/vnkimo-rdf-schema#>.

SeRQLcũngchocáccáchviếtngắnđểđơngiảnhoácáctruyvấn.Mộttrongcáccáchviếtngắnđólàkýhiệuchocácnhánhtrongbiểuthứcđườngdẫn.Cáchnàyhữuícht r o n g trườnghợpmộtchủthểcónhiềuquanhệvớicácđốitượngkhácnhau.Thayvìphải

Trang 33

{Thành_phố}rdf:type{<vnkimo_rdfs:Thành_phố>};vnkimo_rdfs:được_định_

vị_ở{Quốc_gia}, {Quốc_gia}rdf:type{<vnkimo_rdfs:Quốc_gia>};rdfs:label

{“Vietnam”}.

Mộtcáchviếtngắnhữuíchkháclàcácphátbiểutrừutượnghoá,trongđómộtnútchínhnólàmộtphátbiểu.Vídụ,ngườitacóthểcómộtphátbiểudướidạngsau:

lànhữngsảnphẩmthươngmạivàmãnguồnđượcgiữbímật.Điềunàydẫntớikếtquảlànhiềungườiphát

Trang 34

Đứngtrướcmộtsựlãngphírấtlớnvềcôngs ứclậptrình,vàon ăm1998DougCuttingđãbắtđầutiếnhànhxâydựngmộtthưviệntruyvấnthôngtinmãnguồnmởlàLucene,vớimụctiêupháttriểnnóthànhmộtthưviệntruyvấntàiliệuhoànchỉnhchophépnhữngngườipháttriểnứngdụngdễdàngtíchhợpchứcnăngtìmkiếmvàohệthốngc ủamình.Từphiênbảnđầutiênđượccôngbốvàotháng3năm2000,LucenegianhậpvàotổchứcApachevàotháng9năm2001vàtrởthànhmộtdựánchínhthứccủaJakarta([47]).Hiệntại,cũngnhưcácdựánJakartakhác,Luceneđượcduytrìvàpháttriểnbởimộtn h ó m ngườitìnhnguyệnđượclựachọn.TrangW e b chínhthứcc ủaL u c e n e làhttp://jakarta.apache.org/lucene/

Lucenekhôngphảilàmộtphầnmềmứngdụngcụthểmàlàmộtcôngcụđặctảcácgiaodiệnchư

ơngtrìnhứngdụng( A p p l i c a t i o n ProgramI nt e r f a c e –

A P I ) cầnthiếtchoviệcxâydựngmộtđộngcơtìmkiếm.ĐượcxâydựngvàthiếtkếtheohướnghướngđốitượngnêncácAPIcủaLucenecũngđượccungcấptheodạnghướngđốitượng.MặcdùđượcthiếtkếvàxâydựngbanđầutừJava,hiệnnayLucenecũngđãcómộtsốphiênbảnchocácngônngữkhácnhư.Net,C++,Perl,…

Ngàycàngcó nhiều trangWebvà phầnmềmsửdụngLucene nhờvàocáctínhnăngnổibậtsauđâycủanó:

1 Lucenelàmộtthưviệnmãnguồnmở,chứađầyđủcáctínhnăngcơbảncũngnhưnângcaocầnthiếtchomộtđộngcơtìmkiếm.Nhờđó,việcxâydựngmộtđộngcơtìmkiếmdựatrênLuceneđượcthựchiệndễdàngvàuyểnchuyển

2 Lucenebaogồmmộtcôngcụlậpchỉmụchiệusuấtcaođãđượckiểmnghiệmtrongcácứngdụngthựctế

3 Lucenecómộtthuậtgiảitìmkiếmmạnh,chínhxácvàhiệuquả.Nóxếphạngvàtrảvềtrướcc

loạitruyvấnkhácnhaunhưtruyvấnluậnlýhaytruyvấncụmtừ,vàtìmkiếmtheocáctrườngkhácnhauhaytìmkiếmvớigiớihạnngàytháng

4 TínhmởrộngcủaLucenecaodonócóthểđượcsửdụngkhôngchỉchotiếngA n h màcòn

cóthểđượcbiếnđổiđểphùhợpvớicácđịnhdạngtài liệukhácnhau

Trang 35

1 2 1 2 HỌC MÔN : *

SINH_VIÊN : Nam VỀ LĨNH_VỰC : Khoa học Máy tính

5 LuceneđượcthiếtkếvàhiệnthựchoàntoànhướngđốitượngbằngJava,nênkếthừađượcnhiềuđặctínhnổitrộicủangônngữnàymàquantrọngnhấtlàtínhđộclậpvớihệđiềuhànhnền

6 Lucenel à mộtmãnguồnmở.NgườipháttriểnứngdụngcóthểsửađổimãnguồnLucenetheomụcđíchriêng

7 MãnguồnLuceneđư ợcthiếtk ếrõràng,vớitàiliệukỹthuậtđầyđủ,c hi tiết.CộngđồngsửdụngLucenengàymộtmởr ộnggiúpchoviệcs ửd ụngvàgiảiquyếtcácvấnđềphátsinhthuậntiệnhơn

Đồthịkháiniệm

Đồthịkháiniệmlàmộtngônngữbiểudiễntrithứcgầnvớingônngữtựnhiên([124]).Mộtđồthịkháiniệmlàmộtđồthịlưỡngphânvớicácnútkháiniệmxenkẽvớicácnútquanhệ,nốivớinhaubằngcáccạ

Hình2.2.3Mộtđồthịkháiniệmvídụ

am”và“KhoahọcMáytính”

cáthể(IndividualReferent).Thamchiếu“*”củakháiniệm[MÔN:]đư ợcg ọilàthamc hi ếuch

ung(GenericReferent),c h ỉđ ế nmộtthựct h ểkhôngxácđịnh. Haikháiniệmvớihaithamchiếucáthểkhácnhauđượcgiảsửlàchỉđếnhaithựcthểkhácnhau,vàngượclại

Trang 36

Hình2.2.4Mộtđồthịkháiniệmvớiliênkếtđồngthamchiếu

Tươngứngvớicáckiểutronglogicvịtừcókiểu,cáckiểukháiniệmđượcsắpthứtựbánphầntheothứtựkiểukháiniệmcha-

tđặctảđịnhnghĩabậcvàcáckiểukháiniệmcụthểnhấtlàmcácđốisốcủanó.Mỗikiểuquanhệcóthểđượcxemnhưlàmộtkiểumàmỗithựcthểcủanólàmộtnhómthựcthểthuộccáckiểuđốisốcủakiểuquanhệđó

GHIÊN_CỨU_SINHlàkiểuconcủaSINH_VIÊN,cònSINH_VIÊNlàkiểuconcủaNGƯỜI

ếulàmộtđồthịkháiniệmmôtảmệnhđềđó.Phủđịnhcủamộtmệnhđềđượcbiểudiễnnhưmộtquanhệ

Trang 38

thôngtinđólạivàotrongtrangWebnày.CáctrangWebđãcóchúthíchnhưvậyđượclưutrữchoviệctìmkiếmhiệuquảtheotênvàlớpthựcthể.Vídụ,ngườisửdụngcóthểt ì m cáctàiliệuvề“Washington”nhưlàmộtconngười,trongkhicáchệthốngtìmkiếmhiệntạicóthểtrảvềcáctàiliệuchứatừ“Washington”mặcdùđólàtêncủamộttờbáohaymộttrườngđạihọc.Hình2.3.1chothấymộttrangWebvớicácthựcthểcótênđượcl à m rõdoKIMnhậndiệnra.

Hình2.3.1RúttríchthôngtinbởiKIM

MiềndữliệumàKIMnhắmvàolàcácthựcthểđượcđềcậpđếntrongcáctintứcquốctếhàngn

ayHappening(chocácthựcthểsựkiện,hoàncảnh, ),vàcácthuộctínhnhưsubRegionOfcholớpLoc ationhayhasPositioncholớpPerson.CơsởtrithứccủaKIMhiệngồmcácthựcthểlàcácnhânvật,thànhphố,côngty,vàtổchứcquantrọngvàphổbiếnnhấttrênthếgiới

Hình2.3.2minhh ọakiếntrúctổngthểc ủaKIM,trongđóK I M Serverg ồmcácthànhphầnvàthựchiệncácchứcnăngchínhsauđây:

1 ThànhphầnquảnlýOntologyvàcơsởtrithức:

ThôngtinvềOntologyvàcơsởtrithứctrongKIMđượcbiểudiễndướidạngRDFvàRDFS,vàSesameđ ư ợ cs ửdụngđểl ưutrữv à quảnlýchúng

Trang 39

2 ThànhphầnrúttríchthôngtinKIMIE:

KIMIEđảmnhậnvaitrònhậndiệncácthựcthểcótênxuấthiệntrongtàiliệuứngvớicáclớpthựcthểtrongKIMOntology,vàđượcxâydựngtrênnềnc ủaGATE.Tuynhiên,đểnângcaohiệuquảcủaquátrìnhnhậnbiếtcácthựcthểcótênvàđểtăngcườngthôngtinngữnghĩachocácthựcthểđượcpháthiện,K I M IEmởrộngGATEbằngcáchkếthợpcácthànhphầnmàGATEcungcấpvớicơsởtrithứccủaKIM

3 Thànhphầnlậpchỉmụcvàtruyvấntàiliệu:

Đểtruyvấnthôngtindựatrênthựcthểcótên,KIMthựchiệnviệclậpchỉmụcvàtruyvấntàiliệutheothựcthểcótên,bêncạnhviệclậpchỉmụcvàtruyvấntheotừkhóa.ThànhphầnlậpchỉmụcvàtìmkiếmtheothựcthểcótêncủaK I M đượcxâydựngdựatrênLucene

4 ThànhphầnAPI:

CácchứcnăngmàKIMServercungcấpbaogồmchúthíchnộidungmộttrangtàiliệu,lậpchỉmụcvàtruyvấntàiliệutheothựcthểcótên,vàtruyhồithôngtinvềcácthựcthểcótên.Đểgọicác

chứcnăngnày,cácứngdụngsửdụngcácAPItươngứngcủaKIMServer

DựatrênKIMServer,KIMcũngđãxâydựngsẵnmộtsốứngdụng.ChúngcóthểlàcácứngdụngđầucuốinhưKIMPlug-inđểchúthíchnội

dungvàKIMWebUIđểtruyhồithôngtin,hayứngdụngphụcvụchocácứngdụngkhácnhưKIMAnnotationServer.K h i nhậnđượcyêucầutừphíangườisửdụng,cácứngdụngphụcvụnàygiaotiếpvớiK I M ServerthôngquacácAPIđểxửlýrồitrảvềthôngtinyêucầu.Ngoàira,donhucầukhaithácthôngtincủacáctổchứcvàngườisửdụngrấtđadạng,kiếntrúccủaKIMcònchophépnhữngngườipháttriểnkháccóthểxâydựngcácứngdụngcủariêngmìnhtrênnềncácchứcnăngcơbảnmàKIMcungcấp

Trang 40

Browser Plug-in Custom Applications Any Web Browser

Annotation Server Custom Apps KIM Web UI News Collector

Semantic Annotation API Document Persistence APISemantic posi ory API Query API Index API

Lucene Documents Database

Index Database KIM IE

GATE

KIM IE GATE

Sesame

Hình2.3.2KiếntrúctổngquátcủaKIM

PhiênbảnhiệntạicủaKIMđãđạtđếnđộhiệuquảchungvềchúthíchngữnghĩatựđộngvàokhoảng80%sovớiconngườichúthíchbằngtay,theosốliệuthửnghiệmtrên100bảntinc ủac á c báoởA

sánhvớiKIMlàSemTag([36]).TrongkhiKIMquantâmđếncảđộchínhxác(Precision)vàđộđầyđ

ủ(Recall)trongrúttríchthôngtin,thìSemTagthiênvềđộchínhxáchơn.

Tuynhiên,KIMvẫncòncáchạnchếchínhsau:

1 Ontologydựatrêncáckháiniệmchungtrênthếgiới,trongkhiởViệtNamcónhữngkháiniệmriêng,đặcthùchohoàncảnhkinhtếvàxãhộicủađấtnước.Vídụ,nhữngkháiniệmnhư“Thànhphốcấpmột”hay“Uỷbannhândânphường”cầncónhữnglớpthíchhợpđểxếploạichúng

2 ĐộngcơrúttríchngữnghĩachỉdùngchotiếngAnh,chưahỗtrợđượcchotiếngViệtvớicácđặcthùriêngvềtừvựng.Vídụ,trongtiếngAnhcáctừcáchnhaubằngkhoảng trống,còntrong

tiếngViệtmộttừcóthểdonhiềuâmtiếtcáchnhaubằngkhoảngtrốngghéplại,như“Đấtnước”hay“Côngty”

Ngày đăng: 20/07/2023, 10:04

HÌNH ẢNH LIÊN QUAN

Đồ thị khái niệm 1 - Nghiên Cứu Phát Triển Các Kỹ Thuật Xây Dựng Và Khai Thác Thông Tin Web Có Ngữ Nghĩa.docx
th ị khái niệm 1 (Trang 45)
Hình 5.3.3 Một đồ thị trả lời gần đúng - Nghiên Cứu Phát Triển Các Kỹ Thuật Xây Dựng Và Khai Thác Thông Tin Web Có Ngữ Nghĩa.docx
Hình 5.3.3 Một đồ thị trả lời gần đúng (Trang 118)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w