Questo obiettivo richiede di affrontare stimolanti problemi di ricerca: Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso Sfruttare tecniche di High Pe
Trang 1Enhanced Contents Delivery
Tecnologie per arricchire e fornire accesso a contenuti
Fondo Speciale Innovazione 2000
“I concetti di accesso e di rete stanno acquisendo un’importanza crescente, proprio come era accaduto con la nozione di proprietà e mercato agli albori dell’età moderna Sino alla fine degli anni Novanta, la parola accesso era usata solo occasionalmente, e, in genere, era riferita a questioni attinenti l’ammissione a spazi fisici determinati Oggi, accesso è uno dei
termini più usati nella vita sociale: quando lo sentiamo, probabilmente siamo portati apensare a nuovi universi di possibilità e oppportunità È diventato il titolo per accedere alprogresso e alla soddisfazione personale e possiede una potenza evocativa pari a quellache, per le passate generazioni, ha avuto la visione democratica È un vocabolo denso disuggestioni e carico di significati politici Parlare di accesso, dopotutto, significa parlare didistinzioni e divisioni, di chi sarà incluso e chi sarà escluso L’accesso sta diventando unpotente strumento concettuale per riformulare una visione del mondo e dell’economia, ed è
destinato a diventare la metafora più efficace della nuova era.”
da Jeremy Rifkin, L’era dell’accesso Mondadori, 2000.
ISTI
Trang 2 Web search and delivery
A number of services are provided to user for accessing the content in Digital Libaries and onthe Web including: search engines, thematic catalogues, media collections (audio, video,WAP, ecc.) and advanced digital library services The project aims at developing or improvingthe technologies required for providing these services
This goal entails meeting a number of stimulating research challenges:
Developing new algorithms for indexing and for searching compressed indexes
Exploiting high performance techniques for fast response to huge number of queries
on vast amount of data
Deploying Web Mining techniques for determining:
Ranking or authority of documents
Improving spidering and caching performance
Document classification
Developing participatory search services
Developing an open architecture for distributed Digital Libraries
Exploiting XML as notation for document structuring and metadata
Providing access to multimedia documents in Digital Libraries
Expressing and processing queries on XML schemas
Advanced user services: like document annotations, notification, group work support.Putting these technologies together for building the next generation of content deliverysystems is an ambitious goal but vital to avoid that this new raising field be dominated by nonEuropean companies, as it has happened for the field of data bases
Trang 32 Sommario
Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti (enhanced contents delivery) agli utenti finali Ciò consiste nell’identificare
materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati
e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i lorointeressi
Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare:
Biblioteche digitali
Ricerca ed accesso sul Web
I servizi di accesso offerti agli utenti di questi mezzi includono i motori di ricerca, i cataloghitematici, le collezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati dellebiblioteche digitali In questo progetto ci si propone di sviluppare o migliorare le tecnologienecessarie per mettere in funzione questi servizi
Questo obiettivo richiede di affrontare stimolanti problemi di ricerca:
Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso
Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e ilnumero di utenti dei servizi
Sviluppo di tecniche di Web Mining per determinare:
rank o autorevolezza delle fonti
come migliorare le prestazioni di spidering e caching
come classificare i documenti
Sviluppo di servizi di ricerca partecipativa e decentralizzata
Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite
Utilizzo di XML per strutturare documenti ed esprimere metadati
Fornire accesso a documenti multimediali nelle Digital Libraries
Formulare e rispondere a interrogazioni su schemi XML
Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica,supporto al lavoro di gruppo
Combinare queste tecnologie per costruire i sistemi di prossima genernazione per arricchire
e fornire accesso a contenuti è un obiettivo ambizioso ma strategico per evitare che questosettore emergente sia dominato da aziende non europee, come è avvenuto per un settorealtrettanto vitale quale quello dei database
Trang 42 Oggetto
Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti (enhanced contents delivery) agli utenti finali Ciò consiste nell’identificare
materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati
e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i lorointeressi
Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare:
Biblioteche digitali
Ricerca ed accesso sul Web
Le biblioteche digitali contengono materiali in vari media, tradizionalmente raccolti edorganizzati da esperti bibliotecari che li rendono disponibili tramite strumenti sofisticati direcupero di informazioni Le biblioteche digitali sono spesso orientate ad una utenzaprofessionale, che richiede strumenti di ricerca avanzati o di compiere operazioni speciali sulmateriale (ad esempio trasformazioni di digital imaging o estrazioni di testo da sorgentiaudio)
La ricerca sulle biblioteche digitali deve affrontare il compito di gestire e rendere coerenti,usabili ed accessibili grandi quantità di materiali La ricerca si sta orientando quindi sustrumenti per la ricerca intelligente, il recupero, l’organizzazione e la presentazione; su nuovitipi e strutture informative, su codifiche di documenti e metadati atti ad arricchirne il contestoinformativo
Il Web fornisce una struttura informativa distribuita, caratterizzata da flessibilità, evoluzionerapida e decentralizzazione I documenti Web mostrano un’ampia variabilità nei tipi, nelformato e nella qualità; al Web manca un’organizzazione generale anche se a volteemergono forme di auto-organizzazione (ad es cataloghi Web o raccolte tematiche) I motori
di ricerca sul Web sono orientati ad utenti comuni senza particolari competenze
Sia le biblioteche digitali sia il Web tendono a fornire interfacce e infrastrutture per agevolare
il lavoro intellettuale (trovare, creare e disseminare conoscenze), inserendo il materiale in un
contesto complessivo persistente e strutturato, nonostante la rete sottostante sia in continuaevoluzione
Per entrambe le infrastrutture si possono immaginare forme simili di servizi avanzati:selezione per categorie, filtraggio in base agli interessi, annotazioni di gruppo o personali,avvisi o filtri basati su profili personali degli utenti
Tuttavia, mentre le biblioteche digitali trattano materiale già ben organizzato e strutturato, laricerca su Web deve trattare una varietà di materiali spesso caoticamente organizzati Perciò
ai materiali Web occorre applicare una fase di scoperta ed analisi in grado di estrarreproprietà e struttura dai documenti, rendendo possibili gli stessi servizi avanzati disponibili sucollezioni di documenti meglio strutturati
Il Web mining consiste nello svolgere questo compito applicando le tecniche sviluppate nei
settori del data mining e dell’estrazione di conoscenze Le informazioni estratte daidocumenti Web potranno essere espresse con opportune ontologie descritte in notazioneXML, in modo da facilitarne l’interscambio, anche con le biblioteche digitali Tuttavia, anche
se XML e gli schemi XML sono una soluzione adatta per esprimere la struttura ed ilsignificato dei documenti Web, per la natura decentralizzata ed autonoma del Web saràimprobabile che i documenti vengano creati direttamente con la struttura adatta Pertantosarà sempre necessario l’utilizzo di tecniche di Web mining per fornire coerenza a questimateriali
Trang 5I passi di scoperta e analisi costituiscono una fase intermedia tra le fonti ed i servizi diaccesso forniti agli utenti, come indicato in questa figura:
Intranet material
Image search
Extranet material
Audio search Web search
News search Price search Classification
Contents Access &
Delivery Services Inform extraction
Compression
Raw
Figura 1 Contents delivery.
I servizi di accesso offerti agli utenti includono i motori di ricerca, i cataloghi tematici, lecollezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati delle biblioteche digitali Inquesto progetto ci concentriamo sulle tecnologie necessarie per mettere in funzione questiservizi
Le tecnologie di spidering servono ad identificare e prelevare il materiale di interesse Letecnologie di information extraction e di Web mining vengono applicate per trasformare ilmateriale originale, estraendo e selezionando le parti rilevanti, generando metadati, sommari
e classificando il materiale Infine il materiale arricchito viene reso in una forma che neagevola l’accesso, ad esempio utilizzando tecniche di indicizzazione e compressione percostruire indici che ne consentano la ricerca o presentandolo con opportune interfacce sulWeb
La pura mole del materiale presente nelle collezioni Web e l’elevato numero di utenti delWeb richiede progressi in tecnologie di base, dagli algoritmi alle strutture dati perl’indicizzazione e la ricca su indici compressi, dall’ottimizzazione delle query alla lorodistribuzione su server farm
Combinare tutte queste tecnologie per costruire la prossima generazione di sistemi diaccesso ai contenuti è un obiettivo ambizioso, ma necessario per mantenere una presenzacompetitiva dell’industria europea in questo nuovo emergente settore
Trang 6In questa azione si affrontano i seguenti problemi:
Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite
Utilizzo di XML per strutturare documenti ed esprimere metadati
Fornire accesso a documenti multimediali nelle Biblioteche Digitali
Formulare e rispondere a interrogazioni su schemi XML
Sviluppo di ontologie per i contenuti delle Biblioteche Digitali
Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica,supporto al lavoro di gruppo
Nella Azione 2 si affrontano le questioni legate al trattamento di materiale Web, ed inparticolare all’indicizzazione ed alla ricerca, all’analisi e alll’estrazione di informazioni chearricchiscono i documenti migliorano la qualità dei servizi
In questa azione si affrontano i seguenti problemi:
Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso
Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e ilnumero di utenti dei servizi
Sviluppo di tecniche di Web Mining per determinare:
rank o autorevolezza delle fonti
come migliorare le prestazioni di spidering e caching
come classificare i documenti
Sviluppo di servizi di ricerca partecipativa e decentralizzata
Le due azioni sono collegate in più punti: ad esempio le tecniche di indicizzazione e ricercapossono essere applicate alle biblioteche digitali, le tecniche di accesso a documentimultimediali possono essere applicate a collezioni di media presenti sul Web, laclassificazione di documenti utilizza gerarchie di concetti derivate da ontologie Pertanto siprevede che le due azioni si coordinino e tra loro si sviluppino proficue sinergie
Trang 7Azione 1 Biblioteche Digitali XML
L’integrazione e l’utilizzo di risorse di calcolo, telecomunicazioni e informazione digitale, in
presenza di una costante diminuzione dei costi di digitalizzazione e di una sempre maggiore
convergenza/integrazione di tipi di media precedentemente separati hanno creato lecondizioni per lo sviluppo di nuove infrastrutture e ambienti in grado di permettere attività,individuali o collettive, basate su informazioni distribuite accessibili in rete
Il concetto di “biblioteca digitale” nasce dalla sua analogia con la biblioteca tradizionale: uno
spazio fisico, o deposito, contenente una collezione organizzata di documenti, insieme asistemi e servizi atti a facilitare l’accesso fisico ed intellettuale ai documenti e la loroconservazione
Inizialmente l’enfasi è stata data alla conversione retrospettiva dei documenti cartacei indocumenti digitali Queste versioni digitali offrono: accesso indipendente da distanza, ricerca
full text, metodi più potenti per il recupero tempestivo di informazioni rilevanti Gli investimenti
nella conversione retrospettiva dal supporto cartaceo alla forma digitale sono in continuacrescita
In parallelo, l’emergere delle tecnologie Internet e Web ha contribuito ad accrescere laconsapevolezza che possono essere creati nuovi tipi di documenti che non hanno unequivalente cartaceo ma che esistono soltanto in un mondo digitale
Le tecnologie necessarie alla creazione di biblioteche digitali sono molto diverse da quellerelative alle biblioteche tradizionali Infatti, l’informazione digitale si trasferisce con unavelocità incomparabilmente maggiore, può essere archiviata su scale di densità molto piùelevata e può integrarsi in nuovi tipi di documenti che includono testo, immagini, grafica,video, audio, ecc
In sostanza, le biblioteche digitali includono le prestazioni offerte dalle biblioteche tradizionali
ma vanno ben oltre in termini di funzionalità, portata e significato Possiamo, quindi, definire
una Biblioteca Digitale come un ambiente dove si mettono in relazione collezioni, servizi e
persone lungo l’intero ciclo di vita della informazione, dalla creazione, disseminazione,utilizzo, fino alla conservazione
Le tecnologie delle biblioteche digitali hanno il potenziale di influenzare profondamentealcuni aspetti che riguardano il modo di lavorare con l’informazione sotto forma didocumento L’impatto dei cambiamenti previsti sarà vasto, ma in alcuni settori sarà ancheprofondo Un settore particolarmente interessato a questi cambiamenti è quello che riguarda
i nuovi modelli della diffusione/disseminazione dell’informazione scientifica
Le Bibioteche Digitali, considerando anche il loro contenuto multimediale, costituiscono un
importante segmento della gamma di informazioni più organizzate che sono e saranno
disponibili su Web
In quest’ottica, un ulteriore fattore che sicuramente avrà un impatto crescente sulla
tecnologia delle Bibioteche Digitali, sia in termini di documenti gestiti che di metadati
descrittivi del loro contenuto, è il crescente affermarsi dello standard XML
XML (eXstensible Markup Language), proposto dal World Wide Consortium (W3C),recentemente si è manifestato come nuovo standard per la rappresentazione di dati e loscambio di documenti sia nella comunità Web che nella comunità sociale XML è unlinguaggio per la marcatura di documenti ideato per rendere le informazioni "self-describing"
A differenza di HTML, l’attuale standard su Web, XML non si preoccupa dello stile dipresentazione del documento (XML Style Sheet), ma della descrizione del contenuto Imarcatori usati in XML possono essere decisi dal creatore del documento e quindi possonoessere usati per spiegare il significato delle informazioni (es prezzo, quantità, colore e così
Trang 8via) Questo apre nuove prospettive nell’area di accesso a biblioteche digitali tramite Web,dato che diventerà lo standard di interoperabilità per molte di queste.
L’obiettivo finale di questo progetto è di sviluppare le tecnologie necessarie per abilitare lo
sviluppo di una nuova generazione di Biblioteche Digitali basate su XML Le attività di ricercaporteranno sviluppi nelle seguenti direzioni:
L’utilizzo di XML come strumento per la definizione dei metadati e eventualmente deidocumenti digitali, nonché per la specifica delle caratteristiche della biblioteca digitale
e della sua interfaccia con il mondo esterno, costituiscono un’importante premessa per
garantire l’interoperabilità tra le diverse componenti funzionali (i.e., servizi) di un
sistema per biblioteche digitali
La definizione di un linguaggio di interrogazione per XML aprirà nuove ed importanti
direzioni di ricerca applicata rispetto alle esigenze delle bibioteche digitali Infatti,supponendo che i documenti multimediali siano descritti in XML, sarà possibileaccedere a queste sorgenti per mezzo di interrogazioni semanticamente espressive,sfruttando a pieno la struttura del documento
La costruzione di un’ontologia di Biblioteche Digitale, che sia capace di rappresentare
una vista virtuale di ogni singola Biblioteca Digitali locale e che definisca le regole di
mapping tra le viste delle singole Biblioteche Digitali locali, può essere di grande
ausilio agli utenti nel capire il contenuto delle varie Biblioteche Digitali e quindi nel
formulare e indirizzare le interrogazioni
La possibilità per diverse classi di utenti di annotare (soprattutto sfruttando la strutturaXML del documento) i documenti di una Biblioteca digitale, e la possibilità di generare
in modo automatico collegamenti tra documenti e annotazioni, può consentire diottenere una descrizione sintetica del contenuto semantico del documento e direperire altri documenti con un contenuto pertinente agli interessi dell'utente
La generazione automatica di wrapper XML può essere utilizzata per integraredocumentazione elettronica disponibile in formati diversi da XML (com’è nella gran parte deicasi attuali di Biblioteche Digitali disponibili) in Biblioteche Digitali basate su XML
Trang 9Work Package 1.1 Architettura aperta per Biblioteche Digitali XML
1.1.1 Stato dell’arte
Una biblioteca digitale è stata definita come “un’istituzione che realizza e/o supporta,almeno, i servizi di una biblioteca tradizionale nel contesto di collezioni di documenti digitalidistribuite e accessibili attraverso la rete - (N Belkin) ”
Diverse sperimentazioni sono state portate a termine ed altre sono attualmente in corso perfar si che le biblioteche digitali garantiscano un completo servizio di gestione degli oggettidigitali che vada ben oltre la semplice funzionalità di ricerca remota e distribuita Taleservizio, infatti, deve necessariamente includere le funzionalità per l’organizzazione e lapreservazione degli oggetti digitali, il controllo del copyright, il controllo delle versioni el’aggiornamento delle stesse, l’accesso facilitato e personalizzabile alle collezioni didocumenti
A fronte di questo enorme lavoro per il supporto di funzionalità che permettono una completagestione delle biblioteche digitali, poco è stato fatto nel campo dell’interoperabilità tra diversebiblioteche, anche se un’importante iniziativa in questo senso (The Open Archives Initiative)
è iniziata alla fine del 1999
L’istituto ISTI è stato particolarmente attivo in questi ultimi anni nelle attività di ricerca,sviluppo e gestione dei servizi connessi alle tematiche delle biblioteche digitali In particolare,questa attività ha portato alla realizzazione della biblioteca digitale di informatica ematematica del consorzio ERCIM (the European Research Consortium for Informatics andMathematics) Tale biblioteca digitale (denominata ETRDL – Ercim Technical ReferenceDigital Library) consente la condivisione dei risultati di ricerca fra i ricercatori operanti nelleistituzioni appartenenti al consorzio, ed è una specializzazione di NCSTRL (NetworkedComputer Science Technical Reference Library) che raccoglie più di 130 enti di ricerca eduniversità in tutto il mondo
1.1.2 Obiettivi Strategici
Un’architettura per biblioteche digitali viene detta aperta quando la funzionalità complessivaviene partizionata in un insieme di servizi autonomi ben definiti ed interoperanti fra loro;servizi che possono essere distribuiti o replicati
In questo particolare contesto l’utilizzo di XML come strumento per la definizione deimetadati e eventualmente dei documenti digitali nonché per la specifica delle caratteristichedella biblioteca digitale e della sua interfaccia con il mondo esterno, costituiscono unimportante premessa che può garantire l’interoperabilità tra le diverse realizzazioni dibiblioteche
Ciascuno di questi servizi sarà accessibile mediante un protocollo ben definito che definiscel’interfaccia pubblica per quel servizio Il protocollo consisterà di un insieme di richieste diservizio, ognuna delle quali sarà definita in termini del formato della richiesta, del formatodella possibile risposta, delle eccezioni e della semantica della richiesta
Un servizio sarà istanziato da un modulo software, chiamato server, la cui effettivaimplementazione sarà trasparente ed irrilevante per quanto riguarda l’aspettodell’interoperabilità Per interoperabilità di un servizio s’intende la sua capacità di comunicareattraverso un protocollo predefinito con altri servizi
Un’architettura aperta così concepita consente un’estensibilità dei servizi forniti dallabiblioteca digitale teoricamente illimitata Il nucleo di servizi che sono necessari per fornireuna funzionalità basilare sono:
Trang 10 Servizio di naming Gli oggetti digitali contenuti in una biblioteca digitale sonoidentificabili attraverso dei nomi persistenti e unici in tutta la biblioteca Il servizio dinaming avrà lo scopo di gestire la creazione, registrazione dei nomi unici e la lororisoluzione negli indirizzi fisici dei server di archiviazione.
Servizio di archiviazione Questo servizio fornisce i meccanismi per l’archiviazione el’accesso degli oggetti, nonché la presentazione della loro struttura
Servizio di indicizzazione Questo servizio consente la ricerca di oggetti digitali (siatestuali sia multimediali) attraverso indici estratti automaticamente dagli oggetticontenuti negli archivi
Interfaccia Utente Questo servizio costituisce il punto di accesso dell’utente allabiblioteca digitale
Servizio di collezione Questo servizio fornisce i meccanismi per aggregaredinamicamente insiemi di oggetti digitali contenuti nella biblioteca digitale in collezioniche sono significative dal punto di vista di una certa comunità Per collezioneintendiamo un insieme di oggetti digitali, un insieme di servizi che possono essereutilizzati su tali oggetti e un insieme di politiche di accesso agli stessi
1.1.3 Approccio ed obiettivi specifici
L’obiettivo di questo work package è di sviluppare un’architettura aperta per un sistema dibiblioteca digitale Tale attività si concentrerà sulla definizione di un sistema di bibliotecadigitale sia dal punto di vista funzionale che da quello architetturale, specificando il flussoinformativo interno ed i protocolli di comunicazione fra i vari servizi
Il sistema verrà realizzato estendendo ed arricchendo l’architettura per biblioteche digitaliDIENST Tale sistema verrà in particolare esteso in modo da garantire l’interoperabilità deiservizi di cui è costituito, e verrà modificato in modo da supportare documenti e metadatiscritti in XML
Gli obiettivi tecnici specifici del lavoro condotto in questo work package saranno quindi:
1 estensione del servizio di archiviazione in modo da supportare oggetti digitalicomplessi In particolare ogni istanza di un oggetto avrà una struttura logica i cuicomponenti sono le viste e i segmenti Le viste sono la rappresentazione strutturaledel contenuto degli oggetti Ad esempio un oggetto rappresentante un brano musicalepuò avere come vista lo spartito musicale e la sua riproduzione sonora Le vistecostituiscono una rappresentazione alternativa del contenuto e non sono correlate traloro Ogni vista sarà organizzata in segmenti strutturati gerarchicamente Ad esempio
la vista che rappresenta un libro può contenere una struttura gerarchica i cui elementisono i segmenti “capitolo” costituiti a loro volta dai segmenti “paragrafo” In talecontesto si esplorerà la possibilità di rappresentare tali oggetti digitali utilizzando illinguaggio XML
2 estensione del servizio di indicizzazione: verranno sviluppate e sperimentate nuovestrutture efficienti che consentano di effettuare la ricerca per similitudine su oggettimultimediali Queste strutture di accesso saranno usate durante la fase di esecuzionedelle interrogazioni, determinando strategie efficienti per l'esecuzione di interrogazionicomplesse
3 studio di una interfaccia grafica che sfrutti le potenzialità di XML per offrire interfaccepersonalizzabili dal punto di vista della lingua parlata dell’utente, del contenuto delleinformazioni da disseminare, etc
4 estensione del servizio di collezione in modo da supportare la definizione dinamica dicollezione L’obiettivo di questa ricerca sarà in particolare quello di permettere la
Trang 11definizione di una collezione attraverso un criterio formale per la sua caratterizzazione.
Ad esempio una collezione potrà essere definita come l’insieme di tutti i documentiche trattano di medicina, che costano meno di € 5 e sui quali sia consentita unaricerca libera sul testo
Questi obbiettivi tecnici saranno dimostrati in un prototipo di sistema per BibliotecheDigitali XML, basato su di un’architettura aperta di servizi, distribuiti in rete, e tra lorointeroperabili tramite in protocollo enbedded in http, secondo quanto illustrato nella figuraseguente Questo prototipo sarà un’estensione del sistema Dienst-6, realizzato in PEARL,
in collaborazione con la Cornell University
I prototipi realizzati negli altri workpackages, per implementare nuove funzionalità basate
su XML, interopereranno con i servizi costituenti questa architettura tramite un protocolloenbedded in http (vedi figura seguente)
WP 1.5 XML- Structure Extraction
File ps, pdf, html, XML
retrieve
dis sem ina tion
re so
in
rmat
ion
naming service
Collection
scanindexe
s Index
Interoperable Infrastucture
search
&
retrieve
sc an
re po sitory
Figura 2 Architettura aperta per Bibioteche Digitali basate su XML
1.1.4 Unità coinvolte
L'unità principalmente coinvolta in questa ricerca è quella dell’ISTI del CNR di Pisa,composta dalle seguenti persone: Fausto Rabitti, Donatella Castelli, Claudio Gennaro,Pasquale Pagano, Serena Pisani L'unità ha partecipato a diversi progetti europei e nazionali
su temi affini a quelli che saranno argomento di questa iniziativa (progetti europei: ETRDL,EuroGatherer, Echo, Scholnet)
Trang 12Dato che l'attività sull'architettura aperta interoperabile per Biblioteche Digitali XML svolge unruolo centrale nel progetto, collaboreranno a questa ricerca tutte le altre unità operative e leunità associate(queste ultime per i requisiti applicativi richiesti dai vari tipi di utenti).
Trang 13Work Package 1.2 Linguaggi di interrogazione XML
1.2.1 Stato dell’arte
XML sta diventando il linguaggio più utilizzato per l'interscambio di informazioni L'uso di XMLnel contesto delle biblioteche digitali si inserisce in modo naturale in questo quadro Unadirezione di ricerca molto promettente è quella che fa tesoro dell'esperienza nei sistemi digestione di basi di dati per definire meccanismi di gestione di informazioni XML di livello piùsofisticato rispetto a quelli attualmente disponibili Attualmente, la manipolazione di dati XMLavviene normalmente tramite l'interfaccia DOM, che definisce un modello ad oggettifacilmente utilizzabile all'interno di un normale linguaggio di programmazione, ma non sonoancora disponibili soluzioni che permettano di accedere in modo dichiarativo a dati XML;specifiche W3C come XSL, XPath, XLink e XFragment si caratterizzano tutte per unamaggiore dichiaratività e flessibilità nell'accesso a informazioni XML, ma molto rimaneancora da fare; varie proposte di linguaggi di interrogazione per XML sono state introdottedurante l’anno corrente, ed il W3C ha costituito uno speciale gruppo di standardizzazioneche dovrebbe produrre un’algebra per XML entro fine 2000 ed un linguaggio diinterrogazione standard entro la primavera del 2001
1.2.2 Obiettivi Strategici
Una volta definito (dal W3C) un linguaggio di interrogazione standard, vari temi di ricercaverranno affrontati in questo work package per adattarlo alle esigenze delle bibliotechedigitali
La definizione di un linguaggio di interrogazione per XML aprirà nuove ed importanti direzioni
di ricerca applicata, soprattutto considerando le esigenze delle biblioteche digitali Infatti,supponendo che i documenti multimediali siano descritti in XML, sarà possibile accedere aqueste sorgenti per mezzo di interrogazioni semanticamente espressive, sfruttando a pieno
la struttura del documento In questo contesto, un’interrogazione potrà imporre non solovincoli lessicali, ma anche vincoli topologici sul documento che deve essere recuperato, inmodo ad esempio che l’annidamento dei marcatori venga rispettato Tutto ciò potràincrementare in maniera significativa la potenziale precisione dei risultati delle interrogazioni.D’altro canto, per imporre vincoli topologici esatti, un utente dovrebbe essere pienamenteconsapevole dell’esatta organizzazione del documento, e spesso questa non è la realtà.Richiedendo una stretta corrispondenza del documento con la struttura topologica richiesta,
si potrebbero perdere alcuni documenti che sono simili alle nostre richieste Potenzialmentequesto potrebbe diminuire l’insieme dei risultati di un’interrogazione Per evitare questoeffetto indesiderato, verrà studiato come rendere flessibile il linguaggio di interrogazione,consentendo all’utente di non dover conoscere a priori la struttura sintattica del documentoXML voluto
Altre ricerche che verranno rese possibili dalla presenza di un linguaggio di interrogazioneper XML sono la definizione di regole attive e la specifica di un modello per il controllodell'accesso Le regole attive hanno dimostrato le loro potenzialità nell'ambito delle basi didati relazionali e potranno diventare uno strumento molto efficace per realizzare nuovi servizinel contesto di XML Nell’ambito delle biblioteche digitali, è possibile pensare ad applicazioniimmediate per le regole attive, ad esempio per la costruzione automatica di meta-informazione sui documenti, la loro classificazione automatica, la presentazione dei dati inmodo personalizzato, e la notifica agli utenti di eventi rilevanti, quali ad esempio la presenza
di un nuovo documento relativo ad un campo di interesse predefinito
Trang 14La definizione delle regole parte da una definizione di eventi, già definibile nel contesto dellostandard DOM2, e utilizza il linguaggio di interrogazione, con il quale esprimere le condizioni
di interesse per ciascuna regola; la realizzazione prototipale di un sistema di regole attive perXML sembra pertanto essere di facile realizzazione
Un altro settore che beneficierà della presenza di un linguaggio di interrogazione è larealizzazione di un modello di controllo dell'accesso a risorse XML; in tal caso, il linguaggio
di definizione consente di definire quali sono le porzioni della biblioteca digitale cui possonofare accesso i diversi utenti in base alle loro differenti autorizzazioni d’accesso; un modellocosì definito estende sensibilmente gli attuali meccanismi di definizione dei diritti d’accesso
1.2.3 Approccio ed obiettivi specifici
L’attività di questo work package si concentrerà sulla definizione di linguaggi e tecniche perl’interrogazione di documenti XML senza la conoscenza anticipata della loro strutturasintattica, cioè quali marcatori sono disponibili nel documento, in quale ordine e come sonoannidati tra loro La ricerca proposta si adatta ad un contesto in cui documenti multimedialivengono estratti da biblioteche digitali eterogenee e non aderiscono perfettamente alleregole del DTD o schema XML, come ci si può aspettare quando una collezione di dati siottiene accedendo ad un grande volume di sorgenti eterogenee largamente distribuite sulWeb Si dovrà poi tenere conto di altri aspetti che assumono particolare rilievo in questocontesto, come ad esempio la disponibilità di un'interfaccia grafica per la descrizione di unainterrogazione, che permetta agli utenti del sistema di formulare le interrogazioni senzadover scrivere delle frasi in una sintassi rigida In questo ambito, si potrà partiredall'esperienza fatta nella definizione del linguaggio XML-GL, arricchendolo con gli strumenticoncettuali richiesti per la formulazione di interrogazioni fuzzy
A fianco a questo filone di ricerca, verrà proseguita l’attività, già documentata in alcuni lavori,relativa alla realizzazione di linguaggi e meccanismi per regole attive in XML e alladefinizione di un modello per il controllo degli accessi a documenti XML e dei relativi algoritmi
di validazione degli accessi Tali ricerche verranno finalizzate al contesto delle bibliotechedigitali
Gli obiettivi tecnici specifici del lavoro condotto in questo work package saranno realizzati inuno specifico prototipo e saranno:
1 Studio della similarità topologica di documenti e dell’uso di logiche fuzzy e somiglianzatra grafi come meccanismi per esprimere questa similarità
2 Sviluppo di un nuovo e flessibile linguaggio per documenti XML per il recupero di datimultimediali La flessibilità sarà inclusa in modo da essere facilmente controllatadall’utente
3 Studio di un'interfaccia grafica per la specifica delle interrogazioni
4 Definizione di un meccanismo basato su regole attive per modellare nuovi servizi disupporto alle biblioteche digitali
5 Integrazione del modello di controllo dell'accesso per dati XML, in modo tale da fornire
un supporto alla creazione di diversi profili di utente con diversi privilegi di accesso aidati
1.2.4 Unità coinvolte
L'unità principalmente coinvolta in questa ricerca è quella del Politecnico di Milano, compostadalle seguenti persone: Stefano Ceri, Letizia Tanca, Piero Fraternali, Stefano Paraboschi,Giuseppe Pozzi, Sara Comai, Angela Bonifati, Andrea Maurino, Pierangela Samarati (UNIMI-Crema), Ernesto Damiani (UNIMI-Crema) L'unità ha partecipato a diversi progetti europei e
Trang 15nazionali su temi affini a quelli che saranno argomento di questa iniziativa (progetti europeiIDEA, WIDE, W3I3, FASTER; progetti nazionali Interdata, Data-X) Il filo conduttore dellaricerca che viene attualmente svolta è l'integrazione tra la tecnologia delle basi di dati e ilmondo Internet In questo ambito, le tecnologie legate a XML rivestono un ruolo centrale.Collaboreranno a questa ricerca anche l’unità operativa di Pisa (CNR-ISTI 1), che fornirà labase dei documenti in XML e l'interoperabilità con il sistema di Biblioteca Digitale XML, el’unità operativa di Modena, che fornirà la base di meta-informazione relativa agli stessidocumenti.
Riferimenti
WWW8: S Ceri, S Comai, E Damiani, P Fraternali, S Paraboschi, L Tanca XML-GL: A Graphical Language for
Querying and Restructuring XML Documents WWW 8, Toronto, maggio 1999, pp 1171-1187 VLDB99: S Ceri, P Fraternali, S Paraboschi Data-Driven, One-To-One Web Site Generation for Data-Intensive
Applications VLDB 1999, Edimburgo, settembre 1999, pp 615-626
EDBT00a: S Ceri, P Fraternali, S Paraboschi XML: Current Developments and Future Challenges for the
Database Community EDBT 2000, Costanza, marzo 2000, pp 3-17.
EDBT00b: E Damiani, S De Capitani, S Paraboschi, P Samarati Securing XML Documents EDBT 2000,
Costanza, marzo 2000, pp 121-135.
WWW9: S Ceri, P Fraternali, A Bongio Web Modeling Language (WebML): A Modeling Language for Designing
Web Sites WWW 9, Amsterdam, maggio 2000.
VLDB00: S Ceri, R Cochrane, J Widom Practical Applications of Triggers and Constraints: Success Stories and
Lingering Issues VLDB 2000, Il Cairo, settembre 2000.
Trang 16Work Package 1.3 Ontologie XML
http://www.ladseb.pd.cnr.it/infor/ontology/Papers/Ontobiblio/TOC.html)
Un aspetto fondamentale nella costruzione di una Biblioteca Digitale è la modalità diorganizzazione dell'enorme quantità di informazione relativa al suo contenuto A tale scopo,sono stati sviluppati sofisticati schemi di classificazione e regole di catalogazione per crearemeta-dati che descrivono il contenuto di una Biblioteca Digitale Una recente proposta(sviluppata nell'ambito della University of Michigan Digital Library-http://www.si.umich.edu/UMDL) per rappresentare la conoscenza sia del contenuto che deiservizi offerti da una Biblioteca Digitale è stata quella di utilizzare meta-dati basati suontologie; in tale proposta, l'uso di ontologie fornisce anche il supporto per tecniche diragionamento, basate sulle logiche descrittive, utili per sviluppare servizi automatici
L’eterogeneità nella rappresentazione e memorizzazione dei dati è un’altra dellecaratteristiche peculiari nelle Biblioteche Digitali Molto spesso i documenti sono memorizzati
in formati diversi, le collezioni sono interrogate utilizzando i linguaggi di interrogazione piùdisparati, i servizi di ricerca (search services) utilizzano protocolli tra loro incompatibili, icriteri di accesso ai dati e di gestione dei diritti d'autore sono diversi ed infine le modalità dirappresentazione dei risultati sono inconsistenti per sistemi diversi Di fronte a questiproblemi un'area di ricerca promettente per migliorare l'integrabilità delle Biblioteche Digitaliriguarda lo sviluppo di architetture a mediatore, le quali hanno come obiettivo quello diaccedere a informazioni presenti su sorgenti multiple In generale un mediatore riceve unarichiesta (e.g query) da parte dell'utente, invia diverse traduzioni della richiesta alle varieBiblioteche Digitali, raccoglie e integra le risposte per presentarle in forma omogeneaall'utente
L’uso di ontologie e di tecniche di ragionamento rappresenta, a nostro parere, un obiettivostrategico nel contesto delle Biblioteche Digitali in quanto può fornire uno strumento efficace
di accesso più selettivo e quindi più efficiente alla grandissima quantità di documentidistribuiti in rete Nel contesto delle ontologie, inoltre, la scelta del linguaggio dirappresentazione è un elemento discriminante Tale linguaggio deve, a nostro parere, esseresviluppato a partire dal nucleo di primitive di modellazione definite (ed in corso di estensione)nel linguaggio XML, in quanto l'XML sta diventando di fatto un formato universale di scambiodati per l'ambiente Web
Il punto di partenza per questo tema di ricerca è il sistema MOMIS (Mediating systemEnvironment for Multiple Information Sources), la cui progettazione e realizzazione èiniziata presso l’Università di Modena e Reggio Emilia nell’ ambito del progetto MURSTINTERDATA 97/98, e che permette la costruzione di una vista globale virtuale di sorgenti diinformazione eterogenee e distribuite Un prototipo di tale sistema è stato recentementepresentato al congresso VLDB 2000 ed è stato accettato alla Bourse Européenne deTransferts & de Partenariats Technologiques Technologies de l'Information & de laCommunication che si terrà a Toulouse il 18/20 Ottobre 2000
Trang 171.3.2 Obiettivi Strategici
L'obiettivo che ci si pone in questo WP è la costruzione di una ontologia di Biblioteca Digitaleche sia capace di rappresentare una Vista Globale Virtuale GVV delle singole BibliotecheDigitali locali e che definisca le regole di mapping tra la vista globale e le biblioteche locali Inaltre parole, l'intenzione è quella di costruire un "Common Thesaurus" delle relazioniintensionali ed estensionali sia di tipo intra-schema sia di tipo inter-schema in modo dariconciliare viste e rappresentazioni differenti di concetti simili, cioè meta-dati diversi dellevarie Biblioteche Digitali locali nella vista globale
Le Biblioteche Digitali locali forniranno il loro schema strutturale per mezzo di una DTD/XML
e la vista globale virtuale sarà anch'essa esportata come una sorgente di dati XML La GVVdovrà essere un oggetto dinamico che potrà essere arricchito e dinamicamente aggiornatoaggiungendo nuove Biblioteche Digitali o modificando i meta-dati di una Biblioteca Digitale
1.3.3 Approccio ed obiettivi specifici
L'attività di questo WP sarà focalizzata sulla definizione di una metodologia di creazione diun’ontologia per Biblioteca Digitale, che utilizzi il linguaggio XML, e che sia atta arappresentare una GVV delle singole Biblioteche Digitali locali Sarà inoltre realizzato unprototipo software per l’ausilio all’integrazione delle Biblioteche Digitali Locali
Saranno estesi la teoria e la metodologia relativa all'integrazione di sorgenti proposta inMOMIS in modo da superare le nuove problematiche introdotte dal contesto delle BibliotecheDigitali e dall’adozione del linguaggio di riferimento XML I requisiti per lo sviluppo di talemetodologia verranno raccolti sulla base delle Biblioteche integrate già esistenti e sullenuove proposte di standardizzazione ed interoperabilità dell’Open Archives Initiative
Lo studio teorico trova i propri fondamenti su un approccio semantico che usa tecnichebasate sulle logiche descrittive, il sistema lessicale WordNet, l'uso di tecniche di clustering
ed una estensione del linguaggio ODL-ODMG, denominata ODLi3, progettata per rispondere
ai requisiti di integrazione
Verrà inoltre prodotto un prototipo software, dotato di un interfaccia grafica, che assisterà ilprogettista durante le fasi di costruzione dell’ontologia per le Biblioteche Digitali Partendodalla descrizione degli schemi delle Biblioteche Digitali locali eterogenee (che potrà esserefornita sia utilizzando XML sia altri formati), i wrapper permetteranno di ottenere in manierasemi-automatica la descrizione nel formato comune ODLi3 degli schemi locali.Successivamente, il progettista sarà assistito dal tool nella creazione della GVVrappresentativa di tutte le sorgenti che verrà espressa in ODLi3 e che verrà esportata comeuna sorgente di dati XML
La creazione della GVV sarà ottenuta utilizzando un approccio semantico e perseguendo iseguenti obiettivi:
1 Estrazione semi-automatica delle descrizioni ODLi3 delle Biblioteche Digitali locali edella relativa semantica: keyword, contesto,
2 Estrazione semi-automatica delle relazioni terminologiche e generazione del
"Common Thesaurus Le relazioni terminologiche esprimono conoscenza di tipointensionale inter e intra-schema
3 Inclusione nel "Common Thesaurus" di relazioni esplicite fornite dal progettistadell’ontologia (sia di tipo intensionale che di tipo estensionale) e di relazioni inferite
4 Clustering basati sull'affinità tra classi che descrivono i meta-dati delle diverseBiblioteche Digitali Le relazioni terminologiche nel Thesaurus saranno utilizzate pervalutare il livello di affinità tra le classi delle diverse Biblioteche Digitali; a questo
Trang 18scopo, saranno definiti degli opportuni coefficienti che misurano il livello di affinità traclassi
5 Generazione dei cluster: le classi affini saranno raggruppate insieme utilizzandotecniche di clustering gerarchico
6 Costruzione della vista virtuale globale: una classe globale integrata, che siarappresentativa di tutte le classi che afferiscono al cluster, sarà definita per ognicluster L'insieme delle classi globali definito costituisce la GVV
7 la GVV che verrà esportata come una sorgente di dati XML
In particolare, con riferimento al punto 2, l'approccio adottato è quello di sfruttare un sistemalessicale che valuti l'esistenza di relazioni terminologiche a priori Il sistema maggiormenteutilizzato per questi scopi è WordNet, un tesauro lessicale che rappresenta la più importanterisorsa utilizzabile sia nel campo della linguistica computazionale sia nel campo dell'analisitestuale WordNet è stato sviluppato dal "Cognitive Science Laboratory" della Università diPrinceton, dal prof George A Miller WordNet si ispira alle recenti teorie di psicolinguisticalessicale umana Parole, verbi, aggettivi e avverbi del linguaggio inglese sono catalogate ininsiemi di sinonimi (synset), ognuno rappresentante uno specifico concetto lessicale.Differenti generi di relazioni collegano gli uni agli altri synset Il punto di partenza dellasemantica lessicale è il riconoscere che esiste una corrispondenza convenzionale tra “leparola usate” ed i loro significati, tale corrispondenza è nel caso generale molti a molti,dando origine alla “polisemia” (la proprietà di una parola di avere piu` significati) e
“sinonimia” (la proprietà di un significato di essere esprimibile con parole diverse) Inoltre tra
le relazioni individuate da WordNet possiamo elencare: “ipernimia” : un concetto è ipernimo
di un altro se il secondo è piu` specializzato (la relazione duale tra concetti è ”iponimia”);
“meronimia” , relazione semantica che sussiste tra due concetti di cui il primo è parte delsecondo (la relazione duale è “olonimia”); “correlazione” che lega due synset checondividono lo stesso ipernimo
L’interazione con WordNet permetterà di proporre le relazioni terminologiche individuate alprogettista; tali relazioni, se confermate, verranno aggiunte al Common Thesaurus comerelazioni intensionali
Con riferimento al punto 3), l'approccio che sarà adottato è basato sulla teoria dell’analisiformale di contesto il cui scopo è quello di produrre una gerarchia di generalizzazione nellaquale vengono organizzate tutte le classi che appartengono a sorgenti diverse Questoapproccio teorico è basato sulla definizione di “assiomi estensionali”: tali assiomi definisconorelazioni insiemistiche tra le estensioni delle classi appartenenti a sorgenti diverse; inparticolare, date due classi C1 e C2 considereremo le seguenti relazioni: disgiunzione,equivalenza, inclusione e sovrapposizione
L’idea è che il progettista possa inserire, oltre a relazioni intensionali esplicite, assiomiestensionali
1.3.4 Unità coinvolte
L'unità di ricerca principalmente coinvolta in questo progetto è il Dipartimento di Scienzedell'Ingegneria (DSI) dell'Università di Modena e Reggio Emilia, composto dalle seguentipersone: Paolo Tiberio, Sonia Bergamaschi, Paolo Ciaccia (UNIBO), Luca Pazzi, DomenicoBeneventano, Alberto Corni, Francesco Guerra, Ilario Benetti L'unità ha una vastaesperienza nel campo dei sistemi di database intelligenti e nell'integrazione intelligente diinformazioni
Collaboreranno a questo WP anche l'unità operativa di Pisa, che fornirà la base deidocumenti in XML e l'interoperabilità con il sistema di Biblioteca Digitale XML, l'unitàoperativa di Milano, che sperimenterà la base di meta-informazione relativa agli stessi
Trang 19documenti, rappresentata nell'ontologia XML, e l'unità di Roma Tre, che fornirà strumenti per
la conversione in XML di documenti disponibili solo in altri formati."
Trang 20Work Package 1.4 Annotazioni
1.4.1 Stato dell’arte
Le attività di ricerca e sviluppo nella pubblicazione di documenti a testo pieno in formatoelettronico come, ad esempio, libri o rapporti tecnici di ricerca, precorrono l'avvento diInternet e del Web; per esempio, il progetto Gutenberg iniziò nel 1971(http://www.gutenberg.net) Lo sviluppo delle risorse di calcolo e di rete permettono oggi direalizzare dispositivi e software per documenti elettronici che sono delle copie delle versionicartacee e che possono essere rese eventualmente disponibili attraverso un Web browser
Un documento elettronico può essere arricchito in modo manuale di collegamenti, sfruttandol'informazione fornita dalla struttura logica e di presentazione, decisa dall'autore deldocumento Sono stati proposti diversi prodotti e sono state intraprese iniziative distandardizzazione; solo per citare alcuni esempi, si segnalano eBook(http://www.nuvomedia.com), Glassbook (http://www.glassbook.com), Open Ebook Initiative(http://www.openEBook.org)
Il caso dei libri di testo elettronici è particolare perché investe un mercato di notevolidimensioni, quello scolastico e universitario, e perché l'annotazione è particolarmenteutilizzata con un libro di testo; si noti che ci sono alcune iniziative collegate come, adesempio, NetLibrary (http://www.netlibrary.com) L'utilizzo di un libro di testo elettronico èdiverso da un qualsiasi libro cartaceo o elettronico: l'editore può pensare a diverse strategie
di vendita di un libro di testo elettronico per risolvere il problema dei costi e del peso dei libricartacei; il docente può organizzare i contenuti in modo flessibile integrando, ad esempio, illibro elettronico con altre risorse, e viceversa
L'annotazione è legata all'utilizzo di un documento elettronico e, in particolare, di un libro ditesto elettronico perché l'annotazione rappresenta un modo di utilizzo di questo strumento distudio Infatti, l'utente finale come, ad esempio, lo studente di un libro di testo elettronico, puòannotare e navigare il libro a scopo di riferimento, ossia per cercare risposte a domande.Gli aspetti peculiari delle annotazioni sono:
personalizzazione: l'utente descrive il contenuto semantico del documento utilizzando
un proprio linguaggio che integra quello utilizzato dall'autore del documento;
condivisione: per ogni documento, ci possono essere diverse annotazioni di diversiutenti finali che possono essere così condivise
Per queste peculiarità, la rilevanza delle annotazioni è data dal loro ruolo nelle fasi di:
descrizione personale e condivisa del contenuto semantico dei documenti elettronici:giacché un'annotazione è personale, è anche personale la descrizione del documento
in termini di parole chiave o dei sommari, rispettivamente, estratte e costruiti dalleannotazioni stesse; dato che è possibile condividere le annotazioni, allora è anchepossibile condividere le parole chiave e i sommari;
accesso mediante navigazione ai documenti elettronici di una biblioteca digitale:l'annotazione può costituire un ancora o un punto di arrivo di un collegamento; peresempio, la ricerca a scopo di riferimento inter- o intra-libro di testo è naturalmentelegata alla navigazione perché essa consente di attraversare un collegamento dadomande a risposte realizzate come annotazione
È importante sottolineare che le annotazioni sono ortogonali alla struttura logica e dipresentazione introdotte dall'autore perché esse sono evidenziazioni o strutturazioni deldocumento introdotte dall'utente sul contenuto semantico del documento in punti nonevidenziati dall'autore
Trang 21L'utente può, quindi, stabilire collegamenti di navigazione sulla base del contenuto semanticoallo scopo di sviluppare percorsi di fruizione personale dell'informazione Come per leannotazioni, questi percorsi di fruizione possono essere condivisi con altri utenti.
Il problema è dovuto alla dimensione dei singoli documenti e dell'intera biblioteca che rendeimpossibile la costruzione manuale di collegamenti tra le annotazioni sulla base delcontenuto semantico È necessario e utile lo sviluppo di strumenti automatici checostruiscono collegamenti per la navigazione tra annotazioni di uno o più documenti
1.4.2 Obiettivi Strategici
Il work package si prefigge di definire algoritmi e metodi efficienti per generare in modoautomatico sommari e collegamenti tra documenti e annotazioni I sommari e i collegamenticosì generati consentono di ottenere una descrizione sintetica del contenuto semantico deldocumento e di reperire altri documenti con un contenuto pertinente agli interessi dell'utente
Le collezioni di documenti digitali gestite risulterebbero, allora, coordinate e collegate, inmodo tale che l'utente possa trovare già disponibili dei percorsi di fruizione delle raccolte deidocumenti digitali e delle annotazioni Gli algoritmi e i metodi che verranno sviluppatipermetteranno di gestire e accedere in modo innovativo e secondo il paradigma dinavigazione le annotazioni di grandi raccolte di documenti digitali In questo modo saràpossibile affiancare ad una costruzione e utilizzazione delle annotazioni medianteinterrogazione, una costruzione della raccolta delle annotazioni in strutture simili a collezioni
di documenti Web in relazione e collegamento fra loro
Si ipotizzi uno scenario in cui un utente accede ad una biblioteca digitale alla ricerca diinformazioni pertinenti ai propri interessi L'utente consulta un documento digitale, trovatomediante uno strumento di ricerca come, ad esempio, un sistema di information retrieval e/o
di gestione di basi di dati L'utente desidera, spesso, avere un sommario del documento chesta consultando, allo scopo di usare tale sintesi nella redazione di un proprio documento Atal fine, egli potrebbe annotare le pagine del documento evidenziando, sottolineando oapponendo dei commenti Durante la consultazione di un documento, l'utente necessita,spesso, di consultare altri documenti dai quali estrarre altre informazioni utili per rispondere,
ad esempio, a domande
La ricerca di altri documenti può quindi avvenire mediante navigazione di collegamenti tra idocumenti L'utente seleziona le annotazioni, che possono essere, per esempio, parti didocumento appositamente selezionate, e utilizza tali annotazioni come ancore dicollegamenti verso altri documenti o annotazioni I documenti così collegati possono essere,
ad esempio, documenti con un contenuto simile a quello di partenza; le annotazioni collegatepossono essere, ad esempio, annotazioni apposte da altri utenti, anche su altri documenti
I possibili percorsi di navigazione possono essere eccessivamente numerosi e solo alcuni diessi sono effettivamente di interesse per l'utente; in effetti, le annotazioni apposte dall'utentesono una fonte per comprendere gli interessi dell'utente Questi dati possono esserecombinati con dei profili d'utente Metodi e tecniche di text mining verranno studiate perarrivare a costruire automaticamente percorsi di lettura e consultazione personalizzati nellediverse raccolte di documenti digitali In particolare si intende esplorare la possibilità dicostruzione automatica di profili d'utente e di percorsi di fruizione delle raccolte digitali
1.4.3 Approccio ed obiettivi specifici
Si condurrà un'attività di studio e di investigazione delle tecnologie esistenti e dei risultatiottenuti, sia a livello di ricerca che a livello industriale, per la gestione delle annotazioni didocumenti digitali Particolare attenzione sarà rivolta a XML e ad altre tecnologie standarddel World Wide Web Consortium per studiare l'integrazione della gestione delle annotazionicon i linguaggi di interrogazione e le ontologie basati su XML
Trang 22Si condurrà un'analisi dei requisiti degli utenti di una biblioteca digitale in cui i documentipossono essere annotati e in cui le annotazioni possono essere usate per operazioni dinavigazione, come descritto sopra Si definiranno le caratteristiche del prototipo, siinvestigherà l'esistenza di prodotti, strumenti o tecnologie che possono essere incorporatenel prototipo e, quindi, si individueranno i componenti software da acquisire e quelli dasviluppare durante il progetto.
Si progetteranno algoritmi e metodi efficienti di costruzione automatica, a partire dalleraccolte delle diverse tipologie di annotazioni che si deciderà di prendere in considerazionenell'ambito del progetto, di raccolte nelle quali sono stati costruiti automaticamentecollegamenti fra documenti e annotazioni simili
L'obiettivo è quindi di progettare e realizzare un prototipo che supporti l'utente a gestireannotazioni sui documenti che consulta, generi automaticamente dei collegamenti traannotazioni, tra documenti e tra annotazioni e documenti, recuperi (parti di) documentiutilizzando le informazioni contenute nelle annotazioni, generi un sommario sulla base delleannotazioni, permetta la personalizzazione e la condivisione delle annotazioni tra i diversiutenti della biblioteca digitale
1.4.4 Unità coinvolte
Le attività di questo Work Package saranno svolte principalmente dall'Unità Operativadell'Università di Padova che è composta dalle seguenti persone: Maristella Agosti, FrancoCrivellari, Massimo Melucci, Luca Pretto L'unità ha partecipato a progetti europei enazionali su tematiche vicine a quelle che saranno argomento di questa iniziativa (progettoeuropeo IRIDES di IDOMENEUS-ESPRIT Network of Excellence No.6606; Mira, ESPRITWorking Group No.20039; progetto finanziato dalla European Space Agency (ESA) su
"Semantic Network Inter-Operations"; progetto nazionale ADMV: Archivio Digitale dellaMusica Veneta del settecento; progetto nazionale Interdata)
Data la stretta correlazione funzionale fra le attività di questo Work Package con le attivitàconcernenti la definizione di una architettura aperta per Biblioteche Digitali XML, nella attività
di questo Work Package sarà coinvolta in modo sistematico anche l'Unità Operativa ISTI di Pisa L'attività relativa alla definizione di regole attive che verrà condotta dall'UnitàOperativa del Politecnico di Milano nel WP 1.2 può permettere di esplorare la definizione di
CNR-un modello di autorizzazioni in fCNR-unzione anche delle autorizzazioni alle annotazioni
Trang 23Work Package 1.5 Conversione Automatica in XML di
Documentazione Elettronica per Biblioteche Digitali
1.5.1 Stato dell’arte
XML è stato introdotto per superare alcuni dei limiti associati all'uso altri formati (ad esempioHTML, o SGML), e il suo utilizzo sembra particolarmente appropriato nel contesto dellebiblioteche digitali In particolare, è pensabile che le biblioteche digitali (DL) di prossimagenerazione saranno sviluppate avvalendosi di XML e della tecnologia ad esso correlata Tuttavia, fino ad oggi pochi documenti sono stati prodotti in XML La carenza di uno standarduniversalmente accettato, come sembra essere XML, ha fatto sì che l’informazioneelettronica fosse organizzata attraverso una pletora di formati diversi Integrare in una DL dinuova generazione informazioni elettroniche disponibili in formati diversi da XML può essereun'attività estremamente complessa e costosa Infatti, molti tra i formati utilizzati fino ad oggisono stati pensati principalmente per definire aspetti relativi alla presentazionedell’informazione, e offrono uno scarso supporto alla descrizione dell’organizzazione logicadelle informazioni L’esempio più significativo è costituito da HTML: la quantità diinformazioni disponibili su Web in questo formato è enorme, tuttavia la loro conversione inXML risulta un problema molto complesso e costoso Di conseguenza, la conversione diformato per la documentazione elettronica è un problema di notevole rilevanza nel contestodelle DL
La base di partenza per questo tema è l’esperienza, maturata dall’unità che vi èprincipalmente coinvolta, nello studio di tecniche, modelli e linguaggi per la specifica diprogrammi software (detti “wrapper”) per la manipolazione di sorgenti di dati semi-strutturati.Essenzialmente un wrapper costituisce una interfaccia di programmazione (API) chepermette di accedere alle informazioni immerse in un documento (testuale o in uno specificoformato ad esempio HTML o LaTeX); esso può quindi essere usato per estrarre questeinformazioni e rappresentarle in formati diversi, ad esempio in XML Lo studio delle tecniche
e la realizzazione di prototipi per la specifica di wrapper sono stati condotti principalmentenell’ambito dei progetti MURST Interdata (1997-1998) e Data-X (2000-2001)
1.5.2 Obiettivi Strategici
L'obiettivo del progetto è lo studio di tecniche innovative per l'automazione del processo disviluppo di wrapper, e lo sviluppo del prototipo di un sistema basato su queste tecniche Ci siconcentrerà sullo studio di tecniche applicabili a una vasta classe di sorgenti informative.Particolare attenzione verrà dedicata alle sorgenti informative HTML, che costituisconosicuramente uno dei formati più diffusi e al tempo stesso difficili da trattare
Il prototipo del sistema consentirà la generazione automatica di wrapper utili alla gestione diuna DL basata su XML In particolare i wrapper generati dal sistema potranno essereutilizzati per integrare documentazione elettronica disponibile in DL che adottano attualmenteformati diversi da XML, come HTML, pdf o ps e gestiscono un prorio repository diinformazione strutturata
1.5.3 Approccio ed obiettivi specifici
Il contributo principale del tema è di sviluppare tecniche che consentano di convertireautomaticamente in XML documentazione elettronica disponibile in formati diversi
Trang 24Il processo di conversione delle informazioni può essere visto come una scatola nera chericeve in ingresso un insieme di documenti in un certo formato e produce in uscita un nuovoinsieme di documenti XML contenenti le informazioni estratte dai documenti della collezione
in ingresso, opportunamente strutturate Il punto cruciale di questo processo consisteovviamente nella derivazione di opportuni wrapper che consentano di estrarre i dati eriprodurli in formato XML
Obiettivo principale del nostro approccio sono grandi collezioni di documenti disponibili informati diversi da XML Nel seguito, per descrivere l’approccio che intendiamo seguire,faremo principalmente riferimento al caso di sorgenti informative HTML (siti HTML) Tuttavia,risulterà evidente come le tecniche perseguite potranno essere utilizzate per trattarequalunque altro formato di codifica dell’informazione
Normalmente, i documenti contenuti in grossi siti HTML sono organizzati in classi didocumenti, che corrispondono a diverse categorie di informazioni nella sorgente Peresempio, un sito relativo ad informazioni artistiche può contenere una classe di documenti incui si presentano i principali artisti di un'epoca, un'altra classe in cui vengono riportati idettagli relativi alle opere di ciascun artista, un’altra ancora in cui si descrivono lecaratteristiche salienti di ciascuna epoca Documenti della stessa classe normalmentecontengono elementi comuni; per esempio, il documento che presenta la vita di "Cimabue"sarà presumibilmente molto simile a quello che illustra la vita di "Giotto", e profondamentediverso da quello che riporta i dettagli dell’opera “La Primavera” di Botticelli
Per estrarre le informazioni da queste sorgenti e convertirle in XML è necessario sviluppare
un opportuno wrapper per ciascuna classe di pagine nel sito
Il nostro approccio è quello di vedere il sito come il risultato di un'operazione di codifica in unopportuno formato (HTML in questo caso) di una ipotetica base di dati Di conseguenza, lasemantica del wrapper è quella di implementare una funzione di decodifica che consenta, apartire dai documenti HTML, di ricostruire i dati originali e restituirli in formato XML
In particolare nel nostro approccio la creazione del wrapper si basa sulle similarità esibite daidocumenti appartenenti alla stessa classe: è possibile, in sostanza, provare a derivare, apartire da un campione sufficientemente ampio di documenti, una grammatica che nedescriva l'organizzazione, e utilizzare questa grammatica come wrapper
Il punto di partenza del nostro approccio è uno studio preliminare di carattere teorico delproblema della decodifica di informazione da pagine HTML che è stato recentementecondotto dal nostro gruppo (Grumbach and Mecca, ICDT-1999) Nel lavoro, è stato stabilito
un contesto formale per lo studio del problema della generazione di wrapper come
processo di codifica/decodifica delle informazioni Più specificamente: (i) è stata definitaformalmente una classe di funzioni di codifica che astrae efficacemente il processo digenerazione del codice HTML a partire da una base di dati, e ne sono state studiate leproprietà computazionali; (ii) è stato definito un modello di dati per la descrizione delcontenuto delle pagine HTML nello spirito delle basi di dati; il modello è una variante delmodello relazionale nidificato, arricchito con collegamenti ipertestuali, che consente, tral'altro, di rappresentare attributi mancanti e valori nulli; le istanze del modello hannol'importante proprietà di essere facilmente rappresentabili in XML, il formato che abbiamodeciso di utilizzare per la realizzazione delle biblioteche digitali di nuova generazione; (iii) èstato selezionato un sottoinsieme delle grammatiche regolari per la specifica dei wrapper;questo frammento, che è in corrispondenza 1:1 con il modello di dati scelto, rappresenta unbuon compromesso tra espressività nella descrizione dei documenti ed efficienza nell'analisigrammaticale; (iv) infine, sulla base del contesto formale descritto, sono state studiate leproprietà computazionali del problema di decodifica, dimostrandone formalmente lacalcolabilità
L’obiettivo specifico del presente tema è di studiare algoritmi ed architetture che consentano
di sviluppare il prototipo di un sistema basato sulle tecniche discusse (estendendole, senecessario, per trattare anche documenti elettronici in formati diversi da HTML) Di
Trang 25conseguenza, il progetto sarà centrato attorno a tre obiettivi principali, per ciascuno dei
quali verrà realizzato un prototipo software:
8 per cominciare, è necessario sviluppare algoritmi di decodifica che siano efficienti
ed efficaci, nel contesto formale descritto sopra; la decodifica di dati da una collezione
di documenti impone di affrontare due problemi: (i) il primo è quello di ricostruire loschema dei documenti; (ii) il secondo è quello di derivare una grammatica appropriatache consenta di estrarre le informazioni rilevanti nel documento pagina; la grammatica
sarà poi utilizzata come wrapper; il prototipo prenderà il nome di estrattore
9 per confrontare documenti della stessa classe, è necessario per cominciare ricostruire
le classi di documenti della collezione; è quindi necessario studiare tecniche per la
classificazione di documenti, che consentano di assegnare ciascun documento alla
propria classe; le classi create in questo modo potranno poi diventare il punto dipartenza per il processo di generazione dei wrapper; questo prototipo prenderà il
nome di classificatore
10 infine, vale la pena di notare che una collezione di documenti potrebbe contenere
anche esemplari unici, nel senso che non ci sono altri documenti nella collezione con
la stessa organizzazione; con riferimento all’esempio precedente è possibile pensareanche ad un documento che contenga la lista dei collegamenti alle pagine di tutti gliartisti Le tecniche basate su confronto e decodifica sono ovviamente inefficaci inquesti casi; di conseguenza è necessario sviluppare tecniche specifiche per lagenerazione di wrapper per queste pagine; questo prototipo prenderà il nome di
analizzatore (di esemplari unici)
I tre prototipi dovranno essere strettamente coordinati, in quanto l'output del classificatoredovrà essere utilizzato sia dell'estrattore sia dall'analizzatore; quest'ultimo utilizzerà anchel'output dell'estrattore
È importante notare che il processo di conversione attraverso wrapper generatiautomaticamente risulta complementare a molti degli obiettivi degli altri temi In particolare,
da una parte, attraverso il nostro contributo è possibile applicare tutte le tecniche basate suXML anche ad informazioni originariamente disponibili in formati diversi Dall’altra, notiamoche il nostro approccio ha l’obiettivo di identificare la struttura dei documenti di unacollezione; tuttavia esso non consente di associare una semantica ai vari elementi strutturaliidentificati A tal scopo si ritiene che le tecniche sviluppate nell’ambito del WorkPackage 1.3(Ontologie XML) dall’unità di Modena siano particolarmente appropriate per inferire,analizzando il contenuto di ciascun elemento la semantica corretta da associare a questi.Pertanto, è previsto un coordinamento fra i prototipi realizzati nel presente WP con quellirealizzati nel WP 1.3
1.5.4 Unità coinvolte
L’unità di ricerca principalmente coinvolta è il Dipartimento di Informatica e Automazione(DIA) dell’Università Roma Tre In particolare partecipano al progetto le seguenti persone:Paolo Atzeni, Giansalvatore Mecca (DIFA – Università della Basilicata), Paolo Merialdo,Valter Crescenzi
L'unità ha una vasta esperienza nei campi della gestione di dati in ambiente Web, gestione disequenze, gestione di schemi e modelli
Collaboreranno a questo WP anche l'unità operativa di Modena, che fornirà tecniche per lainterpretazione semantica delle strutture estratte dai wrapper generati automaticamente, el'unità operativa di Pisa, che supporterà l'interoperabilità con il sistema di Biblioteca DigitaleXML, in particolare col servizio di Repository
Trang 26Azione 2 Mine the Web
Il Web è essenzialmente un centro di servizi per l’informazione enorme, distribuito e globale,utilizzato nei più diversi ambiti, quali l’informazione giornalistica, la pubblicità e l’informazione
ai consumatori, la finanza, la formazione, il commercio elettronico, i servizi ai cittadini
Il Web evolve molto rapidamente: si calcola che ogni due ore un nuovo server vengaconnesso alla rete, e si è passati da circa 5 milioni di documenti web nel 1995 a oltre 1miliardo nel 2000 Il tasso di crescita della rete è illustrato nella figura Inoltre, l’informazionedisponibile è in forma ipertestuale e ipermediale, non strutturata ed eterogenea La quantità,
la qualità e la dinamicità dell’informazione su web rendono pertanto indispensabilimeccanismi efficaci di indicizzazione e ricerca e contemporaneamente rendono talimeccanismi difficili da realizzare e mantenere aggiornati Infatti la complessità delle pagineweb è molto maggiore delle tradizionali collezioni di documenti testuali: le pagine web nonhanno una struttura unificante e presentano molte variazioni di stile e contenuto Il Web ètalvolta considerato una enorme Digital Library, ma è purtroppo privo di indici standard percategoria, titolo, autore ecc.: accedere all’informazione desiderata in tale biblioteca puòessere una impresa proibitiva
Altre osservazioni che danno l’idea delle nuove sfide poste dal Web sono le seguenti:
Il Web cresce rapidamente e l’informazione è continuamente aggiornata: notiziari,mercato finanziario, pubblicità, portali Web aggiornano le loro pagine Webregolarmente e altrettanto frequentemente sono aggiornati i record di accesso ed icollegamenti tra pagine
Il Web è utilizzato da una comunità di utenti ampiamente variegata con background,interessi e usi completamente diversi Molti utenti non conoscono la struttura della rete
e non si rendono conto del costo di una particolare ricerca
Solo una piccola porzione dell’informazione è veramente rilevante o utile: si usa dire
che il 99% dell’informazione è inutile al 99% degli utenti Web In altre parole, una
Trang 27particolare persona è generalmente interessata ad una piccola porzione del Web,mentre il resto del Web contiene informazioni che non sono interessanti per lei ma checomunque offuscano le informazioni ricercate.
Come si può determinare la porzione di Web veramente rilevante per un certo utente? Come
si possono trovare pagine che siano altamente pertinenti e qualificate su uno specificoargomento di interesse? A queste esigenze cercano di rispondere gli attuali motori di ricerca,che gestendo enormi indici basati su keyword aiutano a localizzare insiemi di pagine webcontenenti le keyword specificate dall’utente Con tali motori un utente esperto può riuscire alocalizzare rapidamente documenti specificando un insieme di keyword e frasi attentamentescelte In realtà, gli attuali motori di ricerca basati su keyword presentano importantilimitazioni:
Qualità delle risposte: una keyword può essere menzionata in centinaia di migliaia di
documenti, e quindi i motori di ricerca molto spesso restituiscono riferimenti ad unaenorme quantità di documenti, molti dei quali marginalmente rilevanti per l’argomento
di interesse D’altra parte possono essere non recuperati documenti che sonoaltamente rilevanti per l’argomento ma non contengono la keyword direttamente
Copertura del Web: le dimensioni del web sono dell’ordine dei terabyte ed in continua
crescita: è praticamente impossibile realizzare un data warehouse che replichi ointegri tutta l’informazione del web e che possa essere di supporto al motore di ricercaper avere una visione completa ed aggiornata del web
Queste sono le motivazioni della ricerca di metodi più efficaci ed efficienti per la scoperta e
l’accesso di risorse su Internet; in tale contesto si colloca questa azione del progetto, che
intende investigare gli aspetti riguardanti sia l’efficacia che l’efficienza dei motori di ricerca
con il seguente approccio:
Efficacia: si intende procedere verso due obiettivi: il primo più a breve termine ed orientato
al miglioramento della tecnologia attuale, ed il secondo più a lungo termine orientato ad unavisione futuribile del Web
Per quanto riguarda il primo obiettivo l’idea è di combinare le tecniche di ricerca su Web contecniche di analisi di data mining In particolare si identificano le seguenti possibiliapplicazioni:
Identification of authoritative Web pages: analisi della struttura della rete al fine di
valutare l’autorevolezza dei siti Web
Web document classification: classificazione automatica e costruzione di indici e
glossari mediante tecniche di analisi del contenuto delle pagine Web
Mining what Web search engine finds: raffinamento dei risultati di interrogazioni a
motori di ricerca;
Weblog mining: analisi dei file di log di accesso a Web o proxy server al fine di
scoprire profili di accesso alle risorse Web Tale conoscenza può supportare lagestione dei clienti nel commercio elettronico, o può essere usata per migliorare leprestazioni dei o la qualità dei servizi Web
Il secondo obiettivo riguarda il ruolo che giocherà XML nella gestione dell’informazione suWeb nei prossimi anni e l’opportunità che questo può fornire nell’organizzazione dellametainformazione e cioè di una struttura che sommarizzi il contenuto, la struttura, i link e gliaccessi al Web e che evolve con il Web:
Warehousing a Meta-Web: costruzione di una visione multidimensionale e gerarchica
della rete come base dell’attività di spidering dei motori di ricerca (esplorazione dellarete e raccolta di informazioni)
Trang 28Efficienza: si intendono investigare due aspetti Il primo riguarda le strutture dati per
l'indicizzazione, e la loro combinazione con tecniche di compressione mirate ad ottimizzaresia lo spazio che il tempo di ricerca L’obiettivo è di sviluppare nuove tecniche dicompressione e indicizzazione full-text che superino le limitazioni degli approcci noti inletteratura Il punto di partenza è costituito da alcuni recenti risultati nel campo dellacompressione dati basati su una nuova tecnica, detta di Burrows-Wheeler, che trasforma iltesto in input in modo da renderlo maggiormente comprimibile
Il secondo aspetto riguarda la necessità che gli algoritmi di ricerca sfruttino al meglio imeccanismi e le poliche implementate dai moderni sistemi operativi delle architetture
commodity ad alte prestazioni; siano scalabili, ovvero siano già progettati per sfruttare la
distribuzione e il parallelismo Lo scopo è quello di poter trattare, incrementando se possibile
le prestazioni globali del sistema, collezioni di dati con dimensioni sempre più grandi Siintende investigare sia le problematiche relative alla realizzazione efficiente e scalabile,tramite distribuzione / parallelizzazione, di dimostratori data mining su dati Web, che leproblematiche Web search engine paralleli quali ad esempio:
valutazione di diversi paradigmi di parallelizzazione/distribuzione su architetture SMP
e COW; utilizzo di tecniche di compressione per ridurre gli accessi ai dischi;
schemi di condivisione dei dati;
schemi di partizionamento degli indici (es term vs document partitioning);
bilanciamento del carico;
valutazione di tecniche e meccanismi di comunicazione su rete
Nel progetto si intende inoltre investigare una alternativa alla architettura centralizzata deisearch engine che collezionano in una singola locazione tutte le pagine Web raccolte
Approcci alternativi sono i cosiddetti participatory service quali quelli utilizzati dal servizio
Gnutella Gnutella è un protocollo che permette a coloro che hanno un apposito client didistribuire files In questa organizzazione non c’è un unico computer responsabile dimantenere l’intera visione della rete
Si intende sviluppare un protocollo e programmi client/server che permettano la condivisione
di indici e del loro materiale pubblico Invece di trasferire documenti si scambieranno soltantoindici così da ridurre il traffico di almeno un ordine di grandezza
L’azione è organizzata secondo le seguenti attività di ricerca denominati WorkPackages:
Participatory Search Services
Responsabile: Prof.ssa Maria Simi Unità coinvolte: Dipartimento di Informatica, Ideare
Trang 29Work Package 2.1 Web Mining
Responsabile: Dott Salvatore Ruggieri
Unità coinvolte: Dipartimento di Informatica, ISTI-CNR, Ideare SpA, ISI-CNR, FST s.r.l.
2.1.1 Stato dell’arte
Il Web mining studia l’uso delle tecniche di data mining per l’estrazione di informazione –
knowledge discovery – dai documenti e servizi Web Se in generale il data mining affronta il
problema di scoprire regolarità nascoste nei dati [F96, IM96, HK00], il Web Mining affronta ilproblema di individuare regolarità nella struttura e nel contenuto delle risorse Web, e neipattern di accesso alle risorse Web [KB00, E96] La conoscenza estratta può essereimpiegata per rispondere ai problemi di accesso ed indicizzazione del Web Il Web miningpuò essere suddiviso in tre principali categorie:
Web Mining
Web Structure Mining
Web Structure Mining
Web Content Mining
Web Page
Content Mining Search ResultMining
Web Content Mining
Web Page
Content Mining Search ResultMining
Web Usage Mining
General AccessPattern Tracking
CustomizedUsage Tracking
Web Usage Mining
General AccessPattern Tracking
CustomizedUsage Tracking
1 Structure mining: è mirato ad estrarre informazioni dalla topologia di interconnessione
fra le pagine Web Tali informazioni sono utilizzabili per diversi scopi: categorizzare isiti, scoprire relazioni di similarità fra i siti, valutare la rilevanza delle pagine I modellisono costruiti analizzando i riferimenti ipertestuali, il grafo di connettività del Web cheessi formano e le altre informazioni strutturali contenute nei documenti HTML o XML
2 Content mining: mira ad estrarre informazione dal contenuto delle risorse Web [KB00].
Le tecniche di mining possono essere applicate a dati di natura diversa: testuali, strutturati (HTML, XML), strutturati (tabelle relazionali, biblioteche digitali), dinamici(risultati di query a basi di dati) Le interazioni con le tecniche di Information Retrievalsono strette I modelli estratti sono utilizzati ad esempio per classificare ocategorizzare le pagine web, per estrarre keyword o sequenze frequenti di keyword,per inferire lo schema concettuale di una collezione di dati semi-strutturati, percostruire viste a livelli multipli di porzioni del Web Alcune direzioni di ricerca
semi-promettenti consistono nei Web query system che impiegano l’informazione strutturale sui documenti web per il trattamento di query di ricerca complesse, negli intelligent
search agent che operano per determinati profili utente sulla base di conoscenza di
dominio, nell’analisi del risultato dei motori di ricerca (mining what Web search engine
finds).
3 Usage mining: mira ad estrarre informazioni relative all’uso delle risorse Web, a partire dai dati di log generati dalle interazioni degli utenti con il Web Tali dati generalmente derivano da log di web server e di proxy servers, ma anche da log di browser, cookies,
profili utente, dati di registrazione a servizi Web, sessioni utente, interrogazioni utente,
Trang 30bookmarks L’analisi dell’uso del Web può essere applicata alla definizione di strategieintelligenti di caching e prefetching di risorse Web presso proxy o web servers,all’identificazione di utenti e sessioni utente, alla ristrutturazione automatica di siti Web
(adaptive web sites), ai sistemi di raccomandazione e di gestione della clientela
1 metodo di Page-rank [Bri 98]
usato da Google per misurare l’importanza delle pagine, basato su un modellostatistico di “random browsing”
11 metodo hub/authority [K98]
basato sull’individuazione di hub (pagine con numerosi link verso altre pagine su unostesso argomento) e authority (pagine riferite da numerose altre pagine) Hub eauthority esibiscono una relazione di mutuo rinforzo [k98] ha introdotto un metodo perl’individuazione del peso da assegnare a ciascun hub/authority basato sul calcoloiterativo degli autovalori della matrice di connettività del Web La tecnica è usata neisistemi HITS [K98] e Clever [C99]
Queste tecniche si sono dimostrate molto efficaci per migliorare la qualità e la rilevanza deirisultati di interrogazioni ai motori di ricerca
Recentemente [LM00] ha sviluppato un modello stocastico di analisi della struttura dei link,che sussume il metodo di Kleinberg Applicando il teorema ergodico ed altre proprietà dei
processi stocastici descritti con catene di Markov, [LM00] dimostra che i vettori di autovalori
a cui il processo converge sono banalmente costituiti dal numero di link entranti/uscenti in una pagina.
Questo risultato indica che le tecniche di Web mining sono appena agli albori e moltoresta da fare in questo settore
Non va dimenticato che la qualità del metodo dipende fortemente dalla possibilità diindividuare gruppi di pagine riguardanti uno stesso argomento In questo aspetto hannofondamentale importanza le tecniche di categorizzazione automatica
Classificazione dei documenti
Le tecniche tradizionali usate in Information Retrieval per categorizzare documenti si basanosull’analisi del contenuto dei documenti, applicando metodi di valutazione statistica dellamisura di distanza tra due documenti o tra un documento ed un profilo o prototipo di unacategoria
Recentemente il gruppo di Pisa ha sviluppato una nuova tecnica di analisi del contesto [A98]
che è stata applicata inizialmente alla classificazione di documenti, dove si è dimostrata piùaccurata ed efficace della tecnica tradizionale di classificazione per contenuto, specialmentenell’ambito del Web, dove i documenti hanno poca omogeneità e dove invece è possibilesfruttare l’organizzazione ipertestuale
La tecnica di analisi dei contesti viene attualmente utilizzata con notevole successo nellacostruzione di cataloghi Web, di raccolte specializzate (MP3, immagini, etc.) nei servizirealizzati da Ideare SpA (www.ideare.it)
Trang 31Il Web usage mining ha applicazioni significative nell’ambito della gestione dei siti Web, chevariano dalla ristrutturazione adattiva fino all’ottimizzazione del traffico Il Pisa KDDLaboratory (CNR-ISTI, Università di Pisa) ha sviluppato un sistema di Web cachingintelligente, che può essere applicato anche al caching delle query dei motori di ricerca
Intelligent Web Caching
Il Pisa KDD Laboratory ha sviluppato algoritmi di Web caching che impiegano modellipredittivi degli accessi al Web; l’idea è quella di estendere la politica LRU (last recently used)dei Web e Proxy servers rendendola sensibile ai modelli di accesso ai Web estratti dai dati dilog mediante tecniche di analisi di data mining [G00, KDD00] Si studiano due approcci: unobasato su regole di associazione e l’altro su alberi di decisione I risultati sperimentali deinuovi algoritmi mostrano miglioramenti sostanziali rispetto alle tecniche tradizionali dicaching, in termini di documenti Web direttamente rinvenuti nella cache (hit rate) È statosviluppato un prototipo che supporta il warehousing dei dati di Web log, l’estrazione dimodelli di data mining e la simulazione degli algoritmi di Web caching, facendo riferimento auna architettura che integra i vari passi del processo di KDD
2.1.2 Obiettivi Strategici
Il contesto presentato nelle precedenti sezioni dà una idea del notevole interesse che il WebMining sta suscitando, sia dal punto di vista della ricerca che dal punto di vista industriale Imiglioramenti e le proposte che derivano dalla ricerca sono recepite con una velocitàimpressionante dai prodotti commerciali Un percorso di ricerca in questo ambito deve quinditenere conto sia dell’interesse nel miglioramento della tecnologia attuale, ma deve ancheavere una visione più a lunga scadenza In questo progetto gli obiettivi strategici che siintendono perseguire sono:
1 in riferimento al ruolo crescente che XML giocherà nella gestione dell’informazione suWeb, si studierà come estendere le analisi di Web mining a collezioni di documentiXML al fine di sfruttare la maggiore informazione semantica resa disponibile;
2 la possibilità di esprimere query complesse di ricerca sul Web presuppone di estrarreunavisione omogenea del Web, che sopperisca alla sua mancanza di struttura
uniforme: si studierà una visione del Web come un database a strati multipli, che
riassume il contenuto, la struttura, i link e gli accessi al Web e che evolve con lostesso, ottenuto mediante analisi di data mining sui risultati dell’attività di spideringdei motori di ricerca (esplorazione della rete e raccolta di informazioni)
3 il processo di estrazione della conoscenza e il suo impiego nella costruzione diapplicazioni complesse richiede una delicata opera di verticalizzazione che coinvolgetutte le fasi del processo (datawarehoising, preprocessing, data mining, valutazine eduso dei modelli estratti): si definirà un ambiente di sviluppo per applicazioni diwebmining adattando il processo di estrazione della conoscenza alle caratteristichedell’informazione Web
Un breve approfondimento dei tre punti menzionati è riportato di seguito al fine di chiarire gliobiettivi strategici del progetto
Il ruolo di XML
XML rappresenta una direzione promettente verso un Web più strutturato e verso server basati su DBMS Con la notazione XML si possono infatti esprimere documentisemistrutturati, composti da una struttura che dà forma alle parti di testo Ciò consentirà ditrasformare il Web in una cospicua raccolta di documenti semistrutturati su cui saranno
Web-possibili interrogazioni più articolate della semplice ricerca per chiavi, del tipo: “Cerca il
Trang 32biglietto aereo più economico tra Pisa e NewYork”, “Costruisci l’elenco degli impieghi con salario > 100 milioni nell’area di Milano”.
La notazione XML si basa sull’uso di tag definibili dall’utente, oltre a quelli predefiniti di
HTML, e utilizzabili per strutturare i documenti e arricchirli con annotazioni semantiche Lafigura seguente mostra la diversa ricchezza di informazione dei due formalismi in unsemplice esempio relativo a dati personali
<lastname>
Abiteboul </lastname>
<email>
abi@inria.fr </email>
</person>
La struttura utilizzata in un documento XML può essere a sua volta descritta in notazioneXML mediante gli XML Schema, che sostituiscono i precedenti Document Type Definitions(DTD)
Per specificare come deve essere visualizzato un documento XML si fa uso dello stylesheet
language (XSL), che comprende un linguaggio per esprimere trasformazioni (XSTL) e un
insieme di costrutti di formattazione Ciò consente ad esempio di trasformare documentoXML in uno HTML visualizzabile mediante un normale browser
XML apre nuove opportunità di Web Mining, in quanto sarà possibile combinare nella ricerca
di regolarità e pattern significativi sia informazione che metainformazione
Una visione multi-strato del Web
La possibilità di query complesse di ricerca sul Web presuppone di estrarre una visioneomogenea del Web, che sopperisca alla sua mancanza di struttura uniforme [ZH98]
suggerisce una visione del Web come un database a strati multipli, che ne riassume i
contenuti e la struttura ed evolve esso stesso con il Web Il livello 0 di tale database coincidecon il Web; il livello 1 contiene una entry per ogni risorsa Web ritenuta importante, conl’indicazione della URL, del tempo, della classe e delle keywords, della popolarità, dei link,eccetera; i livelli successivi sono ottenuti per astrazioni dei livelli più bassi mediante tecniche
di mining (sommarizzazione, classificazione, clustering)
L’architettura a livelli multipli dovrà poter essere aggiornata in modo incrementale; la suafunzione preminente sarà quella di separare i dati dai meta dati, e di fornire unaindicizzazione semantica delle risorse Web Le interrogazioni complesse o le analisi di datamining potranno essere eseguite direttamente sul database multi-strato, o comunqueassistite da questo
Trang 33G e n e ra liz e d D e s c rip tio n s
M o re G e n e ra liz e d D e s c rip tio n s
L a y e r0
L a y e r1
L a y e rn
Web Mining ed il Knowledge Discovery Process
Il processo di estrazione della conoscenza (KDD process) è costituito da una serie di fasiche precedono e seguono il data mining, illustrate nella figura sottostante Lo sviluppo di
applicazioni complesse, dal market basket analysis alla fraud detection fino al Web mining,
richiede la possibilità di verticalizzare tutte tali fasi adattandole ed integrandole dentro undecision support system, oppure un sistema di Web caching, un motore di ricerca o unportale per commercio elettronico [G99]
Il Pisa KDD Laboratory ha sviluppato un ambiente a supporto del processo di data mining incui i risultati intermedi, gli input e gli output agli algoritmi di data mining, le azioni dimanipolazione dei dati e lo stesso query language sono rappresentati in notazione XML Ilsistema così concepito presenta da un lato l’interoperabilità tra vari tool di data mining,nonché la possibilità di esprimere la loro composizione e dall'altro è predispostoall'applicazione degli stessi strumenti su dati codificati in XML [T00] Tale ambiente puòcostituire una base di partenza per questo obiettivo del progetto
Trang 342.1.3 Approccio ed obiettivi specifici
Nel progetto si intendono superare le limitazioni della tecnologia attuale di ricerca edaccesso al Web adottando soluzioni che sfruttino XML e l’approccio meta-web
Il primo obiettivo è il potenziamento degli attuali strumenti di Search Engine con strumenti dimining al fine di migliorare la qualità delle risposte e la copertura del Web I temi principalisono i seguenti:
1 definizione di algoritmi di ranking sensibili al risultato di mining sul contenuto e sullastruttura dei documenti raccolti nella fase di spidering;
2 classificazione intelligente di documenti Web;
3 riconoscimento di siti autorevoli e clustering di pagine Web;
4 analisi dei log dei search engine per il caching intelligente dei risultati di queryfrequenti;
5 analisi dei log dei proxy e web server per il tracking delle sessioni e dei profili utentecon finalità che variano dal caching intelligente, al prefetching, alla ristrutturazione deisiti e dei servizi web, fino al supporto dell’e-business
Gli obiettivi intermedi e di più lunga portata sono i seguenti:
1 Mining di struttura e di contenuto su collezioni di documenti XML: si intende sfruttare
la natura semi-strutturata e la meta informazione per definire metodi di estrazionedella conoscenza mirati alla classificazione ed al ranking automatico di documentiXML
2 Ambiente per lo sviluppo di applicazioni verticali di data mining all’accesso e recuperointelligente di informazioni su Web: tale ambiente dovrà integrare un repertorio distrumenti ed algoritmi di analisi specializzati allo sviluppo di modelli di analisi delcontenuto, della struttura e dell’uso del Web, e permettere l’uso di tali modelli ai finidella prototipizzazione e dello sviluppo di motori di ricerca intelligenti
[A98] G Attardi, et al Categorization by context Proc WebNet Conference, 1998.
[BP98] S Brin, L.Page The anatomy of a large scale hypertextual Web search engine In Proc 7 th Int
World Wide Web Conf., Brisbane, 1998.
[BR97] D Backman, J Rubbin Web log analysis: Finding a recipe for success
http://techweb.comp.com/nc/811/811cn2.html 1997.
Trang 35[C99] S Chakrabarti et al Mining the link structure of the world wide web IEEE Computer, 39(8):60-67,
1999.
[E96] O Etzioni The world-wide web: quagmire or gold mine? Communications of the ACM, 39:65-68,
1996.
[F96] U M Fayyad, G Piatetsky-Shapiro, P Smyth, and R Uthurusamy Advances in Knowledge
Discovery and Data Mining AAAI/MIT Press, 1996.
[G99] F Giannotti, G Manco, D Pedreschi, F Turini Experiences with a logic-based knowledge
discovery support environment In Proc 1999 ACM SIGMOD Workshop on Research Issues in
Data Mining and Knowledge Discovery (SIGMOD'99 DMKD) ACM Press, May 1999.
[G00] F Giannotti et al Data Mining techniques for Intelligent Web Caching Rapporto Tecnico del
progetto MineFaST, Luglio 2000.
[HK00] J Han and M Kamber Data Mining: Concepts and Techniques Morgan Kaufmann, 2000.
[K98] J M Kleinberg Authoritative sources in a hyperlinked environment In Proc ACM-SIAM Symp on
Discrete Algorithms, pp 668-677, 1998.
[KB00] R Kosala, H Blockeel Web mining research: a survey SIGKDD Explorations, Newsletter of the
ACM SIGKDD – Special Interest Group on Knowledge Discovery and Data Mining, 2(1):1-15, 2000 [KDD00] Pisa Kdd Lab Web Log Data Warehousing and Mining for Intelligent Web Caching Data and
Knowledge Engineering, 2000 Submitted.
[IM96] T Imielinski and H Mannila A database perspective on knowledge discovery Communications of
ACM, 39:58-64, 1996.
[LM00] R Lempel and S Moran The stochastic approach for link-structure analysis (SALSA) and the TKC
effect (in press), 2000.
[PE97] M Perkowitz and O Etzioni Adaptive sites: Automatically learning from user access patterns In
Proc 6th Int World Wide Web Conf., Santa Clara, California, April 1997.
[S97] T Sullivan Reading reader reaction : A proposal for inferential analysis of web server log files In
Proc 3rd Conf Human Factors & the Web, Denver, Colorado, June 1997.
[ZH98] O Zaiane, J Han WebML: querying the world wide web for resources and knowledge In Proc
ACM CIKM’98 Workshop on Web Information and Data Management WIDM’98, p 9-12, 1998.
[ZX98] O R Zaiane, M Xin, and J Han Discovering Web access patterns and trends by applying OLAP
and data mining technology on Web logs In Proc Advances in Digital Libraries Conf (ADL'98),
pages 19-29, Santa Barbara, CA, April 1998.
Trang 36Work Package 2.2 Indicizzazione e compressione
Responsabile: prof Paolo Ferragina
Unità coinvolte: Dipartimento di Informatica, Ideare SpA
2.2.1 Stato dell’arte
Lo sviluppo di strutture dati e algoritmi efficienti per problemi di ricerca su grosse quantità didati testuali riveste oggi un ruolo strategico determinante [BR97, WBM99] per diverseragioni: l’aumento del gap tra le prestazioni dei processori e le velocità di accesso allememorie, la crescita esponenziale dei documenti reperibili in forma elettronica, che sorpassa
la pur non indifferente crescita della capacità di memoria (centrale e di massa) dei computerattuali L’efficienza delle soluzioni riguarda non soltanto i tempi di risposta alle query postedall'utente, ma anche lo spazio occupato dalle strutture dati utilizzate [M99]
Per realizzare strutture dati per l'indicizzazione si seguono principalmente due approcci:indici basati sulle parole (word-based) oppure indici basati sul testo completo (full-text) Iprimi permettono di ridurre lo spazio al prezzo di poter cercare efficientemente solo parole oprefissi di parole; i secondi possono coniugare versatilità e buone prestazioni al prezzo però
di una grande occupazione di memoria [BR99, WMB99] Alcuni progressi sugli indici full-textsono stati ottenuti recentemente, ma le strutture dati proposte occupano uno spazio cherisulta asintoticamente lineare nella dimensione dei testi indicizzati Ciò rende attraenti gliindici word-based quando lo spazio risulta la risorsa primaria da minimizzare e le query sonoprincipalmente word-oriented
Questo è il tipico scenario che si incontra nello sviluppo di motori di ricerca per grandicollezioni di dati testuali e per il Web
2.2.2 Obiettivi strategici
La compressione può giocare un ruolo importante in questo ambito avendo benefici effetticollaterali non limitati al risparmio in spazio: anche il tempo di accesso alle strutture dati puòessere ridotto in quanto minore è la quantità di dati da trasferire o minore è lo spazio disco
da percorrere [K98] Per questo motivo, gli approcci che tendono a combinare indicizzazione
e compressione stanno ricevendo attualmente sempre più attenzione Diverse pubblicazionirecenti [BR99,WMB99] danno ampio spazio alle tecniche di compressione e a come questepossano contribuire al miglioramento delle prestazioni degli indici, sia word-based che full-text Comunque, questi risultati sono basati essenzialmente su euristiche che ottengonotrade-off sperimentali tra occupazione in spazio ed efficienza della ricerca (vedere ad es.[Glimpse]) Per cui la loro efficienza dipende da numerosi fattori, quali la struttura dei testi daindicizzare, la loro dimensione, il tipo di query da supportare, ecc
L’obiettivo della nostra ricerca dunque è quello di sviluppare nuove tecniche di compressione
e indicizzazione che superino le limitazioni degli approcci noti in letteratura, offrendo la
maggiore flessibilità e robustezza possibile Flessibilità, in quanto, si vorrebbe poter
indicizzare collezioni di testi anche molto diverse tra loro usando lo stesso tipo di indice e lastessa tecnica di compressione, senza il bisogno di dover studiare ogni volta delle tecnichead-hoc Robustezza, in quanto, si vorrebbe poter quantificare matematicamente la bontà di
questo indice utilizzando misure oggettive quali l’entropia della collezione di testi (per la valutazione dello spazio) e la complessità in tempo al caso pessimo (per la valutazione delle
prestazioni nelle query)
Trang 372.2.3 Approccio e obiettivi specifici
Il punto di partenza della nostra indagine è costituito da alcuni recenti risultati nel campodella compressione dati [BW94, M99, S99] Questi si fondano su una nuova tecnicasviluppata da Burrows-Wheeler [BW94], che trasforma il testo in input in modo da renderlomaggiormente comprimibile Le prestazioni degli algoritmi basati su questa tecnica sonosperimentalmente migliori di strumenti noti quali gzip, pkzip, ecc (si veda [S97, WMB99] per
un confronto)
In un lavoro recente [FM00] abbiamo dimostrato che è possibile utilizzare la trasformazione
di Burrows-Wheeler per il progetto di un indice compresso che non richiede ladecompressione completa all'atto della ricerca In questo lavoro è stata introdotta la primastruttura dati che trae vantaggio dalla comprimibilità dei testi per ridurre lo spazio occupato,senza però pregiudicare in alcun modo l'efficienza delle ricerche eseguibili su di essa Piùprecisamente lo spazio totale è funzione lineare dell'entropia dell'insieme dei dati indicizzato,
e quindi risulta ottimo nel senso della teoria dell'informazione; inoltre, la complessità in tempodella query è del tutto paragonabile a quella ottenuta dai migliori indici full-text [BR99] sia perquanto concerne il conteggio delle occorrenze che il recupero delle stesse, se siamo inpresenza di query selettive In questo progetto ci proponiamo dunque di investigaresperimentalmente la bontà di questa soluzione, confrontandola con strumenti dicompressione e ricerca noti, quali Zgrep, Bgrep, Suffix Array, ecc
Inoltre, date le interessanti proprietà della struttura dati introdotta in [FM00], risulta a nostroavviso cruciale valutare la sua applicabilità al progetto di motori di ricerca sofisticati Inparticolare questo indice potrebbe essere utilizzato come blocco di base nella realizzazione
di un database compresso di pagine Web, in cui il motore di ricerca viene realizzato mediate
un indice word-based Questo DB potrebbe essere utilizzato per fornire una funzionalitàmolto interessante: la visualizzazione delle porzioni di pagine Web contenenti le occorrenzedelle keyword cercate (Il famoso motore Google offre questa funzionalità.) Le tecniche oggiadottate per garantire un accesso casuale alle informazioni contenute in DB compressi, nonraggiungono delle buone percentuali di compressione poiché si basano sul metodo diHuffman [S97, WMB99] La struttura dati in [FM00] potrebbe essere adottata invece perottenere una compressione significativa del DB e per supportare il recupero efficiente dellepagine selezionate “a caso” dall’indice word-based come risultato di una query
Deliverables:
Algoritmi e strutture dati per indicizzazione e ricerca su testi compressi
Brevetto industriale sugli algoritmi suddetti
Implementazione e verifica sperimentale delle prestazioni degli algoritmi
Documentazione tecnica e scientifica
Trang 38[FM00] P Ferragina, G Manzini Opportunistic data structures with applications IEEE Foundations of
Computer Science (FOCS), 2000.
[K98] D.E.Knuth Sorting and Searching, vol.3, The Art of Computer Programming Addison-Wesley 1998.
[MM93] U Manber, G Myers Suffix Arrays: A new method for on-line string searches SIAM J on
Computing, 1993.
[Glimpse] U.Manber, S.Wu GLIMPSE: A tool to search through entire file systems USENIX 1994
[Mu99] I.Munro Succinct data structures FST&TCS 1999.
[M99] G Manzini An analysis of the Burrows-Wheeler transform ACM-SIAM Symp on Discrete
Algorithms (SODA), 1999.
[S99] K.Sadakane A Modified Burrows-Wheeler Transformation for case-insensitive search with
application to suffix array compression IEEE Data Compression Conference, 1999.
[S97] D Salomon Data Compression: the Complete Reference Springer Verlag, 1997.
[WMB99] I.Witten, A.Moffat, T.Bell Managing Gigabytes: Compressing and Indexing Documents and Images.
Morgan Kaufmann, 1999.
Trang 39Work Package 2.3 Managing Terabytes
Responsabile: Dott Raffaele Perego
Unità coinvolte: ISTI-CNR, ISI-CNR, Ideare SpA
2.3.1 Stato dell’arte
Sempre più spesso tecnologie parallele e distribuite vengono adottate nella ricerca,nell’estrazione e nel recupero delle informazioni, per far fronte alle accresciute dimensionidei data warehouse delle aziende e delle amministrazioni pubbliche, e del materiale suInternet [WMB99, BYR99, HaK00]
Internet inoltre ha ampliato il numero degli utenti contemporanei ai servizi e pertantorende necessario l’utilizzo di tecniche di High Performance Computing, quali: server farms,workload distribution, query optimizations, advanced storage solutions, etc
Poter indicizzare ed estrarre informazioni da collezioni di documenti ipertestuali, nonstrutturati o semi strutturati, di dimensioni anche superiori al Tera Byte, di contenutoeterogeneo ed altamente dinamico, con elevato numero di accessi, ha richiesto lo sviluppo dinuovi algoritmi/strutture dati ottimizzati nel settore sostanzialmente consolidatodell’Information Retrieval (IR) [BYR99, WMB99] Ad esempio sono stati sviluppati nuovicriteri per il ranking dei documenti che tengono conto della natura ipertestuale dei documenti[BrP98], nuove tecniche di compressione degli indici full-text e dei documenti testuali[WMB99], indispensabili non solo per minimizzare l'occupazione di spazio disco ma ancheper aumentare le prestazioni della fase di ricerca attraverso un migliore sfruttamento dellegerarchie di memoria delle moderne architetture, tecniche di distribuzione e parallelizzazionedell'intero ciclo "recupero-indicizzazione-ricerca", indispensabili per gestire in manieraottimale in spazio e tempo enormi collezioni dinamiche di documenti e per garantire tempi dirisposta brevi all’elevato numero di interrogazioni sottoposte ai Web Search Engine (WSE)[WMB99, BrP98]
downloading
Figura 3 Schema a blocchi di un WSE
La Figura 3 illustra lo schema a blocchi di un WSE tradizionale I moduli Spider e Indexer sioccupano, rispettivamente di effettuare il download dei file da Web e della loroindicizzazione Il modulo Searcher si occupa di rispondere alle query degli utenti attraversol’uso degli indici
Trang 40La Figura 4 illustra lo schema generale di distribuzione del modulo Searcher di un WSE.
Query Broker
Partitioned Index
Partitioned Index Partitioned Index
Partitioned Index Partitioned Index
Partitioned Index
Internet
Figura 4 Schema generale di un WSE distribuito (modulo Searcher).
Per ottimizzare il recupero, la catalogazione, l'indicizzazione e la ricerca di documenti Websono inoltre state recentemente utilizzate tecniche di Data Mining (DM) che appaiono moltopromettenti [HaK00] Tali tecniche possono essere applicate per estrarre conoscenza apartire da:
contenuto delle pagine (Web content mining)
struttura topologica del Web (Web structure mining)
log di accesso al Web (Web usage mining).
Il Web mining ha anche ricadute sull’efficienza dei motori di ricerca Ad esempio, permette diottimizzare lo spidering e il ranking dei documenti, nonché le politiche di caching eprefetching implementate all’interno dei WSE Una problematica fondamentale nel campo del
DM, e del Web mining in particolare, è sviluppare algoritmi e sistemi che scalano conl’aumento della dimensione e della complessità dei dati [FrL98] A causa sia dell’enormedimensione dei dati trattati, soprattutto per quanto concerne il Web, e sia dell’enorme caricocomputazionale connesso all’impiego di algoritmi di DM, il calcolo parallelo e distribuito èoggi considerato un componente essenziale per realizzare soluzioni efficaci e soddisfacenti
La Figura 5 mostra uno schema comune per la parallelizzazione di un algoritmo di DMapplicato ad un dataset Web, e basato essenzialmente sul partizionamento dei dati