Modèle de stockage, de diffusion, déchange entre documentalistes dans un réseau de pairs

Institut de la Francophonie pourl'Informatique IFI École National Supérieure des Télécommunications ENST Paris RAPPORT DU STAGE DE FIN D'ÉTUDE Sujet : Projet KSCS/Webographe : Modèle d

Trang 1

Institut de la Francophonie pour

l'Informatique (IFI)

École National Supérieure des Télécommunications ENST Paris

RAPPORT DU STAGE DE FIN D'ÉTUDE

Sujet : Projet KSCS/Webographe :

Modèle de stockage, de diffusion, d'échange entre documentalistes dans un réseau de pairs

Réalisé par : PHAN QUANG Trung Tien – Promotion X - IFI Sur la direction de Professeur Jean Marc SAGLIO - ENST Paris

Paris, Septembre 2006

Trang 2

Mon stage de fin d'étude a été réalisé au Département Informatique et Réseaux (INFRES) del'École Nationale Supérieure des Télécommunications (ENST Paris) Permettez-moi tout d'abordd'exprimer ma profonde gratitude à tous ceux qui ont contribué directement ou indirectement àl'aboutissement de ce travail

Je tiens à remercier Professeur Jean Marc SAGLIO, mon responsable du stage, qui m'asoutenu et encadré constamment pendant 6 mois et avec lequel je me suis lié d'une amitié profonde

J'adresse mes sincères remerciements aux personnes de l'équipe S3 du Département INFRES,particulièrement Madame Annie DANZART pour leurs aides, leurs commentaires et leursdiscussions qui ont fait progresser mon travail

Mes remerciements vont à mes Professeurs de l’IFI pour leur soutiens pendant mes études auniveau Master en Informatique et mes camarades de la promotion X pour les bons moments passésavec eux Je n'oublie pas de remercier tous les personnels de l’IFI qui m’apportent de l’aide

Enfin, je ne pourrai pas oublier mes remerciements à ma famille qui m'a donné l'esprit pourfaire ce travail

Trang 3

Table des matières

Remerciements 2

Abstract 5

Résumé 6

Plan du rapport 7

1 MODÈLE DE STOCKAGE POUR UN BLOG SÉMANTIQUE 8

1.1 État de l'Art des Technologies de Collaboration 8

1.2 État de l'Art des Weblogs 9

1.3 Sémantique et la syndication de contenu avec RSS 12

1.4 Des Weblog sémantique 14

1.5 Aux services de « documentaliste du world-wide-web » 16

1.6 Modèle de stockage pour une mémoire collective .17

2 BLOG SÉMANTIQUE PERSONNALISÉ 19

2.1 Introduction 19

2.2 “Iceberg”, modèle de diffusion contrôlée pour un réseau de confiance entre pairs 21

2.3 Gestion de la confiance dans le modèle Iceberg 22

3 WEBOGRAPHE – RÉSEAU DE BLOG SÉMANTIQUE PERSONNALISÉ 23

3.1.Introduction 23

3.3.Liens inter- PKB 27

3.4.Vue d'un blog sémantique pour chaque lecteur 29

3.5.Application Web pour chaque Webographiste 32

4 CONCLUSION ET PERSPECTIVES 36

5 ANNEXES 37

5.1.La réalisation un arbre des topiques dans le Webographe 37

5.2.Table comparative des langages d'interface utilisateur XML 38

5.1.Écrit les extensions dans Thunderbird et Firefox pour la création des contenus PKB 39

5.4.Manuel du Webographe (en anglais) 41

Références 43

Trang 4

Liste des figures

Figure 1: Des offres disponibles actuellement dans le marché des outils collaboratif 9

Figure 2: État du Blogosphère 10

Figure 3: Principes de fonctionnement d'un blog 12

Figure 4: Exemple un fichier RSS 2.0 14

Figure 5: Une taxonomie personnelle dans le Web Of People 16

Figure 6: Une PKB, arbre de topiques personnels 18

Figure 7: Coupe d’une PKB 21

Figure 8: Schéma global d’une PKB 22

Figure 9: Lien dans un système multi-PKBs 27

Figure 10: Architecture standard pour chaque pair 28

Figure 11: L'échange entre des documentalistes (webographistes) 28

Figure 12: La vue d'un blog sémantique d'une documentaliste ou Webographiste 30

Figure 13: L’extension dans le Firefox 1.5 pour marquer les pages dans une PKB 31

Figure 14: Extension pour Thunderbird 32

Figure 15: Gestion de PKB sur une application Web 33

Figure 16: Implémentation le modèle Iceberg dans l'application 34

Figure 17: Gestion des vues et des contacts dans le Webographe 35

Figure 18: La vue des topiques sous forme un arbre hiérarchie 37

Figure 19: Le fichier RDF qui va gérer automatiquement à partir un script PHP .38

Trang 5

For the five last years, at the same time as with the development of an increasingly semanticWeb, by the connectivity of information, the improvement of the representation of knowledge, weoriented in a development of the infrastructures peer to peer (P2P) of exchange of knowledge - for

a “social” Web

We are interested particularly in this KSCS/Webographe project in the indirect sharing ofdocuments, by their references (URL), their descriptions, their annotations, theirs comments, incommunities of practices opened and directed towards the exchange of knowledge and more or lessexpert evaluations There are new tools developped quickly for integrating navigation/browsing,webographie/bookmarking, weblogging and semantic indexing (cf par ex Mozilla Live

Bookmarks, StumbleUpon, [Del.icio.us] , [Netvibes] , [WordPress], [Yahoo 360°] , [SomeOne] ,

etc )

In our understanding works about the development of these new practices, we think that it ismore important to consider the need of controlled diffusion for certain communities in which allinformations are not automatically divided in public That means publishing worldwide appearquickly dangerous to beginners in blogging due to its “share to all or share to none” model, and isvery far from the gossiping model used in P2P (peer to peer) networks, so this work explored arestrictive publishing model, called the "iceberg visibility model", based on self-defined viewsoffered (with associated RSS feeds) to self-defined groups of self-registered readers (eventuallysubscribers to RSS feeds) in order to support trustiness

It proposes to integrate all the levels of a system of exchange of recommendation andrecognition targeting in the communities of practices where the sharing is a function of the closerelationships, by using an infrastructure of exchange between the peers without central index

Keywords: Semantic web, Weblog, Peer-to-Peer systems, Really Simple Syndication (RSS),

database views, database protection

Trang 6

Résumé

Depuis les cinq dernières années, en même temps qu'au développement d'un web de plus en plus sémantique permettant, par la connectivité de l'information, le développement de la représentation des connaissances, nous assistons à un formidable développement des infrastructures pair-à-pair (P2P) d'échange de connaissances - pour un web "social".

Nous nous intéressons particulièrement dans le projet KSCS/Webographe au partage indirect

de documents, par leurs références (URL), leurs descriptions, leurs annotations, commentaires, dansdes communautés de pratiques ouvertes et orientées sur l'échange de connaissances et d'évaluationsplus ou moins expertes De nouveaux outils intégrant navigation/browsing,webographie/bookmarking, mise en fiche/weblogging et indexation sémantique se développent

rapidement (cf par ex Mozilla Live Bookmarks, StumbleUpon, [Del.icio.us] , [Netvibes] , [WordPress], [Yahoo 360°] , [SomeOne] , etc )

Notre travail pour comprendre le développement de ces nouvelles pratiques est celui del'affichage des capacités personnelles par des individus qui communiquent essentiellement pourdémontrer leur capacité à extraire avant les autres, ou mieux que les autres, les informationspertinentes de leur environnement physique et social

Mais, alors que beaucoup d'expériences et de recherches ont été faites sur des communautés

de pairs ó chacun publie indistinctement pour tous les autres, nous pensons qu'il est important de considérer le besoin de diffusion contrơlée de certaines communautés dans lesquelles tout n'est pas automatiquement partagé avec tous et ó, au contraire, le partage ne s'étend qu'au fur et à mesure du développement de relations de confiance

Dans un système centralisé, dès lors que les sites personnels peuvent être adossés à des bases

de données offrant le mécanisme de vue dynamique (en fonction de l'utilisateur) il n’y a pas de

verrou technologique pour une publication différentielle et évolutive selon l'évolution des

relations sociales dans la communauté Il n’en est pas de même dans des communautés ouvertes depratique ó chacun ne connaỵt qu’un sous-ensemble des autres Ce travail se propose de fournir desmécanismes de vues dans un tel environnement complètement décentralisé

Il se propose d'intégrer tous les niveaux d'un système d'échange de recommandation et dereconnaissance ciblant des communautés de pratiques ó le partage est fonction des relations de

confiance, en utilisant une infrastructure d'échange entre pairs autonomes sans index central.

Mot-clés : Semantic web, Weblog, Peer-to-Peer systems, Really Simple Syndication (RSS),

database views, database protection

Trang 7

Plan du rapport

En bref, le premier objectif dans mon stage est centré sur le développement de modèles etd'outils bien adaptés à des personnes qui cherchent à construire librement leurs réseaux de pairs enpartageant les contenus qu’ils créent, selon la confiance mutuelle qu’ils s’accordent et peuventremettre en cause Elle ne situe leur coopération ni dans l’écriture à plusieurs mains des mêmespages, comme dans le cas des "wikis", ni dans l’acceptation de «workflows» éditoriaux Elle admetl’autonomie et la responsabilité totale des écrivains, comme dans le cas des blogs Dans ce rapport,

je vais présenter un modèle de diffusion contrôlée pour que, dans un réseau de pairs autonomes,chacun contrôle librement ce qu’il veut dévoiler aux autres, ce qui lui permet d’assurer librement lesrisques et les profits d’une communication à confiance variable

Le deuxième objectif dans mon stage est une validation expérimentale avec un prototypequ'on l'appelle le Webographe Son logiciel d’installation est mis en accès libre à l'URLhttp://www.infres.enst.fr/webograph Il permet de déployer des serveurs LAMP ou WAMP pour desécrivains-lecteurs agissant comme des pairs autonomes Le choix de la technologie standard LAMP

ou WAMP a été fait pour permettre le déploiement facile du prototype De plus le logiciel libreMozilla Firefox a été choisi comme base de développement parce qu’il est facile de lui ajouter lesextensions nécessaires

Ce rapport est divisé en trois parties Premièrement, nous présentons l'état de l'art de latechnologie de collaboration et du blog sémantique Nous définirons aussi le schéma d'unecollection personnelle de contenus organisées comme un modèle de stockage d'une mémoirecollective pour des documentalistes Ensuite, dans la deuxième partie , nous allons aborder le blogsémantique personnalisé qui a objet de détailler des spécifications et de définir un modèle dediffusion contrôlée basée sur la confiance entre pairs qui serait facile à adopter et à implémenter Latroisième partie décrit ensuite le réseau de blog sémantique personnalisé en expérimentant leprototype Webographe

Trang 8

1 MODÈLE DE STOCKAGE POUR UN BLOG SÉMANTIQUE

1.1 État de l'Art des Technologies de Collaboration

Les qualités attendues des outils collaboratifs portent sur leur flexibilité, la possibilité deréférence unique, l'organisation de l'information, l'existence de processus, le cỏt et la facilité departicipation Or, si plusieurs types d'outils (fichiers/email, intranet ou espaces de travailcollaboratif, ERP, Wikis/Blogs) sont à la disposition des groupes pour collaborer, aucun d'entred'eux ne possède l'ensemble des qualités attendues :

• puissance fonctionnelle: la puissance fonctionnelle est recherchée mais ne doit pas aller àl'encontre de la simplicité d'accès et surtout à l'organisation des informations qui ne doit pasmultiplier les concepts d'organisation

• flexibilité: la capacité de l'outil à s'adapter à toutes les situations et contextes del'entreprise La flexibilité maximum est obtenu avec les outils les plus simples (l'émail par exemple)mais ces mêmes outils pêchent sur d'autres fonctions Un compromis doit être trouvé pour permettreflexibilité et puissance

• référence unique: dés lors que le travail est en groupe, l'information doit être partagée ettous les acteurs doivent disposer de la même information ou l'outil doit permettre la réconciliationdes informations modifiées en différents endroits Les mises-à-jour des informations doivent être enquasi-temps-réel afin d'être prise en compte immédiatement par tous les utilisateurs

• structuration: une fois les informations partagées il est nécessaire de permettre leurorganisation Les outils ont des possibilités différentes de ce cơté Les outils d'ancienne générationprivilégient les taxonomies tandis que les dernières avancées d'Internet privilégient les liens souples

et la folksonomie Une partie de l'information de l'entreprise peut être mieux exploitée une foisorganisée et structurés Dés lors que la structure des informations n'a pas de raison de changer dans

le temps, il y a des bénéfices à la saisir de façon structurée dans la mesure ou cela permet une plusgrande cohérence et facilite la création de rapports et de vues alternatives Cette structuration doitêtre possible à des cỏts raisonnable, ce qui est un challenge pour nombres d'outils

• processus: de la même façon que la structuration des informations peut apporter desbénéfices la mise en place de processus informatisés peut aussi permettre une meilleure organisation

et gestion de l'information, en particulier pour l'information qui est tournée vers l'action Cesprocessus doivent pouvoir être mis en place pour des cỏts raisonnables sans surcharger l'interface

• cỏts: ceci est une élément primordial Les entreprises ont besoin de solutions moinschères et évolutives Peu d'investissements au départ et plus au fur et à mesure que le systèmed'informations permet de faire progresser les équipes

• sécurité: la sécurité des outils collaboratifs est d'abord dans la gestion des droits et ensuitedans la circulation sécurisée des informations

Trang 9

puissance fonctionnelle flexibilité référence unique structuration processus cỏts participation sécurité Fichier,

email

faible moyen moyenne

Intranet,

espace de

travail

collaboratif

oui non oui moyen très moyen élevé moyen correcte

élevé faible élevée

Blogs oui oui oui oui partiel faible élevée correcte

Figure 1: Des offres disponibles actuellement dans le marché des outils collaboratif

1.2 État de l'Art des Weblogs

1.2.1 Weblog comme un nouvel outil d'échange

Aujourd'hui, l'Internet est devenu un nouvel espace social Lieu de communication etd'échange des informations, Internet peut faire la connexion entre des personnes partout dans lemonde Au milieu des années 90, aux État Unis, les Weblogs étaient nés avec le but de grouper unesomme de ressources en ligne autour un thème précis Ils se composaient d'un carnet de bord avecles hyperliens vers des pages Web que l'auteur avait jugé intéressantes, accompagnés decommentaires concernant ces pages Les premiers Weblogs francophones apparaissent en 1996

Un weblog est un bloc-notes ou un carnet de bord personnel ou un journal en ligne Il est unepage web dynamique Bien que certaines constantes formelles se retrouvent d'un blog à l'autre, on apas une présentation spécifique aux blogs En générale, un blog se compose d'une liste d'article,appelés les «billets»

Les weblogs sont accessibles au plus grand nombre, simples à mettre en œuvre, voire rapides

à installer Des offres gratuites en ligne aux logiciels libres à installer soi-même, le cỏt du bloggingpeut être relativement modique Avec l'arrivée des plates-formes de publication en ligne, aucunecompétence technique n'est nécessaire Tout cela contribue à la «démocratisation» d'Internet

On désigne par blogosphère l'espace virtuel que tous les blogs publiés sur l'Internet, maisaussi l'ensemble des blogueurs publiant sur le Web La blogosphère fait partie intégrante del'Internet

On trouve que le blog n'est aucunement réservé à une tranche de la population Lespersonnes qui bloguent ont des profils très différentes et cette diversité contribue à enrichir lablogosphère Aujourd'hui, la grand public a très bien intégré ce mode de communication, parexemple les adolescentes l'ont rapidement adopté comme moyen d'expression personnel

On considère que le weblog comme un outil social dans lequel le lecture et écriture trèsfacilement Il est un bon moyen d'échanges avec les commentaires ou les liens pour partager simême centres d'intérêt La blogosphère est une nouvelle phénomène croissante très forte Elle estplus de 60 fois plus grande qu'elle était il y a seulement 3 ans et elle continue à doubler environ tousles 6 mois, comme diagramme de [Technorati] au-dessous:

Trang 10

Figure 2: État du Blogosphère

Pour créer un weblog, on a deux choix Premièrement, on peut choisir un des nombreusesplates-formes de blogs prêt-à-publier comme un service sur l'Internet Ces plates-formes sontsouvent réalisées par des entreprises d'informatique Donc, on a toujours les messages publicitairedans le blog Et pour les fonctionnalités avancées que l'on ne trouve pas dans l'offre de base gratuite

de plate-forme, il faut payer

La deuxième solution consiste à l'installation un logiciel de publication de blog chez unhébergeur Web ou chez nous Ces logiciels de publication de blog, à destination des utilisateursavertis, associent l'outil de mise en page et de publication web à un gestionnaire dynamique decontenu On a besoin une base de données classifie les différents éléments consitutifs du blog

Aujourd'hui, il existe une mulitude de logiciels de publication et parmi ceux-ci, on aquelques logiciel libre comme le DotClear, WordPress, etc Ce sont des logiciels que nous pouvonstélécharger gratuitement la plupart du temps sur l'Internet, puis les utiliser, les améliorer et lesmodifier et les redistribuer à qui nous voulons sans risquer d'enfreindre la loi ni de violer de droitsd'auteur

1.2.2 Bilan des meilleurs outils Weblog

B2evolution est un outil relativement simple d’installation et d’utilisation L’ajout de plug-ins de

manière simple lui permet de suivre l’évolution des fonctionnalités des outils de gestion de blogs.Son interface d’administration lui permet la gestion d’une petite communauté pouvant disposer dedroits assez spécifiques De plus sa communauté semble assez active

Son utilisation correspond donc parfaitement à une petite communauté qui souhaiterait serassembler autour d’un outil commun de public et de syndication

Serendipity est un outil extrêmement simple à installer, à utiliser et à administrer Il est très

complet et intègre une gestion des plug-ins très pratique Néanmoins, cela en fait un logiciel fermé

Trang 11

plutôt axé pour les débutants et les personnes ne souhaitant pas retoucher du code php Il est multiutilisateurs (différents niveaux), il gère des catégories de blogs et permet de faire de l’agrégationtrès facilement Un petit défaut serait les menus très profond dans le mode administrateur.

Nucleus est l’un des outils de blogging le plus connu Il s’adresse presque exclusivement aux

personnes ayant des bases correctes en html et feuille de style Il dispose d’un grand nombre deplugins dont certains exclusifs (la syndication de bookmarks XBEL par exemple), mais il imposetrop souvent de se plonger dans ses entrailles On regrettera également le manque d’intuitivité deson module d’administration dont la courbe d’apprentissage peut décourager

Movable Type est très certainement l’outil le plus complet disponible à ce jour sur Internet Son

seul point faible reste son prix Il offre par ailleurs un grand nombre de plug-ins et un très bon SDK

De plus il est le seul à pouvoir supporter une charge en Blogs conséquente (c’est le moteur de blog

de Yahoo)

Thingamablog est un petit outil en Java permettant à un auteur de Weblog de gérer tout seul son

weblog sur sa machine et d’envoyer simplement ses pages web sur un hébergeur internet

Cet outil convient donc tout à fait à un individuel qui recherche une certaine indépendance depublication sans avoir de connaissance en informatique (pas de PHP/MySQL)

DotClear est le moteur de blog français et il n’a pas grand-chose à envier à ses homologues

anglo-saxons Son ergonomie et la simplicité de ses interfaces sont exemplaires Sa communauté dedéveloppeurs est assez active Il présente néanmoins deux inconvénients :

· il permet de ne gérer qu’il seul blog

· son créateur vient de l’abandonner, il annonce néanmoins vouloir le transmettre à une nouvelleéquipe pour la suite de sa carrière

WordPress est l’un des plus anciens moteur de blog Il inclut l’ensemble des fonctionnalités

classiques : Trackback/pingback, multi-auteurs, multi-catégories, templates… Développé ensolution libre, il permet une bonne indépendance WordPress est un des logiciels de publication lesplus populaires Il est librement disponible sous licence GPL Il est à la base destiné auxanglophones, mais des modules ont été crées par des volontaires pour traduire l'interface dansd'autres langues dont le français WordPress dispose de plus de modules additionnels que DotClear.Cependant, certaines des modules ne sont disponibles qu'en anglais

Une liste assez complète d’outils testables en ligne est disponible sur www.opensourcecms.com

1.2.3 Fonction du blog

On peut dire que le blog permet de partager des informations en les mettant à disposition desinternautes On a une publication autorise une dynamicité beaucoup mieux qu'un site webtraditionnel De plus, on peut établir une communication entre l'auteur et ses lecteurs, créant ainsiune véritable communauté virtuelle

La réactivité est l'une des principales qualités du blog Les billets et les commentairespeuvent être postés rapidement depuis n'importe quel ordinateur connecté à Internet et doté d'unnavigateur Web Le blog est hébergé sur un serveur web, localisé directement sur Internet Ilpossède sa propre adresse Internet URL L'administration du blog et la publication des billets se fontsimplement par un ensemble de formulaires automatisés, dont on va remplir les champs Un simple

Trang 12

ordinateur muni d'un navigateur Web comme Mozilla Firefox connecté à l'Interne suffit pour créer,administrer et rédiger le blog

Figure 3: Principes de fonctionnement d'un blog

1.3 Sémantique et la syndication de contenu avec RSS

La syndication de contenus est née aux États-Unis en 1997 autour de la norme RSS à partird'un croisement d'idées entre la navigation Internet (navigateur Netscape), la publication personnelle,collectif de contenus et le langage XML

À l’origine, la syndication de contenu sur Internet pouvait être définie comme le partage decontenu entres sites ou portails Mais le terme a ensuite été utilisé, peut-être à tort, pour recouvrir denouvelles réalités :

§ l'abonnement à des sites Web via un logiciel spécifique que l'on appelle agrégateur,

§ la mise à disposition du contenu d'un site sous une forme facilement compréhensible etindexable par des robots ou n'importe quelle autre application

RSS (Really Simple Syndication ) est un format d'échange de données, défini en XMLversion 1.0 Nous pouvons délivrer des données en les intégrant dans ce format, et l'on peutrecueillir des données de sources multiples dans ce format On désigne les sources par fil ou fluxRSS

Certains navigateurs peuvent directement lire des fichiers RSS, mais on peut aussi utiliser un

logiciel spécialisé que l'on appelle lecteur RSS ou aggrégateur (Par exemple News et Blogs dans

le Thunderbird, NewsFeeds )

Trang 13

Les principaux avantages de la syndication de contenus sont suivants:

§ Pour le webmaster/blogueur

Proposer un flux de contenu en syndication est simple et de plus en plus automatisé par lesoutils de blogging La méthode est en particulier plus facile à mettre en place qu'une newsletteremail, et moins lourde à gérer (pas d'abonnement/désabonnement, c'est l'utilisateur qui vientrécupérer lui-même le flux RSS)

RSS constitue un moyen d’augmenter sa visibilité : l'utilisateur consulte les fils d'actualités,

et parvient au site d'origine en cliquant sur l'actualité qui l'intéresse

§ Pour l'internaute

RSS ouvre une voie nouvelle en matière de consultation d'information en ligne Via lesoutils dont nous allons parler, l'utilisateur peut consulter très facilement les flux provenant demultiples sources d'information différentes Il peut donc rapidement voir les sites mis à jour, ettraquer ce qui l'intéresse, sans avoir à visiter chacun des sites RSS est aussi un bon moyen d'éviterles (nombreux) désagréments des lettres d'informations : on ne donne plus son adresse email, on vachercher une fois pour toutes le flux que l'on souhaite, puis on le consulte dans un lecteur RSS Onpeut aussi le supprimer à tout moment

De plus, RSS permet aux utilisateurs de recevoir des mises à jour automatiques quand unsite se modifie au lieu de vérifier tout le temps pour obtenir la dernière information On s’abonnesimplement au RSS du site, et au fur et à mesure que le contenu se modifie, l’information estautomatiquement distribuée dans notre lecteur RSS ou agrégateur de nouvelles

Contenu d’un flux de syndication

Il s'agit d'une description basée sur une syntaxe :

§ la norme de syndication utilisée : RSS, Atom (et ses différentes versions),

§ le titre du site Web produisant l'information,

§ le canal : l'adresse générique du site Web produisant l'information,

§ la date et l'heure de production du document en ligne,

§ la langue utilisée (exemple : le français)

Viennent ensuite des informations relatives à chaque article diffusé en ligne :

§ titre de l'article,

§ lien de l'article (URL),

§ date et heure de mise en ligne (éventuellement de modification),

§ l'auteur de l'article (nom),

§ l'éventuelle catégorie attachée à l'article,

§ la description : tout ou partie (titre, chapeau ou résumé) de l'article

Le contenu produit peut être textuel, mentionner des hyperliens, être sonore ou encore vidéo

Trang 14

Ce contenu produit, parfois nommé "syndicable" ou "fil RSS" ou "fil de nouvelles", ne respecte pas

la mise en page du site Web traditionnel mais mentionne avec fidélité son contenu

Figure 4: Exemple un fichier RSS 2.0

1.4 Des Weblog sémantique

Que signifie le mot «sémantique» ? Cela peut être veut dire que la navigation que proposeegoblog entre ses pages, est basée sur des mots-clés (des tags) qui relient les articles les uns auxautres Un weblog est logiquement un journal constitué séquentiellement de courts articles chacundistinguée par une URL quasi permanente des liens Avec un fil RSS, on a un même descriptif desméta donnes Autrement dit, chaque post peut référencer une autre ressource du web grâce aux lesméta-données ou des liens hypertextuels HREF

C'est pourquoi on trouve que les weblogs élémentaires n'ont pas d'autre sémantique que ledescriptif de leur flux RSS Dans ce cas, on parle de weblog sémantique dès lors que les posts dublogs peuvent être indexés sémantiquement par un référence conceptuel (par exemple une hiérarchie

de termes, carte de topiques, ontologie de classe objets ) qui doit être explicite sur le blog Jusqu'àaujourd'hui, il n'y a pas de modèle standard pour de tels références, seulement le RDF ou les TopicsMaps du W3C

On a deux exemples de Weblog sémantique existants : ce sont [WordPress] et Web OfPeople [PABV03]

Trang 15

Dans le WordPress, on utilise des mots (« word« ) pour décrire ou composer des billets quisont les éléments principaux ou les contenus d'un blog On peut dire qu'ils sont la raison qu'un blogexiste

Pendant la création un billet ou post sur WorlPress, la plus important est de assigner cesbillets aux catégories On peut les classer sous un ou plusieurs catégories La catégorisation permet

à des posts de contenu semblable d'être groupés, facilitant de naviguer, d' utiliser et de gérer descontenus dans le blog

Concrètement, lorsque on lise un article (en ayant cliqué sur son titre ou le “permalien”),une suggestion d’autres billets nous est proposée sur la gauche Cette dernière présente la liste desarticles qui ont au moins un tag en commun avec ceux du post que nous lisons Là, ó les chosesdeviennent intéressantes, c’est lorsqu’on réalise que la navigation qui en résulte, est le produit denos mots, de la façon que nous allons de les choisir pour nommer les choses ou les associer à unsujet C'est notre propre sémantique

Deuxièmement, le Web Of People s'appuie sur un réseau distribué de connaissances et noncentralisé C'est à dire chaque utilisateurs sera un nœud dans ce réseau Un architecture P2Pappliquée pour ce réseau permettra des communications directes entre utilisateurs Enfin, unmécanisme de notification et disponible pour permettre des échanges actifs dans le Web of People.Grâce à ce mécanisme, un utilisateur pourra notifier à ses amis des références de ressources encréant simplement chez lui de nouveaux posts sous les topiques appropriés Cette pratique derecommandation active constituera une véritable méthode de filtrage collaboratif pour l'accès àl'information dans le Web Of People

Le Web Of People pourra être considéré comme une type d'application du Web Sémantique

Il a une schéma commun de description RDF pour les présentations et les échanges deconnaissances sur lequel nous pouvons assurer l'interopérabilité pour tout échange, s'adapter à lanature distribuée de connaissances dans un réseau P2P et faciliter l'intégration du système avecd'autres dans le cadre des applications du Web sémantique

Dans le Web Of People, chacun a un weblog avec des posts indexés sous des thèmesd’intérêt appelés «topics» Les posts sont crées pour annoter des ressources web et chacun organiseses topics dans une hiérarchie (dite taxonomie personnelle) Autrement dit, le Web Of People nes'intéresse alors qu'aux blogues dont les posts contiennent des pointeurs et sont classifiés selon leursthèmes abordés Ce type de blogues orientés topique sera une meilleure source de connnaissances

Trang 16

partagées, notamment pour des communautés professionnelles

Figure 5: Une taxonomie personnelle dans le Web Of People

1.5 Aux services de « documentaliste du world-wide-web »

Les weblogs peuvent servir non seulement à l'auto-publication de informations ou créationsd'auteurs sur le world-wide-web mais aussi servir ceux qui ne se considèrent que comme desdocumentalistes Ces sont des personnes qui vont sélectionner des ressources du Web, puis lesannoter, de les décrire et indexer sémantiquement Ces activités ont pour le but de re-présenter desdonnées dans des formats rendant plus facile leur découverte et leur réutilisation éventuelle

Et puis, pour ça fonctionne, on a besoin un modèle de stockage qu'on a appelé comme undépôt des données personnelle ou une mémoire personnelle persistance (une base de connaissancepersonnalisée) Dans l'architecture d'un réseau de pair d'autonome, chaque documentaliste va jouer

le rôle comme un pair

La coopération dans un réseau de pairs des documentalistes.

Pairs signifie à la fois clients et serveurs les uns pour les autres mais aussi égaux dans leursrôles et autonomes Plus précisément, on peut dire que chaque pair peut fonctionner sans le réseau

ou sans que tous les pairs soient nécessairement présents

Ce qui est l'enjeu principal d'un tel réseau c'est la confiance mutuelle qui, loin d'être acquise

a priori comme elle le serait entre les membres d'un club ayant satisfait aux conditions d'admission,est toujours en construction/destruction de telle sorte que :

– les liens entre les pairs sont de qualité et d'intensité variables

– Le partage des ressources documentaires (posts et termes/topiques/classes sémantiques)n'est pas restreint à l'alternative public ou privé, mais peut être défini par son extension(une liste partielle de pairs)

– chaque pair crée une vue dynamique de ses ressources pour chaque autre pair ou listed'autres pairs

2 1

WWW

Topics

Posts

Trang 17

Ces deux dernières caractéristiques ne sont généralement offertes dans le web que par dessites construits comme des portails et adossés à des bases de données sachant gérer les droits d'accès

et les vues dynamiques

Heureusement les systèmes multi-bases de données dans lesquels chaque base n'a qu'unpropriétaire mais offre des droits de connexion et d'accès contrôlé par le propriétaire à tous lesautres usagers (les propriétaires des autres bases ) ont permis, depuis vingt ans, d'en établir lesmodèles fonctionnel et opérationnel

Chacun restant « maître chez soi« le développement du partage, c'est à dire l'ouverture pourd'autres de l'accès à ses créations personnelles, ne peut se faire que par un mécanisme de typemessageries dont le principe est la « notification« à certaines autres de certaines « événements« intervenus « chez soi« , c'est à dire des créations, modifications, suppressions de ressources dans sabase personnelle

Ce que les autres fonts des notifications qu'ils reçoivent est ou libre (cas de mél) oupartiellement contraint par un protocole de communication honnête, protocole qui peut varier d'unecommunauté de pairs à l'autre, mais pour lequel un minimum semble nécessaire pour aider audéveloppement du partage d'information, de connaissance entre les documentalistes

1.6 Modèle de stockage pour une mémoire collective

Chaque pair est propriétaire d’un domaine personnel de contenus dont il est l’unique auteur.Mais ces contenus peuvent être de types variés (notes personnelles, courriels, articles de son blog,etc ) et les exportations vers d’autres formats fréquents De ce fait, la multiplicité des copies

stockées sous différents formats peut faire difficulté, tout comme l’utilisation de classement dans demultiples hiérarchies de dossiers Aussi le stockage et le classement dans une mémoire personnelleunique peut apparaître très utile Appelons, comme dans [TSP04], « personal knowledge base »(PKB) ou une base de connaissance personnalisée, une telle mémoire et définissons-en le schémaminimal: billets, topiques et liens

1.6.1 Contenus définis comme des “billets”

Appelons "billets" l’abstraction commune aux "notes" personnelles, marque-pages

(bookmarks), posts de blogs et messages du courrier électronique Précisons formellement les

attributs descriptifs selon la spécialisation des contenus :

Note::=(texte | hypertexte) "court" contenu court

Brève::=(Note, titre)

Billet::=(Brève ,date ,auteur)

Billet_reponse ::= (Billet, référence à Billet antécédent)

Bordereau ::= (Billet, référence à pièce jointe FileName)

Signet|Bookmark ::= (Billet, référence à ressource décrite URL)

Fiche ::= (Bordereau | Signet)

Bulletin|Post ::= (Billet, permalink[Permalink]) – dans un Blog ou un Forum

Blog ::= {Bulletin*} séquence temporelle de bulletins, en général du même auteur

Mél ::= (Billet, emailDestinataire+)

Mél_bordereau ::= (Bordereau, emailDestinataire+)

Mél_signet ::= (Signet, emailDestinataire+)

Trang 18

1.6.2 Classement hiérarchique par dossiers thématiques ou « topiques »

L’ontologie personnelle d’un pair peut être un graphe complexe Mais pour les cas simples

de diffusion, une vue externe de structure hiérarchique (comme pour les dossiers de signets, deméls, etc ) peut suffire Nous montrerons plus loin que cette structure est également adéquate pourgérer des “niveaux de confiance” pour les dossiers et sous-dossiers dans chaque branchethématique

Du fait que les dossiers servant à classer les billets ont aussi une qualité sémantique (on faitgénéralement des classement thématiques) nous parlerons de « topiques » plutôt que de dossiers

Nous dirons que des billets sont « attachés » à un « topique » quand ils sont classés dans ledossier étiqueté par ce « topique » Nous admettrons que l’accès autorisé à un topique donne l’accès

en lecture à tous les billets qui lui sont attachés Autrement dit, « ouvrir » un topique sera équivalent

à autoriser la lecture de tous ses billets Cette règle permettra d’associer éventuellement à un topique

un « fil RSS/XML » sur tous ses billets

Figure 6: Une PKB, arbre de topiques personnels

Trang 19

2 BLOG SÉMANTIQUE PERSONNALISÉ

2.1 Introduction

Un blog sémantique personnalisé, c'est simplement un blog sémantique dans lequel nousavons :

• le contrơle de notre propre réseau de contacts

• le pouvoir décider librement de “quels contenus partager avec qui”

• le contrơle de la diffusion de ses créations et annotations personnelles de contenu

et la personnalisation basée sur un modèle de diffusion ou visibilité contrơlée : “iceberg”

On appelle un blog sémantique avec la personnalisation, c'est à dire qu'on va personnaliser lalecture de blog en créant la vue dynamique en fonction de lecteur de blog On a une publicationdifférentielle et évolutive selon l'évolution des relations sociales dans la communauté

Et pourquoi on a besoin ce nouveau modèle ? La réponse est les suivants dans cette partie

D'abord, on a la première remarque: Dans l’univers de la publication sur le web, Wikipediadistingue le “web profond” [Deepweb] (ou caché, ou invisible) du “web de surface”, le seul visible

de la plupart des moteurs de recherche Pour cette encyclopédie libre le “web profond” comportenon seulement les ressources dynamiques i.e construites par une application en réponse à unerequête largement paramétrable, mais aussi les ressources dont l’accès est limité par des règles selonl’identité du lecteur Ainsi souvent seuls des résumés, des fiches signalétiques ou d’autresdescripteurs, sont accessibles publiquement (et gratuitement), alors que les contenus complets ne lesont pas Publier ne signifie donc pas nécessairement donner une visibilité totale

La deuxième remarque est que le web d'hier n'avait que très peu d'écrivainscomparativement au nombre des lecteurs, pour plusieurs raisons liées soit à la difficulté d'écrireelle-même, soit aux risques et aux responsabilités de la publication

Depuis l'explosion des “blogs”, toutes les difficultés ont semblé disparaỵtre: chacun peutdevenir, avec des outils simples, unique écrivain et unique responsable de la publication sur “son”

site Mais le modèle simpliste de publication « pour le monde entier » est-il vraiment celui que chaque blogueur souhaite ? Certains qui ne cherchent qu’une communication « entre amis » ne se

le sont-ils pas fait imposer par les fournisseurs d’accès et de services internet limitant la variété desrơles possibles ?

Le qualificatif « entre amis » n’est souvent que la simple traduction de l’appartenance à lacommunauté virtuelle des utilisateurs d’un même serveur, dans laquelle la visibilité reste totale etles recommandations tous azimuts La demande de contrơle de son propre réseau de contacts et decontrơle de la diffusion de ses créations ou annotations personnelles de contenu fait éclater cemodèle simpliste Le besoin de construction de réseaux ó les personnes peuvent décider librement

de « quels contenus partager avec qui » a été décrit dans plusieurs études récentes (par ex le « web

of people » [PABV03]) et des systèmes pour y répondre sont en cours d’expérimentation (par ex le[SomeOne] de Wanadoo [LMLP03] ou le [Yahoo! 360°] de Yahoo)

Donc, la partie de recherche dans mon stage est centrée sur le développement de modèles etd'outils bien adaptés à ces écrivains qui cherchent à construire librement leurs réseaux de pairs enpartageant les contenus qu’ils créent, selon la confiance mutuelle qu’ils s’accordent et peuventremettre en cause Elle ne situe leur coopération ni dans l’écriture à plusieurs mains des mêmespages, comme dans le cas des "wikis", ni dans l’acceptation de « workflows » éditoriaux Elle admet

Trang 20

l’autonomie et la responsabilité totale des écrivains, comme dans le cas des blogs.

Les spécifications générales en découlent :

1 Il n'y a pas d'annuaire du réseau Chaque écrivain se dévoile à ses lecteurs uniquement par lapartie de son site HTTP qu’il leur rend visible avec édition automatique de "fils" RSS/XML[HB03][HHL04] organisés par thèmes (blog sémantique) La notification de nouveautés parSMTP/POP est facultative

2 Chaque lecteur doit s'afficher d'abord comme écrivain (nous ne nous intéressons pas auxécrivains de seuls commentaires sur le site des autres) avec un « web de surface » visible pourtous (la « racine » de son site)

3 Chaque écrivain décide ensuite à discrétion

a) pour la présentation externe des objets qu'il souhaite échanger, d’une hiérarchie thématique dedossiers dans laquelle le plus profond correspond aux échanges les plus rares et à la plus grandeconfiance

b) pour chaque branche thématique, des différents niveaux de confiance

pour les lecteurs qu’il invitera et des groupes ayant visibilité à différents niveaux de confiancedans ces différentes branches thématiques (un lecteur pourra être invité dans plusieurs groupes)

4 Chaque lecteur, à l’intérieur de la vue qui lui sera donnée par chacun de ses pairs, pourra :a) faire une simple visite, sans rien garder dans sa propre mémoire

b) garder dans sa mémoire l'URI de la collection d'objets externes qui l'intéresse (dossier ouunion de dossiers) en l'incluant (souscription au fil RSS/XML) dans un de ses propres dossiers c) ”répondre” à un objet externe qu'il a lu chez un pair en en créant un nouveau dans sa propremémoire

En suite, après avoir détaillé ces spécifications, nous allons définir un modèle de diffusioncontrôlée basée sur la confiance entre pairs qui serait facile à adopter et à implémenter Nousprésentons aussi ses intéressantes propriétés

Trang 21

2.2 “Iceberg”, modèle de diffusion contrôlée pour un réseau de confiance entre pairs

Figure 7: Coupe d’une PKB

Il nous faut donc définir un modèle de visibilité, c’est à dire de contrôle par chaque pair del’accès en lecture par les autres pairs, qui soit simple à mettre en œuvre et suffisamment dynamiquepour suivre les fluctuations de la confiance mutuelle entre les pairs

Nous appelons « iceberg » un modèle de vues séparant la partie visible (« haute ») de lapartie invisible (« basse ») de l’arbre des topiques par une « coupe » de cet arbre, chaque branchesoit « coupée » à une certaine profondeur, séparant au-dessus les topiques visibles des topiquesinvisibles au-dessous

Pour qu’un pair « existe » dans le réseau il faut que sa racine soit visible de tous, c’est à direpublique, pour que l’existence de l’arbre ne puisse être cachée Cela n’interdit pas que d’autrestopiques « inférieurs » soient également publics Un topique visible par un nombre limité de pairsest dit de visibilité « restreinte » Un topique invisible à tous sauf à son propriétaire est dit « privé »

Définition : Une coupe se définit par la liste des nœuds visibles au plus bas Notre définition est

proche de celle de "coupe multi-niveaux" définie par Scholl M et al [SVPRR96]

Théorème1 : Toute liste de nœuds constituée de 0 ou 1 nœud par branche est une “coupe”.

Preuve : ou bien une branche est « coupée » en dessous du nœud figurant dans la liste, ou

bien il faut remonter à la racine qui, elle, est toujours visible

Corollaire : toute liste de nœuds présentant plus de 1 nœud par branche peut être réduite à 0

ou 1 nœud par branche pour devenir une “coupe”

Théorème2 : l’union de « coupes » est toujours une « coupe ».

Preuve : l’union pour chaque branche correspond au nœud visible le plus bas.

Théorème3 : l’intersection de « coupes » est une « coupe ».

Preuve : l’intersection pour chaque branche correspond au nœud visible le plus haut.

Pour manipuler simplement les arbres de topiques il conviendra de les identifier soit par leurchemin nominal depuis la racine (distinguished name), soit par un Dewey Decimal Classification[DDC][DM89]

Trang 22

2.3 Gestion de la confiance dans le modèle Iceberg

Chaque pair établit, personnellement, librement et de façon réversible, des liens de confianceavec les autres Le principe est que plus on est en confiance avec un pair, plus on lui “découvre”l'arbre de nos topiques en profondeur

Notre modèle de sécurité pour chaque PKB s’inspire du modèle de Biba [CFMS95, p88]avec une « discretionary policy » de type « hiérarchie d’objets » dans laquelle la visibilité d’un objetentraîne la visibilité de tous ses ancêtres Son intérêt est de transformer la définition de la liste desobjets visibles en un choix de coupe (c’est à dire un choix de niveau de visibilité pour chaquebranche de la hiérarchie) Ce niveau est ajustable dynamiquement en fonction de la confiancedonnée au lecteur Contrôler la visibilité des topiques (ou la diffusion des billets) revient à ce choix

de niveau dans chaque branche thématique

En pratique le pair propriétaire d’une PKB pré-définira autant de vues (i.e coupes) que degroupes de lecteurs qu’il prévoit d’avoir Une seule vue sera définie pour chaque groupe, par contre

un lecteur pourra appartenir à plusieurs groupes Les vues seront identifiées par un nom (local à laPKB) Chaque fois qu’un pair a un nouveau contact de lecteur, il doit se demander à quels groupesl’affecter Il se peut que ce nouveau lecteur nécessite la création d’un nouveau groupe Donc,chaque nouveau lecteur est affecté soit à un nouveau groupe, soit à un groupe existant

S'il se trouve que la vue que l’on veut définir pour un groupe existe déjà (est déjà nommée)alors elle lui sera assignée Si une vue n'est plus assignée à aucun groupe et qu'elle n'a pas éténommée, elle disparaît

Le schéma global d’une PKB (schéma de définition et de contrôle de ses objets) est donnépar la figure suivante

Figure 8: Schéma global d’une PKB

Notons aussi que les topiques visibles doivent pourvoir être offerts comme des fils

RSS/XML pour que les lecteurs puissent les inclure comme sous-topiques dans leurs PKBs

Định dạng
Số trang	44
Dung lượng	1,21 MB