En connectant AllegroGraph à Mon- goDB, il est possible d'interroger des données liées en graphe et dans une base de données orientées documents en RA, RĐE owe une seule req
Trang 1CNIVEBRSTTE NATIONALI DU VIETNAM, IANOI INSTITUT FRANCOPHONE INTERNATIONAL
LE NGOC LUYEN
DEVELOPPEMENT D’UN SYSTEME CONNAISSANCE POUR
BIG DATA APPLICATION AIX DONNEES DE PHENOTYPAGE CHEZ LE RIZ (QO SATIVA)
PITAT TRIEN MOT TIE NITAN DANG CTIO DT LIRU LON:
UNG DUNG CHO DU LIEU PHENOTYPING VE LUA
(O SATIVA)
MEMOIRE DE FIN IY ETUDES DU MASTER INFORMATIQUE
HANOI -— 2015
Trang 2
'UNIVTRSITE NATIGNALE DU VIETNAM HANOL INSTITƯT FRANCOPHONE INTERNATIONAL
LÊ NGỌC LUYỆN
DEVELOPPEMENT D’UN SYSTEME CONNAISSANCE POUR
BIG DATA APPLICATION AUX DONNEES DE PHENOTYPAGE CHEZ LE RIZ (O SATIVA)
PHAT TRIEN MOT HE NHAN DANG CHO Dt LIEU LON:
UNG DUNG CHO DU LIEU PHENOTYPING VE LUA
(O SATIVA)
Spécialité: Systémes intelligents et Multimédia
Code: Programme pilote
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
—
Ingénieur IRD, responsable de PAXE Intégration de données de VInstitut de Biologie Computationnelle, Dr Pierre LARMANDE
Ingénieur INRA, Mme Anne TIREAU
HANOI -— 2015
Trang 3
ATTESTATION SUR LHONNEUR
test, sút Phouncur que ex inéucoire a 66 réalisé par moi-riÔtme cu quê luš doruếes cl loe rốenluate qu: y cout présentés sont exacts et wont jamais été publiés ailleurs La source dea informations cinées dans ce mémeire a été bien précisée
LOL CAM DOAN
Tôi cam đoan đây là công trình nghiên cứu của riềng tối
Các số liệu, kế quả nêu trong Luận vàn :à trung thực và chưa từng được ai công bố trong bắt ky công trình nào khác Các thông tìn trích dẫr trong Imận văn đã được chỉ rõ nghễn sốc
Pais & Hanoi, ie 20 octobre 2015
HÀ nội, Nhôy 4 thông fÚ năm, B11
Tả Ngọc Tan
Trang 4Remerciements
Je tiens A remercier dens un premier temps, toute ’équipe pédagogique de l’Instivut Francophone Intemational (1/1) de Hanoi et Jes intervenants professionnels responsable de la Zormation en master de
recherche en informatiqne, pour avoir asmuré la partie théoriqne de oelle-ci
Je tiếng & exprimer toute ma reconnaissance & M, Pierre LARMANDE qui est cherchenr & PIRD et Repousbale de Paxe de donutes de l'Tastivut de Biologic Commpetativauelly, Mae Ause TIREAU qui ext ingéo‘cur & PINRA Montpelier SupAgro dus FUMR MISTEA, pour ‘ear cncardremeul cans Laille, le suivi qwils oul apporté & mor stage, Icurs couseils, les monibreuses d’scussiony que gous avuns pa avoir tout au long de la réalisation de ce stage, aussi pour inspiration et pour le temps qui'ls ont bien voulu
me consacrer,
đe sonhaite remerrie la famile de Pierre LARMANDI er la famille Traneais PTIAN pour leurs aider chaleureasee pendant: man séjour de sic mois en Franre
Je Viens & remere’e également Mlle Curvline BENOIST scerétaice du LIRMM, cl Mle NGUYEN Thi
‘Vaar Ta, seerélaire de PIFI pour ses cides & plusicure ceprises
Depuis mes premiers jours dans cot institut, j'ai regu beaucoup d'aides, de conselis er d’encourage- ments de mes amis, en particulier ceux de la promotion 18 ‘lout cela mn’a permis de murir chaque four
đe len remerdie et je ne porrrais jamais anblier les souvenirs pais et tristes que j'ai pasaé avec ene churant ces dems ans 8 FIT
để voudrais aussi renereier cussi les couficbres de TUniversité de Da Lal vi je suis eu train de wavailler, qui w’out dound les meilleurs coulliows pour gue je pulse biew passer wa ecolanilé & PIPL
Enfin, j‘adresse mes plus sine’res remerciements & mes parents, mes fréres qui m’a toujours soutenue
et encouragée dans les moments les plus diificiles de ma scolarité à [IEI
Merci A tous et A tontee
LE Ngoc Luger,
Da Lat - Viet Nam, avtomne 2015
Trang 5Résumé
Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifique souleve des détis dang le traitement et ’exploitation des données La recherche dans le domaine bioinforma- Tiaqne n'est pas épargnée par ce phénoméme Ce mémaire présente des approches ponr résoudre le prab‘eme
dle données voluminenser stackées dans des entrepits No&QT en y assoc'ant Ta, capacité de reckerche sémantiqne sir les donndes dana ur contexte de recherche agranamiqns Ces approches sémantiqnes ponusttent Walder & curichir les doundes issues d'expérioneve yrdce aux molours Whuléreuee géudraut
de aouvclles conta
sauces Nous pouvous résuncer ces deux approcies d'uw part uvce la réder‘bure de roynétes ot Uaulze part eee la watérialisalion de donuées cn triplets RDP Un élat de Part nous a permis d'identifier et d’évainer les différentes méchodes se repportant aux approches mentionaées En pratique, seule Yapproche de matérialisation de données a été choisie pour coatinuer & travailler Les données triplets obtennes étant voluminenses, nons avons réalisé un benchmark sur différents syetemer
de gestion de hase de données de triplets afir de panvair comparer les avan
chacim et de ehaisir le meillanr eysteme pour notre étude de ear
Mot-clés : Base de connaiseanee, Oaologie, Ralsonuieruent, Inféreuec, SPARQL, xR2RML, Beuch- ark, NoSq), BigDuta, TripleStore
Trang 6Abstract
In the recent years, the data deluge in many areas of scientitie research brings challenges in the treat- iment and improvement of farm data Research in bioinformatics fieid does not outeide this trend Thiz thesis presents some approaches aiming, to solve the hig Data problem hy combining tae increase in se
mantic searca capacity an existing data in the pham research Iabarataries, This helps us to strengthen nser experiments on the data obtained in this research by the engine antomatic inference af new knowledge
To ackiove the, each approuch bas different cluracterislies aud asing diferent plutons Nevertheless,
we cau suntuurize il ia Gwe ain direclious ; Uke wransformution of query or Re-weile vequesls acd dala Uausformation Wo Uriples Tu reality, we car solve the problem frou origia of inureasiug capacily on seman
tic data with triplets ‘hus, the triplets to data transformation direction is chosen to continue working
in the practical parc However the sy:ckronization dats in the same format is required before processing the trip ets berante nur enrenk đaTa are aeterogeneons The data obtained for triplets are larger that teprlar triplestore could manage So we evaluate same af them thas we can eortpare the henefits and drawhacks a! cach and choose the hest syntem for omr problem
Key works : Kuowledge base, Outology, Reusoning, Inference, SPARQL, xR2RML, Beucucark, NoSQL,
Big Data, Triplestore
Trang 7Table des matiéres
‘Table des figures
Liste des Lableaux
INTRODUCTION
Chapitre 1 Présentation Générale
1.1 Présentation de létablissement đ?accuei
111 Présentation de l'Institut de Biolagie Computationelle (IBC)
LL2 Préseutalion de U'Insutw, National de la Reckerce Agroucmique (INRA)
12 Deseriplion du stage „
14 Contexte du stjet ¬ eee ee
14.1 Contexte de données masaives
1.4% Canfexte đe recherche sếmanfiqma
Chapitre2 Etat de Fart
2.2 Analyse et évalnation des solitions courantes „
MongeGraph - une association du Mougodh et A'legroGrapa Base de données orientée graphe Neodj
JSON for Licking Data (JSON-LD) et MongoDB Oulology-Based Data Access (ODBA) el framewurks Oulop Malérialiselion de doxutes en Wriplels RDF
Trang 83.1 Tnrodueion Tu kh kh va beeen eee bees 23
3⁄2 Modele général - we eee + + 4
Transformation et synchrenisatien de dannées dans Mangal), - bị
3.5 xRORML ct Transformation de données cn triplets " sẻ #r
42 Approche uative et doU-nALVE ào ¬—
4.3 Vue générale des syztèmes de gestion de tripletS - ve 88
18 ‘TripleStore dStore - - - Of 43.3 ‘TripleStore Virtroso - - - - 46
52 Benchmarking đe platiormes SH HH nh vờ seen 48
5.2.2 Recherche de données - - - 44 5.2.8 Inférence sur les données - - - - 48
vi
Trang 9Iustitul de Biologic Computatiorelle Tustivul National de la Recherche Agronortique
Javascript Object Notation JSON for Linking Data, Not Only SQL
Gntology-Based Date Access Web Ouvology Language Web Quvology Rule Lauguage
Relational Databases to HDI Mapping Language Resource Description Lramework
Resonrce Description Framework Schema RDF Mappirg Language
Protocol aud RDF Query Langage Strucared Query Language
World Wide Web Consortium Relational ard Non-Relational Databases to RAF Mapping Language
vii
Trang 10Liste des figures
12 Lexemple d’un triplet Resource Description Eramework (RDF) 8
13 L'exemple d'une requéte l'rotocol and RDI Query Langage (SPARQL) 0 8
21 Le mudéle de composants dase un systécie MoegoOraph l8
3⁄3 Une requête SPARQL associé à tme requste de MongoDB l4
2.5 Les commandes ponr créer m graphe simple _ - - - 18
2.6 Les triplets cont stockées dans MorgoDB sous la forme de JSON-LD 1r 2.7 Le medtlc de composauts dans ux systéme association de MongoDB et JSOK-LD
28 Le proceswus de requéte dans le système ODBA co 18
39 Le compsraison des approches des raisonsewents dans une applieation 19 2.10 L'architecture du systéme avec l'association de MongoDIB et le modale ODBA 30
2.11 1s denx rahles at: sa relatiam we eee + + 21
2.12 Les in‘ormations détinies paur le mapping - - - 2
2.14 Les donrées RI) après đe la transfarmatian _ - - - 21
42 Le modale ISON eréé A partir des bases d'imageries - - - 2
4.1 La Cassificaiton des types de systime de stockage RDF 38
4.6 Les composants dans "architecture de Graph) - - - OR
47 1¿imterfaoe du syvstème đ”interaelien avec les données RIM _ + ae #g
Trang 11La comparaison du temps de chargement sur différents Triplestores
1¿axemnle đe reqnễte nméro T và Lee
L‘evalnation de la requéte numréra 1 sons forme de eonrhe graphique
Lievaluation de la requéte numéro 2 sous forme de eourbe graphique
Liexemple de requéte numéro 3 -
Lievduation de la requêLe wuusốzo 3 yous Íortne de courbe graphiyue
Liexemple de Uroisituie requates «
Lievaluation de la requéte numéro 4 sous forme de courbe graphique
Les relations inférées sur l'ontologie dans le premier exernple
1a requdte dn premidre exemnle d'inférence see
Le temps d'exéoution de la premiare intérence snus torme de graphiqne
Les relations inférées sur Vontologie dans Je deuxiéme exemple Dinférence L'exemple de la deuxiéme inférence
Le temps d’exéeution de la douxitme inférence sous forme de graphique
Trang 12Liste des tableaux
Les compareison de cerlaines fouctionnal:tés des diifệreat Trpleftores 40
‘Le comparaison du teanps de cbargeauent sur dilférerts TripleStores en tillisecondes 43 Lievaluation de la requéte numéro 1 (emps en milliseeondes) sees ab Lrevaluation de la requéte numéro 2 (emps en milliseeonde) 45
vevaluation de la reqnéte mutréra 3 (temps em rrilliseeemdes] AB
Léevalnation de la reqnéte wuméra 4 (temps an millisecondes} - aT
evaluation de la premiare ‘nférence (temps en milliseondes) sẻ 4g L’evaluation dc la deusdème inférence (temps en mil’sccondes) - 50 Tes exemples de point daccés de TripleStore " cu OR
Trang 13Introduction
Les études sur les planites ont toujours pris un réle important pour améliorer la productivité, la capacité
de résistanes des plantes asx maladies, ‘a réduntion influence des changements de Tenvironnerent et le climat, Aufourd’hui, de plus en plus de laborato'res can effectué das études sur les plantes et ont obtenus des résultats importants Les données de cas études sont des ressources utiles pour que les scientifiques paisseut les expluiter cl les partager avuc les aulres Aujourd’hui, il y exisle une diversité Woutils qui soul dévcloppé pour yérer ces douudes, Mus chaque Gude posstde des earactéristiques différentes gui sout
Ja recherche snr le paénotypage et Ie génotypage dn mais er France, La saraoiéristiqu
ves deux projets conceme la gastion et Pexploitation de gros volumes de données de maniére plus efficace Les Uruvaux duus ve slage sv foculiseroul sur Ja recherche de soluvious assoviual Les do:uaines du web
séamautique cl cclui des dounées aussives, Ds uous permieltrout de chereber “a mcilleure solution possible
pour twat d'aburd organiser se studkage des doxndes auossives el volumincuses daus un eystime de gestion
de base données spécialis¢ et ensuite renforcer la capacité de recherche sémantique des données alir de sếrrer de nouvelles connaissances Les conna‘ssances dans le domaine de web stmantique fournissent des
maodéles pour structurer les données sous “a forme de bases de reconraissance et permettent la reckerche
đe dannées grdce a der mécanismes de-d'inférence et de raisonnerent Anjonrd’hni, le prablime de gestion
de données massives a hesoin de traiter aver Poptimisation du temps d'exéonton et le temps de recherche
Ce présent rapport se divise en cing grandes parties La premiére partie présente les deux laborataires IBC ot INRA, lous projets de reeks
dans ly domaine du web scmantique ct des données mussives, La deaxituie portie [ail un lat de Part
c actucls, ley prublématiques dur stage ct Jes concepts existante
sur les soluLivus actuclles cl leurs applications daus le cus de nos dounées La broisiduse partic vonsiste & présente la solution proposée et les travaux mis en oeuvre pour la réaliser La quatriéme partie présente les systtmes de gestion de base de données de triplets actue's La cinquiéme partie concerne experimentation,
la comparaison et Vanalyse des résultats dans un benchmark de cas aystmes selon trois crithres : le chargement de données, la recherche de données et Vinférence de dorndes.
Trang 14Les concepts et les outils seront validés a Paide des applications clés en hialogie ‘ondamentala (transerip- tomique, la strnetrre et la fonction des protéines, le développement er: la morpkogenése), la santé (agents
qui compreunent les aspects principaux du traitement des données biologiques massives
© WPLHIS : Méthodes danalyae de séquencage & aaut débit
= WP2-Evolution ; Passage & Péchelle des analyses évalutives
« WF3-Annotation :Annotarion fonctionnelle et structurelle des protéomes
= WP4-Imaging : Intégration de Pimageric cellulaire ot tissulaire avec des données omiques
@ WI’5-Databases : Données binlogiques et intégration des connaissances
LBC est un projet :nulbidiseiplinaire souteun peudaut eiug aus (2012-2017) pur bétat Frangais & rie
vers Ie projet “Luveslissements d’Avenir®, LBC inuplique actucllemuent 66 chercheurs anultidisciplinairce permanents, issus de quatorze laboratoires de Montpellier !'IBC a pour objectif de devenir ur lieu de rencontre privilégié pour les chercneurs en biologie et en bio-informatique, mais aussi ‘ane importante communauté de chercheurs, universitaires et industriel au niveau régiona:, national et international Les
activ'tés de TTRC ammitionnent de onTlaborer avec des chercheis da tenor mea mondiale d’organiser dee mrarifestations scientifiques, de former de jennes cherchemrs, et de promanvoir Tes résultats at échanger des informations avec des partenaires industriels.
Trang 15La recherche sur le riz est un des modeles d’étude abordé par les chercheurs de 'IBƠ notsmment à Travers le projer, BIGSAL (Riniogical electronic System Assistant: Index) Ce projet a pour objectif de Rérer des écides de diversité génotypiqne et phénotypiqne de variétés traditiornelles de riz vietnarnien
(Oryza sativa) objectif de ces dtudes est didentifier des gines d'intsrét, pour qn'an puiser comprendre
Jes processus biologiques par exemple : le développement et la plasticité de la plante, la résistance aux araladtes Cos études requiéren la manipulation d'un volume important de données hétérogtnes Cee đonsếes peuvent ére slockées sous des formes difigrentes : fichier Excel, fichier texte structuré, inmges
ou bases de donages relationnelles
dans Ja gestion des terrivoires sort aulanl Qenjeux qui posilionseut lugrouonic comune fondulrive Pun
développemeul Larmoztieus sur les plans écosocuique, social el euviroauenzental,
© Produize ot diffuser des counaissuuces sviettidigues,
= Concevoir des innovations et des savair-faire pour la saciéte
ok
lairer, par son expertise, les décisions des acteurs publics et privés
# Dévcopper la cullure seienlifique ct lochuique et purtiviper au débal scleueo-suuiété
» Parmer & la recherche et par ta recherche
Le centre INRA de Montpellier ccordonne Phénome, un projet de plate-formes de phénotypage haut- débit de plantes cu.tivées Son objectif est de mesurer des caractéres agronomiques de plantes soumises &
itiérents scénarios ervirannementaur et en particulier les conditions de stress kydrique C'est ur projet sur knit ans regronpant neuf plates-formes réparties sur sept sites d'étndes en Irance
Les dtndes couvrent & la fois des problématiqnes de recherche fondamentale en génétiqnie et de re cherche appliquée pour la sélection de plantes adaptées & des contextes climatiques particuliers
Sur la plate-forme de Montpellicr sc trouve trois plateaux techniques difigrents permettant de mecurer
Ja croissance de plantee en fonction de l'environnement :
œ PhénoPsie qui permet de peser et photagraphier pins de cing cent plartes (Arabidops's thaliana,
ung plante modéle pour l’agronomie)
PhéroArch ot plus de mille six cent plantes (mais et autres céréales, viene, pommiers) sont déplacées grace & un automate afin de procéder a différentes mesures, portant notamment sur ’architecture
de la plante, et d'étre photographiées dans des cabines d'imageries 3L.
Trang 16© PhéncDyn cù lon mesure en particulier la transpiration et la croissanee des feuiLes đea plantes Dfautree plate-formee, comme ce'les de Toulouse, Dijon ou Mauguio, présentent des enviromemente non couurélés, avee des expérientations cu champ, Les domtées piiduolypiques sont alurs uequises griiee
4 une Phéuwwobile (robo, mobile autonome équipe de capleurs cusbarqués) uu & des droucs,
Cos plate-foruies sont spécialisées eu écoplysiologie, cœt-àcdire dans Télude de Pinfueroe de Peu- vironnement sur Ja piarte, Par conséquent, pour l'ensemble des expérimentations réalisées, les données issues đe: capteurs envirounementaux sont primordiales Ces données sont a ‘a fois hétérogénes en termes
de formats, de sémantiqne, ete et volnminenses “phisienrs téranctets par mais} Rlles sont de plus relidee
entre elles an sir de experience of doivert ponvoir étre traoáes dang Te temps
Tans le contexta de Phenome, ces trés nombrenaes dannges doivent étre canservées, partagses of ana-
ee coulexis, les Gquipes soubiteut réorgauiser leurs propres jeux de donuces aflu de pouvoir naviguer, partager, annoter et rechercher ces demitres atin de les exploiter au mieux,
Un aystéme d'information a écé ‘mplémenté lors d'un stage de Master 1 en 201411] pour le projet
du LML RICH (BlOaSAL) Ce systéme est basé sur un systéme de gestion base de données Mongol)B ireluank égalemen la zestion des métadonnées et des tags Tontefais, la méthode mise en place ne permet
rpas de riétacter des relations explicites/implicites entra les données pérées par le aystime
Ténbjertif ch stage propasé sera d"évahrer la, fa'sabilité de gestion des RIG DATA camplé an techno- Jugies du Web Sémantique cu s'appuyuut sur les articles de syathive du douaine [2] Par eilleurs, uous séaliserous un Glat de art sur les probleues d'orgauisation des douuées massives ut de Pacgawutation de
Ja capacité de recherche sur les données, Plus particulitrement, sur la eapacité d'inférence et de raisonne- tment sur ‘es données, Un des objectifs du travail dans ce sujet sera de construire un base de connaissance sur les données existantes
1.3 Problématiques
Tes données binlogiques existantes cant volnmineuses et elles ne cessent d'angmentar chaqne jour hutilisarion des syztèmee de gestion de hase données relationnelles est: anjonrd’hni ma, adapré ponr gérey ces danndes|1] TL’margence des systémes de gestion de base de données VaSQI arienté-dacnment (e.6,
Trang 17MongoDB} semble mieux adapté [3] toutefois ces systemes sont depourvus d’ume capacité de recherche
sémantiqne sur les données ce qui existent seulement sur les données RK." par utiliser par le language
SPARQL
Ties bases de données da type “triplestore” sont mieux adaptées pone faire des inférencas on des za'sonnoments sur les données Toutefois, elles passent moins bien à V'échelle sur des gros volumes de donaées En effet, la recherche on Pinférence sur um grand volume de dom:ées RDF peuvent prondre beaxcoug de lamps Weujeu dans la gestion de ce Lype de docuees est (utiliser les capaciléy d'iuférence séuanlique avec de gros volumes de donées
L'association entre un systtme de données massives et les capacités de recherche sémontique est Pobjectif principal du sujet
1.4.1 Conlexte de donuées massives
Aujourd’bui, sous eulrous daus V'ére dee Big Data Dies easensbles de donudes Lellement giganlesques quills nécessitent de nouveaux outils techniques et scientifiques pour les cotmprendre et en tirer du sens
Un déinge de données epi pose des qnestions profondes sur leur cnlleote, leur interprétation, lenr analyse
ete Les prochains enjeux de ce siecle sont dextraire dit sens de ces masses d'information qui ciraulent sur
les réseanx Dans ca domaine, est avec la génamnique et le phénotypage ane la hialogie est déia entrée
dans le monde des big data Certes, l'imagerie ou la modélisation métaboliame produisaient des données numériques, mais 1a question de leur gestion ct de leur exploitation ne sc posait pas de la méme fagon
En termes Wexploitation des données, beaucoup reste & faire on biologic Crest méme là que se situe le grand défi des big data ev scieuces de la vie: rattraper Je lowe grandissaul entre production massive de dousées et la capacilé & en exlraire une information, voir une couraissance
Le Big Data s'accompagne du développement d' applications à visée analytique, qui treitent les données Tam en tirer du sens Ces analyses sont appelies Ig Analytics on *brayage da donne
Villes portent sur des données quantitarives complexes avec des Taétaodes de caleul distribud
En effet, les données macsives désignent des ensembles de données tellement volumineux qu'il en devient difficile de travailler avec des outils classiques dee gestion de hase de domnées ou de gestion de V'nformation Les Big Data sont souvent définis cn utilisant Pactoayme JV pour Volume, Vélocité ct
‘Varidte [4]
La volume se réfere & des quantilés uiassives de docuges qui soul dispouibles, Je volusue des doandes slockies est eu pleine expansion : les donuées uamiériques crédes deus e wionde seraiecl passées de 1,2 2ertaootets par an en 2010 à 1,8 zettaoctets en 2011, puis 2.8 zettaccters en 2U12 et s’éleveromt a 40 2ertaoctets en 2020{5] A titre d'exemple, ‘Iwitter générait en janvier 2013, 7 teraoctets de données
eEaqne janr et Wacebook 10 teraoctetsfi)
La vélocité représente & ‘a foie la fréquence & laquelle les données sont généréee, capturdes ot partagées
et mises & jour Quelquefois, la vélocité ce réffre & la vélocité nécessaize pour traiter, analyser et utiliser Jes dounées
Le volume des Big Duta met Jes data cealers devaut un réel défi: Ia variété des doanées, I ne s'agit pas
Trang 18de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voite non structurées
(cependant, les données non-striot:irées devront, pour rtilisation, acre stmnctimées} Ce sont des données
corapiexes provenant dir web, an format, texte at: images Illes penvent tre publiques (Opan Nata, Web
des données}, géo-démographiques par fot (addresses TP), on velever de Ta prapristé das consommatenrs
Co qui les rend difficilement ttilisabsles exer Les outils traditionnels
Pour répondre aux problématiques Big Data Parehitceture de stockage des systémes doit tre repensée
ef les modéles de stuckage se aiultiplient eu conséquence
© Cloud computing : l'accts se fait via le réseau, les services sont aecessibles 4 Ja demande et en libre service sur des ressources informatiques partagées et condigurables Les services les plus eonnus somt
cenre de Google BigQuery, ig, Data on Amazon Web Services, Microsoft Windows Aznre
= Super caleulatewss hybrides : Los HPC’ pour High Performance Computing, qu'on retrouve en France
du résean et des interfaces réseaux des SAN, De plus, utiliser un stockage de type SAN coiite bien plus cher pour des performances bien moindres, Daas les systémes de stockage distribué pour le
Rig Data, Con intradnit le principe de “Data locality les dannées sont sanvegardées la ai elles
peuvent âtre traitées
1
bases de données relationnelles classique ne permettent pas de gérer les volnimes de données
da Big Data De nowveaux modéles de représentation permottent de garentir les pexformanees sur Ice volumélries eu jeu, Ces Lecunologies, dites de Business Avulytics, Optimization permettent de gérer dee
baves suass'vencut paralldles Des puluns (urchitecture “Big Date, Architecture franeworke” sant pro- posés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le framework Hadoop Avec ce systềme les requêtes sont séparéee et distribuées & des neeuds parallélisés, puis exéeutées
en paralléles Les résultats sont ensuite rassemblds et récuperds Teradata, Oracle an EMC proposent également: de tellen strictures, hasées snr des servenrs standards dent les configurations sort aptimiséan
Ts samt eononrrencés par des éditer
comme SAP (Systems, Applications, et: Products) at plus récemment Microsoft, Lee acteurs du marché s'appuient sur des systémes & forte ccalabilité horizontale et sur dee solutions basées sur du NoSQL plutat que sur des bascs de données relationnelles class:quee
Aveo les doanées dans nos laboratoires, le prabléme de gestion des damnées massives ne peut pac étre résolu avee les systèmes de gestion de base de données relationnelles, Cea systemes deviennent lourds et Tents sur ces types de données, Ces dernitres années, ont vu 'émergence d'une diversicé de syatmes de gestion de base de données que lon appelle NoSQL Ces ayattmes NoSQL, proposent plusieurs modeles
‘pour organiser ef stocker las données (Ja table 1.1)
Trang 19‘Type de base de données! | Liste des systémes utilisés
Clé - valeur CouchDB, Oracle NoSQL Database, Dynamo, FoundationDB, Hy-
perDex, MemeacheDB, Redis, Riak, FairCom e-treeACE, Aerospike, OrientDB, MUMPS
Orienté colonne Accumulo, Cassandra, Druid, HBase, Vertica
Orienté document MongoDB, Clusterpoint, Apache CouchDB, Couchbase, Docu-
mentDB, HyperDex, Lotus Notes, MarkLogic, OrientDB, Qizx Orienté Graphe Allegro, NeoJ, InfiniteGraph, OrientDB, Virtuoso, Stardog
Mnlti-modèle OrientDB, FoundationDB, ArangoDB Alchemy Database, CortexDB
Tableau 1.1: La liste des types et des syst2me de gestion de base de données dans NoSQL
Dans le domaine des données scientifique, il existe également de réels besoins d'exploitation de ces données, en raison notamment de la forte augmentation de leur volume des derniéres années Le big data
et les technologies associées permettent de répondre a différents enjeux tels que l’aceélération des temps d’analyse des données, la capacité & analyser l'ensemble des données et non seulement un échantillon de
traitement des données des réseaux sociaux ete
1.4.2 Contexte de recherche sémantique
Organiser les données afin de
mieux les comprendre, les utiliser et
kế gạtbags:,@GEoHoblegdflelaugue teraction
date, Mais le développement de Pere
digitale a provoque une avalanche de
données dont 1e traitement requiert
Raisonnement
de nouvelles méthodes L’enjeu de
la recherche informatique est d'ex-
traire du sens dans cette masse d'in- Requétes
formation notamment a travers des
miéthodes de fouilles de données ou
des algorithmes d'apprentissage auto-
Représentation
matique scannant le web, Toutefois,
Jes problémes ne sont pas résolu pour
antant, Pourtant, a partir de Vidée de Tơk 1à 1/6k-NHiBdurt dù ól v6nahlpte
‘Tim Berners-Lee : “J'ai fait un réve
pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web
= le contenu, les liens, et les transactions entre les personnes et les ordinateurs Un “Web Sémantique”,
Trang 20qui devrait rendre cela possible, n'a pas encore émergé, mais quand ce jour sera atteint, les mécanismes
de dialogue entre les machines sera facilite Les “agents intelligents” qu'on nous promet depuis longtemps
vont enfin se concrétiser [7] [8] le web sémantique émerge comme la meilleure solution pour traiter les données directes ou indirectes par des machines, partager et réutiliser des données entre plusieurs applications et aider les utilisateurs à eréer de nouvelles connaissances
Dans le contexte d’application orienté web sémantique et la gestion de données biologiques, nous allons focaliser sur les trois parties principales suivantes : Le représentation de données en RDF, les requétes avec SPARQL et les inférences, les raisonnements pour trouver de nouvelles connaissances
La description de ressources (RDF)
tos
Figure 1.2: L'ezemple d'un triplet RDP
La RDF est un moddle de graphe destiné & décrire la donnée de fagon A permettre son traitement
automatique par des machines RDF donne une description par triplet <Sujet, Prédicat, Objet> Le sujet
représente la ressource a décrire, le prédicat représente un type de propriété applicable à cette resource,
et lobjet représente une donnée ou une autre ressource Les documents RDF peuvent étre écrits en
différents syntaxes ainsi, il peuvent exister sous plusieurs formats : RDF /XML, N3, N-Triples, TURTLE, JSON-LD ete
‘La RDF est donc simplement une structure de données constituée de noeuds et organisée en graphe Un document RDF ainsi formé correspond & un multi-graphe orienté étiqueté Ici, chaque triplet correspond alors & un arc orienté dont le label est le prédicat, le noend source est le sujet et le nozud cible est l'objet L'Interrogation de graphes RDF
5, <http://wnm.w3.og/1999/82/22-rdf-syntax-nst>
-ehttp://amins.con/foat/@.1/>
$e ahto: /ourlora/defelenents/1.2/>
SELect DISTINCT nom "thage,feeseripttan
Ypersonne raftype foat:Person
Yhersanne foaf:nane 2am
Pinage rdf type foaf: Inage
Pinage de:descrtption tdesertptton
Figure 1.3: L’eremple d'une requéte SPARQL
Le SPARQL est un langage de requétes pour interroger des données qui sont stockées en respectant
le modéle RDF Les requétes SPARQL sont adaptées a la structure spécifique des graphes RDF, et s'appuient sur structure sous la forme de triplets En cela, il est différent dur classique SQL, mais s'en inspire clairement dans sa syntaxe et ses fonctionnalités Le SPARQL permet d’exprimer des requêtes
interrogatives ou constructives ; une requéte SELECT, de type interrogative, permet d’extraire du graphe
RDF un sous-graphe correspondant a un ensemble de ressources vérifiant les conditions définies dans une
8
Trang 21clause WHERE; une requéte CONSTRUCT, de type constructive, engendre un nouveau graphe qui
oompieta la graphe ïnterrogé
L*Ontalagie
TảOmralngie est un ensemble structnré de termes et concepts représentant Te sens đìun champ đìn- formations, que ee soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de vornaissanens L’ontologic constitue cn soi un modéle de damages roprésentati? d'un cusemble de concepts đang un domulue, ainsi que des relatiuus euLre ves coucepls, Elle es) employée potr raisonuer & propos des
objels du domame coucerné, Plus simplement, uous pouvous aussi dire quel’ “uutologie es aux doandes
ce que la, grammaire est an langage”
Les conceptions utiliser pour décrire d'une ontologies zénérales +
= Individus : les objets de base
# Classes : exsembles, collections, ou iypes d'objere
© Allribuls : propriélés, loucliounalités, earuclécistiques o« paraiuéLces que ies cbjcls peuvent posséder
@ Relations : les liene qe les objets peuvent avoir entre enx
« Evénements : changements subite par des attributs ou des relations
@ Méla-classes : des collections de classes qui parlagent certaines caractérisliques
sémantique comprendre le, notion de *X ispartOf ¥" peut ajouter la déclaration “HaiPhong isPartUf Vietnam” à l'ensemble des relations, bien que cela ne faisait pas partie des données originales On peut dire aussi que la nouvelle relation a été “découverte”
Tinne maniére générale, Les inférences anr le web: sémantique peut tre caractarisée par Ta, découverte
Trang 22individuelles peuvent être associes à ces classes, et de caractériser les relations entre les clases et leurs ins-
10
Trang 23Chapitre 2
Etat de Part
Depuis plusiewrs années des études en phénotypage haut-débit des planves sont réalisées à [LNHA
1 existe done un grand nombre de données da phénotypage et de génotype des plantes Ces données
sont, aoqnises chaqne jour, par exemple sur le platean techriqne PhenoArch, ervirơn 1600 plantes sont
mnivies perdant decre A trois ma's Chaque jorrs elles snnt photographiées sons trois À treine angles,
ve cycle joumalier diimagerie produit dore environ 20800 images stockées Celles-ei sont associges & des configuration cl des résultats Panalyse d'imuge sous 1a forme de JSON, Clague document ISON
est cuviron 40 champs Pour les gércr, les informatigivus oat déj& coustruils un systéwe Piuformation uppelé Phuuotyping Hybrid In‘ormation Systeut (PHIS}* Les dounées permetiaut Pexploitation du la Patetorme sont stockées dans ume base de données relationelles Avec les limitations de base de données +elationnellee, ces donages doivent &re migrées dans une base Mongol)3 pour améliorer le temps de perlormance du svstéme,
T4 même fagom, le projet RIQASAT est entrée dans une denxibme pha£e A partir de 2015 4 2018
Ties études de la premiồre phase ont été réalisées snr rx (O.SATTVA) Ce sont des données hétérnghnes
eb volutniueuses sar Ie phéuolypages cl génulypes du riz, Le luboraloire a aussi construil, uu systéne
¢Piuforaustion pour gérer lus donuces Sysphuricc? I], Cus dounées sont organises cl stockées sous la forane
de documeut JSON, Elke sout yérdes par le syeLbur do gestion de bese de dounées oviculé document MongoDB
2.2 Analyse et évaluation des solutions courantes
2.2.1 MongoGraph - une association du Mongodb et AllegroGraph
AllegroGrupk ost une buse de dounées de graple RDF persislunle T ubitise le slodkage sur sur disque,
ce qui lui permet de passer & Téehelly des miliacds de triplets, tout cx maintenant une perleruanee supérieure AllegroGraph est un framework de base de données et outils pour construire des applications Web sémantique II peut stocker des données et des méta-données, il permet aussi d”:nterroger ces triplets
“intp o///pe phis.cupageiara.(r/ pis/indes.php
“° ráp ;//vmbioeeai-dev-irdLft :8080/8yepherice
1
Trang 24travers différentes APIs comme SPARQL et Prolog De plus, il fourni des fonetionnalités de raisonnement RDFS++ avec son raisonneur intégré, AllegroGraph inclut également une librairie d'analyse de réseaux sociaux (SNA) et il permet de stocker et raisonner sur des données temporelles et géospatiales
Actuellement, il existe différentes éditions d'AllegroGraph : une édition gratuite ot stockage RDF est
limitée 4 moins de 5 millions de triplets, une édition développeur capable de stocker un maximum de
50 millions de triplets et une édition d'entreprise avec une capacité de stockage qui n’est limitées que
par ‘infrastructure de serveur Des clients sont disponibles pour Java, Python, Lisp, Clojure, Ruby, Perl Csharp et Senla
En plus des fonctions liées à l'application de Web sémantique, AllegroGraph implémente une interface avec MongoDB, que V'on appelle MongoGraph Celle-ci permet ’offrir aux programmeurs MongoDB les
capacité du Web sémantique En utilisant cette approche, les objets Javascript Object Notation (JSON) sont antomatiquement convertis en triplets et ils peuvent étre interrogés A la fois par le langage de requéte MongoDB et par SPARQL
MongoDB est une base de données
orientées documents NoSQL de haute
performance et Open Source, MongoDB
ments en forme de JSON avee comme
Query Quay
intégral, la réplication, la répartition des
de données (sharding), le calcul Map/Re-
duce et un langage de requéte riche & base ——ẽs
de documents Toutefois, il ne fournit pas Mongoting
plexes, le liage de données (linked data),
raisonnement
En connectant AllegroGraph à Mon-
goDB, il est possible d'interroger des
données liées en graphe et dans une
base de données orientées documents en RA, RĐE owe
une seule requétes Avec MongoDB, les
données sont organisées en forme des do-
uments JSON, ils sont gérées par un sire 212 Le modile de composants dans un systime MongoGiraph systéme de gestion de hase de données
orientées documents des plus efficace [9] Avee AllgroGraph, les données sont organisées en graphe, sur lesqnelles nous pouvons réaliser facilement des requétes SPARQL, et aussi effectuer des inférences sur ces données
Avec les caractéristiques des deux systémes de gestion de base de données, il est possible de construire
un systéme qui a des eapacités de requétes du Web sémantique et qui peut traiter des données volumi-
neuses, Le modéle du systéme général de MongoDB et de AllegroGraph est mis en oeuvre Figure 2.1
12
Trang 25Ici, les données dorigines restent stockées dans MongoDB sous le format documents dans des collections Les nouveaux triplets mis en relation avec les documents MongoDB sont importés dans AllegroGraph Pour créer mamuellement des triplets ou utiliser Poutil Relational and Non-Relational Databases to RDF Mapping Language (xR2RML) pour les convertir automatiquement On utilise les seulement les attributs importants dans les documents D’ailleurs, une ontologie est utilisée pour Vorganisation sémantique des triplets eréés, Cette ontologie permet Vinférence en exploitant les relations entre les triplets, Ainsi le moteur d’inférence peut eréer de nouvelles relations sur la base de l'ontologie définie
10/Syspherco/
© (a) objectia’s3e (7 Fields) http: //unblocsat
G ẨeotDalaDecD — Elblc4aÖ44acbafd404 ‘Objectid" Sacto 5dtase Ent tty/S3edarsbe a Vn:Enttty
S Nae 2 MS <ht†p: //vnbtoesat -đev 1đ, f7 :8@88/5yspher tee/
+ © (as) ebjectuts3 (7 fetes) ÝnihasNaxe
a" ‘ects sactetsdesaestour 2d) 7Đb3cd914iacbofd40477603
E1
290
Po
(a) Les données JSON dans MongoDB (b) Les données RDP dans AllegroGraph
(e) Lontologie de tiew origine de plante Figure 2.2: Les données présentées dans cet exemple
Pour mieux comprendre la solution d’association de MongoDB et de AllegroGraph et illustrer les
requétes et l'inférence, nous avons pris un exemple sur les données existantes du projet BIOeSAL Ce projet contient une ontologie sur les relations entre le lien d'origine des plantes et les images expérimentales sur
les plantes Les triplets sont créés A partir des documents MongoDB, dans ce cas, en utilisant les attributs
de identification du document, les informations sur V'origine des plante et du nom des plantes, On peut
voir les détails des données JSON dans MongodDB, des données RDF qui ont été liés aux documents
MongoDB et lontologie de références dans Figure 2.2
13
Trang 26Nous pouvons faciliter Pimportation des données RDE đans AllegroGraph en utilisant la forme d’un dépot, “Repository” La création d'une connexion avec MongoDB est effectué dans interface de Allegro- Graph Ici, les informations de la base de données MongoDB doivent étre rempli, par exemple : le nom
et port du serveur, le nom de la base de données et Ja collection choisie
AllegroGraph posstde deux types différents de moteur d'inférence : I'un supporte un sur-ensemble de regles d'inférence RDFS et Vantre supporte Web Ontology Rule Language (OWL 2 RL) Le premier est appelé le raisonneur RDFS++ dynamique car il génére les triplets inférés 4 Vexécution de l'inférence et
a’enregistre pas les triples nouveaux créés, Le second moteur d'inférence fait de la matérialisation OWL
2 RL Il utilise de régles d’inférence pour générer de nouveaux triplets et les ajonte a la base de triplets
courante Pour notre exemple, le second moteur d'inférence est choisi pour toutes les données Apres
avoir exécuté, nous avons les nouveaux triplets sont stockés de manitre pérenne sur le disque comme les triplets d'origine Cela est le mieux pour les systémes qui ont plusieurs requétes
Les requétes sont réalisées grace an langage SPARQL intégrant des requétes MongoDB (Figure 2.3) Cette association est effectuée par Vutilisation d'une approche que Von appelle “Magic Predieat” C'est
un prédicat d'une requéte SPARQL qui permet une liaison, différente d’un simple appariement: de sous- gtaphe, AllegroGraph a longtemps sontenu utilisation de “Magic Predicat” pour permettre les requétes
en texte libre et pour interfacer Solr et MongoDB Dans la requéte Figure 2.3, le système va effectuer deux requétes dans denx systémes différents pour obtenir les résultats Les requétes seront exéeutées dans MongoDB pour trouver les résultats sous le format de JSON, et les résultats finaux (les triplets) seront trouvés dans AllegroGraph
Subject Predicate Object
53c4alSb44e950a71264đ03 rdhypø, ‘owl Namedindividual S3c4alSb44ae950a71244đ03_rdtfpo, Enty
58e4a1Sb44ne80471264đ03 hasOrlgin VIETNAMO 53cãn1Sb44aeĐ50a712đ4đ03_ hasMongold "São4a1Bba4no950a71204đ03"
Figure 2.9: Une requéte SPARQL associée @ une requéte de MongoDB
Avantages
@ AllegroGraph permet de réaliser des inférences stir des données massives
« Seleetion possible des propriétés importantes et done réduction du nombre de triplets dans la base
de données
« Gestion de base de données massives avec MongoDB
Inconvenients
« Un systime plus complexe avec plusieurs étapes de requétes
‘© Mapping manuel des données entre les deux systémes MongoDB et AllegroGraph
14
Trang 27« Pas de synchronisation entre les đeux, quand nous mettons à jour au MongoDB, nons devons le faire aussi sur Allegograph
2.2.2 Base de données orientée graphe Neo4j
Neo4j est un syst?me de gestion de base de données orienté graphe, ce qui permet de représenter les
données en tant qu’objet relié par un ensemble de relations, chaque objet possédant ses propres propriété
La base de données de graphes, permet au développeur de commencer directement le codage, les données
stockées dans la base assurant un parallélisme direct avec les données elles-mémes En d'autres termes, &
mesure que organisation des données se peaufineront, les programmes suivront
Une base Neodj est censée être plusieurs milliers de fois plus rapide pour traiter les données associa- tives, car elle en évite de coitteuses jointures Structured Query Language (SQL), Les requétes peuvent gérer de ce fait plus facilement un large ensemble de données Les parcours utilisent un langage simple
de parcours des connections L'absence de modélisation rigide, rend Neodj bien adapté a la gestion de données changeantes et de schémas évoluant fréquemment
Les caractéristiques typiques de données pour Neodj sont la structuration des données optionnelles
qui sont peuvent absenter, une facilité de changement du schéma et des migrations de données sans
contraintes, la modélisation facile de jeux de données de domaines complexes et cas d'utilisation typique dans des domaines tels que le Web sémantique et RDF, le Web de données, l'analyse du génome, la
modélisation de données de réseaux sociaux ete
Neodj a des composants optionnels qui viennent en complément du noyau On peut ainsi structurer le graphe via un méta-modéle, obtenir une implémentation de RDF TripleStore compatible SPARQL Par
II 3 et Neodj-sparql-extension*
exemple, avee deux plugins Neo-rdf:
Figure #4: La graphe de données dans Neofj
Les graphes de données dans Neodj sont illustrés par les concepts de “Nodes” et de “Relations”
‘https ://github.com /niclashoyer /neot}-sparqbextension
lỗ
Trang 28Figure 2.4, Diailleurs, le langage de requéte Cypher est utilisé pour manipuler les données, C'est un langage déclaratif de requéte graphique qui permet de réaliser efficacement et rapidement des requétes
et des mis & jour sur les données, En détail, le langage Cypher se concentre sur la clarté d’expression de
ce que Yon veut récupérer à partir d’in graphique et pas sur la fagon de le récupérer Cette approche
permet optimisation des requétes,
CREATE (n:"Imaqe81` { URT: 'm3p:arch/2015/435822' }) RETURN n
CREATE (n:'PlAanteð1ˆ { Mane: 'Natze' }) &ETURN n
€REATE (n:'Canera04` { ingacqeameraprofienane: 'Test3194' }) RETURN n
MATCH (a:ˆ1nage91ˆ { URI: 'w3p:arch⁄2615/4c15820' }), (b: Canera94` {
¢ L’organisation de données sous forme de graphe est presque similaire à organisation des données
dans les ontologies et les instances données RDF
Inconvénients
© Les données doivent étre re-organiser sous la forme d'un graphe, cela prendre plus de temps en
fonction de la complexité et de la taille de données,
# Les données ne sont pas en RDF directement, done pour faire des requétes SPARQL nous utilisons
un plugin intégré qui ne supporte pas entidrement le language SPARQL
Les données liées se référent à un ensemble de bonnes pratiques & mettre en oeuvre pour publier et lier
des données structurées sur le web Elles s'appuient sur les standards du Web, tels que HTTP et URI -
mais phitot qu’utiliser ces standards uniquement pour faciliter la navigation par les étres humains, le Web des dotinées les étend pour partager également l'information entre machines Cela permet d’interroger
automatiquement les données, quels que soient leurs lieux de stockage et sans avoir 4 les dupliquer
JSON-LD est une syntaxe légere pour sérialiser des données liées de la forme de JSON Son utilisation
permet a des données JSON d’étre interprétées comme des données liées avec des changements minimes JSON-LD est principalement destiné a étre nn moyen d'utiliser les données liées dans des environnements
de programmation basés sur le Web, pour construire des services Web interopérables, et pour stocker des données liées dans les moteurs de stockage & base de JSON Actuellement, JSON-LD est compatible avec
JSON, un grand nombre de parseurs JSON et de biblioth?ques sont disponibles aujourd'hui et peuvent étre réutilisés En plus de toutes les fonctionnalités JSON, JSON-LD introduit :
Un mécanisme d’identifiant universe! pour les objets JSON via l'utilisation d'IRIs
16
Trang 29® Un moyen de lever ambiguité đe clềs partagées entre des documents différents par des mappings
en IRI via un contexte
Un mécanisme dans lequel une valeur dans un objet JSON peut se référer 4 un objet JSON sur un autre site sur le web
¢ La possibilité d’annotation des chaines de earactires avec la langue et d’associer les types de données
avec des valeurs telles que la date et Vheure
¢ La facilité d’exprimer un ou plusieurs graphes orientés comme un réseau social en un seul document
JSON-LD est destiné a étre utilisable directement comme JSON qui ne contient pas des connaissances
de RDE Il est également congn pour étre utilisable comme RDF On peut l'utiliser avec d'autres tech- nologies de données liées comme SPARQL Les projets qui ont besoin de traiter les données comme des graphes RDF vont trouver tne solution avee la forme de JSON-LD En détail, le document JSON-LD est
(6felde) p//unbloesidevindfr9689/Masl2 array)
up http /vmbioesal-denied fr:8080/Syspherice/ExceiDataDoc_Panicule_List/$3¢4a1 aay) $b4
0 http /Wmbloesai-dev.ird.fr:8080/ExcelDatadoc Panicule List,
.v #3 htfp//mbloesal-dev vao lrd fr:8080/hasBarCoée — Array [1} Hộ)
5
© @value
Figure 2.6: Les triplets sont stockées dans MongoDB sous la forme de JSON-LD
la fois un document RDF et un document de JSON et représente une instance d'un modèle de données RDF Cependant, JSON-LD étend le modele de données RDF pour sérialiser des ensembles de données RDP
Le format de données RDF est organisé en JSON-LD, ce qui
convient au format JSON utilisé dans MongoDB Alors, nous
pouvons profiter de la puissance de MongoDB pour résoudre
le probléme de grandes données D’ailleurs, nous facilitous la
sérialisation des données de graphes RDF dans MongoDB
La graphe de données RDF peut étre organisé et stocké dans
la mémoire temporelle avec le support d’Application Programming
Interface (API) disponibles tels que Sesame ou Jena Ces APIs
permettent d*utiliser le langage de SPARQL pour faire des requétes
et appliquer des régles et faire des inférences sur les données Les
recherches vont directement se faite sur les graphes RDF qui sont igure 2.7 Le modile de eomposants sérialisés (chargés) & partir des données dans MongoDB, cette étape dans un systéme d'assaciation de Mon-
va prendre du temps Nous avons alors besoin d'une méthode pour goDB et JSON-LD - CRUD
organiser les données importantes Cette étape est importante pour
optimiser le temps exécution du systéme, En effet, nous avons les deux bases de données dans le syst?me,
17
Trang 30le base de données orientée documents et la hase de triplets dans mémoire temporelle Ici, Les opérations
ORUD vont s'exémter dans Mongol)it et les recherches sant réa isées dans le graphe RUF Alors, nne
corche médiane est nécessaire pour synchroniser les đenx hasas de donrées
Avantages
# Le stockage des données dans MongoDB sons la forme de JEON-LD cet aussi la forme de données EDF Nous pouvons done profiter de la puissance de MongoD)B dans le traitemem de probleme de données volumninenses
« Tes opérations de CRUD vont étre ranidemert rán ieđes snr Tes données dans Mongo
@ Les requétes eu langage SPARQL sou, alilisées pour aire des recherches de dounées daus le sysléiue
Inconvénients:
© Texistence de deux base cle données va angmenter ‘a complexité dn systéme
@ L’étape de chargement des doanées de graphes RDI dang la mémoire temporelle ve prendre beau- coup de temps Les mises A jour sur les donaées de graphes RDF's sont dépendantes de Ja base de données dans MongaDR
@ Le probiizue de sudwuire temporelle aver les grands gruphes RDPs, la puissanee malérielle esl
imporlaule pour ce sysléme avee un besoin furl de nudmuires Lemporelles
2.2.4 ODBA et frameworks Ontop
L!O1TA est, considérde comme wn élément olé pour la nonvelle génération da aysrèmes dfinformatian
en partienlier panr les applications cu Web sémanticue qni impliquent nne grandes quantités de données TODBA est nn paradigme d'accks A des données par ima enuche conceptuelle, Généralemenr, la canche eonveptuelle est exprimée sous la forme dune oulolugie qui défidt ua sekéma global de Haul uiveau el Jowruil des yovabulaires pour des requéws cPutilisateurs Le donus cout sluckées dans des bases de ouées relaliounelles, des bases de \iplete ule (10
Lea termes de la couche conceptuelle sour mappées sur la couche de données en utilisant les mappings qui associent & chaque élément de la couche conceptuelle, une requate sur les sources de données Main- tenant, les mappings ont éé formalisées dara la réceme norme Relational Databases to KDE Mapping Janguage (RERMI)} ® de Vorganisation WAC Cette praphe virtnelle pent étre Interrogée A Vaide d'un Tangage de reqnéte sur lee donndes RIT tela qne SPARQT
Un aysthme ODRA eet um triple: © — <7, A4», oh[H1|:
@ T esl comsidérd eumuue les outologies formulisées dans les Logigues de Deseription (DL), et T esl
ua DL TEOX
e S est un schéma des sources
# Mest un ensemble d'assertions des mappings, chacun de la forme : D(z} ©— (x)
‘h(a est we requéte sur S, retourner des tuples de valeurs pour x
U(x) est ime requéte sur 7 dont Tes variab’es bres sont de»
18
Trang 31Ja couche conceptuelle sont traduites dans um langage de requéte qui peut étre traité par la couche de
données La traduction est indépendante des données réelles dans la couche de données De cette fagon,
Tévaluation de requéte peut étre déléguée au systeme de gestion des sources de données
Sur la base de la conception d’ODBA, les chercheurs de VUniverstié Bozen-Bolzano en Italie ont
développé un Framework ODBA du nom d’Ontop Il est utilisé actuellement sur l'application Optique® résoudte les problemes de Big Data,
Le noyau de Ontop est le moteur de requéte SPARQL QUEST qui implémente RDFS et OWL 2 QL
en ré-écrivant les requétes SPARQL sur le graphe RDF virtuelle en des requétes SQL (sur la base de
données relationnelles) Ontop est capable de générer efficacement et de maniére optimisé des requétes
SQL {12} Le Framwork Ontop peut étre utilisé comme :
¢ Un plugin pour Protégé 4 qui fournit une interface pour la rédaction de mappings et l'exécution de requétes SPARQL
© Une bibliothèque Java qui implémente OWL API et les interfaces API de Sesame
Un point d’aceds SPARQL sur Sesame
Trang 32L’approche classique converti les bases de données en triplets Ensuite, les requétes, les inférences seront réalisées sur ces données Avec l'approche de QUEST, un nouveau paradigme sur les données est cr6é, ici, les structures de base de données ne sont pas brisées Les données sont stockées dans um seul
systéme,
‘Ave le limitations des
bases de données relationnelles
pour Is données massives, une
solution proposée est lassocia-
tion du modéle ODBA avec
le systeme de gestion de base
données MongoDB Avee cette
approche, nous allons profiter
des ayantages des MongoDB pour la gestion de grands jenx
de données et du modéle ODBA
pour créer des mappings entre
rchitecture du systéme avec Vassociation de MongoDB et le
les données et ontologie Ainsi ign 2.10:
nous pourrons faire des requétes medéle d/ODBA
et utiliser du raisonnement,
Avantages
¢ La structure de données est gardée dans le systéme de gestion de base de données I n'y a pas de
duplication de données sous forme de triplet pour faire des raisonnements
¢ Les interrogations sur les données sont réalisées dans langage de requéte SPARQL
« La capacité de compatibilité avec plusicurs systémes de gestion base de données relationnelles
Inconvénients
« La complexité du système va augmentent avec organisation des modéles d'ODBA,
« Laugmentation du temps et de Pargent pour construire le système
2.2.5 Matérialisation de données en triplets RDF
Dans toutes les approches ci-dessus, les données sont organisées et stockées dans des systtmes de
gestion de base de données orientés graphe Neo4j ou des systemes bases de données orientés documents:
MongoDB ou des systémes hybrides d’association de MongoDB et des systémes de gestion de base de données de triplets RDF Toutefois, 'implémentation de requétes sur les données avec le langage SPARQL
‘ plusieurs limitations Dans cette partie, nous allons découvrir une autre approche sur les données, C'est
la matérialisation đe données en triplets Les données seront converties en triplets RDF Cette approche
est maintenant Ja meilleure solution pour l'organisation des données avec des capacités de raisonnements
Le plus souvent, lorsque l'on commence 4 vouloir publier des données sur des bases de connaissances
comme RDF il existe déja une base de données Pour que l'on puisse utiliser les données en RDF, il faut
20
Trang 33les traduire en triplets Il existe plusieurs méthodes mais la plus utilisée est la suivante : Database To RDF (D2R)’ a pour but de traduire toutes les données contenues dans une base de données en triplets
RDF D2R fonctionne avee umn fichier de mapping et une on plusieurs ontologies Le fichier de mapping sert & faire la liaison entre les tables et les champs contenus dans ces tables et les classes et les propriétés dont sont composées ou les ontologies que l'on utilise Ainsi, aprés le mapping, les données correspondront
a la ou les ontologies spécifiées et, ensuite seront disponibles sur une application Web sémantique par
Tintermédiaire d’une interface Web et d'un point d'accés SPARQL
Texiste maintenant deux méthodes pour map-
per une base de données : RIRML® et Direct
Mapping” Ainsi avec ces deux méthodes il est
possible d'intégrer toutes les données d'une base
SQL au Web de données, de les manipuler avec
SPARQL et de les interconnecter avec d'autres
jeux de données présents sur le Web de données
Le Direct Mapping dếRnit wne transfor-
mation simple, fournissant une base pour la
définition et la comparaison des transformations
plus complexes Il peut également étre utilisé
pour matérialiser des graphes RDF ow définir des
kraphes virtuels Ces graphes peuvent étre in-
terrogés en SPARQL ou grace & une API RDF
En ee qui coneerne R2RML [13], c'est un lan-
gage pour exprimer des mappings A partir d'une
base de données relationnelles et des ensembles de
données RDF Ces mappings fournissent des ca-
pacité de visualisation des données relationnelles
existantes en représentation RDF Avec les trois
figures dans cette section, nous pouvons voir in
exemple de ces mappings de données relation-
nelles et de triplets Tei, sur la base des relations
entre les tables (Figure 2.11), nous allons définir
un fichier pour mapper des informations dans et
entre les tables (Figure 2.12) aux sujet, prédicat
et objet de triplets (Figure 2.13)
‘Toutefois, ces deux approches existe seulement
pour des bases données relationnelles Done il y
ala nécessité d'utiliser la méme idée pour mapper
rr:1ogicalTable [ rr:tableMase “Study” J;
#r:sub$ectfap [ rr:class st:study;
rr:tenplate “http://example.org/study#(14)”;
hi
respredicatedbjecttap [ rr:predfcate lạng:has-for-nane;
rr:objeCtMap [ rr:columa “Acronym” };
is
rripredicatedbjecttap [
predicate role:has-for-agent-at;
rr:ebjecĐlap ( rr:paremtTriplesMap <#centre>;
rr JoinCondition [ rr:ehá1d “Centerta™;
Figure 2.13: Les données RDF aprés de la transformation
des triplets RDF avec des bases de données orientées documents Franck Michel et ses colleges [14] se Thttp *//adee.org/
Shttp ://www.w3.org/TR/r2rml/
Sheep ;//seww.W3.org/TR/rdb-direct-miapping/
2
Trang 34zont basés sur le langage de mapping R2RML et Morph-RDB" qui est une impiémentation du langage
đe mapping H2HMI, panr les données telationnelles, porr développer xK2HMI qui est s'appliqne aux
hases de données orientées documents camme Memgol 13
Tn partionlier, xR2RML est :me extension de la langage de mapping RORMT et s'appuie sur cartaines propriétés du langage de mapping RDF Mapping Language (RML) [15] ot R2RML porte sur les mappings
de base de donnéss relationnelles aux triplets RDF RML étend R2RML: pour aborder les mappings sur dee douaées hévérogéues (KML, JSON, OSV) aveu des Uiplets RDF xR2RML élend ve damp Vapplicalion
& un plus large éveutail de base de dounées uowrelationuelles,
Avantages
» Les damages son$ convertics en triplets Nous pouvurs donc utiliser les systémes de gestion de base
de dounées RDF spécifiques
© Les interrogations sur Tes donrées sont réalisdes par langage de requiéte SPARQI
# Les capacilés de raisonnezueat soul parluilemenl soulenues par ces sysitzues de gestion de base de
données RDE
Tnvonveénients
«= Téétape de transformation de données est cofitense en temps : ré-organtsation des données en graphe
@ Le nouveau systime avec ses données ø besoin d’une nouvelle architecwure pour étre mis en ceuvre 1e système est indépendant de lexistant
@ On renvontie des probltaus de performaner aveu les données volunincuses
Dans cette partie, nous avons fait Pétat đe Part des approches pour résoudre le probléme de données
massives et des recherches au nivean Web sémanriqne Pour résnmer ‘I a denx approches principales :
Ja transformation de données en triplets RTF ave Tassosiation de AL egroCraph et de MongoDD, de NeodJ, de J8Qn-LD ot de MongoDB Ly a aussi l'utilisation d'un langoge de mapping comme xR@RML
ot le transformation de requétes ou Ia ré-éeriture des requétes avec QDBA ct Ontop Framework On peut
‘nicots T faudra done, sur la base des
‘voir que pour chaque approche il existe des avantagos ct des incony
caractérisliques de Vorgenisalion des données el de l'objectif d'utilisation de doaudes, choisir Ja useilleure xontion pour ley đorutées
1Đhräpx ://githalhoentneg-nlpmt/menfcnôh
Trang 35
forme de triplets
Dans ee ehapitze, ous eborderous deus la, premtitze suction Ie evia de lu rupréscatation đụ modble donaces vt la manitze de le géuérer, Ensuite, das la suction suivaule sera abordée une dérnareke entzeprise pour Lrausfurmer des dounées du aiudéle selaliounel eux formal JSON De plus, une ontulogic sera présentée pour décrire les vocabulaires nécessaires dans la ‘a conception du modele RDL's Ln fin, le langage de transformation de données en HDI" sera introduit avec les syntaxes pour eréer les mapping et
coxvertir des documents JSON en triplets RDI
L'approche de matérialisalion de donuées cu triplels RDF a évé choisic afia de tester orgunisatiou eL là perormance des Uiplostores sur de gros volune donudes, Lee nyslimes acluels slockaul de gros values sou, eu auajorité partagés entie des systéuces NoSQL (c.g : Mongodb), relatianucls cf divers formal L’un des objectifs de ce travail était ’organ‘sation et la synchronisation dea données en conservant leur
provenance et les syattmes existants ea ayant MongaDB comme stockage inrerméd:aire
Par Ja suite, les données seront converties en twiplets RDF grace a utilisation du langage de mapping
mÌa xR2RMI, at llanti dávelnpné par lae antenws [14| Tes và ‘res ef Tes régles de transformation de
23
Trang 36données RDF afin d'optimiser le stockage et pour la récupération de ces triplets A Vaide du langage de requéte SPARQL
Le moteur de recherche va consister A utiliser la capacité dinférence sur la base contenant lontologie et les données RDF Une interface est fournie pour effectuer les requétes sur ces données, Les interrogations
sous la forme de langage SPARQL sont utilisées pour chercher les données nécessaires dans la base de
données L/illustration détaillée du modéle est présenté dans la figure 3.1 suivante :
Dans le projet Phenome (INRA), plusieurs systémes de capteurs alimentent des bases de données
relationnelles en permanence Il y a une fort besoin de synchronisation de ces données avec le système: courant, L’étape de transformation de données en documents JSON est réalisées afin d'intégrer plusieurs
ressources dans un meme entrepét Dans la suite du memoire nous nous concentrons seulement sur les
données obtenues dans sur les processus d’imageries, d'arrosage, de pesées ceux que les chercheur ont réalisés quotidiennement
Afin de garantir la cohérence des données entre les ressources et les processus qui les génerent, des modéles ont été définis La définition des modéles JSON est réalisée pour mapper les propriétés de
plusieurs tables de base de données relationnelles avec les clés - valeurs dans les documents JSON Seules
les propriétés importantes et les relations entre les tables ont été conservées, La figure 3.3, représente
un exemple de modéle défini en JSON pour les données imageries construits à partir les trois tables différente
nom Vindique aux données images (horodatage, format, ete), aux profils caméra (balance des blanes,
: Images, Imgacqcameraprofiles et: Imaguestationprofites, Ces tables correspondent comme leur
saturation, etc,) ainsi qu’aux profils des cabines d’imageries (lumidres, ete ) Dans ce nouveau document
ISON sont représentés des données fixées par les systémes existants et des nouvelles données caleulées a
4
Trang 37partir de traitements resultant de leur intégration,
Figuce 3.2: Le modéle JSON créé d partir des bases d'imageries
jssus de ce stage, une application’ scra misc en oeuvre pour convertir
Dans quelques semaines &
automatique toutes les données dans la base de données relationnelics aux document de JSQN sur la base d'un modale défini comme fa figure 3.2 Les données, gui seront concernées par les processus de mesures des plantes selon trois aspects d'imageries, d'arrosages, đe pesées, seront converties sous forme
de documents de JSON On peut voir les autres xmodè'es qui coat completement définies dans Annexe
A
apras Ta transformation seront synchronisées et storkées Aujonrd’hni, rontes les dannées abtenis
dans le systéme MongoDD La centralisation de données dane wm seul ayateme nous aide commodément
a défini: Ics modéles généranx pour la transformation de données en RDF
Aestps :/feittiab: enn flengucluyen/:iheniwnredle e-taesgoribeenrives a
25
Trang 383.4 Ontologies et domaine applicatif
Figure 9.3: L'ontologie de Vannotation d'images
Les différences entre des processus dimageries, d'arrosage et de pesées demandent un diversité de
vocabulaires pour les décrire, Dans cette section, nous nous focalisons sur des vocabulaires de description
des données, des méta-données du processus d'imageries Dans ce processus, de trés nombreuses images
de plantes sont créées et doivent étre stockées et étre partagées Une annotation d'images est nécessaire
pour fournir les méta-données afin d’aider compréhension et l'interprétation de Vimage
En général, plusieurs vocabulaires sont déjà disponibles pour faire de Vannotation d'images (16) par exemple, EXIF est Je format d'images de la plupart des appareils photo numériques Il contient des
~~ https ://fr-wikipedia,org/wiki/Exchangeable_imag_file format
26