Luận văn développement d’un système connaissance pour big data application aux données de phénotypage chez le riz o sativa

En connectant AllegroGraph à Mon- goDB, il est possible d'interroger des données liées en graphe et dans une base de données orientées documents en RA, RĐE owe une seule req

Trang 1

CNIVEBRSTTE NATIONALI DU VIETNAM, IANOI INSTITUT FRANCOPHONE INTERNATIONAL

LE NGOC LUYEN

DEVELOPPEMENT D’UN SYSTEME CONNAISSANCE POUR

BIG DATA APPLICATION AIX DONNEES DE PHENOTYPAGE CHEZ LE RIZ (QO SATIVA)

PITAT TRIEN MOT TIE NITAN DANG CTIO DT LIRU LON:

UNG DUNG CHO DU LIEU PHENOTYPING VE LUA

(O SATIVA)

MEMOIRE DE FIN IY ETUDES DU MASTER INFORMATIQUE

HANOI -— 2015

Trang 2

'UNIVTRSITE NATIGNALE DU VIETNAM HANOL INSTITƯT FRANCOPHONE INTERNATIONAL

LÊ NGỌC LUYỆN

DEVELOPPEMENT D’UN SYSTEME CONNAISSANCE POUR

BIG DATA APPLICATION AUX DONNEES DE PHENOTYPAGE CHEZ LE RIZ (O SATIVA)

PHAT TRIEN MOT HE NHAN DANG CHO Dt LIEU LON:

UNG DUNG CHO DU LIEU PHENOTYPING VE LUA

(O SATIVA)

Spécialité: Systémes intelligents et Multimédia

Code: Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

—

Ingénieur IRD, responsable de PAXE Intégration de données de VInstitut de Biologie Computationnelle, Dr Pierre LARMANDE

Ingénieur INRA, Mme Anne TIREAU

HANOI -— 2015

Trang 3

ATTESTATION SUR LHONNEUR

test, sút Phouncur que ex inéucoire a 66 réalisé par moi-riÔtme cu quê luš doruếes cl loe rốenluate qu: y cout présentés sont exacts et wont jamais été publiés ailleurs La source dea informations cinées dans ce mémeire a été bien précisée

LOL CAM DOAN

Tôi cam đoan đây là công trình nghiên cứu của riềng tối

Các số liệu, kế quả nêu trong Luận vàn :à trung thực và chưa từng được ai công bố trong bắt ky công trình nào khác Các thông tìn trích dẫr trong Imận văn đã được chỉ rõ nghễn sốc

Pais & Hanoi, ie 20 octobre 2015

HÀ nội, Nhôy 4 thông fÚ năm, B11

Tả Ngọc Tan

Trang 4

Remerciements

Je tiens A remercier dens un premier temps, toute ’équipe pédagogique de l’Instivut Francophone Intemational (1/1) de Hanoi et Jes intervenants professionnels responsable de la Zormation en master de

recherche en informatiqne, pour avoir asmuré la partie théoriqne de oelle-ci

Je tiếng & exprimer toute ma reconnaissance & M, Pierre LARMANDE qui est cherchenr & PIRD et Repousbale de Paxe de donutes de l'Tastivut de Biologic Commpetativauelly, Mae Ause TIREAU qui ext ingéo‘cur & PINRA Montpelier SupAgro dus FUMR MISTEA, pour ‘ear cncardremeul cans Laille, le suivi qwils oul apporté & mor stage, Icurs couseils, les monibreuses d’scussiony que gous avuns pa avoir tout au long de la réalisation de ce stage, aussi pour inspiration et pour le temps qui'ls ont bien voulu

me consacrer,

đe sonhaite remerrie la famile de Pierre LARMANDI er la famille Traneais PTIAN pour leurs aider chaleureasee pendant: man séjour de sic mois en Franre

Je Viens & remere’e également Mlle Curvline BENOIST scerétaice du LIRMM, cl Mle NGUYEN Thi

‘Vaar Ta, seerélaire de PIFI pour ses cides & plusicure ceprises

Depuis mes premiers jours dans cot institut, j'ai regu beaucoup d'aides, de conselis er d’encourage- ments de mes amis, en particulier ceux de la promotion 18 ‘lout cela mn’a permis de murir chaque four

đe len remerdie et je ne porrrais jamais anblier les souvenirs pais et tristes que j'ai pasaé avec ene churant ces dems ans 8 FIT

để voudrais aussi renereier cussi les couficbres de TUniversité de Da Lal vi je suis eu train de wavailler, qui w’out dound les meilleurs coulliows pour gue je pulse biew passer wa ecolanilé & PIPL

Enfin, j‘adresse mes plus sine’res remerciements & mes parents, mes fréres qui m’a toujours soutenue

et encouragée dans les moments les plus diificiles de ma scolarité à [IEI

Merci A tous et A tontee

LE Ngoc Luger,

Da Lat - Viet Nam, avtomne 2015

Trang 5

Résumé

Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifique souleve des détis dang le traitement et ’exploitation des données La recherche dans le domaine bioinforma- Tiaqne n'est pas épargnée par ce phénoméme Ce mémaire présente des approches ponr résoudre le prab‘eme

dle données voluminenser stackées dans des entrepits No&QT en y assoc'ant Ta, capacité de reckerche sémantiqne sir les donndes dana ur contexte de recherche agranamiqns Ces approches sémantiqnes ponusttent Walder & curichir les doundes issues d'expérioneve yrdce aux molours Whuléreuee géudraut

de aouvclles conta

sauces Nous pouvous résuncer ces deux approcies d'uw part uvce la réder‘bure de roynétes ot Uaulze part eee la watérialisalion de donuées cn triplets RDP Un élat de Part nous a permis d'identifier et d’évainer les différentes méchodes se repportant aux approches mentionaées En pratique, seule Yapproche de matérialisation de données a été choisie pour coatinuer & travailler Les données triplets obtennes étant voluminenses, nons avons réalisé un benchmark sur différents syetemer

de gestion de hase de données de triplets afir de panvair comparer les avan

chacim et de ehaisir le meillanr eysteme pour notre étude de ear

Mot-clés : Base de connaiseanee, Oaologie, Ralsonuieruent, Inféreuec, SPARQL, xR2RML, Beuch- ark, NoSq), BigDuta, TripleStore

Trang 6

Abstract

In the recent years, the data deluge in many areas of scientitie research brings challenges in the treat- iment and improvement of farm data Research in bioinformatics fieid does not outeide this trend Thiz thesis presents some approaches aiming, to solve the hig Data problem hy combining tae increase in se

mantic searca capacity an existing data in the pham research Iabarataries, This helps us to strengthen nser experiments on the data obtained in this research by the engine antomatic inference af new knowledge

To ackiove the, each approuch bas different cluracterislies aud asing diferent plutons Nevertheless,

we cau suntuurize il ia Gwe ain direclious ; Uke wransformution of query or Re-weile vequesls acd dala Uausformation Wo Uriples Tu reality, we car solve the problem frou origia of inureasiug capacily on seman

tic data with triplets ‘hus, the triplets to data transformation direction is chosen to continue working

in the practical parc However the sy:ckronization dats in the same format is required before processing the trip ets berante nur enrenk đaTa are aeterogeneons The data obtained for triplets are larger that teprlar triplestore could manage So we evaluate same af them thas we can eortpare the henefits and drawhacks a! cach and choose the hest syntem for omr problem

Key works : Kuowledge base, Outology, Reusoning, Inference, SPARQL, xR2RML, Beucucark, NoSQL,

Big Data, Triplestore

Trang 7

Table des matiéres

‘Table des figures

Liste des Lableaux

INTRODUCTION

Chapitre 1 Présentation Générale

1.1 Présentation de létablissement đ?accuei

111 Présentation de l'Institut de Biolagie Computationelle (IBC)

LL2 Préseutalion de U'Insutw, National de la Reckerce Agroucmique (INRA)

12 Deseriplion du stage „

14 Contexte du stjet ¬ eee ee

14.1 Contexte de données masaives

1.4% Canfexte đe recherche sếmanfiqma

Chapitre2 Etat de Fart

2.2 Analyse et évalnation des solitions courantes „

MongeGraph - une association du Mougodh et A'legroGrapa Base de données orientée graphe Neodj

JSON for Licking Data (JSON-LD) et MongoDB Oulology-Based Data Access (ODBA) el framewurks Oulop Malérialiselion de doxutes en Wriplels RDF

Trang 8

3.1 Tnrodueion Tu kh kh va beeen eee bees 23

3⁄2 Modele général - we eee + + 4

Transformation et synchrenisatien de dannées dans Mangal), - bị

3.5 xRORML ct Transformation de données cn triplets " sẻ #r

42 Approche uative et doU-nALVE ào ¬—

4.3 Vue générale des syztèmes de gestion de tripletS - ve 88

18 ‘TripleStore dStore - - - Of 43.3 ‘TripleStore Virtroso - - - - 46

52 Benchmarking đe platiormes SH HH nh vờ seen 48

5.2.2 Recherche de données - - - 44 5.2.8 Inférence sur les données - - - - 48

vi

Trang 9

Iustitul de Biologic Computatiorelle Tustivul National de la Recherche Agronortique

Javascript Object Notation JSON for Linking Data, Not Only SQL

Gntology-Based Date Access Web Ouvology Language Web Quvology Rule Lauguage

Relational Databases to HDI Mapping Language Resource Description Lramework

Resonrce Description Framework Schema RDF Mappirg Language

Protocol aud RDF Query Langage Strucared Query Language

World Wide Web Consortium Relational ard Non-Relational Databases to RAF Mapping Language

vii

Trang 10

Liste des figures

12 Lexemple d’un triplet Resource Description Eramework (RDF) 8

13 L'exemple d'une requéte l'rotocol and RDI Query Langage (SPARQL) 0 8

21 Le mudéle de composants dase un systécie MoegoOraph l8

3⁄3 Une requête SPARQL associé à tme requste de MongoDB l4

2.5 Les commandes ponr créer m graphe simple _ - - - 18

2.6 Les triplets cont stockées dans MorgoDB sous la forme de JSON-LD 1r 2.7 Le medtlc de composauts dans ux systéme association de MongoDB et JSOK-LD

28 Le proceswus de requéte dans le système ODBA co 18

39 Le compsraison des approches des raisonsewents dans une applieation 19 2.10 L'architecture du systéme avec l'association de MongoDIB et le modale ODBA 30

2.11 1s denx rahles at: sa relatiam we eee + + 21

2.12 Les in‘ormations détinies paur le mapping - - - 2

2.14 Les donrées RI) après đe la transfarmatian _ - - - 21

42 Le modale ISON eréé A partir des bases d'imageries - - - 2

4.1 La Cassificaiton des types de systime de stockage RDF 38

4.6 Les composants dans "architecture de Graph) - - - OR

47 1¿imterfaoe du syvstème đ”interaelien avec les données RIM _ + ae #g

Trang 11

La comparaison du temps de chargement sur différents Triplestores

1¿axemnle đe reqnễte nméro T và Lee

L‘evalnation de la requéte numréra 1 sons forme de eonrhe graphique

Lievaluation de la requéte numéro 2 sous forme de eourbe graphique

Liexemple de requéte numéro 3 -

Lievduation de la requêLe wuusốzo 3 yous Íortne de courbe graphiyue

Liexemple de Uroisituie requates «

Lievaluation de la requéte numéro 4 sous forme de courbe graphique

Les relations inférées sur l'ontologie dans le premier exernple

1a requdte dn premidre exemnle d'inférence see

Le temps d'exéoution de la premiare intérence snus torme de graphiqne

Les relations inférées sur Vontologie dans Je deuxiéme exemple Dinférence L'exemple de la deuxiéme inférence

Le temps d’exéeution de la douxitme inférence sous forme de graphique

Trang 12

Liste des tableaux

Les compareison de cerlaines fouctionnal:tés des diifệreat Trpleftores 40

‘Le comparaison du teanps de cbargeauent sur dilférerts TripleStores en tillisecondes 43 Lievaluation de la requéte numéro 1 (emps en milliseeondes) sees ab Lrevaluation de la requéte numéro 2 (emps en milliseeonde) 45

vevaluation de la reqnéte mutréra 3 (temps em rrilliseeemdes] AB

Léevalnation de la reqnéte wuméra 4 (temps an millisecondes} - aT

evaluation de la premiare ‘nférence (temps en milliseondes) sẻ 4g L’evaluation dc la deusdème inférence (temps en mil’sccondes) - 50 Tes exemples de point daccés de TripleStore " cu OR

Trang 13

Introduction

Les études sur les planites ont toujours pris un réle important pour améliorer la productivité, la capacité

de résistanes des plantes asx maladies, ‘a réduntion influence des changements de Tenvironnerent et le climat, Aufourd’hui, de plus en plus de laborato'res can effectué das études sur les plantes et ont obtenus des résultats importants Les données de cas études sont des ressources utiles pour que les scientifiques paisseut les expluiter cl les partager avuc les aulres Aujourd’hui, il y exisle une diversité Woutils qui soul dévcloppé pour yérer ces douudes, Mus chaque Gude posstde des earactéristiques différentes gui sout

Ja recherche snr le paénotypage et Ie génotypage dn mais er France, La saraoiéristiqu

ves deux projets conceme la gastion et Pexploitation de gros volumes de données de maniére plus efficace Les Uruvaux duus ve slage sv foculiseroul sur Ja recherche de soluvious assoviual Les do:uaines du web

séamautique cl cclui des dounées aussives, Ds uous permieltrout de chereber “a mcilleure solution possible

pour twat d'aburd organiser se studkage des doxndes auossives el volumincuses daus un eystime de gestion

de base données spécialis¢ et ensuite renforcer la capacité de recherche sémantique des données alir de sếrrer de nouvelles connaissances Les conna‘ssances dans le domaine de web stmantique fournissent des

maodéles pour structurer les données sous “a forme de bases de reconraissance et permettent la reckerche

đe dannées grdce a der mécanismes de-d'inférence et de raisonnerent Anjonrd’hni, le prablime de gestion

de données massives a hesoin de traiter aver Poptimisation du temps d'exéonton et le temps de recherche

Ce présent rapport se divise en cing grandes parties La premiére partie présente les deux laborataires IBC ot INRA, lous projets de reeks

dans ly domaine du web scmantique ct des données mussives, La deaxituie portie [ail un lat de Part

c actucls, ley prublématiques dur stage ct Jes concepts existante

sur les soluLivus actuclles cl leurs applications daus le cus de nos dounées La broisiduse partic vonsiste & présente la solution proposée et les travaux mis en oeuvre pour la réaliser La quatriéme partie présente les systtmes de gestion de base de données de triplets actue's La cinquiéme partie concerne experimentation,

la comparaison et Vanalyse des résultats dans un benchmark de cas aystmes selon trois crithres : le chargement de données, la recherche de données et Vinférence de dorndes.

Trang 14

Les concepts et les outils seront validés a Paide des applications clés en hialogie ‘ondamentala (transerip- tomique, la strnetrre et la fonction des protéines, le développement er: la morpkogenése), la santé (agents

qui compreunent les aspects principaux du traitement des données biologiques massives

= WP2-Evolution ; Passage & Péchelle des analyses évalutives

« WF3-Annotation :Annotarion fonctionnelle et structurelle des protéomes

= WP4-Imaging : Intégration de Pimageric cellulaire ot tissulaire avec des données omiques

@ WI’5-Databases : Données binlogiques et intégration des connaissances

LBC est un projet :nulbidiseiplinaire souteun peudaut eiug aus (2012-2017) pur bétat Frangais & rie

vers Ie projet “Luveslissements d’Avenir®, LBC inuplique actucllemuent 66 chercheurs anultidisciplinairce permanents, issus de quatorze laboratoires de Montpellier !'IBC a pour objectif de devenir ur lieu de rencontre privilégié pour les chercneurs en biologie et en bio-informatique, mais aussi ‘ane importante communauté de chercheurs, universitaires et industriel au niveau régiona:, national et international Les

activ'tés de TTRC ammitionnent de onTlaborer avec des chercheis da tenor mea mondiale d’organiser dee mrarifestations scientifiques, de former de jennes cherchemrs, et de promanvoir Tes résultats at échanger des informations avec des partenaires industriels.

Trang 15

La recherche sur le riz est un des modeles d’étude abordé par les chercheurs de 'IBƠ notsmment à Travers le projer, BIGSAL (Riniogical electronic System Assistant: Index) Ce projet a pour objectif de Rérer des écides de diversité génotypiqne et phénotypiqne de variétés traditiornelles de riz vietnarnien

(Oryza sativa) objectif de ces dtudes est didentifier des gines d'intsrét, pour qn'an puiser comprendre

Jes processus biologiques par exemple : le développement et la plasticité de la plante, la résistance aux araladtes Cos études requiéren la manipulation d'un volume important de données hétérogtnes Cee đonsếes peuvent ére slockées sous des formes difigrentes : fichier Excel, fichier texte structuré, inmges

ou bases de donages relationnelles

dans Ja gestion des terrivoires sort aulanl Qenjeux qui posilionseut lugrouonic comune fondulrive Pun

développemeul Larmoztieus sur les plans écosocuique, social el euviroauenzental,

= Concevoir des innovations et des savair-faire pour la saciéte

ok

lairer, par son expertise, les décisions des acteurs publics et privés

# Dévcopper la cullure seienlifique ct lochuique et purtiviper au débal scleueo-suuiété

» Parmer & la recherche et par ta recherche

Le centre INRA de Montpellier ccordonne Phénome, un projet de plate-formes de phénotypage haut- débit de plantes cu.tivées Son objectif est de mesurer des caractéres agronomiques de plantes soumises &

itiérents scénarios ervirannementaur et en particulier les conditions de stress kydrique C'est ur projet sur knit ans regronpant neuf plates-formes réparties sur sept sites d'étndes en Irance

Les dtndes couvrent & la fois des problématiqnes de recherche fondamentale en génétiqnie et de re cherche appliquée pour la sélection de plantes adaptées & des contextes climatiques particuliers

Sur la plate-forme de Montpellicr sc trouve trois plateaux techniques difigrents permettant de mecurer

Ja croissance de plantee en fonction de l'environnement :

œ PhénoPsie qui permet de peser et photagraphier pins de cing cent plartes (Arabidops's thaliana,

ung plante modéle pour l’agronomie)

PhéroArch ot plus de mille six cent plantes (mais et autres céréales, viene, pommiers) sont déplacées grace & un automate afin de procéder a différentes mesures, portant notamment sur ’architecture

de la plante, et d'étre photographiées dans des cabines d'imageries 3L.

Trang 16

© PhéncDyn cù lon mesure en particulier la transpiration et la croissanee des feuiLes đea plantes Dfautree plate-formee, comme ce'les de Toulouse, Dijon ou Mauguio, présentent des enviromemente non couurélés, avee des expérientations cu champ, Les domtées piiduolypiques sont alurs uequises griiee

4 une Phéuwwobile (robo, mobile autonome équipe de capleurs cusbarqués) uu & des droucs,

Cos plate-foruies sont spécialisées eu écoplysiologie, cœt-àcdire dans Télude de Pinfueroe de Peu- vironnement sur Ja piarte, Par conséquent, pour l'ensemble des expérimentations réalisées, les données issues đe: capteurs envirounementaux sont primordiales Ces données sont a ‘a fois hétérogénes en termes

de formats, de sémantiqne, ete et volnminenses “phisienrs téranctets par mais} Rlles sont de plus relidee

entre elles an sir de experience of doivert ponvoir étre traoáes dang Te temps

Tans le contexta de Phenome, ces trés nombrenaes dannges doivent étre canservées, partagses of ana-

ee coulexis, les Gquipes soubiteut réorgauiser leurs propres jeux de donuces aflu de pouvoir naviguer, partager, annoter et rechercher ces demitres atin de les exploiter au mieux,

Un aystéme d'information a écé ‘mplémenté lors d'un stage de Master 1 en 201411] pour le projet

du LML RICH (BlOaSAL) Ce systéme est basé sur un systéme de gestion base de données Mongol)B ireluank égalemen la zestion des métadonnées et des tags Tontefais, la méthode mise en place ne permet

rpas de riétacter des relations explicites/implicites entra les données pérées par le aystime

Ténbjertif ch stage propasé sera d"évahrer la, fa'sabilité de gestion des RIG DATA camplé an techno- Jugies du Web Sémantique cu s'appuyuut sur les articles de syathive du douaine [2] Par eilleurs, uous séaliserous un Glat de art sur les probleues d'orgauisation des douuées massives ut de Pacgawutation de

Ja capacité de recherche sur les données, Plus particulitrement, sur la eapacité d'inférence et de raisonne- tment sur ‘es données, Un des objectifs du travail dans ce sujet sera de construire un base de connaissance sur les données existantes

1.3 Problématiques

Tes données binlogiques existantes cant volnmineuses et elles ne cessent d'angmentar chaqne jour hutilisarion des syztèmee de gestion de hase données relationnelles est: anjonrd’hni ma, adapré ponr gérey ces danndes|1] TL’margence des systémes de gestion de base de données VaSQI arienté-dacnment (e.6,

Trang 17

MongoDB} semble mieux adapté [3] toutefois ces systemes sont depourvus d’ume capacité de recherche

sémantiqne sur les données ce qui existent seulement sur les données RK." par utiliser par le language

SPARQL

Ties bases de données da type “triplestore” sont mieux adaptées pone faire des inférencas on des za'sonnoments sur les données Toutefois, elles passent moins bien à V'échelle sur des gros volumes de donaées En effet, la recherche on Pinférence sur um grand volume de dom:ées RDF peuvent prondre beaxcoug de lamps Weujeu dans la gestion de ce Lype de docuees est (utiliser les capaciléy d'iuférence séuanlique avec de gros volumes de donées

L'association entre un systtme de données massives et les capacités de recherche sémontique est Pobjectif principal du sujet

1.4.1 Conlexte de donuées massives

Aujourd’bui, sous eulrous daus V'ére dee Big Data Dies easensbles de donudes Lellement giganlesques quills nécessitent de nouveaux outils techniques et scientifiques pour les cotmprendre et en tirer du sens

Un déinge de données epi pose des qnestions profondes sur leur cnlleote, leur interprétation, lenr analyse

ete Les prochains enjeux de ce siecle sont dextraire dit sens de ces masses d'information qui ciraulent sur

les réseanx Dans ca domaine, est avec la génamnique et le phénotypage ane la hialogie est déia entrée

dans le monde des big data Certes, l'imagerie ou la modélisation métaboliame produisaient des données numériques, mais 1a question de leur gestion ct de leur exploitation ne sc posait pas de la méme fagon

En termes Wexploitation des données, beaucoup reste & faire on biologic Crest méme là que se situe le grand défi des big data ev scieuces de la vie: rattraper Je lowe grandissaul entre production massive de dousées et la capacilé & en exlraire une information, voir une couraissance

Le Big Data s'accompagne du développement d' applications à visée analytique, qui treitent les données Tam en tirer du sens Ces analyses sont appelies Ig Analytics on *brayage da donne

Villes portent sur des données quantitarives complexes avec des Taétaodes de caleul distribud

En effet, les données macsives désignent des ensembles de données tellement volumineux qu'il en devient difficile de travailler avec des outils classiques dee gestion de hase de domnées ou de gestion de V'nformation Les Big Data sont souvent définis cn utilisant Pactoayme JV pour Volume, Vélocité ct

‘Varidte [4]

La volume se réfere & des quantilés uiassives de docuges qui soul dispouibles, Je volusue des doandes slockies est eu pleine expansion : les donuées uamiériques crédes deus e wionde seraiecl passées de 1,2 2ertaootets par an en 2010 à 1,8 zettaoctets en 2011, puis 2.8 zettaccters en 2U12 et s’éleveromt a 40 2ertaoctets en 2020{5] A titre d'exemple, ‘Iwitter générait en janvier 2013, 7 teraoctets de données

eEaqne janr et Wacebook 10 teraoctetsfi)

La vélocité représente & ‘a foie la fréquence & laquelle les données sont généréee, capturdes ot partagées

et mises & jour Quelquefois, la vélocité ce réffre & la vélocité nécessaize pour traiter, analyser et utiliser Jes dounées

Le volume des Big Duta met Jes data cealers devaut un réel défi: Ia variété des doanées, I ne s'agit pas

Trang 18

de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voite non structurées

(cependant, les données non-striot:irées devront, pour rtilisation, acre stmnctimées} Ce sont des données

corapiexes provenant dir web, an format, texte at: images Illes penvent tre publiques (Opan Nata, Web

des données}, géo-démographiques par fot (addresses TP), on velever de Ta prapristé das consommatenrs

Co qui les rend difficilement ttilisabsles exer Les outils traditionnels

Pour répondre aux problématiques Big Data Parehitceture de stockage des systémes doit tre repensée

ef les modéles de stuckage se aiultiplient eu conséquence

© Cloud computing : l'accts se fait via le réseau, les services sont aecessibles 4 Ja demande et en libre service sur des ressources informatiques partagées et condigurables Les services les plus eonnus somt

cenre de Google BigQuery, ig, Data on Amazon Web Services, Microsoft Windows Aznre

= Super caleulatewss hybrides : Los HPC’ pour High Performance Computing, qu'on retrouve en France

du résean et des interfaces réseaux des SAN, De plus, utiliser un stockage de type SAN coiite bien plus cher pour des performances bien moindres, Daas les systémes de stockage distribué pour le

Rig Data, Con intradnit le principe de “Data locality les dannées sont sanvegardées la ai elles

peuvent âtre traitées

1

bases de données relationnelles classique ne permettent pas de gérer les volnimes de données

da Big Data De nowveaux modéles de représentation permottent de garentir les pexformanees sur Ice volumélries eu jeu, Ces Lecunologies, dites de Business Avulytics, Optimization permettent de gérer dee

baves suass'vencut paralldles Des puluns (urchitecture “Big Date, Architecture franeworke” sant pro- posés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le framework Hadoop Avec ce systềme les requêtes sont séparéee et distribuées & des neeuds parallélisés, puis exéeutées

en paralléles Les résultats sont ensuite rassemblds et récuperds Teradata, Oracle an EMC proposent également: de tellen strictures, hasées snr des servenrs standards dent les configurations sort aptimiséan

Ts samt eononrrencés par des éditer

comme SAP (Systems, Applications, et: Products) at plus récemment Microsoft, Lee acteurs du marché s'appuient sur des systémes & forte ccalabilité horizontale et sur dee solutions basées sur du NoSQL plutat que sur des bascs de données relationnelles class:quee

Aveo les doanées dans nos laboratoires, le prabléme de gestion des damnées massives ne peut pac étre résolu avee les systèmes de gestion de base de données relationnelles, Cea systemes deviennent lourds et Tents sur ces types de données, Ces dernitres années, ont vu 'émergence d'une diversicé de syatmes de gestion de base de données que lon appelle NoSQL Ces ayattmes NoSQL, proposent plusieurs modeles

‘pour organiser ef stocker las données (Ja table 1.1)

Trang 19

‘Type de base de données! | Liste des systémes utilisés

Clé - valeur CouchDB, Oracle NoSQL Database, Dynamo, FoundationDB, Hy-

perDex, MemeacheDB, Redis, Riak, FairCom e-treeACE, Aerospike, OrientDB, MUMPS

Orienté colonne Accumulo, Cassandra, Druid, HBase, Vertica

Orienté document MongoDB, Clusterpoint, Apache CouchDB, Couchbase, Docu-

mentDB, HyperDex, Lotus Notes, MarkLogic, OrientDB, Qizx Orienté Graphe Allegro, NeoJ, InfiniteGraph, OrientDB, Virtuoso, Stardog

Mnlti-modèle OrientDB, FoundationDB, ArangoDB Alchemy Database, CortexDB

Tableau 1.1: La liste des types et des syst2me de gestion de base de données dans NoSQL

Dans le domaine des données scientifique, il existe également de réels besoins d'exploitation de ces données, en raison notamment de la forte augmentation de leur volume des derniéres années Le big data

et les technologies associées permettent de répondre a différents enjeux tels que l’aceélération des temps d’analyse des données, la capacité & analyser l'ensemble des données et non seulement un échantillon de

traitement des données des réseaux sociaux ete

1.4.2 Contexte de recherche sémantique

Organiser les données afin de

mieux les comprendre, les utiliser et

kế gạtbags:,@GEoHoblegdflelaugue teraction

date, Mais le développement de Pere

digitale a provoque une avalanche de

données dont 1e traitement requiert

Raisonnement

de nouvelles méthodes L’enjeu de

la recherche informatique est d'ex-

traire du sens dans cette masse d'in- Requétes

formation notamment a travers des

miéthodes de fouilles de données ou

des algorithmes d'apprentissage auto-

Représentation

matique scannant le web, Toutefois,

Jes problémes ne sont pas résolu pour

antant, Pourtant, a partir de Vidée de Tơk 1à 1/6k-NHiBdurt dù ól v6nahlpte

‘Tim Berners-Lee : “J'ai fait un réve

pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web

= le contenu, les liens, et les transactions entre les personnes et les ordinateurs Un “Web Sémantique”,

Trang 20

qui devrait rendre cela possible, n'a pas encore émergé, mais quand ce jour sera atteint, les mécanismes

de dialogue entre les machines sera facilite Les “agents intelligents” qu'on nous promet depuis longtemps

vont enfin se concrétiser [7] [8] le web sémantique émerge comme la meilleure solution pour traiter les données directes ou indirectes par des machines, partager et réutiliser des données entre plusieurs applications et aider les utilisateurs à eréer de nouvelles connaissances

Dans le contexte d’application orienté web sémantique et la gestion de données biologiques, nous allons focaliser sur les trois parties principales suivantes : Le représentation de données en RDF, les requétes avec SPARQL et les inférences, les raisonnements pour trouver de nouvelles connaissances

La description de ressources (RDF)

tos

Figure 1.2: L'ezemple d'un triplet RDP

La RDF est un moddle de graphe destiné & décrire la donnée de fagon A permettre son traitement

automatique par des machines RDF donne une description par triplet <Sujet, Prédicat, Objet> Le sujet

représente la ressource a décrire, le prédicat représente un type de propriété applicable à cette resource,

et lobjet représente une donnée ou une autre ressource Les documents RDF peuvent étre écrits en

différents syntaxes ainsi, il peuvent exister sous plusieurs formats : RDF /XML, N3, N-Triples, TURTLE, JSON-LD ete

‘La RDF est donc simplement une structure de données constituée de noeuds et organisée en graphe Un document RDF ainsi formé correspond & un multi-graphe orienté étiqueté Ici, chaque triplet correspond alors & un arc orienté dont le label est le prédicat, le noend source est le sujet et le nozud cible est l'objet L'Interrogation de graphes RDF

5, <http://wnm.w3.og/1999/82/22-rdf-syntax-nst>

-ehttp://amins.con/foat/@.1/>

$e ahto: /ourlora/defelenents/1.2/>

SELect DISTINCT nom "thage,feeseripttan

Ypersonne raftype foat:Person

Yhersanne foaf:nane 2am

Pinage rdf type foaf: Inage

Pinage de:descrtption tdesertptton

Figure 1.3: L’eremple d'une requéte SPARQL

Le SPARQL est un langage de requétes pour interroger des données qui sont stockées en respectant

le modéle RDF Les requétes SPARQL sont adaptées a la structure spécifique des graphes RDF, et s'appuient sur structure sous la forme de triplets En cela, il est différent dur classique SQL, mais s'en inspire clairement dans sa syntaxe et ses fonctionnalités Le SPARQL permet d’exprimer des requêtes

interrogatives ou constructives ; une requéte SELECT, de type interrogative, permet d’extraire du graphe

RDF un sous-graphe correspondant a un ensemble de ressources vérifiant les conditions définies dans une

8

Trang 21

clause WHERE; une requéte CONSTRUCT, de type constructive, engendre un nouveau graphe qui

oompieta la graphe ïnterrogé

L*Ontalagie

TảOmralngie est un ensemble structnré de termes et concepts représentant Te sens đìun champ đìn- formations, que ee soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de vornaissanens L’ontologic constitue cn soi un modéle de damages roprésentati? d'un cusemble de concepts đang un domulue, ainsi que des relatiuus euLre ves coucepls, Elle es) employée potr raisonuer & propos des

objels du domame coucerné, Plus simplement, uous pouvous aussi dire quel’ “uutologie es aux doandes

ce que la, grammaire est an langage”

Les conceptions utiliser pour décrire d'une ontologies zénérales +

= Individus : les objets de base

# Classes : exsembles, collections, ou iypes d'objere

@ Relations : les liene qe les objets peuvent avoir entre enx

« Evénements : changements subite par des attributs ou des relations

@ Méla-classes : des collections de classes qui parlagent certaines caractérisliques

sémantique comprendre le, notion de *X ispartOf ¥" peut ajouter la déclaration “HaiPhong isPartUf Vietnam” à l'ensemble des relations, bien que cela ne faisait pas partie des données originales On peut dire aussi que la nouvelle relation a été “découverte”

Tinne maniére générale, Les inférences anr le web: sémantique peut tre caractarisée par Ta, découverte

Trang 22

individuelles peuvent être associes à ces classes, et de caractériser les relations entre les clases et leurs ins-

10

Trang 23

Chapitre 2

Etat de Part

Depuis plusiewrs années des études en phénotypage haut-débit des planves sont réalisées à [LNHA

1 existe done un grand nombre de données da phénotypage et de génotype des plantes Ces données

sont, aoqnises chaqne jour, par exemple sur le platean techriqne PhenoArch, ervirơn 1600 plantes sont

mnivies perdant decre A trois ma's Chaque jorrs elles snnt photographiées sons trois À treine angles,

ve cycle joumalier diimagerie produit dore environ 20800 images stockées Celles-ei sont associges & des configuration cl des résultats Panalyse d'imuge sous 1a forme de JSON, Clague document ISON

est cuviron 40 champs Pour les gércr, les informatigivus oat déj& coustruils un systéwe Piuformation uppelé Phuuotyping Hybrid In‘ormation Systeut (PHIS}* Les dounées permetiaut Pexploitation du la Patetorme sont stockées dans ume base de données relationelles Avec les limitations de base de données +elationnellee, ces donages doivent &re migrées dans une base Mongol)3 pour améliorer le temps de perlormance du svstéme,

T4 même fagom, le projet RIQASAT est entrée dans une denxibme pha£e A partir de 2015 4 2018

Ties études de la premiồre phase ont été réalisées snr rx (O.SATTVA) Ce sont des données hétérnghnes

eb volutniueuses sar Ie phéuolypages cl génulypes du riz, Le luboraloire a aussi construil, uu systéne

¢Piuforaustion pour gérer lus donuces Sysphuricc? I], Cus dounées sont organises cl stockées sous la forane

de documeut JSON, Elke sout yérdes par le syeLbur do gestion de bese de dounées oviculé document MongoDB

2.2 Analyse et évaluation des solutions courantes

2.2.1 MongoGraph - une association du Mongodb et AllegroGraph

AllegroGrupk ost une buse de dounées de graple RDF persislunle T ubitise le slodkage sur sur disque,

ce qui lui permet de passer & Téehelly des miliacds de triplets, tout cx maintenant une perleruanee supérieure AllegroGraph est un framework de base de données et outils pour construire des applications Web sémantique II peut stocker des données et des méta-données, il permet aussi d”:nterroger ces triplets

“intp o///pe phis.cupageiara.(r/ pis/indes.php

“° ráp ;//vmbioeeai-dev-irdLft :8080/8yepherice

1

Trang 24

travers différentes APIs comme SPARQL et Prolog De plus, il fourni des fonetionnalités de raisonnement RDFS++ avec son raisonneur intégré, AllegroGraph inclut également une librairie d'analyse de réseaux sociaux (SNA) et il permet de stocker et raisonner sur des données temporelles et géospatiales

Actuellement, il existe différentes éditions d'AllegroGraph : une édition gratuite ot stockage RDF est

limitée 4 moins de 5 millions de triplets, une édition développeur capable de stocker un maximum de

50 millions de triplets et une édition d'entreprise avec une capacité de stockage qui n’est limitées que

par ‘infrastructure de serveur Des clients sont disponibles pour Java, Python, Lisp, Clojure, Ruby, Perl Csharp et Senla

En plus des fonctions liées à l'application de Web sémantique, AllegroGraph implémente une interface avec MongoDB, que V'on appelle MongoGraph Celle-ci permet ’offrir aux programmeurs MongoDB les

capacité du Web sémantique En utilisant cette approche, les objets Javascript Object Notation (JSON) sont antomatiquement convertis en triplets et ils peuvent étre interrogés A la fois par le langage de requéte MongoDB et par SPARQL

MongoDB est une base de données

orientées documents NoSQL de haute

performance et Open Source, MongoDB

ments en forme de JSON avee comme

Query Quay

intégral, la réplication, la répartition des

de données (sharding), le calcul Map/Re-

duce et un langage de requéte riche & base ——ẽs

de documents Toutefois, il ne fournit pas Mongoting

plexes, le liage de données (linked data),

raisonnement

En connectant AllegroGraph à Mon-

goDB, il est possible d'interroger des

données liées en graphe et dans une

base de données orientées documents en RA, RĐE owe

une seule requétes Avec MongoDB, les

données sont organisées en forme des do-

uments JSON, ils sont gérées par un sire 212 Le modile de composants dans un systime MongoGiraph systéme de gestion de hase de données

orientées documents des plus efficace [9] Avee AllgroGraph, les données sont organisées en graphe, sur lesqnelles nous pouvons réaliser facilement des requétes SPARQL, et aussi effectuer des inférences sur ces données

Avec les caractéristiques des deux systémes de gestion de base de données, il est possible de construire

un systéme qui a des eapacités de requétes du Web sémantique et qui peut traiter des données volumi-

neuses, Le modéle du systéme général de MongoDB et de AllegroGraph est mis en oeuvre Figure 2.1

12

Trang 25

Ici, les données dorigines restent stockées dans MongoDB sous le format documents dans des collections Les nouveaux triplets mis en relation avec les documents MongoDB sont importés dans AllegroGraph Pour créer mamuellement des triplets ou utiliser Poutil Relational and Non-Relational Databases to RDF Mapping Language (xR2RML) pour les convertir automatiquement On utilise les seulement les attributs importants dans les documents D’ailleurs, une ontologie est utilisée pour Vorganisation sémantique des triplets eréés, Cette ontologie permet Vinférence en exploitant les relations entre les triplets, Ainsi le moteur d’inférence peut eréer de nouvelles relations sur la base de l'ontologie définie

10/Syspherco/

G ẨeotDalaDecD — Elblc4aÖ44acbafd404 ‘Objectid" Sacto 5dtase Ent tty/S3edarsbe a Vn:Enttty

S Nae 2 MS <ht†p: //vnbtoesat -đev 1đ, f7 :8@88/5yspher tee/

+ © (as) ebjectuts3 (7 fetes) ÝnihasNaxe

a" ‘ects sactetsdesaestour 2d) 7Đb3cd914iacbofd40477603

E1

290

Po

(a) Les données JSON dans MongoDB (b) Les données RDP dans AllegroGraph

(e) Lontologie de tiew origine de plante Figure 2.2: Les données présentées dans cet exemple

Pour mieux comprendre la solution d’association de MongoDB et de AllegroGraph et illustrer les

requétes et l'inférence, nous avons pris un exemple sur les données existantes du projet BIOeSAL Ce projet contient une ontologie sur les relations entre le lien d'origine des plantes et les images expérimentales sur

les plantes Les triplets sont créés A partir des documents MongoDB, dans ce cas, en utilisant les attributs

de identification du document, les informations sur V'origine des plante et du nom des plantes, On peut

voir les détails des données JSON dans MongodDB, des données RDF qui ont été liés aux documents

MongoDB et lontologie de références dans Figure 2.2

13

Trang 26

Nous pouvons faciliter Pimportation des données RDE đans AllegroGraph en utilisant la forme d’un dépot, “Repository” La création d'une connexion avec MongoDB est effectué dans interface de Allegro- Graph Ici, les informations de la base de données MongoDB doivent étre rempli, par exemple : le nom

et port du serveur, le nom de la base de données et Ja collection choisie

AllegroGraph posstde deux types différents de moteur d'inférence : I'un supporte un sur-ensemble de regles d'inférence RDFS et Vantre supporte Web Ontology Rule Language (OWL 2 RL) Le premier est appelé le raisonneur RDFS++ dynamique car il génére les triplets inférés 4 Vexécution de l'inférence et

a’enregistre pas les triples nouveaux créés, Le second moteur d'inférence fait de la matérialisation OWL

2 RL Il utilise de régles d’inférence pour générer de nouveaux triplets et les ajonte a la base de triplets

courante Pour notre exemple, le second moteur d'inférence est choisi pour toutes les données Apres

avoir exécuté, nous avons les nouveaux triplets sont stockés de manitre pérenne sur le disque comme les triplets d'origine Cela est le mieux pour les systémes qui ont plusieurs requétes

Les requétes sont réalisées grace an langage SPARQL intégrant des requétes MongoDB (Figure 2.3) Cette association est effectuée par Vutilisation d'une approche que Von appelle “Magic Predieat” C'est

un prédicat d'une requéte SPARQL qui permet une liaison, différente d’un simple appariement: de sous- gtaphe, AllegroGraph a longtemps sontenu utilisation de “Magic Predicat” pour permettre les requétes

en texte libre et pour interfacer Solr et MongoDB Dans la requéte Figure 2.3, le système va effectuer deux requétes dans denx systémes différents pour obtenir les résultats Les requétes seront exéeutées dans MongoDB pour trouver les résultats sous le format de JSON, et les résultats finaux (les triplets) seront trouvés dans AllegroGraph

Subject Predicate Object

53c4alSb44e950a71264đ03 rdhypø, ‘owl Namedindividual S3c4alSb44ae950a71244đ03_rdtfpo, Enty

58e4a1Sb44ne80471264đ03 hasOrlgin VIETNAMO 53cãn1Sb44aeĐ50a712đ4đ03_ hasMongold "São4a1Bba4no950a71204đ03"

Figure 2.9: Une requéte SPARQL associée @ une requéte de MongoDB

Avantages

@ AllegroGraph permet de réaliser des inférences stir des données massives

« Seleetion possible des propriétés importantes et done réduction du nombre de triplets dans la base

de données

« Gestion de base de données massives avec MongoDB

Inconvenients

« Un systime plus complexe avec plusieurs étapes de requétes

‘© Mapping manuel des données entre les deux systémes MongoDB et AllegroGraph

14

Trang 27

« Pas de synchronisation entre les đeux, quand nous mettons à jour au MongoDB, nons devons le faire aussi sur Allegograph

2.2.2 Base de données orientée graphe Neo4j

Neo4j est un syst?me de gestion de base de données orienté graphe, ce qui permet de représenter les

données en tant qu’objet relié par un ensemble de relations, chaque objet possédant ses propres propriété

La base de données de graphes, permet au développeur de commencer directement le codage, les données

stockées dans la base assurant un parallélisme direct avec les données elles-mémes En d'autres termes, &

mesure que organisation des données se peaufineront, les programmes suivront

Une base Neodj est censée être plusieurs milliers de fois plus rapide pour traiter les données associa- tives, car elle en évite de coitteuses jointures Structured Query Language (SQL), Les requétes peuvent gérer de ce fait plus facilement un large ensemble de données Les parcours utilisent un langage simple

de parcours des connections L'absence de modélisation rigide, rend Neodj bien adapté a la gestion de données changeantes et de schémas évoluant fréquemment

Les caractéristiques typiques de données pour Neodj sont la structuration des données optionnelles

qui sont peuvent absenter, une facilité de changement du schéma et des migrations de données sans

contraintes, la modélisation facile de jeux de données de domaines complexes et cas d'utilisation typique dans des domaines tels que le Web sémantique et RDF, le Web de données, l'analyse du génome, la

modélisation de données de réseaux sociaux ete

Neodj a des composants optionnels qui viennent en complément du noyau On peut ainsi structurer le graphe via un méta-modéle, obtenir une implémentation de RDF TripleStore compatible SPARQL Par

II 3 et Neodj-sparql-extension*

exemple, avee deux plugins Neo-rdf:

Figure #4: La graphe de données dans Neofj

Les graphes de données dans Neodj sont illustrés par les concepts de “Nodes” et de “Relations”

‘https ://github.com /niclashoyer /neot}-sparqbextension

lỗ

Trang 28

Figure 2.4, Diailleurs, le langage de requéte Cypher est utilisé pour manipuler les données, C'est un langage déclaratif de requéte graphique qui permet de réaliser efficacement et rapidement des requétes

et des mis & jour sur les données, En détail, le langage Cypher se concentre sur la clarté d’expression de

ce que Yon veut récupérer à partir d’in graphique et pas sur la fagon de le récupérer Cette approche

permet optimisation des requétes,

CREATE (n:"Imaqe81` { URT: 'm3p:arch/2015/435822' }) RETURN n

CREATE (n:'PlAanteð1ˆ { Mane: 'Natze' }) &ETURN n

€REATE (n:'Canera04` { ingacqeameraprofienane: 'Test3194' }) RETURN n

MATCH (a:ˆ1nage91ˆ { URI: 'w3p:arch⁄2615/4c15820' }), (b: Canera94` {

¢ L’organisation de données sous forme de graphe est presque similaire à organisation des données

dans les ontologies et les instances données RDF

Inconvénients

fonction de la complexité et de la taille de données,

# Les données ne sont pas en RDF directement, done pour faire des requétes SPARQL nous utilisons

un plugin intégré qui ne supporte pas entidrement le language SPARQL

Les données liées se référent à un ensemble de bonnes pratiques & mettre en oeuvre pour publier et lier

des données structurées sur le web Elles s'appuient sur les standards du Web, tels que HTTP et URI -

mais phitot qu’utiliser ces standards uniquement pour faciliter la navigation par les étres humains, le Web des dotinées les étend pour partager également l'information entre machines Cela permet d’interroger

automatiquement les données, quels que soient leurs lieux de stockage et sans avoir 4 les dupliquer

JSON-LD est une syntaxe légere pour sérialiser des données liées de la forme de JSON Son utilisation

permet a des données JSON d’étre interprétées comme des données liées avec des changements minimes JSON-LD est principalement destiné a étre nn moyen d'utiliser les données liées dans des environnements

de programmation basés sur le Web, pour construire des services Web interopérables, et pour stocker des données liées dans les moteurs de stockage & base de JSON Actuellement, JSON-LD est compatible avec

JSON, un grand nombre de parseurs JSON et de biblioth?ques sont disponibles aujourd'hui et peuvent étre réutilisés En plus de toutes les fonctionnalités JSON, JSON-LD introduit :

Un mécanisme d’identifiant universe! pour les objets JSON via l'utilisation d'IRIs

16

Trang 29

® Un moyen de lever ambiguité đe clềs partagées entre des documents différents par des mappings

en IRI via un contexte

Un mécanisme dans lequel une valeur dans un objet JSON peut se référer 4 un objet JSON sur un autre site sur le web

¢ La possibilité d’annotation des chaines de earactires avec la langue et d’associer les types de données

avec des valeurs telles que la date et Vheure

¢ La facilité d’exprimer un ou plusieurs graphes orientés comme un réseau social en un seul document

JSON-LD est destiné a étre utilisable directement comme JSON qui ne contient pas des connaissances

de RDE Il est également congn pour étre utilisable comme RDF On peut l'utiliser avec d'autres technologies de données liées comme SPARQL Les projets qui ont besoin de traiter les données comme des graphes RDF vont trouver tne solution avee la forme de JSON-LD En détail, le document JSON-LD est

(6felde) p//unbloesidevindfr9689/Masl2 array)

up http /vmbioesal-denied fr:8080/Syspherice/ExceiDataDoc_Panicule_List/$3¢4a1 aay) $b4

0 http /Wmbloesai-dev.ird.fr:8080/ExcelDatadoc Panicule List,

.v #3 htfp//mbloesal-dev vao lrd fr:8080/hasBarCoée — Array [1} Hộ)

5

Figure 2.6: Les triplets sont stockées dans MongoDB sous la forme de JSON-LD

la fois un document RDF et un document de JSON et représente une instance d'un modèle de données RDF Cependant, JSON-LD étend le modele de données RDF pour sérialiser des ensembles de données RDP

Le format de données RDF est organisé en JSON-LD, ce qui

convient au format JSON utilisé dans MongoDB Alors, nous

pouvons profiter de la puissance de MongoDB pour résoudre

le probléme de grandes données D’ailleurs, nous facilitous la

sérialisation des données de graphes RDF dans MongoDB

La graphe de données RDF peut étre organisé et stocké dans

la mémoire temporelle avec le support d’Application Programming

Interface (API) disponibles tels que Sesame ou Jena Ces APIs

permettent d*utiliser le langage de SPARQL pour faire des requétes

et appliquer des régles et faire des inférences sur les données Les

recherches vont directement se faite sur les graphes RDF qui sont igure 2.7 Le modile de eomposants sérialisés (chargés) & partir des données dans MongoDB, cette étape dans un systéme d'assaciation de Mon-

va prendre du temps Nous avons alors besoin d'une méthode pour goDB et JSON-LD - CRUD

organiser les données importantes Cette étape est importante pour

optimiser le temps exécution du systéme, En effet, nous avons les deux bases de données dans le syst?me,

17

Trang 30

le base de données orientée documents et la hase de triplets dans mémoire temporelle Ici, Les opérations

ORUD vont s'exémter dans Mongol)it et les recherches sant réa isées dans le graphe RUF Alors, nne

corche médiane est nécessaire pour synchroniser les đenx hasas de donrées

Avantages

# Le stockage des données dans MongoDB sons la forme de JEON-LD cet aussi la forme de données EDF Nous pouvons done profiter de la puissance de MongoD)B dans le traitemem de probleme de données volumninenses

« Tes opérations de CRUD vont étre ranidemert rán ieđes snr Tes données dans Mongo

@ Les requétes eu langage SPARQL sou, alilisées pour aire des recherches de dounées daus le sysléiue

Inconvénients:

@ L’étape de chargement des doanées de graphes RDI dang la mémoire temporelle ve prendre beaucoup de temps Les mises A jour sur les donaées de graphes RDF's sont dépendantes de Ja base de données dans MongaDR

@ Le probiizue de sudwuire temporelle aver les grands gruphes RDPs, la puissanee malérielle esl

imporlaule pour ce sysléme avee un besoin furl de nudmuires Lemporelles

2.2.4 ODBA et frameworks Ontop

L!O1TA est, considérde comme wn élément olé pour la nonvelle génération da aysrèmes dfinformatian

en partienlier panr les applications cu Web sémanticue qni impliquent nne grandes quantités de données TODBA est nn paradigme d'accks A des données par ima enuche conceptuelle, Généralemenr, la canche eonveptuelle est exprimée sous la forme dune oulolugie qui défidt ua sekéma global de Haul uiveau el Jowruil des yovabulaires pour des requéws cPutilisateurs Le donus cout sluckées dans des bases de ouées relaliounelles, des bases de \iplete ule (10

Lea termes de la couche conceptuelle sour mappées sur la couche de données en utilisant les mappings qui associent & chaque élément de la couche conceptuelle, une requate sur les sources de données Main- tenant, les mappings ont éé formalisées dara la réceme norme Relational Databases to KDE Mapping Janguage (RERMI)} ® de Vorganisation WAC Cette praphe virtnelle pent étre Interrogée A Vaide d'un Tangage de reqnéte sur lee donndes RIT tela qne SPARQT

@ T esl comsidérd eumuue les outologies formulisées dans les Logigues de Deseription (DL), et T esl

ua DL TEOX

e S est un schéma des sources

‘h(a est we requéte sur S, retourner des tuples de valeurs pour x

U(x) est ime requéte sur 7 dont Tes variab’es bres sont de»

18

Trang 31

Ja couche conceptuelle sont traduites dans um langage de requéte qui peut étre traité par la couche de

données La traduction est indépendante des données réelles dans la couche de données De cette fagon,

Tévaluation de requéte peut étre déléguée au systeme de gestion des sources de données

Sur la base de la conception d’ODBA, les chercheurs de VUniverstié Bozen-Bolzano en Italie ont

développé un Framework ODBA du nom d’Ontop Il est utilisé actuellement sur l'application Optique® résoudte les problemes de Big Data,

Le noyau de Ontop est le moteur de requéte SPARQL QUEST qui implémente RDFS et OWL 2 QL

en ré-écrivant les requétes SPARQL sur le graphe RDF virtuelle en des requétes SQL (sur la base de

données relationnelles) Ontop est capable de générer efficacement et de maniére optimisé des requétes

SQL {12} Le Framwork Ontop peut étre utilisé comme :

¢ Un plugin pour Protégé 4 qui fournit une interface pour la rédaction de mappings et l'exécution de requétes SPARQL

Un point d’aceds SPARQL sur Sesame

Trang 32

L’approche classique converti les bases de données en triplets Ensuite, les requétes, les inférences seront réalisées sur ces données Avec l'approche de QUEST, un nouveau paradigme sur les données est cr6é, ici, les structures de base de données ne sont pas brisées Les données sont stockées dans um seul

systéme,

‘Ave le limitations des

bases de données relationnelles

pour Is données massives, une

solution proposée est lassocia-

tion du modéle ODBA avec

le systeme de gestion de base

données MongoDB Avee cette

approche, nous allons profiter

des ayantages des MongoDB pour la gestion de grands jenx

de données et du modéle ODBA

pour créer des mappings entre

rchitecture du systéme avec Vassociation de MongoDB et le

les données et ontologie Ainsi ign 2.10:

nous pourrons faire des requétes medéle d/ODBA

et utiliser du raisonnement,

Avantages

¢ La structure de données est gardée dans le systéme de gestion de base de données I n'y a pas de

duplication de données sous forme de triplet pour faire des raisonnements

¢ Les interrogations sur les données sont réalisées dans langage de requéte SPARQL

« La capacité de compatibilité avec plusicurs systémes de gestion base de données relationnelles

Inconvénients

« La complexité du système va augmentent avec organisation des modéles d'ODBA,

« Laugmentation du temps et de Pargent pour construire le système

2.2.5 Matérialisation de données en triplets RDF

Dans toutes les approches ci-dessus, les données sont organisées et stockées dans des systtmes de

gestion de base de données orientés graphe Neo4j ou des systemes bases de données orientés documents:

MongoDB ou des systémes hybrides d’association de MongoDB et des systémes de gestion de base de données de triplets RDF Toutefois, 'implémentation de requétes sur les données avec le langage SPARQL

‘ plusieurs limitations Dans cette partie, nous allons découvrir une autre approche sur les données, C'est

la matérialisation đe données en triplets Les données seront converties en triplets RDF Cette approche

est maintenant Ja meilleure solution pour l'organisation des données avec des capacités de raisonnements

Le plus souvent, lorsque l'on commence 4 vouloir publier des données sur des bases de connaissances

comme RDF il existe déja une base de données Pour que l'on puisse utiliser les données en RDF, il faut

20

Trang 33

les traduire en triplets Il existe plusieurs méthodes mais la plus utilisée est la suivante : Database To RDF (D2R)’ a pour but de traduire toutes les données contenues dans une base de données en triplets

RDF D2R fonctionne avee umn fichier de mapping et une on plusieurs ontologies Le fichier de mapping sert & faire la liaison entre les tables et les champs contenus dans ces tables et les classes et les propriétés dont sont composées ou les ontologies que l'on utilise Ainsi, aprés le mapping, les données correspondront

a la ou les ontologies spécifiées et, ensuite seront disponibles sur une application Web sémantique par

Tintermédiaire d’une interface Web et d'un point d'accés SPARQL

Texiste maintenant deux méthodes pour map-

per une base de données : RIRML® et Direct

Mapping” Ainsi avec ces deux méthodes il est

possible d'intégrer toutes les données d'une base

SQL au Web de données, de les manipuler avec

SPARQL et de les interconnecter avec d'autres

jeux de données présents sur le Web de données

Le Direct Mapping dếRnit wne transfor-

mation simple, fournissant une base pour la

définition et la comparaison des transformations

plus complexes Il peut également étre utilisé

pour matérialiser des graphes RDF ow définir des

kraphes virtuels Ces graphes peuvent étre in-

terrogés en SPARQL ou grace & une API RDF

En ee qui coneerne R2RML [13], c'est un lan-

gage pour exprimer des mappings A partir d'une

base de données relationnelles et des ensembles de

données RDF Ces mappings fournissent des ca-

pacité de visualisation des données relationnelles

existantes en représentation RDF Avec les trois

figures dans cette section, nous pouvons voir in

exemple de ces mappings de données relation-

nelles et de triplets Tei, sur la base des relations

entre les tables (Figure 2.11), nous allons définir

un fichier pour mapper des informations dans et

entre les tables (Figure 2.12) aux sujet, prédicat

et objet de triplets (Figure 2.13)

‘Toutefois, ces deux approches existe seulement

pour des bases données relationnelles Done il y

ala nécessité d'utiliser la méme idée pour mapper

rr:1ogicalTable [ rr:tableMase “Study” J;

#r:sub$ectfap [ rr:class st:study;

rr:tenplate “http://example.org/study#(14)”;

hi

respredicatedbjecttap [ rr:predfcate lạng:has-for-nane;

rr:objeCtMap [ rr:columa “Acronym” };

is

rripredicatedbjecttap [

predicate role:has-for-agent-at;

rr:ebjecĐlap ( rr:paremtTriplesMap <#centre>;

rr JoinCondition [ rr:ehá1d “Centerta™;

Figure 2.13: Les données RDF aprés de la transformation

des triplets RDF avec des bases de données orientées documents Franck Michel et ses colleges [14] se Thttp *//adee.org/

Shttp ://www.w3.org/TR/r2rml/

Sheep ;//seww.W3.org/TR/rdb-direct-miapping/

2

Trang 34

zont basés sur le langage de mapping R2RML et Morph-RDB" qui est une impiémentation du langage

đe mapping H2HMI, panr les données telationnelles, porr développer xK2HMI qui est s'appliqne aux

hases de données orientées documents camme Memgol 13

Tn partionlier, xR2RML est :me extension de la langage de mapping RORMT et s'appuie sur cartaines propriétés du langage de mapping RDF Mapping Language (RML) [15] ot R2RML porte sur les mappings

de base de donnéss relationnelles aux triplets RDF RML étend R2RML: pour aborder les mappings sur dee douaées hévérogéues (KML, JSON, OSV) aveu des Uiplets RDF xR2RML élend ve damp Vapplicalion

& un plus large éveutail de base de dounées uowrelationuelles,

Avantages

» Les damages son$ convertics en triplets Nous pouvurs donc utiliser les systémes de gestion de base

de dounées RDF spécifiques

# Les capacilés de raisonnezueat soul parluilemenl soulenues par ces sysitzues de gestion de base de

données RDE

Tnvonveénients

«= Téétape de transformation de données est cofitense en temps : ré-organtsation des données en graphe

@ Le nouveau systime avec ses données ø besoin d’une nouvelle architecwure pour étre mis en ceuvre 1e système est indépendant de lexistant

@ On renvontie des probltaus de performaner aveu les données volunincuses

Dans cette partie, nous avons fait Pétat đe Part des approches pour résoudre le probléme de données

massives et des recherches au nivean Web sémanriqne Pour résnmer ‘I a denx approches principales :

Ja transformation de données en triplets RTF ave Tassosiation de AL egroCraph et de MongoDD, de NeodJ, de J8Qn-LD ot de MongoDB Ly a aussi l'utilisation d'un langoge de mapping comme xR@RML

ot le transformation de requétes ou Ia ré-éeriture des requétes avec QDBA ct Ontop Framework On peut

‘nicots T faudra done, sur la base des

‘voir que pour chaque approche il existe des avantagos ct des incony

caractérisliques de Vorgenisalion des données el de l'objectif d'utilisation de doaudes, choisir Ja useilleure xontion pour ley đorutées

1Đhräpx ://githalhoentneg-nlpmt/menfcnôh

Trang 35

forme de triplets

Dans ee ehapitze, ous eborderous deus la, premtitze suction Ie evia de lu rupréscatation đụ modble donaces vt la manitze de le géuérer, Ensuite, das la suction suivaule sera abordée une dérnareke entzeprise pour Lrausfurmer des dounées du aiudéle selaliounel eux formal JSON De plus, une ontulogic sera présentée pour décrire les vocabulaires nécessaires dans la ‘a conception du modele RDL's Ln fin, le langage de transformation de données en HDI" sera introduit avec les syntaxes pour eréer les mapping et

coxvertir des documents JSON en triplets RDI

L'approche de matérialisalion de donuées cu triplels RDF a évé choisic afia de tester orgunisatiou eL là perormance des Uiplostores sur de gros volune donudes, Lee nyslimes acluels slockaul de gros values sou, eu auajorité partagés entie des systéuces NoSQL (c.g : Mongodb), relatianucls cf divers formal L’un des objectifs de ce travail était ’organ‘sation et la synchronisation dea données en conservant leur

provenance et les syattmes existants ea ayant MongaDB comme stockage inrerméd:aire

Par Ja suite, les données seront converties en twiplets RDF grace a utilisation du langage de mapping

mÌa xR2RMI, at llanti dávelnpné par lae antenws [14| Tes và ‘res ef Tes régles de transformation de

23

Trang 36

données RDF afin d'optimiser le stockage et pour la récupération de ces triplets A Vaide du langage de requéte SPARQL

Le moteur de recherche va consister A utiliser la capacité dinférence sur la base contenant lontologie et les données RDF Une interface est fournie pour effectuer les requétes sur ces données, Les interrogations

sous la forme de langage SPARQL sont utilisées pour chercher les données nécessaires dans la base de

données L/illustration détaillée du modéle est présenté dans la figure 3.1 suivante :

Dans le projet Phenome (INRA), plusieurs systémes de capteurs alimentent des bases de données

relationnelles en permanence Il y a une fort besoin de synchronisation de ces données avec le système: courant, L’étape de transformation de données en documents JSON est réalisées afin d'intégrer plusieurs

ressources dans un meme entrepét Dans la suite du memoire nous nous concentrons seulement sur les

données obtenues dans sur les processus d’imageries, d'arrosage, de pesées ceux que les chercheur ont réalisés quotidiennement

Afin de garantir la cohérence des données entre les ressources et les processus qui les génerent, des modéles ont été définis La définition des modéles JSON est réalisée pour mapper les propriétés de

plusieurs tables de base de données relationnelles avec les clés - valeurs dans les documents JSON Seules

les propriétés importantes et les relations entre les tables ont été conservées, La figure 3.3, représente

un exemple de modéle défini en JSON pour les données imageries construits à partir les trois tables différente

nom Vindique aux données images (horodatage, format, ete), aux profils caméra (balance des blanes,

: Images, Imgacqcameraprofiles et: Imaguestationprofites, Ces tables correspondent comme leur

saturation, etc,) ainsi qu’aux profils des cabines d’imageries (lumidres, ete ) Dans ce nouveau document

ISON sont représentés des données fixées par les systémes existants et des nouvelles données caleulées a

4

Trang 37

partir de traitements resultant de leur intégration,

Figuce 3.2: Le modéle JSON créé d partir des bases d'imageries

jssus de ce stage, une application’ scra misc en oeuvre pour convertir

Dans quelques semaines &

automatique toutes les données dans la base de données relationnelics aux document de JSQN sur la base d'un modale défini comme fa figure 3.2 Les données, gui seront concernées par les processus de mesures des plantes selon trois aspects d'imageries, d'arrosages, đe pesées, seront converties sous forme

de documents de JSON On peut voir les autres xmodè'es qui coat completement définies dans Annexe

A

apras Ta transformation seront synchronisées et storkées Aujonrd’hni, rontes les dannées abtenis

dans le systéme MongoDD La centralisation de données dane wm seul ayateme nous aide commodément

a défini: Ics modéles généranx pour la transformation de données en RDF

Aestps :/feittiab: enn flengucluyen/:iheniwnredle e-taesgoribeenrives a

25

Trang 38

3.4 Ontologies et domaine applicatif

Figure 9.3: L'ontologie de Vannotation d'images

Les différences entre des processus dimageries, d'arrosage et de pesées demandent un diversité de

vocabulaires pour les décrire, Dans cette section, nous nous focalisons sur des vocabulaires de description

des données, des méta-données du processus d'imageries Dans ce processus, de trés nombreuses images

de plantes sont créées et doivent étre stockées et étre partagées Une annotation d'images est nécessaire

pour fournir les méta-données afin d’aider compréhension et l'interprétation de Vimage

En général, plusieurs vocabulaires sont déjà disponibles pour faire de Vannotation d'images (16) par exemple, EXIF est Je format d'images de la plupart des appareils photo numériques Il contient des

~~ https ://fr-wikipedia,org/wiki/Exchangeable_imag_file format

26

Tiêu đề	Development of a knowledge system for big data application to phenotyping data in rice (Oryza sativa)
Tác giả	Lê Ngọc Luyện
Người hướng dẫn	M. Pierre LARMANDE, Mme. Anne TIREAU, Be Ingénieur IRD
Trường học	Hanoi University of Science and Technology
Chuyên ngành	Informatics / Computer Science
Thể loại	Thesis
Năm xuất bản	2015
Thành phố	Hanoi

Định dạng
Số trang	76
Dung lượng	2,21 MB