DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR BIG DATA APPLICATION AUX DONNÉES DE PHÉNOTYPAGE CHEZ LE RIZ (o SATIVA)

Ils nous permettront de chercher la meilleure solution possiblepour tout d’abord organiser le stockage des données massives et volumineuses dans un système de gestion de base données

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

LÊ NGỌC LUYỆN

DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR

BIG DATA APPLICATION AUX DONNÉES DE

PHÉNOTYPAGE CHEZ LE RIZ (O SATIVA)

PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA

(O SATIVA)

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2015

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

LÊ NGỌC LUYỆN

DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR

BIG DATA APPLICATION AUX DONNÉES DE

PHÉNOTYPAGE CHEZ LE RIZ (O SATIVA)

PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA

(O SATIVA)

Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de:

Ingénieur IRD, responsable de l’AXE Intégration de données de

l’Institut de Biologie Computationnelle, Dr Pierre LARMANDE

Ingénieur INRA, Mme Anne TIREAU

HANOI – 2015

Trang 3

ATTESTATION SUR L’HONNEURJ’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultatsqui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citéesdans ce mémoire a été bien précisée.

LỜI CAM ĐOANTôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳcông trình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Fait à Hano¨ı, le 20 octobre 2015

Hà nội, Ngày 20 tháng 10 năm 2015

Lê Ngọc Luyện

Trang 4

Je tiens à remercier dans un premier temps, toute l’équipe pédagogique de l’Institut FrancophoneInternational (IFI) de Hano¨ı et les intervenants professionnels responsable de la formation en master derecherche en informatique, pour avoir assuré la partie théorique de celle-ci

Je tiens à exprimer toute ma reconnaissance à M Pierre LARMANDE qui est chercheur à l’IRD etReponsbale de l’axe de données de l’Institut de Biologie Computationnelle, Mme Anne TIREAU qui estingénieur à l’INRA Montpellier SupAgro dans l’UMR MISTEA, pour leur encardrement sans faille, lesuivi qu’ils ont apporté à mon stage, leurs conseils, les nombreuses discussions que nous avons pu avoirtout au long de la réalisation de ce stage, aussi pour l’inspiration et pour le temps qui’ils ont bien voulu

Enfin, j’adresse mes plus sincères remerciements à mes parents, mes frères qui m’a toujours soutenue

et encouragée dans les moments les plus difficiles de ma scolarité à l’IFI

Merci `a tous et `a toutes

LE Ngoc Luyen

Da Lat - Viet Nam, automne 2015

Trang 5

R´ esum´ e

Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifiquesoulève des défis dans le traitement et l’exploitation des données La recherche dans le domaine bioinforma-tique n’est pas épargnée par ce phénomène Ce mémoire présente des approches pour résoudre le problème

de données volumineuses stockées dans des entrepôts NoSQL en y associant la capacité de recherchesémantique sur les données dans un contexte de recherche agronomique Ces approches sémantiquespermettent d’aider à enrichir les données issues d’expériences grâce aux moteurs d’inférence générant

de nouvelles connaissances Nous pouvons résumer ces deux approches d’une part avec la réécriture derequêtes et d’autre part avec la matérialisation de données en triplets RDF Un état de l’art nous apermis d’identifier et d’évaluer les différentes méthodes se rapportant aux approches mentionnées Enpratique, seule l’approche de matérialisation de données a été choisie pour continuer à travailler Lesdonnées triplets obtenues étant volumineuses, nous avons réalisé un benchmark sur différents systèmes

de gestion de base de données de triplets afin de pouvoir comparer les avantages et les inconvénients dechacun et de choisir le meilleur système pour notre étude de cas

Mot-cl´es : Base de connaissance, Ontologie, Raisonnement, Inf´erence, SPARQL, xR2RML, mark, NoSql, BigData, TripleStore

Trang 6

In the recent years, the data deluge in many areas of scientific research brings challenges in the ment and improvement of farm data Research in bioinformatics field does not outside this trend Thisthesis presents some approaches aiming to solve the big Data problem by combining the increase in se-mantic search capacity on existing data in the plant research laboratories This helps us to strengthen userexperiments on the data obtained in this research by the engine automatic inference of new knowledge

treat-To achieve this, each approach has different characteristics and using different platforms Nevertheless,

we can summarize it in two main directions : the transformation of query or Re-write requests and datatransformation to triples In reality, we can solve the problem from origin of increasing capacity on seman-tic data with triplets Thus, the triplets to data transformation direction is chosen to continue working

in the practical part However, the synchronization data in the same format is required before processingthe triplets because our current data are heterogeneous The data obtained for triplets are larger thatregular triplestore could manage So we evaluate some of them thus we can compare the benefits anddrawbacks of each and choose the best system for our problem

Keyworks : Knowledge base, Ontology, Reasoning, Inference, SPARQL, xR2RML, Benchmark, NoSQL,Big Data, Triplestore

Trang 7

Table des mati` eres

1.1 Pr´esentation de l’´etablissement d’accueil 2

1.1.1 Pr´esentation de l’Institut de Biologie Computationelle (IBC) 2

1.1.2 Pr´esentation de l’Institut National de la Recherche Agronomique (INRA) 3

1.2 Description du stage 4

1.3 Probl´ematiques 4

1.4 Contexte du sujet 5

1.4.1 Contexte de donn´ees massives 5

1.4.2 Contexte de recherche s´emantique 7

Chapitre 2 Etat de l’art´ 11 2.1 Existants 11

2.2 Analyse et ´evaluation des solutions courantes 11

2.2.1 MongoGraph - une association du Mongodb et AllegroGraph 11

2.2.2 Base de donn´ees orient´ee graphe Neo4j 15

2.2.3 JSON for Linking Data (JSON-LD) et MongoDB 16

2.2.4 Ontology-Based Data Access (ODBA) et frameworks Ontop 18

2.2.5 Mat´erialisation de donn´ees en triplets RDF 20

2.3 Conclusion 22

Trang 8

3.1 Introduction 23

3.2 Modèle général 23

3.3 Transformation et synchronisation de donn´ees dans MongoDB 24

3.4 Ontologies et domaine applicatif 26

3.5 xR2RML et Transformation de donn´ees en triplets 27

3.5.1 Le langage de mapping de donn´ees xR2RML 27

3.5.2 Transformation de donn´ees en triplets 28

3.6 Conclusion 30

Chapitre 4 Stockage et Indexation de donn´ees RDF 31 4.1 Introduction 31

4.2 Approche native et non-native 31

4.3 Vue générale des systèmes de gestion de triplets 33

4.3.1 TripleStore Sesame 33

4.3.2 TripleStore 4Store 34

4.3.3 TripleStore Virtuoso 36

4.3.4 TripleStore Jena Fuseki 37

4.3.5 TripleStore Stardog 38

4.3.6 TripleStore GraphDB 38

4.4 Impl´ementation 39

4.5 Conclusion 40

Chapitre 5 Expérimentation, Comparaison et Analyse 42 5.1 Préparation des données et du Serveur 42

5.2 Benchmarking des platformes 42

5.2.1 Chargement de donn´ees 42

5.2.2 Recherche de donn´ees 43

5.2.3 Inf´erence sur les donn´ees 48

5.3 Evaluation et Analyse 51

Trang 9

Liste d’abr´ eviations

API Application Programming Interface

CRUD Create, Read, Update, Delete

DFS Distributed files system

IBC Institut de Biologie Computationelle

INRA Institut National de la Recherche Agronomique

JSON Javascript Object Notation

JSON-LD JSON for Linking Data

ODBA Ontology-Based Data Access

OWL 2 RL Web Ontology Rule Language

R2RML Relational Databases to RDF Mapping Language

RDF Resource Description Framework

RDFS Resource Description Framework Schema

SPARQL Protocol and RDF Query Langage

xR2RML Relational and Non-Relational Databases to RDF Mapping Language

Trang 10

Liste des figures

1.1 L’architecture du web s´emantique 7

1.2 L’exemple d’un triplet Resource Description Framework (RDF) 8

1.3 L’exemple d’une requˆete Protocol and RDF Query Langage (SPARQL) 8

2.1 Le mod`ele de composants dans un syst`eme MongoGraph 12

2.2 Les données présentées dans cet exemple 13

2.3 Une requête SPARQL associée à une requête de MongoDB 14

2.4 La graphe de donn´ees dans Neo4j 15

2.5 Les commandes pour cr´eer un graphe simple 16

2.6 Les triplets sont stock´ees dans MongoDB sous la forme de JSON-LD 17

2.7 Le mod`ele de composants dans un syst`eme d’association de MongoDB et JSON-LD – Create, Read, Update, Delete (CRUD) 17

2.8 Le processus de requˆete dans le syst`eme d’ODBA 19

2.9 La comparaison des approches des raisonnements dans une application 19

2.10 L’architecture du syst`eme avec l’association de MongoDB et le mod`ele d’ODBA 20

2.11 Les deux tables et sa relation 21

2.12 Les informations d´efinies pour le mapping 21

2.13 Les donn´ees RDF apr`es de la transformation 21

3.1 Le modèle général du système 24

3.2 Le modèle JSON créé à partir des bases d’imageries 25

3.3 L’ontologie de l’annotation d’images 26

3.4 Un exemple de donn´ees dans MongoDB 27

3.5 Le triplet généré 28

3.6 Le mapping de xR2RML 28

3.7 Le modèle général du système 29

4.1 La classificaiton des types de syst`eme de stockage RDF 32

4.2 Les composants dans l’architecture de Sesame 33

4.3 L’architecture principale de 4Store 35

4.4 L’architecture g´en´erale de Virtuoso 36

4.5 Les composants dans l’architecture de Jena 37

4.6 Les composants dans l’architecture de GraphDB 38

4.7 L’interface du syst`eme d’interaction avec les donn´ees RDF 39

Trang 11

5.1 La comparaison du temps de chargement sur diff´erents TripleStores 43

5.2 L’exemple de requˆete num´ero 1 44

5.3 L’evaluation de la requˆete num´ero 1 sous forme de courbe graphique 44

5.4 L’exemple de requˆetes num´ero 2 45

5.6 L’exemple de requˆete num´ero 3 46

5.8 L’exemple de troisi`eme requˆetes 47

5.10 Les relations inf´er´ees sur l’ontologie dans le premier exemple 48

5.11 La requête du première exemple d’inférence 48

5.12 Le temps d’exécution de la première inférence sous forme de graphique 49

5.13 Les relations inférées sur l’ontologie dans le deuxième exemple d’inférence 49

5.14 L’exemple de la deuxi`eme inf´erence 50

5.15 Le temps d’exécution de la deuxième inférence sous forme de graphique 50

Trang 12

Liste des tableaux

1.1 La liste des types et des syst`eme de gestion de base de donn´ees dans Not Only SQL (NoSQL) 7

4.1 Les TripleStores et le type de stockage support´e 33

4.2 Les encodages sp´eciaux 35

4.3 Les comparaison de certaines fonctionnalit´es des diff´erents TripleStores 40

5.1 La configuration du serveur exp´erimental 42

5.2 La comparaison du temps de chargement sur diff´erents TripleStores en millisecondes 43

5.3 L’evaluation de la requˆete num´ero 1 (temps en millisecondes) 44

5.7 L’evaluation de la premi`ere inf´erence (temps en millisecondes) 49

5.8 L’evaluation de la deuxième inférence (temps en millisecondes) 50 C.1 Les exemples de point d’accès de TripleStore C.8

Trang 13

Les études sur les plantes ont toujours pris un rôle important pour améliorer la productivité, la capacité

de résistance des plantes aux maladies, la réduction d’influence des changements de l’environnement et leclimat Aujourd’hui, de plus en plus de laboratoires ont effectué des études sur les plantes et ont obtenusdes résultats importants Les données de ces études sont des ressources utiles pour que les scientifiquespuissent les exploiter et les partager avec les autres Aujourd’hui, il y existe une diversité d’outils qui sontdéveloppés pour gérer ces données Mais chaque étude possède des caractéristiques différentes qui sontdifficiles à capturer dans des applications génériques De plus, ces données ne cessent d’augmenter danschaque jour Les tâches de gestion de données demandent des méthodes d’organisation optimisées.Dans la carde du sujet de stage, deux projets d’études sur les plantes sont réalisés dans deux labora-toires differents L’un fait la recherche sur le phénotypage et le génotypage du riz asiatique L’autre fait

la recherche sur le phénotypage et le génotypage du ma¨ıs en France La caractéristique commune entreces deux projets concerne la gestion et l’exploitation de gros volumes de données de manière plus efficace.Les travaux dans ce stage se focaliseront sur la recherche de solutions associant les domaines du websémantique et celui des données massives Ils nous permettront de chercher la meilleure solution possiblepour tout d’abord organiser le stockage des données massives et volumineuses dans un système de gestion

de base données spécialisé et ensuite renforcer la capacité de recherche sémantique des données afin degénérer de nouvelles connaissances Les connaissances dans le domaine de web sémantique fournissent desmodèles pour structurer les données sous la forme de bases de reconnaissance et permettent la recherche

de données grâce a des mécanismes de d’inférence et de raisonnement Aujourd’hui, le problème de gestion

de donn´ees massives a besoin de traiter avec l’optimisation du temps d’ex´ecution et le temps de recherche

Ce présent rapport se divise en cinq grandes parties La première partie présente les deux laboratoiresIBC et INRA, leurs projets de recherche actuels, les problématiques du stage et les concepts existantsdans le domaine du web sémantique et des données massives La deuxième partie fait un état de l’artsur les solutions actuelles et leurs applications dans le cas de nos données La troisième partie consiste àprésenter la solution proposée et les travaux mis en oeuvre pour la réaliser La quatrième partie présente lessystèmes de gestion de base de données de triplets actuels La cinquième partie concerne l’expérimentation,

la comparaison et l’analyse des résultats dans un benchmark de ces systèmes selon trois critères : lechargement de données, la recherche de données et l’inférence de données

Trang 14

Chapitre 1

Pr´ esentation G´ en´ erale

1.1 Pr´ esentation de l’´ etablissement d’accueil

1.1.1 Pr´ esentation de l’IBC

L’Institut de Biologie Computationnelle a été créée dans le but de développer des méthodes vantes et des logiciels pour analyser, intégrer et contextualiser les données biologiques massives dans lesdomaines de la santé, de l’agronomie et de l’environnement Plusieurs branches de recherche y sont com-binées : l’algorithmique (combinatoire, numérique, massivement parallèle, stochastique), la modélisation(discrète, qualitative, quantitative, probabiliste), et la gestion des données (intégration, workflows, cloud).Les concepts et les outils seront validés à l’aide des applications clés en biologie fondamentale (transcrip-tomique, la structure et la fonction des protéines, le développement et la morphogenèse), la santé (agentspathogènes, le cancer, les cellules souches), l’agronomie (génomique des plantes, de l’agriculture tropicale),

inno-et de l’environnement (dynamique des populations, biodiversité) L’IBC est divisé en cinq work-packagesqui comprennent les aspects principaux du traitement des données biologiques massives :

WP1-HTS : Méthodes d’analyse de séquen¸cage à haut débit

WP2-Evolution : Passage à l’échelle des analyses évolutives

WP3-Annotation :Annotation fonctionnelle et structurelle des prot´eomes

WP4-Imaging : Int´egration de l’imagerie cellulaire et tissulaire avec des donn´ees omiques

WP5-Databases : Donn´ees biologiques et int´egration des connaissances

L’IBC est un projet multidisciplinaire soutenu pendant cinq ans (2012-2017) par l’état Fran¸cais à vers le projet “Investissements d’Avenir” L’IBC implique actuellement 56 chercheurs multidisciplinairespermanents, issus de quatorze laboratoires de Montpellier l’IBC a pour objectif de devenir un lieu derencontre privilégié pour les chercheurs en biologie et en bio-informatique, mais aussi une importantecommunauté de chercheurs, universitaires et industriel au niveau régional, national et international Lesactivités de l’IBC amnitionnent de collaborer avec des chercheurs de renommee mondiale, d’organiser desmanifestations scientifiques, de former de jeunes chercheurs, et de promouvoir les résultats et échangerdes informations avec des partenaires industriels

Trang 15

tra-La recherche sur le riz est un des modèles d’étude abordé par les chercheurs de l’IBC notamment àtravers le projet BIOeSAI (Biological electronic System Assistant Index) Ce projet a pour objectif degérer des études de diversité génotypique et phénotypique de variétés traditionnelles de riz vietnamien(Oryza sativa) L’objectif de ces études est d’identifier des gènes d’intérêt pour qu’on puisse comprendreles processus biologiques, par exemple : le développement et la plasticité de la plante, la résistance auxmaladies Ces études requièrent la manipulation d’un volume important de données hétérogènes Cesdonnées peuvent être stockées sous des formes différentes : fichier Excel, fichier texte structuré, images

ou bases de donn´ees relationnelles

1.1.2 Pr´ esentation de l’INRA

L’INRA est un organisme de recherche fran¸cais pour l’agronomie fondé en 1946 Les recherches menéespar l’INRA sont guidées par les questionnements scientifiques en lien aux défis planétaires posés par l’ali-mentation, l’environnement et la valorisation des territoires Changement climatique, nutrition humaine,compétition entre cultures alimentaires et non alimentaires, épuisement des ressources fossiles, équilibredans la gestion des territoires sont autant d’enjeux qui positionnent l’agronomie comme fondatrice d’undéveloppement harmonieux sur les plans économique, social et environnemental

L’INRA produit des connaissances fondamentales et construit, grâce à elles, des innovations et dessavoir-faire pour la société Il met son expertise au service de la décision publique Les grandes missionsconfiées à l’INRA sont les suivantes :

Produire et diffuser des connaissances scientifiques

Concevoir des innovations et des savoir-faire pour la soci´et´e

Éclairer, par son expertise, les décisions des acteurs publics et privés

Développer la culture scientifique et technique et participer au débat science-société

Former `a la recherche et par la recherche

Le centre INRA de Montpellier coordonne Phénome, un projet de plate-formes de phénotypage débit de plantes cultivées Son objectif est de mesurer des caractères agronomiques de plantes soumises àdifférents scénarios environnementaux et en particulier les conditions de stress hydrique C’est un projetsur huit ans regroupant neuf plates-formes réparties sur sept sites d’études en France

haut-Les études couvrent à la fois des problématiques de recherche fondamentale en génétique et de cherche appliquée pour la sélection de plantes adaptées à des contextes climatiques particuliers

re-Sur la plate-forme de Montpellier se trouve trois plateaux techniques diff´erents permettant de mesurer

la croissance de plantes en fonction de l’environnement :

Ph´enoPsis qui permet de peser et photographier plus de cinq cent plantes (Arabidopsis thaliana,une plante mod`ele pour l’agronomie)

PhénoArch où plus de mille six cent plantes (ma¨ıs et autres céréales, vigne, pommiers) sont déplacéesgrâce à un automate afin de procéder à différentes mesures, portant notamment sur l’architecture

de la plante, et d’ˆetre photographi´ees dans des cabines d’imageries 3D

Trang 16

PhénoDyn où l’on mesure en particulier la transpiration et la croissance des feuilles des plantes.D’autres plate-formes, comme celles de Toulouse, Dijon ou Mauguio, présentent des environnementsnon contrôlés, avec des expérimentations en champ Les données phénotypiques sont alors acquises grâce

`

a une Phénomobile (robot mobile autonome équipé de capteurs embarqués) ou à des drones

Ces plate-formes sont spécialisées en écophysiologie, c’est-à-dire dans l’étude de l’influence de vironnement sur la plante Par conséquent, pour l’ensemble des expérimentations réalisées, les donnéesissues des capteurs environnementaux sont primordiales Ces données sont à la fois hétérogènes en termes

l’en-de formats, l’en-de sémantique, etc et volumineuses (plusieurs téraoctets par mois) Elles sont de plus reliéesentre elles au sein d’une experience et doivent pouvoir être tracées dans le temps

Dans le contexte de Phenome, ces très nombreuses données doivent être conservées, partagées et lysées Il faudra en effet être capable de les retrouver dans plusieurs années De même, elles doivent pou-voir être consultées et utilisées indifféremment par l’ensemble des neuf plates-formes Enfin, les résultatsd’analyse et de calculs doivent également être reliés aux données

Dans le cadre du projet de l’équipe Génome et Développement des Riz, du LMI RICE (Hano¨ı), des

études de la diversité génotypique et phénotypique de variétés traditionnelles de riz vietnamien sontconduites dans le but d’identifier des gènes d’intérêt pour la compréhension de processus biologiques

De la même manière, les recherches du laboratoire INRA à Montpellier évaluent les influences de ronnement sur les plantes La caractéristique commune entre ces deux projets est la manipulation d’unimportant volume de données hétérogènes Ces données sont organisées dans des systèmes de gestion debase de données relationnelles ou des systèmes de gestion de base de données NoSQL (MongoDB) Dans

l’envi-ce contexte, les équipes souhaitent réorganiser leurs propres jeux de données afin de pouvoir naviguer,partager, annoter et rechercher ces dernières afin de les exploiter au mieux

Un système d’information a été implémenté lors d’un stage de Master 1 en 2014[1] pour le projet

du LMI RICE (BIOeSAI) Ce système est basé sur un système de gestion base de données MongoDBincluant également la gestion des métadonnées et des tags Toutefois, la méthode mise en place ne permetpas de détecter des relations explicites/implicites entre les données gérées par le système

L’objectif du stage proposé sera d’évaluer la faisabilité de gestion des BIG DATA couplé au logies du Web Sémantique en s’appuyant sur les articles de synthèse du domaine [2] Par ailleurs, nousréaliserons un état de l’art sur les problèmes d’organisation des données massives et de l’augmentation de

techno-la capacité de recherche sur les données Plus particulièrement, sur la capacité d’inférence et de ment sur les données Un des objectifs du travail dans ce sujet sera de construire un base de connaissancesur les données existantes

Les données biologiques existantes sont volumineuses et elles ne cessent d’augmenter chaque jour.L’utilisation des systèmes de gestion de base données relationnelles est aujourd’hui mal adapté pour gérerces données[1] L’émergence des systèmes de gestion de base de données NoSQL orienté-document (e.g

Trang 17

MongoDB) semble mieux adapté [3] toutefois ces systemes sont depourvus d’une capacité de recherchesémantique sur les données ce qui existent seulement sur les données RDF par utiliser par le languageSPARQL.

Les bases de données de type “triplestore” sont mieux adaptées pour faire des inférences ou desraisonnements sur les données Toutefois, elles passent moins bien à l’échelle sur des gros volumes dedonnées En effet, la recherche ou l’inférence sur un grand volume de données RDF peuvent prendrebeaucoup de temps L’enjeu dans la gestion de ce type de données est d’utiliser les capacités d’inférencesémantique avec de gros volumes de données

L’association entre un système de données massives et les capacités de recherche sémantique estl’objectif principal du sujet

1.4.1 Contexte de donn´ ees massives

Aujourd’hui, nous entrons dans l’ère des Big Data Des ensembles de données tellement gigantesquesqu’ils nécessitent de nouveaux outils techniques et scientifiques pour les comprendre et en tirer du sens

Un déluge de données qui pose des questions profondes sur leur collecte, leur interprétation, leur analyseetc Les prochains enjeux de ce siècle sont d’extraire du sens de ces masses d’information qui circulent surles réseaux Dans ce domaine, c’est avec la génomique et le phénotypage que la biologie est déjà entréedans le monde des big data Certes, l’imagerie ou la modélisation métabolisme produisaient des donnéesnumériques, mais la question de leur gestion et de leur exploitation ne se posait pas de la même fa¸con

En termes d’exploitation des données, beaucoup reste à faire en biologie C’est même là que se situe legrand défi des big data en sciences de la vie : rattraper le fossé grandissant entre production massive dedonnées et la capacité à en extraire une information, voir une connaissance

Le Big Data s’accompagne du développement d’applications à visée analytique, qui traitent les donnéespour en tirer du sens Ces analyses sont appelées Big Analytics ou “broyage de données” Elles portentsur des données quantitatives complexes avec des méthodes de calcul distribué

En effet, les données massives désignent des ensembles de données tellement volumineux qu’il endevient difficile de travailler avec des outils classiques des gestion de base de données ou de gestion del’information Les Big Data sont souvent définis en utilisant l’acronyme 3V pour Volume, Vélocité etVariété [4]

La volume se réfère à des quantités massives de données qui sont disponibles, le volume des donnéesstockées est en pleine expansion : les données numériques créées dans le monde seraient passées de 1,2zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s’élèveront à 40zettaoctets en 2020[5] À titre d’exemple, Twitter générait en janvier 2013, 7 teraoctets de donnéeschaque jour et Facebook 10 teraoctets[6]

La vélocité représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées

et mises à jour Quelquefois, la vélocité se réfère à la vélocité nécessaire pour traiter, analyser et utiliserles données

Le volume des Big Data met les data centers devant un réel défi : la variété des données Il ne s’agit pas

Trang 18

de données relationnelles traditionnelles, ces données sont brutes, semi-structurées voire non structurées(cependant, les données non-structurées devront, pour utilisation, être structurées) Ce sont des donnéescomplexes provenant du web, au format texte et images Elles peuvent être publiques (Open Data, Webdes données), géo-démographiques par ˆılot (adresses IP), ou relever de la propriété des consommateurs.

Ce qui les rend difficilement utilisables avec les outils traditionnels

Pour répondre aux problématiques Big Data l’architecture de stockage des systèmes doit être repensée

et les mod`eles de stockage se multiplient en cons´equence :

Cloud computing : l’accès se fait via le réseau, les services sont accessibles à la demande et en libreservice sur des ressources informatiques partagées et configurables Les services les plus connus sontceux de Google BigQuery, Big Data on Amazon Web Services, Microsoft Windows Azure

Super calculateurs hybrides : Les HPC pour High Performance Computing, qu’on retrouve en Francedans les centres nationaux de calculs universitaire tels quel’IDRIS, le CINES, mais aussi au CEA

ou encore le HPC-LR

Systèmes de fichiers distribuées Distributed files system (DFS) : les données ne sont plus stockées surune seule machine car la quantité à stocker est beaucoup trop importante Les données, les fichierssont “découpés” en morceaux d’une taille définie et chaque morceau est envoyé sur une machinebien précise utilisant du stockage local Le stockage local est préféré au stockage SAN (Storage AreaNetwork)/NAS (Network attached storage) pour des raisons de goulots d’étranglement au niveau

du réseau et des interfaces réseaux des SAN De plus, utiliser un stockage de type SAN coûte bienplus cher pour des performances bien moindres Dans les systèmes de stockage distribué pour leBig Data, l’on introduit le principe de “Data locality” Les données sont sauvegardées là où ellespeuvent être traitées

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données

du Big Data De nouveaux modèles de représentation permettent de garantir les performances sur lesvolumétries en jeu Ces technologies, dites de Business Analytics, Optimization permettent de gérer desbases massivement parallèles Des patrons d’architecture “Big Data Architecture framework” sont pro-posés par les acteurs de ce marché comme MapReduce développé par Google et utilisé dans le frameworkHadoop Avec ce système les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées

en parallèles Les résultats sont ensuite rassemblés et récuperés Teradata, Oracle ou EMC proposent

également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées.Ils sont concurrencés par des éditeurs comme SAP (Systems, Applications, et Products) et plus récemmentMicrosoft Les acteurs du marché s’appuient sur des systèmes à forte scalabilité horizontale et sur dessolutions basées sur du NoSQL plutôt que sur des bases de données relationnelles classiques

Avec les données dans nos laboratoires, le problème de gestion des données massives ne peut pas êtrerésolu avec les systèmes de gestion de base de données relationnelles Ces systèmes deviennent lourds etlents sur ces types de données Ces dernières années, ont vu l’émergence d’une diversité de systèmes degestion de base de données que l’on appelle NoSQL Ces systèmes NoSQL, proposent plusieurs modelespour organiser et stocker les données (la table 1.1)

Trang 19

Type de base de données Liste des systèmes utilisés

Cl´e - valeur CouchDB, Oracle NoSQL Database, Dynamo, FoundationDB,

Hy-perDex, MemcacheDB, Redis, Riak, FairCom c-treeACE, Aerospike,OrientDB, MUMPS

Orient´e colonne Accumulo, Cassandra, Druid, HBase, Vertica

Orient´e document MongoDB, Clusterpoint, Apache CouchDB, Couchbase,

Docu-mentDB, HyperDex, Lotus Notes, MarkLogic, OrientDB, QizxOrient´e Graphe Allegro, Neo4J, InfiniteGraph, OrientDB, Virtuoso, Stardog

Multi-mod`ele OrientDB, FoundationDB, ArangoDB, Alchemy Database, CortexDB

Tableau 1.1: La liste des types et des syst`eme de gestion de base de donn´ees dans NoSQL

Dans le domaine des données scientifique, il existe également de réels besoins d’exploitation de cesdonnées, en raison notamment de la forte augmentation de leur volume des dernières années Le big data

et les technologies associées permettent de répondre à différents enjeux tels que l’accélération des tempsd’analyse des données, la capacité à analyser l’ensemble des données et non seulement un échantillon decelles-ci ou la récupération et la centralisation de nouvelles sources de données à analyser afin d’identifierdes sources de valeur Alors, sur la base des caractéristiques des données, on va décider quel système degestion de données utiliser Par exemple avec les données qui ont plusieurs relations, nous pouvons choisir

le type de base de donnée orienté graphe Il s’appuie sur la notion de noeuds, de relations et de propriétésqui leur sont rattachées Ce modèle facilite la représentation du monde réel, ce qui le rend adapté autraitement des données des réseaux sociaux etc

1.4.2 Contexte de recherche s´ emantique

Figure 1.1: L’architecture du web s´emantique

Organiser les donn´ees afin de

mieux les comprendre, les utiliser et

les partager, est un objectif de longue

date Mais le d´eveloppement de l’`ere

digitale a provoque une avalanche de

donn´ees dont le traitement requiert

de nouvelles m´ethodes L’enjeu de

la recherche informatique est

d’ex-traire du sens dans cette masse

d’in-formation notamment `a travers des

m´ethodes de fouilles de donn´ees ou

des algorithmes d’apprentissage

auto-matique scannant le web Toutefois,

les probl`emes ne sont pas r´esolu pour

autant Pourtant, a partir de l’id´ee de

Tim Berners-Lee : “J’ai fait un rˆeve

pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les donn´ees sur le Web

- le contenu, les liens, et les transactions entre les personnes et les ordinateurs Un “Web S´emantique”,

Trang 20

qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce jour sera atteint, les mécanismes

de dialogue entre les machines sera facilite Les “agents intelligents” qu’on nous promet depuis longtempsvont enfin se concrétiser ”[7] [8], le web sémantique émerge comme la meilleure solution pour traiterdes données directes ou indirectes par des machines, partager et réutiliser des données entre plusieursapplications et aider les utilisateurs à créer de nouvelles connaissances

Dans le contexte d’application orienté web sémantique et la gestion de données biologiques, nous allonsfocaliser sur les trois parties principales suivantes : Le représentation de données en RDF, les requêtesavec SPARQL et les inférences, les raisonnements pour trouver de nouvelles connaissances

La description de ressources (RDF)

Figure 1.2: L’exemple d’un triplet RDF

La RDF est un modèle de graphe destiné à décrire la donnée de fa¸con à permettre son traitementautomatique par des machines RDF donne une description par triplet <Sujet, Prédicat, Objet> Le sujetreprésente la ressource à décrire, le prédicat représente un type de propriété applicable à cette ressource,

et l’objet représente une donnée ou une autre ressource Les documents RDF peuvent être écrits endifférents syntaxes ainsi, il peuvent exister sous plusieurs formats : RDF/XML, N3, N-Triples, TURTLE,JSON-LD etc

La RDF est donc simplement une structure de données constituée de nœuds et organisée en graphe Undocument RDF ainsi formé correspond à un multi-graphe orienté étiqueté Ici, chaque triplet correspondalors à un arc orienté dont le label est le prédicat, le nœud source est le sujet et le nœud cible est l’objet.L’Interrogation de graphes RDF

Figure 1.3: L’exemple d’une requˆete SPARQL

Le SPARQL est un langage de requêtes pour interroger des données qui sont stockées en respectant

le modèle RDF Les requêtes SPARQL sont adaptées à la structure spécifique des graphes RDF, ets’appuient sur structure sous la forme de triplets En cela, il est différent du classique SQL, mais s’eninspire clairement dans sa syntaxe et ses fonctionnalités Le SPARQL permet d’exprimer des requêtesinterrogatives ou constructives : une requête SELECT, de type interrogative, permet d’extraire du grapheRDF un sous-graphe correspondant à un ensemble de ressources vérifiant les conditions définies dans une

Trang 21

clause WHERE ; une requête CONSTRUCT, de type constructive, engendre un nouveau graphe quicomplète le graphe interrogé.

L’Ontologie

L’Ontologie est un ensemble structuré de termes et concepts représentant le sens d’un champ formations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine deconnaissances L’ontologie constitue en soi un modèle de données représentatif d’un ensemble de conceptsdans un domaine, ainsi que des relations entre ces concepts Elle est employée pour raisonner à propos desobjets du domaine concerné Plus simplement, nous pouvons aussi dire que l’ “ontologie est aux données

d’in-ce que la grammaire est au langage”

Les conceptions utilisent pour décrire d’une ontologies générales :

Individus : les objets de base

Classes : ensembles, collections, ou types d’objets

Attributs : propriétés, fonctionnalités, caractéristiques ou paramètres que les objets peuvent posséder

et partager

Relations : les liens que les objets peuvent avoir entre eux

Ev´enements : changements subits par des attributs ou des relations

M´eta-classes : des collections de classes qui partagent certaines caract´eristiques

L’inf´erence, le raisonnement

L’inférence sur le Web sémantique est l’un des outils de choix pour améliorer la qualité de l’intégration

de données sur le web, en découvrant de nouvelles relations, analyse automatiquement le contenu desdonnées, ou la gestion des connaissances sur le web en général Les Techniques à base d’inférence sontaussi importante dans la découverte d’éventuelles incohérences dans les données intégrées

Un exemple simple peut aider à bien comprendre à la conception de l’inférence Les données fixéespour être considérées peuvent inclure la relation (HaiPhong isPartOf the North Vietnam) Une ontologiepeut déclarer que “The North of VietNam isPartof Vietnam” Cela signifie que d’un programme de Websémantique comprendre la notion de “X ispartOf Y” peut ajouter la déclaration “HaiPhong isPartOfVietnam” à l’ensemble des relations, bien que cela ne faisait pas partie des données originales On peutdire aussi que la nouvelle relation a été “découverte”

D’une manière générale, Les inférences sur le web sémantique peut être caractérisée par la découverte

de nouvelles relations Sur le Web sémantique, les données sont modélisées comme un ensemble de relationsentre les ressources “l’Inférence” signifie que les procédures automatiques peuvent générer de nouvellesrelations fondées sur les données et sur la base des informations supplémentaires sous la forme d’unvocabulaire, un ensemble de règles Que les nouvelles relations sont explicitement ajoutées à l’ensembledes données, ou sont retournées au moment de la requête, est une question de mise en oeuvre

Sur le Web sémantique, la source de telles informations supplémentaires peut être définie par termédiaire de vocabulaires ou ensembles de règles Ces deux approches font appel aux techniques dereprésentation des connaissances En général, les ontologies se concentrent sur les méthodes de classifica-tion, en mettant l’accent sur la définition de de “classes”, “sous-classes”, sur la fa¸con dont les ressources

Trang 22

l’in-individuelles peuvent être associes à ces classes, et de caractériser les relations entre les classes et leurs tances D’autre part, les règles se concentrent sur la définition d’un mécanisme général sur la découverte

ins-et la génération de nouvelles relations fondées sur celles qui existent déjà tout comme les programmeslogiques, tel Prolog Dans la famille du Web sémantique lié aux recommandations de World Wide WebConsortium (W3C) : Resource Description Framework Schema (RDFS), Web Ontology Language (OWL),Simple Knowledge Organization System (SKOS) sont des outils de choix pour définir des ontologies, alorsque Rule Interchange Format (RIF) a été développé pour couvrir les approches basées sur des règles

Trang 23

Chapitre 2

´

Etat de l’art

Depuis plusieurs années des études en phénotypage haut-débit des plantes sont réalisées à l’INRA

Il existe donc un grand nombre de données de phénotypage et de génotype des plantes Ces donnéessont acquises chaque jour, par exemple sur le plateau technique PhenoArch, environ 1600 plantes sontsuivies pendant deux à trois mois Chaque jours elles sont photographiées sous trois à treize angles,

ce cycle journalier d’imagerie produit donc environ 20800 images stockées Celles-ci sont associées àdes configuration et des résultats d’analyse d’image sous la forme de JSON Chaque document JSONest environ 40 champs Pour les gérer, les informaticiens ont déjà construits un système d’informationappelé Phenotyping Hybrid Information System (PHIS)1 Les données permettant l’exploitation de laplateforme sont stockées dans une base de données relationnelles Avec les limitations de base de donnéesrelationnelles, ces données doivent être migrées dans une base MongoDB pour améliorer le temps deperformance du système

La même fa¸con, le projet BIOeSAI est entrée dans une deuxième phase à partir de 2015 à 2018.Les études de la première phase ont été réalisées sur riz (O.SATIVA) Ce sont des données hétérogènes

et volumineuses sur le phénotypages et génotypes du riz Le laboratoire a aussi construit un systèmed’information pour gérer les données Syspherice2[1] Ces données sont organisées et stockées sous la forme

de document JSON Elles sont gérées par le système de gestion de base de données orienté documentMongoDB

2.2.1 MongoGraph - une association du Mongodb et AllegroGraph

AllegroGraph est une base de donn´ees de graphe RDF persistante Il utilise le stockage sur sur disque,

ce qui lui permet de passer à l’échelle des milliards de triplets, tout en maintenant une performancesupérieure AllegroGraph est un framework de base de données et d’outils pour construire des applicationsWeb sémantique Il peut stocker des données et des méta-données, il permet aussi d’interroger ces triplets à

1 http ://lps-phis.supagro.inra.fr/phis/index.php

2 http ://vmbioesai-dev.ird.fr :8080/Syspherice

Trang 24

travers différentes APIs comme SPARQL et Prolog De plus, il fourni des fonctionnalités de raisonnementRDFS++ avec son raisonneur intégré AllegroGraph inclut également une librairie d’analyse de réseauxsociaux (SNA) et il permet de stocker et raisonner sur des données temporelles et géospatiales.

Actuellement, il existe différentes éditions d’AllegroGraph : une édition gratuite où stockage RDF estlimitée à moins de 5 millions de triplets, une édition développeur capable de stocker un maximum de

50 millions de triplets et une édition d’entreprise avec une capacité de stockage qui n’est limitées quepar l’infrastructure de serveur Des clients sont disponibles pour Java, Python, Lisp, Clojure, Ruby, Perl,Csharp et Scala

En plus des fonctions liées à l’application de Web sémantique, AllegroGraph implémente une interfaceavec MongoDB, que l’on appelle MongoGraph Celle-ci permet d’offrir aux programmeurs MongoDB lescapacité du Web sémantique En utilisant cette approche, les objets Javascript Object Notation (JSON)sont automatiquement convertis en triplets et ils peuvent être interrogés à la fois par le langage de requêteMongoDB et par SPARQL

Figure 2.1: Le mod`ele de composants dans un syst`eme MongoGraph

MongoDB est une base de donn´ees

orient´ees documents NoSQL de haute

performance et Open Source MongoDB

fournit un stockage bas´e sur des

docu-ments en forme de JSON avec comme

fonctionnalit´es l’indexation en texte

intégral, la réplication, la répartition des

de donn´ees (sharding), le calcul

Map/Re-duce et un langage de requˆete riche `a base

de documents Toutefois, il ne fournit pas

un bon support pour les jointures

com-plexes, le liage de donn´ees (linked data),

l’analyse de graphe et l’inf´erence ou le

raisonnement

En connectant AllegroGraph `a

Mon-goDB, il est possible d’interroger des

donn´ees li´ees en graphe et dans une

base de donn´ees orient´ees documents en

une seule requˆetes Avec MongoDB, les

donn´ees sont organis´ees en forme des

do-cuments JSON, ils sont g´er´ees par un

syst`eme de gestion de base de donn´ees

orientées documents des plus efficace [9] Avec AllgroGraph, les données sont organisées en graphe, surlesquelles nous pouvons réaliser facilement des requêtes SPARQL, et aussi effectuer des inférences sur cesdonnées

Avec les caractéristiques des deux systèmes de gestion de base de données, il est possible de construire

un système qui a des capacités de requêtes du Web sémantique et qui peut traiter des données neuses Le modèle du système général de MongoDB et de AllegroGraph est mis en oeuvre Figure 2.1

Trang 25

volumi-Ici, les données d’origines restent stockées dans MongoDB sous le format documents dans des collections.Les nouveaux triplets mis en relation avec les documents MongoDB sont importés dans AllegroGraph.Pour créer manuellement des triplets ou utiliser l’outil Relational and Non-Relational Databases to RDFMapping Language (xR2RML) pour les convertir automatiquement On utilise les seulement les attributsimportants dans les documents D’ailleurs, une ontologie est utilisée pour l’organisation sémantique destriplets créés Cette ontologie permet l’inférence en exploitant les relations entre les triplets Ainsi lemoteur d’inférence peut créer de nouvelles relations sur la base de l’ontologie définie.

(c) L’ontologie de lieu origine de plante

Figure 2.2: Les données présentées dans cet exemple

Pour mieux comprendre la solution d’association de MongoDB et de AllegroGraph et illustrer lesrequêtes et l’inférence, nous avons pris un exemple sur les données existantes du projet BIOeSAI Ce projetcontient une ontologie sur les relations entre le lieu d’origine des plantes et les images expérimentales surles plantes Les triplets sont créés à partir des documents MongoDB, dans ce cas, en utilisant les attributs

de l’identification du document, les informations sur l’origine des plante et du nom des plantes On peutvoir les détails des données JSON dans MongodDB, des données RDF qui ont été liés aux documentsMongoDB et l’ontologie de références dans Figure 2.2

Trang 26

Nous pouvons faciliter l’importation des données RDF dans AllegroGraph en utilisant la forme d’undépôt, “Repository” La création d’une connexion avec MongoDB est effectué dans l’interface de Allegro-Graph Ici, les informations de la base de données MongoDB doivent être rempli, par exemple : le nom

et port du serveur, le nom de la base de donn´ees et la collection choisie

AllegroGraph possède deux types différents de moteur d’inférence : l’un supporte un sur-ensemble derègles d’inférence RDFS et l’autre supporte Web Ontology Rule Language (OWL 2 RL) Le premier estappelé le raisonneur RDFS++ dynamique car il génère les triplets inférés à l’exécution de l’inférence etn’enregistre pas les triples nouveaux créés Le second moteur d’inférence fait de la matérialisation OWL

2 RL Il utilise de règles d’inférence pour générer de nouveaux triplets et les ajoute à la base de tripletscourante Pour notre exemple, le second moteur d’inférence est choisi pour toutes les données Aprèsavoir exécuté, nous avons les nouveaux triplets sont stockés de manière pérenne sur le disque comme lestriplets d’origine Cela est le mieux pour les systèmes qui ont plusieurs requêtes

Les requêtes sont réalisées grâce au langage SPARQL intégrant des requêtes MongoDB (Figure 2.3).Cette association est effectuée par l’utilisation d’une approche que l’on appelle “Magic Predicat” C’est

un prédicat d’une requête SPARQL qui permet une liaison, différente d’un simple appariement de graphe AllegroGraph a longtemps soutenu l’utilisation de “Magic Predicat” pour permettre les requêtes

sous-en texte libre et pour interfacer Solr et MongoDB Dans la requête Figure 2.3, le système va effectuerdeux requêtes dans deux systèmes différents pour obtenir les résultats Les requêtes seront exécutées dansMongoDB pour trouver les résultats sous le format de JSON, et les résultats finaux (les triplets) seronttrouvés dans AllegroGraph

Figure 2.3: Une requête SPARQL associée à une requête de MongoDBAvantages

AllegroGraph permet de réaliser des inférences sur des données massives

Selection possible des propriétés importantes et donc réduction du nombre de triplets dans la base

de donn´ees

Gestion de base de donn´ees massives avec MongoDB

Inconvenients

Un système plus complexe avec plusieurs étapes de requêtes

Mapping manuel des donn´ees entre les deux syst`emes MongoDB et AllegroGraph

Trang 27

Pas de synchronisation entre les deux, quand nous mettons `a jour au MongoDB, nous devons lefaire aussi sur Allegograph

2.2.2 Base de donn´ ees orient´ ee graphe Neo4j

Neo4j est un système de gestion de base de données orienté graphe, ce qui permet de représenter lesdonnées en tant qu’objet relié par un ensemble de relations, chaque objet possédant ses propres propriétés

La base de données de graphes, permet au développeur de commencer directement le codage, les donnéesstockées dans la base assurant un parallélisme direct avec les données elles-mêmes En d’autres termes, àmesure que l’organisation des données se peaufineront, les programmes suivront

Une base Neo4j est censée être plusieurs milliers de fois plus rapide pour traiter les données tives, car elle en évite de coûteuses jointures Structured Query Language (SQL) Les requêtes peuventgérer de ce fait plus facilement un large ensemble de données Les parcours utilisent un langage simple

associa-de parcours associa-des connections L’absence associa-de modélisation rigide, rend Neo4j bien adapté à la gestion dedonnées changeantes et de schémas évoluant fréquemment

Les caractéristiques typiques de données pour Neo4j sont la structuration des données optionnellesqui sont peuvent absenter, une facilité de changement du schéma et des migrations de données sanscontraintes, la modélisation facile de jeux de données de domaines complexes et cas d’utilisation typiquedans des domaines tels que le Web sémantique et RDF, le Web de données, l’analyse du génome, lamodélisation de données de réseaux sociaux etc

Neo4j a des composants optionnels qui viennent en complément du noyau On peut ainsi structurer legraphe via un méta-modèle, obtenir une implémentation de RDF TripleStore compatible SPARQL Parexemple, avec deux plugins Neo-rdf-sail3et Neo4j-sparql-extension4

Figure 2.4: La graphe de donn´ees dans Neo4j

Les graphes de donn´ees dans Neo4j sont illustr´es par les concepts de ”Nodes” et de ”Relations”

3 https ://github.com/neo4j-contrib/neo4j-rdf-sail

4 https ://github.com/niclashoyer/neo4j-sparql-extension

Trang 28

Figure 2.4 D’ailleurs, le langage de requête Cypher est utilisé pour manipuler les données C’est unlangage déclaratif de requête graphique qui permet de réaliser efficacement et rapidement des requêtes

et des mis à jour sur les données En détail, le langage Cypher se concentre sur la clarté d’expression de

ce que l’on veut récupérer à partir d’un graphique et pas sur la fa¸con de le récupérer Cette approchepermet l’optimisation des requêtes

Figure 2.5: Les commandes pour cr´eer un graphe simpleAvantages

Gestion de base de données pour le Big Data sous la forme de graphes, donc amelioration de laperformance du système par des requêtes basées sur des relations entre les objets

L’organisation de données sous forme de graphe est presque similaire à l’organisation des donnéesdans les ontologies et les instances données RDF

Inconv´enients

Les données doivent être re-organiser sous la forme d’un graphe, cela prendre plus de temps enfonction de la complexité et de la taille de données

Les donn´ees ne sont pas en RDF directement, donc pour faire des requˆetes SPARQL nous utilisons

un plugin intégré qui ne supporte pas entièrement le language SPARQL

2.2.3 JSON-LD et MongoDB

Les données liées se réfèrent à un ensemble de bonnes pratiques à mettre en oeuvre pour publier et lierdes données structurées sur le web Elles s’appuient sur les standards du Web, tels que HTTP et URI -mais plutôt qu’utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Webdes données les étend pour partager également l’information entre machines Cela permet d’interrogerautomatiquement les données, quels que soient leurs lieux de stockage et sans avoir à les dupliquer.JSON-LD est une syntaxe légère pour sérialiser des données liées de la forme de JSON Son utilisationpermet à des données JSON d’être interprétées comme des données liées avec des changements minimes.JSON-LD est principalement destiné à être un moyen d’utiliser les données liées dans des environnements

de programmation basés sur le Web, pour construire des services Web interopérables, et pour stocker desdonnées liées dans les moteurs de stockage à base de JSON Actuellement, JSON-LD est compatible avecJSON, un grand nombre de parseurs JSON et de bibliothèques sont disponibles aujourd’hui et peuvent

être réutilisés En plus de toutes les fonctionnalités JSON, JSON-LD introduit :

Un m´ecanisme d’identifiant universel pour les objets JSON via l’utilisation d’IRIs

Trang 29

Un moyen de lever l’ambigu¨ıté de clés partagées entre des documents différents par des mappings

en IRI via un contexte

Un mécanisme dans lequel une valeur dans un objet JSON peut se référer à un objet JSON sur unautre site sur le web

La possibilité d’annotation des chaˆınes de caractères avec la langue et d’associer les types de donnéesavec des valeurs telles que la date et l’heure

La facilité d’exprimer un ou plusieurs graphes orientés comme un réseau social en un seul document.JSON-LD est destiné à être utilisable directement comme JSON qui ne contient pas des connaissances

de RDF Il est également con¸cu pour être utilisable comme RDF On peut l’utiliser avec d’autres nologies de données liées comme SPARQL Les projets qui ont besoin de traiter les données comme desgraphes RDF vont trouver une solution avec la forme de JSON-LD En détail, le document JSON-LD est

tech-Figure 2.6: Les triplets sont stock´ees dans MongoDB sous la forme de JSON-LD

`

a la fois un document RDF et un document de JSON et représente une instance d’un modèle de donnéesRDF Cependant, JSON-LD étend le modèle de données RDF pour sérialiser des ensembles de donnéesRDF

Figure 2.7: Le mod`ele de composantsdans un syst`eme d’association de Mon-goDB et JSON-LD – CRUD

Le format de donn´ees RDF est organis´e en JSON-LD, ce qui

convient au format JSON utilis´e dans MongoDB Alors, nous

pouvons profiter de la puissance de MongoDB pour r´esoudre

le probl`eme de grandes donn´ees D’ailleurs, nous facilitons la

s´erialisation des donn´ees de graphes RDF dans MongoDB

La graphe de données RDF peut être organisé et stocké dans

la m´emoire temporelle avec le support d’Application Programming

Interface (API) disponibles tels que Sesame ou Jena Ces APIs

permettent d’utiliser le langage de SPARQL pour faire des requˆetes

et appliquer des règles et faire des inférences sur les données Les

recherches vont directement se faire sur les graphes RDF qui sont

sérialisés (chargés) à partir des données dans MongoDB, cette étape

va prendre du temps Nous avons alors besoin d’une m´ethode pour

organiser les donn´ees importantes Cette ´etape est importante pour

optimiser le temps exécution du système En effet, nous avons les deux bases de données dans le système,

Trang 30

le base de données orientée documents et la base de triplets dans mémoire temporelle Ici, les opérationsCRUD vont s’exécuter dans MongoDB et les recherches sont réalisées dans le graphe RDF Alors, unecouche médiane est nécessaire pour synchroniser les deux bases de données.

Avantages

Le stockage des données dans MongoDB sous la forme de JSON-LD est aussi la forme de donnéesRDF Nous pouvons donc profiter de la puissance de MongoDB dans le traitement de problème dedonnées volumineuses

Les opérations de CRUD vont être rapidement réalisées sur les données dans MongoDB

Les requêtes en langage SPARQL sont utilisées pour faire des recherches de données dans le système.Inconvénients

L’existence de deux base de données va augmenter la complexité du système

L’étape de chargement des données de graphes RDF dans la mémoire temporelle va prendre coup de temps Les mises à jour sur les données de graphes RDFs sont dépendantes de la base dedonnées dans MongoDB

beau- Le problème de mémoire temporelle avec les grands graphes RDFs, la puissance matérielle estimportante pour ce système avec un besoin fort de mémoires temporelles

2.2.4 ODBA et frameworks Ontop

L’ODBA est considérée comme un élément clé pour la nouvelle génération de systèmes d’information,

en particulier pour les applications du Web sémantique qui impliquent une grandes quantités de données.L’ODBA est un paradigme d’accès à des données par une couche conceptuelle Généralement, la coucheconceptuelle est exprimée sous la forme d’une ontologie qui définit un schéma global de haut niveau etfournit des vocabulaires pour des requêtes d’utilisateurs Les données sont stockées dans des bases dedonnées relationnelles, des bases de triplets etc [10]

Les termes de la couche conceptuelle sont mappées sur la couche de données en utilisant les mappingsqui associent à chaque élément de la couche conceptuelle, une requête sur les sources de données Main-tenant, les mappings ont été formalisées dans la récente norme Relational Databases to RDF MappingLanguage (R2RML)5 de l’organisation W3C Cette graphe virtuelle peut être interrogée à l’aide d’unlangage de requête sur les données RDF tels que SPARQL

Un syst`eme ODBA est un triple : O = <T , S, M>, o`u[11] :

T est considéré comme les ontologies formalisées dans les Logiques de Description (DL), où T est

un DL TBOX

S est un sch´ema des sources

M est un ensemble d’assertions des mappings, chacun de la forme : Φ(x) ← Ψ(x)

Φ(x) est une requˆete sur S, retourner des tuples de valeurs pour x

Ψ(x) est une requˆete sur T dont les variables libres sont de x

Trang 31

Figure 2.8: Le processus de requˆete dans le syst`eme d’ODBA

Les systèmes d’ODBA sont orienté pour répondre aux requêtes Une description schématique duprocessus de transformation de requête illustre dans la figure 2.8 Ici, les requêtes posées au niveau de

la couche conceptuelle sont traduites dans un langage de requête qui peut être traité par la couche dedonnées La traduction est indépendante des données réelles dans la couche de données De cette fa¸con,l’évaluation de requête peut être déléguée au système de gestion des sources de données

Sur la base de la conception d’ODBA, les chercheurs de l’Universtié Bozen-Bolzano en Italie ontdéveloppé un Framework ODBA du nom d’Ontop Il est utilisé actuellement sur l’application Optique6

r´esoudre les probl`emes de Big Data

Le noyau de Ontop est le moteur de requˆete SPARQL QUEST qui impl´emente RDFS et OWL 2 QL

en ré-écrivant les requêtes SPARQL sur le graphe RDF virtuelle en des requêtes SQL (sur la base dedonnées relationnelles) Ontop est capable de générer efficacement et de manière optimisé des requêtesSQL [12] Le Framwork Ontop peut être utilisé comme :

Un plugin pour Protégé 4 qui fournit une interface pour la rédaction de mappings et l’exécution derequêtes SPARQL

Une biblioth`eque Java qui impl´emente OWL API et les interfaces API de Sesame

Un point d’acc`es SPARQL sur Sesame

Figure 2.9: La comparaison des approches des raisonnements dans une application

5 http ://www.w3.org/TR/r2rml/

6 http ://optique-project.eu/

Trang 32

L’approche classique converti les bases de données en triplets Ensuite, les requêtes, les inférencesseront réalisées sur ces données Avec l’approche de QUEST, un nouveau paradigme sur les données estcréé, ici, les structures de base de données ne sont pas brisées Les données sont stockées dans un seulsystème.

Figure 2.10: L’architecture du syst`eme avec l’association de MongoDB et le

Avec les limitations des

bases de donn´ees relationnelles

pour ls donn´ees massives, une

solution propos´ee est

l’associa-tion du mod`ele ODBA avec

le syst`eme de gestion de base

donn´ees MongoDB Avec cette

approche, nous allons profiter

des avantages des MongoDB

pour la gestion de grands jeux

de donn´ees et du mod`ele ODBA

pour cr´eer des mappings entre

les donn´ees et l’ontologie Ainsi

nous pourrons faire des requˆetes

et utiliser du raisonnement

Avantages

La structure de données est gardée dans le système de gestion de base de données Il n’y a pas deduplication de données sous forme de triplet pour faire des raisonnements

Les interrogations sur les données sont réalisées dans langage de requête SPARQL

La capacité de compatibilité avec plusieurs systèmes de gestion base de données relationnellesInconvénients

La complexité du système va augmentent avec l’organisation des modèles d’ODBA

L’augmentation du temps et de l’argent pour construire le syst`eme

2.2.5 Mat´ erialisation de donn´ ees en triplets RDF

Dans toutes les approches ci-dessus, les données sont organisées et stockées dans des systèmes degestion de base de données orientés graphe Neo4j ou des systèmes bases de données orientés documentsMongoDB ou des systèmes hybrides d’association de MongoDB et des systèmes de gestion de base dedonnées de triplets RDF Toutefois, l’implémentation de requêtes sur les données avec le langage SPARQL

a plusieurs limitations Dans cette partie, nous allons d´ecouvrir une autre approche sur les donn´ees C’est

la matérialisation de données en triplets Les données seront converties en triplets RDF Cette approcheest maintenant la meilleure solution pour l’organisation des données avec des capacités de raisonnements

Le plus souvent, lorsque l’on commence à vouloir publier des données sur des bases de connaissancescomme RDF il existe déjà une base de données Pour que l’on puisse utiliser les données en RDF, il faut

Trang 33

les traduire en triplets Il existe plusieurs méthodes mais la plus utilisée est la suivante : Database ToRDF (D2R)7 a pour but de traduire toutes les données contenues dans une base de données en tripletsRDF D2R fonctionne avec un fichier de mapping et une ou plusieurs ontologies Le fichier de mappingsert à faire la liaison entre les tables et les champs contenus dans ces tables et les classes et les propriétésdont sont composées ou les ontologies que l’on utilise Ainsi, après le mapping, les données correspondront

`

a la ou les ontologies spécifiées et, ensuite seront disponibles sur une application Web sémantique parl’intermédiaire d’une interface Web et d’un point d’accès SPARQL

Figure 2.11: Les deux tables et sa relation

Figure 2.12: Les informations d´efinies pour le mapping

Figure 2.13: Les donn´ees RDF apr`es de la transformation

Il existe maintenant deux m´ethodes pour

map-per une base de donn´ees : R2RML8 et Direct

Mapping9 Ainsi avec ces deux m´ethodes il est

possible d’int´egrer toutes les donn´ees d’une base

SQL au Web de donn´ees, de les manipuler avec

SPARQL et de les interconnecter avec d’autres

jeux de données présents sur le Web de données

Le Direct Mapping d´efinit une

transfor-mation simple, fournissant une base pour la

d´efinition et la comparaison des transformations

plus complexes Il peut également être utilisé

pour mat´erialiser des graphes RDF ou d´efinir des

graphes virtuels Ces graphes peuvent ˆetre

in-terrogés en SPARQL ou grâce à une API RDF

En ce qui concerne R2RML [13], c’est un

lan-gage pour exprimer des mappings `a partir d’une

base de donn´ees relationnelles et des ensembles de

donn´ees RDF Ces mappings fournissent des

ca-pacit´e de visualisation des donn´ees relationnelles

existantes en repr´esentation RDF Avec les trois

figures dans cette section, nous pouvons voir un

exemple de ces mappings de donn´ees

relation-nelles et de triplets Ici, sur la base des relations

entre les tables (Figure 2.11), nous allons d´efinir

un fichier pour mapper des informations dans et

entre les tables (Figure 2.12) aux sujet, pr´edicat

et objet de triplets (Figure 2.13)

Toutefois, ces deux approches existe seulement

pour des bases donn´ees relationnelles Donc, il y

a la nécessité d’utiliser la même idée pour mapper

des triplets RDF avec des bases de données orientées documents Franck Michel et ses collèges [14] se

7 http ://d2rq.org/

8 http ://www.w3.org/TR/r2rml/

9 http ://www.w3.org/TR/rdb-direct-mapping/

Trang 34

sont bas´es sur le langage de mapping R2RML et Morph-RDB qui est une impl´ementation du langage

de mapping R2RML pour les données relationnelles, pour développer xR2RML qui est s’applique auxbases de données orientées documents comme MongoDB

En particulier, xR2RML est une extension de la langage de mapping R2RML et s’appuie sur certainespropri´et´es du langage de mapping RDF Mapping Language (RML) [15] et R2RML porte sur les mappings

de base de données relationnelles aux triplets RDF RML étend R2RML pour aborder les mappings sur desdonnées hétérogènes (XML, JSON, CSV) avec des triplets RDF xR2RML étend ce champ d’application

`

a un plus large ´eventail de base de donn´ees non-relationnelles

Avantages

Les donn´ees sont converties en triplets Nous pouvons donc utiliser les syst`emes de gestion de base

de donn´ees RDF sp´ecifiques

Les interrogations sur les données sont réalisées par langage de requête SPARQL

Les capacités de raisonnement sont parfaitement soutenues par ces systèmes de gestion de base dedonnées RDF

Inconv´enients

L’étape de transformation de données est coûteuse en temps : ré-organisation des données en graphe

Le nouveau système avec ses données a besoin d’une nouvelle architecture pour être mis en œuvre

Le syst`eme est ind´ependant de l’existant

On rencontre des probl`emes de performance avec les donn´ees volumineuses

10 https ://github.com/oeg-upm/morph-rdb

Trang 35

Dans ce chapitre, nous aborderons dans la première section le choix de la représentation du modèledonnées et la manière de le générer Ensuite, dans la section suivante sera abordée une démarche entreprisepour transformer des données du modèle relationnel aux format JSON De plus, une ontologie seraprésentée pour décrire les vocabulaires nécessaires dans la la conception du modele RDFs En fin, lelangage de transformation de données en RDF sera introduit avec les syntaxes pour créer les mapping etconvertir des documents JSON en triplets RDF.

3.2 Mod` ele g´ en´ eral

L’approche de matérialisation de données en triplets RDF a été choisie afin de tester l’organisation et laperformance des triplestores sur de gros volume données Les systèmes actuels stockant de gros volumessont en majorité partagés entre des systèmes NoSQL (e.g : Mongodb), relationnels et divers format.L’un des objectifs de ce travail était l’organisation et la synchronisation des données en conservant leurprovenance et les systèmes existants en ayant MongoDB comme stockage intermédiaire

Par la suite, les données seront converties en triplets RDF grace a l’utilisation du langage de mappingxR2RML et l’outil développé par les auteurs [14] Les vocabulaires et les règles de transformation detriplets sont fournis par une ontologie Cette ontologie est importante pour réaliser des recherches avancéessur les relations et les hiérarchies existantes

Aujourd’hui, il existe différents systèmes qui permettent de gérer les données RDF Nous allons ser notre etude sur cinq systèmes : 4Store, Sesame, Virtuoso, Stardog, GraphDB(OWLIM) et Jena Fuseki.Leurs mécanismes d’action et d’indexation de données étant différents, nous allons tester ces systèmesavec des données volumineuses Ainsi, réaliserons les tests de ces systèmes sur la capacité de gestion de

Trang 36

focali-données RDF afin d’optimiser le stockage et pour la récupération de ces triplets à l’aide du langage derequête SPARQL.

Le moteur de recherche va consister à utiliser la capacité d’inférence sur la base contenant l’ontologie etles données RDF Une interface est fournie pour effectuer les requêtes sur ces données Les interrogationssous la forme de langage SPARQL sont utilisées pour chercher les données nécessaires dans la base dedonnées L’illustration détaillée du modèle est présenté dans la figure 3.1 suivante :

Figure 3.1: Le modèle général du système

Mon-goDB

Dans le projet Phenome (INRA), plusieurs systèmes de capteurs alimentent des bases de donnéesrelationnelles en permanence Il y a une fort besoin de synchronisation de ces données avec le systèmecourant L’étape de transformation de données en documents JSON est réalisées afin d’intégrer plusieursressources dans un meme entrepôt Dans la suite du memoire nous nous concentrons seulement sur lesdonnées obtenues dans sur les processus d’imageries, d’arrosage, de pesées ceux que les chercheur ontréalisés quotidiennement

Afin de garantir la cohérence des données entre les ressources et les processus qui les génèrent, desmodèles ont été définis La définition des modèles JSON est réalisée pour mapper les propriétés deplusieurs tables de base de données relationnelles avec les clés - valeurs dans les documents JSON Seulesles propriétés importantes et les relations entre les tables ont été conservées La figure 3.2, représente

un exemple de modèle défini en JSON pour les données imageries construits à partir les trois tablesdifférentes : Images, Imgacqcameraprofiles et Imagacstationprofiles Ces tables correspondent comme leurnom l’indique aux données images (horodatage, format, etc), aux profils caméra (balance des blancs,saturation, etc,) ainsi qu’aux profils des cabines d’imageries (lumières, etc ) Dans ce nouveau documentJSON sont représentés des données fixées par les systèmes existants et des nouvelles données calculées a

Trang 37

partir de traitements resultant de leur int´egration.

Figure 3.2: Le modèle JSON créé à partir des bases d’imageries

Dans quelques semaines à l’issus de ce stage, une application1 sera mise en œuvre pour convertirautomatique toutes les données dans la base de données relationnelles aux document de JSON sur labase d’un modèle défini comme la figure 3.2 Les données, qui seront concernées par les processus demesures des plantes selon trois aspects d’imageries, d’arrosages, de pesées, seront converties sous forme

de documents de JSON On peut voir les autres modèles qui sont complètement définies dans l’AnnexeA

Aujourd’hui, toutes les données obtenues après la transformation seront synchronisées et stockéesdans le système MongoDB La centralisation de données dans un seul système nous aide commodément

`

a définir les modèles généraux pour la transformation de données en RDF

1 https ://github.com/lengocluyen/phenowaredb-to-mongodb-convertor

Trang 38

3.4 Ontologies et domaine applicatif

Figure 3.3: L’ontologie de l’annotation d’images

Les différences entre des processus d’imageries, d’arrosage et de pesées demandent un diversité devocabulaires pour les décrire Dans cette section, nous nous focalisons sur des vocabulaires de descriptiondes données, des méta-données du processus d’imageries Dans ce processus, de très nombreuses images

de plantes sont créées et doivent être stockées et être partagées Une annotation d’images est nécessairepour fournir les méta-données afin d’aider compréhension et l’interprétation de l’image

En général, plusieurs vocabulaires sont déjà disponibles pour faire de l’annotation d’images [16] parexemple, EXIF2 est le format d’images de la plupart des appareils photo numériques Il contient des

2 https ://fr.wikipedia.org/wiki/Exchangeable imag file format

Định dạng
Số trang	76
Dung lượng	3,52 MB