Traitement de requêtes pour les données du GBIF

Traitement de requêtes pour les données du GBIF

Les requêtes du GBIF

Le portail de données du GBIF est un service permettant l’accès à des millions de données scientifiques partagées via le réseau GBIF. Ainsi en fonction des besoins de l’utilisateur, on distingue différents types de requêtes prédéfinies dans le GBIF[8]. Toutefois, il importe de noter que ces requêtes prédéfinies ne permettent pas toujours de satisfaire les besoins de tous les utilisateurs. C’est ainsi qu’après avoir étudié les requêtes prédéfinies du GBIF Portal, nous allons proposer un certains nombre de requêtes qui seraient insupportables par le système actuel, vu l’importance du coût de traitement nécessaire.

Les requêtes prédéfinis du GBIF

La fonction de recherche du GBIF est un outil sophistiqué permettant à l’utilisateur de rechercher rapidement et efficacement des enregistrements de données intéressant parmi les millions d’enregistrement fournis par le réseau GBIF. Les données peuvent être triées par taxonomie, par géographie, par fournisseur ou par période. Par l’application de plusieurs filtres possibles, les données correspondant à des critères géographiques, temporels, et taxonomiques peuvent être isolées afin d’être étudiées. Les modes de recherche les plus utilisés sont la recherche selon l’espèce, selon le pays ou selon le jeu de données.

Trouver l’information sur une espèce

Le portail GBIF fournit un accès à des millions de données sur la distribution des espèces sous la forme d’enregistrement de collecte/observation d’une espèce (les détails sur la présence d’une espèce à un endroit et un moment donné), ainsi que sur le(s) nom(s) et classification permettent la recherche sur un groupe d’organismes incluant une ou plusieurs espèces. Il y a deux manières de trouver l’information sur une espèce ou un groupe: la rechercher directement ou parcourir la classification.  Rechercher directement une espèce ou un groupe: La manière la plus simple de trouver l’information sur une espèce ou un groupe est de taper son nom scientifique ou vernaculaire dans la boite de recherche. Les résultats de recherche sont regroupés en 4 catégories:  – Scientific Names (noms scientifiques), – Common Names (noms vernaculaires), – Countries (pays), – Datasets .  Parcourir la classification Cette recherche permet d’identifier une espèce ou un groupe en parcourant la classification complète. Il importe de noter que la classification générée dans cette vue est une extension générée automatiquement des données fournies par certaines autorités taxonomiques en particulier le Catalogue of Life Annual Checklist, l’International Plant Names Index et l’Index Fungorum. Cette extension automatique de classifications reconnues est nécessaire pour assurer que la classification inclut bien toutes les espèces pour lesquelles le réseau GBIF fournit des données.

Trouver l’information sur un pays

Le portail GBIF donne également la possibilité de retrouver les informations de biodiversité en un lieu et en un moment donné. Ainsi grâce au GBIF Portal, on peut connaitre la distribution des espèces tant géographique que temporelle des espèces, les datasets d’un pays partageant des informations de biodiversité, les nombre d’occurrences et d’espèces dans un pays, etc. Comme avec les espèces, on distingue deux types de recherches pour trouver l’information sur un pays :  Rechercher les espèces apparaissant dans un pays : Pour trouver les données d’espèces correspondant à un pays, il faut taper le nom de pays dans la boite de recherche incluse dans chaque page. Les résultats de cette recherche comprennent le pays nommé ainsi que tous les noms de pays comprenant ce mot clé (argument de la recherche).  Parcourir la liste des pays : Il est aussi possible de sélectionner un pays en parcourant le liste par ordre alphabétique des noms de pays répertoriés au niveau du GBIF. Pour chaque pays, la liste donne la somme des enregistrements accessibles par le Portail, les coordonnées géographiques du pays, les datasets fournisseurs de données de ce pays, etc.

Trouver l’information sur un jeu de données

Le GBIF donne un accès à des informations provenant d’un grand nombre d’institutions et d’organismes. Une des vues proposées par le portail est un résumé des données partagées par chaque fournisseur ou comprises dans la source de données individuelle ou un des réseaux d’informations auxquels beaucoup de sources de données appartiennent. On note différents types de fournisseurs :  Fournisseurs d’informations sur les noms et la classification des organismes,  Fournisseurs d’informations sur la présence d’espèces à des endroits et moments donnés,  Fournisseurs d’images et d’autres informations sur les organismes De la même manière que les recherches avec les espèces et les pays, la recherche selon les datasets se fait par :  La recherche d’une source de données ou d’un fournisseur de données ; en tapant son nom dans la boite de dialogue.  Le parcours de la liste des sources de données ; il est possible de sélectionner une source de données, un fournisseur, ou un réseau de données en parcourant la liste par ordre alphabétique.  L’information retrouvée est présentée en trois catégories séparées :  Data Networks (réseaux de données) : ce sont des réseaux multi-institutions comprenant des sources de données de plusieurs fournisseurs (ex. BioCASE,DiGIR).  Data Providers (fournisseurs de données): des institutions et des organismes fournissant leurs données dans le réseau GBIF.  Datasets (jeux de données)- des jeux de données individuelles partagés par un fournisseur. Pour chaque cas, la liste montrera le montant d’enregistrements partagés par le GBIF, et leur nombre de possédant des coordonnées géographiques. Pour les jeux de données, il existe aussi un nombre d’espèces (et groupes de tous rangs) inclus dans le jeu de données. 

Autres types de requêtes

En plus des données accessibles via les requêtes prédéfinies dans le Portail, les usagers auraient besoin d’autres informations dont le traitement serait impossible dans le système actuel du GBIF. Dans cette section, nous allons énumérer quelques exemples de requêtes qui présentent un intérêt scientifique pour les usagers et dont l’exécution est insupportable par le système actuel du GBIF. 1°) Déterminer l’ensemble des data providers qui partagent des informations sur les XXXX:  Pour chaque provider afficher : -toutes ses informations (détails du fournisseur), -le nombre d’occurrences de XXXX partagées,  Trier l’ensemble par ordre croissant du nombre d’occurrences de XXXX. NB : XXXX est un paramètre de la requête fourni par l’usager du Portail et peut prendre les valeurs suivantes :  Poissons,  Espèces aquatiques,  Végétaux,  Animaux,  Vertébrés,  … 2°) Déterminer l’ensemble des espèces YYYY qui existent chacune dans les cinq continents avec un nombre d’occurrences minimal de N dans chaque continent et partagée au moins par X fournisseurs différents dans ce même continent. YYYY étant un paramètre fourni par l’utilisateur et pouvant prendre les valeurs :  Plantes  Poissons,  Espèces aquatiques,  Végétaux,  Animaux,  Vertébrés, Chapitre I : Fonctionnalités et limites du GBIF Mémoire de DEA d’Informatique 38 X et N étant des paramètres qui sont fournis par l’utilisateur. La première requête permettra à un usager d’un domaine d’activité particulier en biodiversité, de sélectionner les data_providers avec lesquels il pourrait travailler car il aura auparavant des informations sur la spécialité du data_provider mais également sur l’importance et la véracité des données qu’il partage en référant aux nombre de XXXX. La deuxième permettra par exemple aux utilisateurs voulant effectuer des études statistiques sur la distribution des espèces à travers le monde, d’avoir les informations nécessaires et les vérifier avec le nombre de data_provider. Ces exemples requêtes nécessitant des opérations de jointure (le plus souvent entre la table occurrence_record et elle-même de 267 380 680 enregistrements), de groupement et de tris très coûteuses ne peuvent pas s’exécuter dans le système actuel du GBIF vu la puissance de calcul disponible dans le seul serveur du Portail. Ainsi pour supporter ces types de requêtes, le GBIF doit disposer de puissances de calcul très élevées car il ne s’agira plus de restituer les données par une simple requête de sélection sur une seule table mais de requêtes complexes avec des opérations de jointure, de groupement et de tri rendant ainsi l’information plus concrète et plus utile pour l’utilisateur.

Table des matières

Introduction générale
CHAPITRE I
Fonctionnalités et limites du portail GBIF
I-A Présentation du GBIF
I-A-1 Qu’est ce que le GBIF ?
I-A-2 Objectifs1
I-B Fonctionnalités et limites du GBIF
I-B-1 Types de données du GBIF
I-B-1-1 Données primaires de biodiversité
I-B-1-2 Métadonnées
I-B-2 Architecture et fonctionnement du Système d’information du GBIF
I-B-2-1 Les composants du SI GBIF
I-B-2-1-1 L’architecture des web services
I-B-2-1-2 Les GBIF Nodes
Mémoire de DEA d’Informatique
I-B-2-1-3 Interaction entre composants
I-B-2-2 Modélisation des données de biodiversité
I-B-2-3 Schéma de la base de données du GBIF
I-B-3 Les requêtes du GBIF
I-B-3-1 Les requêtes prédéfinies
I-B-3-1-1 Trouver l’information sur une espèce
I-B-3-1-2 Trouver l’information sur un pay
I-B-3-1-3 Trouver l’information sur un jeu de données
I-B-3-2 Autres types requêtes
I-B-4°) Les limites du SI GBIF
I-B-4-1 Coût de stockage des données du GBIF
I-B-4-2 Coût d’exécution des requêtes du GBIF
Conclusion
CHAPITRE II: Infrastructure de Cloud Computing pour la gestion de gros volumes de données
II-A Etat de l’art du Cloud Computing
II- A-1 Définition du Cloud Computing
II- A-2 Cloud Computing et autres systèmes distribués
II- A-3 Historique
II-A-4 Les services de Cloud Computing
II-A-5 Les acteurs du Cloud Computing
II-B Gestion des données dans le Cloud Computing : Cas de Hadoop et ses sous projets
II-B-1 MAP-REDUCE
Mémoire de DEA d’Informatique
II-B-2 HDFS
II-B-3 HIVE
Conclusion59
CHAPITRE III :
Notre proposition
III-A Stratégie de répartition des données
III-A-1 Fragmentation des données du GBIF
III-A-2 Réplication des données
III-A-3 Allocation des données
III-B Architecture et composants
III-C Fonctionnalités
III-C-1 Consultation de données
III-C-2 Mise à jour
III-D Gestion des données du GBIF dans notre système
III-D-1 Création des tables
III-D-2 Importation des données du GBIF
III-D-3 Expression des requêtes du GBIF
III-E Evaluation du coût d’exécution des requêtes et apport de notre proposition
Conclusion

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *