chemin de la data
Le chemin de la donnée : du terrain, jusqu'à son utilisateur

Le chemin de la donnée : du terrain, jusqu'à son utilisateur

Comment passe-t-on d’une donnée relevée sur le terrain à une donnée vérifiée, organisée, nettoyée et exploitable sur SiSélune ? Cet article décrit les différentes étapes du chemin que suit la donnée : depuis le terrain, jusqu'à son utilisateur final.

Le Système d'Information SISélune est composé d'un ensemble d'outils informatiques (logiciel, site web, espace de stockage, ...) nommé le socle technique. C'est par ces différents outils informatiques que passe la donnée acquise sur le terrain, pour subir de nombreuses opérations de vérification, réorganisationnettoyage et consolidation avant d'arriver finalement jusqu'à son utilisateur. 

Le chemin de la donnée sur un schéma

Les différentes étapes

1. Acquérir la donnée sur le terrain

Selon le contexte de la donnée (sciences humaines et sociales, biologie, géologie, archéologie), différents moyens et méthodes sont utilisés pour l'acquisition d’une donnée.. Ces moyens et méthodes s'appuient systématiquement sur un travail de terrain réalisé par les différentes équipes de scientifiques. Parfois, il s'agit de relevés manuels (campagnes programmées), parfois il s'agit de relevés automatiques (relevés de données sur du matériel déployé sur site) : 

  • Concernant la dynamique du territoire, l'équipe de géographes et d'experts en sciences humaines et sociales s'appuie sur des enquêtes réalisées sur le terrain, des documents manuscrits (compte-rendus de réunions, articles de presse, ...), ou audio et vidéo (analyses de prises de parole), mais également de prises de photographies pour l'observatoire du paysage.
  • Concernant la biodiversité aquatique et terrestre, les équipes scientifiques s'appuient sur des campagnes programmées de pêches (à électricité, nasses, piégeages, ...) et de relevés sur le terrain (végétation, espèces bio-indicatrices), mais également d'enregistrements de données acoustiques (via caméra DIDSON) ou de données de strates végétales (via acquisition LIDAR).
  • Concernant la dynamique fluviale et qualité de l'eau, les équipes spécialisées dans les géosciences s'appuient sur des enregistrements de données physico-chimiques grâce à des équipements déployés sur le terrain de façon pérenne (stations hydrologiques) ou au besoin (campagnes de mesures), mais également des enregistrements de données de morphologie du lit du fleuve (sédiments) via des acquisitions LIDAR.

Toutes les acquisitions de données faites sur le terrain sont généralement stockées par les équipes scientifiques sous forme de fichiers (texte, images, données gps, nuages de points, ...). Ce sont ces fichiers qui servent de matière première pour l'étape suivante de préparation de la donnée.

2. Préparer la donnée

La nécessité de respecter les principes FAIR et notamment les aspects Interopérabilité et Réutilisabilité, impose un travail de préparation sur les données acquises avant de les remonter dans SISélune. En effet, l'acquisition sur le terrain, peut souffrir d'imperfections (erreurs de saisie, coordonnées GPS erronées, horodatage spécifique, ...), de problématique de stockage (volume de données notamment pour LIDAR ou caméra acoustique), de complétion nécessaire des données (ajout d'informations contextuelles) ou au contraire de suppression de données inutiles (données techniques ou personnelles).

C'est la raison pour laquelle un travail de vérification, réorganisation, nettoyage et consolidation avec d'éventuelles données déjà enregistrées est nécessaire avant toute remontée dans SISélune. C'est l'un des rôles de l'administrateur du SI, en étroite collaboration avec chaque scientifique référent, il transforme la donnée initiale et ainsi la prépare à l'import dans le SI.

Ces différentes opérations sur la donnée brute sont réalisées au travers de scripts python exécutés en pas-à-pas et permettant de suivre les différentes sous-étapes.

3. Importer la donnée

Ainsi préparée, la donnée est restructurée dans les différentes tables concernées de la base de données. Cette 1ère étape permet de vérifier que l'information ainsi stockée reste cohérente avec la donnée initiale. Une 2ème étape consiste en la création d'un objet spécifiques (une vue) qui sera la mise en forme de la donnée diffusée. Cette vue servira pour la diffusion.

Ces 2 étapes sont partiellement automatisées au même titre que la préparation initiale des données au sein des mêmes scripts python mentionnés ci-dessus.

4. Diffuser la donnée

Une fois la vue créée sur la base de données, les étapes suivantes sont, pour le moment, manuelles et assumées par l'administrateur du SI. Il s'agit de créer un flux de données géographiques au niveau du GeoServer, s'appuyant sur la vue mentionné ci-dessus pour proposer la diffusion des données sur différents canaux normalisés (norme OGC) : 

  • Consultation des données via des formats SIG spécifiques : WMS, WFS, etc.
  • Téléchargement des données en fichier texte (CSV) ou spécifique SIG (SHP).

A partir de cette étape, la donnée peut également être visualisée et utilisée directement via le GeoServer, et des logiciels SIG voire via des scripts (python, R, ...). Une étape supplémentaire, facultative, permettra de faciliter cette visualisation, notamment pour le grand public : il s'agit de la mise à jour du portail cartographique. Le portail cartographique ne présente pas encore toutes les données du SI mais, en revanche, les contextualise avec d'autres données (hors programme Sélune : occupation du sol, agriculture, cartes historiques, ...).

5. Publier les métadonnées

La dernière étape du processus de traitement des données consiste en la création, ou la mise à jour, et la publication des métadonnées, dont le but est de décrire la donnée précédemment diffusée en apportant des réponses aux questions suivantes : qu'est-ce que la donnée diffusée ? a-t-elle été acquise ? comment ? quand ? et pourquoi ?

La fiche de métadonnées vient alors compléter le catalogue de métadonnées et ainsi permet une recherche précise sur les données de SISélune, mais aussi, et surtout appuyer leur diffusion. En effet, le catalogue déployé dans le cadre du SI est configuré pour permettre le moissonnage de ses fiches par d'autres catalogues (régionaux, nationaux, thématiques, ...) assurant ainsi la mise à disposition des données de SiSélune via d'autres systèmes d'information.

6. Utiliser la donnée

Une fois que la donnée acquise sur le terrain est diffusée et les métadonnées publiées, via SISélune, il est alors possible de l'utiliser, sur le portail cartographique (visualisation, téléchargement), sur des logiciels SIG ou des scripts spécifiques (calcul, création de cartes, ...), rechercher plus d'informations complémentaires (quoi ? où ? quand ? comment ?).