ETL : cartographies d’habitats naturels

illustration fleur - licence : domaine publique - publicdomainvectors.org

Standardisation, harmonisation et bancarisation :
pour une base de données de cartographies d’habitats naturels

Données de cartographies

Les cartographies d’espaces naturels sont à la base de nombreuses études d’expertise et de connaissance de l’environnement. Elles sont également un socle pour l’aide à la décision en matière de politiques publiques et d’aménagement du territoire. C’est pourquoi on les retrouve dans des plan de gestion, des documents d’objectifs Natura 2000, ou encore des études d’impact…

A l’ère de l’open data et du SINP (Système d’Information sur la Nature et les Paysages), les données de cartographies d’habitats naturels doivent elles aussi être partagées. En Nouvelle-Aquitaine, la plateforme thématique Flore-Fonge-Habitats du SINP (l’OBV de Nouvelle-Aquitaine) du Conservatoire Botanique National Sud-Atlantique, permet de centraliser et de diffuser les données naturalistes. Initialement centré sur la flore, l’observatoire a été étendu aux habitats naturels et aux végétations.

L’objectif de ce projet était de pouvoir, à terme, valoriser les données de cartographies d’habitats et de les mettre à disposition sur le portail web de l’observatoire.

Un modèle conceptuel des données

La toute première étape a été la normalisation (modélisation conceptuelle) de ces données. Et cela afin d’établir une structuration standardisée commune aux cartographies dans la base de données du système d’information. Cette normalisation des données de cartographies d’habitats et basée sur les cartographies Natura 2000. Elle est également conçue pour être étendue à d’autres types de sites à enjeu environnemental. Par exemple : des réserves naturelles, ou encore des Zones Naturelles d’Intérêt Écologique Faunistique et Floristique (ZNIEFF)…

Une fois les données structurées et collectée auprès des différents partenaires, il été temps de centraliser les données…

ETL
Extract-Transform-Load

Ma solution :

La création de processus ETL de correction et d’intégration en base de données des cartographies d’habitats naturels et de végétations, ainsi que de leurs référentiels typologiques. Le tout basé sur un logiciel open source : Talend Open Studio.

Harmonisation des données

Les cartographies des sites Natura 2000 aquitains sont réalisées depuis 2011 grâce au « kit de cartographie » mis en place par la DREAL Aquitaine et le CEREMA Sud-­Ouest, et administré par le CBNSA. Ces données sont donc homogènes et standardisées.

En revanche, toutes les cartographies d’habitats naturels de bénéficient de ce cadre…

Par exemple, en raison d’un manque de cadrage régional pour la réalisation des cartographies d’habitats en Poitou-Charentes, on note une grande hétérogénéité des données. C’est pourquoi la centralisation de ces cartographies en base de données demande, en premier lieu, leur correction en termes de format de données et de structuration. Un tel traitement est nécessaire afin qu’elles soient toutes harmonisées dans un même standard.

Bancarisation des cartographies

Correction et intégration

Cette correction des données -suivi de leur l’intégration- est notamment réalisée grâce à des processus ETL (Extract­Transform­Load : « Extraction, Transformation et Chargement »). Ces processus sont créés avec le logiciel Talend Open Studio et de son extension de traitement des données géographiques Talend Spatial Module.

Ces traitements prennent compte aussi bien des habitats simples que des habitats complexes dits « en mosaïque ».

Exemple d’un processus ETL de traitement des données de cartographies d’habitats. Réalisé avec Talend Open Studio.

Processus de traitement des données

Le processus de traitement des données comprend plusieurs phases :

  • Les cartographies sont d’abord stockées dans des tables temporaires en base de données (une table par couche SIG).
  • Elles sont ensuite corrigées et intégrées dans trois tables temporaires séparées selon les trois primitives géométriques (point, ligne, polygone). Le module Talend Spatial ne peut en effet gérer qu’une seule géométrie par lot de données en entrée ou en sortie de processus.
  • Ces tables temporaires contiennent tous les champs présents dans les différentes tables définies dans le modèle de données. Pour la correction des données, chaque attribut est stocké dans la colonne correspondante.
  • Au sein des tables temporaires, les champs relatifs à un type d’habitat sont dupliqués plusieurs fois afin de gérer les données d’habitats en mosaïque.
  • Ensuite, pour l’intégration des données, chaque attribut contenu dans les tables temporaires est intégré aux champs correspondants dans les tables permanentes.

Les processus ETL créés permettent de corriger de grands lots de données et de les intégrer en base de données de façon automatique et normalisée. Ce sont ainsi des dizaines de cartographies d’habitats naturels et de végétations qui ont pu être corrigées et intégrées dans la base de données de l’observatoire.

Ces données sont pour la majeure partie des cartographies d’habitats de sites Natura 2000 de Nouvelle-Aquitaine. D’autres données ont aussi pu être traitées, comme des cartographies de réserves naturelles, ou encore d’habitats marins et littoraux du Parc Naturel Marin du Bassin d’Arcachon.

Intégration des référentiels typologiques

Cohérence typologique

Différents référentiels typologiques sont utilisés pour caractériser les habitats naturels et les végétations. De plus, de nombreuses correspondances existent entre ces référentiels, correspondances pouvant être totales ou partielles.

Les référentiels typologiques et leur correspondances ont donc également été intégrés dans la base de données de l’observatoire. Cela dans le but de faciliter la gestion des données d’habitats et de végétations, et afin d’avoir une cohérence typologique entre le données.

Le logiciel Talend Open Studio est également utilisé ici pour la création de processus d’intégration des différentes données de références typologiques. Ces données sont issues du référentiel national HABREF et du synopsis des végétations du territoire d’agrément du CBNSA.

Exemple d’un processus ETL d’intégration d’un référentiel typologique pour les habitats et les syntaxons, et de ses correspondances avec d’autres référentiels. Réalisé avec Talend Open Studio.

Référentiels typologiques

Plusieurs référentiels typologiques sont ainsi intégrés dans la base de données axée sur les d’habitats et les végétations :

  • Corine Biotopes, référentiel européen des habitats s’appuyant sur la phytosociologie.
  • EUNIS, référentiel européen des habitats, élaboré notamment à partir de Corine Biotopes.
  • EUR, référentiel européen des types d’habitats d’intérêt communautaire.
  • Les Cahiers d’Habitats, référentiel français des habitats naturels d’intérêt communautaire correspondant à une déclinaison du EUR.
  • Prodrome des Végétations de France­ PVF1, premier référentiel français pour la phytosociologie sigmatiste.
  • Déclinaisons du Prodrome des Végétations de France PVF2, référentiel français déclinant le PVF1 à des niveaux plus fins.
  • Synopsis des végétations du territoire d’agrément du Conservatoire Botanique National Sud­-Atlantique, catalogue en cours d’élaboration, reprenant les PVF1 et PVF2, leurs synonymies, ainsi que des syntaxons nouvellement décrits et les correspondances avec les autres référentiels typologiques, à l’échelle du territoire d’agrément du CBNSA.

Suite à ces traitements ETL des données…

Les cartographies sont désormais harmonisées, normalisées et bancarisées dans la base de données. De même que les différents référentiels typologiques des habitats et des végétions, ainsi que leurs correspondances. Toutes ces données peuvent alors être utilisées dans le système d’information..

Analyse des données

Cette normalisation permet l’accès aux données et leur réutilisation dans un environnement logiciel de façon automatisée, tels qu’au sein de processus ETL ou de logiciels SIG.

Cela peut avoir plusieurs objectifs différents. Par exemple : créer des fichiers SIG ou des tableurs pouvant être utilisés par des experts naturalistes pour la validation scientifique des données ; analyser des jeux de données normalisées sous forme de cartographie à l’aide de logiciel SIG ; avoir des données servant d’état initial sur un site afin de réaliser une réactualisation cartographique ; etc.

Réutilisation des processus ETL

Les processus ETL de correction et d’intégration peuvent également être complétés et réutilisés. Par exemple, afin de traiter de nouvelles cartographies d’habitats.

De même, les processus d’intégration des référentiels typologiques peuvent être réutilisés pour intégrer les mises à jour de ces référentiels. En particulier en fonction des versions du référentiel national HABREF et du synopsis des végétations sud-atlantiques. En effet, ces référentiels sont en évolution constante. Ceci grâce aux travaux de mise en correspondance des référentiels menés par le MNHN, ainsi que des travaux de référencement des végétations menés par le CBNSA.

Valorisation et diffusion des données

La structuration des données de cartographies a permis leur intégration en base de données. Cela a également permis leur partage avec des partenaires, ainsi que leur valorisation au sein de l’interface web de l’observatoire.

Cette valorisation passe par la diffusion des données d’habitats et de végétations à l’aide de cartes interactives. Par exemple, la diffusion des cartographies des différents sites, sous forme vectorielle, ainsi que des données d’habitats relatives aux différentes géométries. Les données d’habitats et de végétations contenues dans les cartographies entrent également dans les calculs des cartes de synthèses de répartition des habitats et des syntaxons.

L’intégration des données selon un modèle standardisé -qu’elles soient intégrées grâce à des processus ETL ou saisies grâce à un formulaire– permet leur valorisation. Cette valorisation au sein de l’interface web de l’observatoire, entre notamment dans le cadre des missions de sensibilisation et de connaissance du CBN : diffusion des données naturalistes, brutes ou de synthèse, relatives à la biodiversité végétale auprès des autorités territoriales et du public !

Cette mission a été réalisée au sein du Conservatoire Botanique National Sud-Atlantique.

Vous aussi avez un projet de structuration et d’harmonisation de données naturalistes ?