ReCALp

Développement d’une méthode de reconstitution de données climatologiques à partir de stations d’observations

Résumé du projet

Dans les sciences du climat, les observations in situ constituent la principale source de données, sinon la seule permettant d’avoir accès de manière robuste aux climats des dernières décennies. Cependant, leurs couvertures spatiale et temporelle ont beaucoup évolué au cours du temps. En France, depuis les années 1990, le nombre de stations d’observation mesurant les températures horaires a fortement augmenté et plus récemment, des capteurs ont été installés dans des zones moins accessibles, telles que les régions montagneuses. Ces stations installées plus tardivement restent peu utilisées par les scientifiques pour des études climatologiques en raison de leur faible couverture temporelle.
Ce stage proposait de mettre en œuvre puis d’évaluer des méthodologies basées sur différentes méthodes statistiques, avec et sans apprentissage automatique, afin de reconstruire un grand nombre de séries horaires de températures pour la France dans le passé, totalisant environ 1 800 stations de 1950 à 2024.
Les méthodes ont été testées sur un sous-échantillon (spatial et temporel) de toutes les stations à reconstruire, pour lesquelles les données ont été artificiellement corrompues par masquage, permettant une évaluation directe de 200 stations de 1995 à 2024. Les résultats de plusieurs méthodes de référence ont été comparés (imputation moyenne, régression linéaire, réseaux neuronaux, etc.), ainsi que ceux d’un type d’architecture récemment publié : Graph Recurrent Neural Network (GRIN).
Bien que des résultats satisfaisants aient été obtenus à l’aide des méthodes de référence, avec des erreurs moyennes allant de 3 °C pour l’imputation moyenne à 1,8 °C pour le perceptron multicouche, la mise en œuvre de GRIN a montré une valeur ajoutée évidente, les erreurs diminuant pour atteindre près de 1 °C. De plus, les tendances climatiques des stations reconstruites se situent dans la gamme des valeurs des séries initiales, suggérant la capacité de la méthode à reconstruire un signal climatique cohérent.
L’application de cette méthode à l’ensemble de données de grande taille couvrant la période 1950-2024 n’a pas pu être réalisée pendant le stage, mais les résultats obtenus sur l’ensemble de données d’évaluation sont prometteurs et seront publiés prochainement dans un article scientifique.

Compétences déployées

Méthodes de machine learning (régressions multi-linéaires, gradient boosting, random forest ou réseaux de neurones) pour tenter de reconstituer l’enregistrement passé des stations pour lesquelles les mesures sont limitées à la période la plus récente.

Stagiaire

Léo Catteau

Groupe de travail

Montagne

Labos / organismes

CNRM

Équipe d’accueil

Centre d’Études de la Neige, équipes CENMOD et
CENOBS

Collaboration / partenariats

Collaboration avec le LJK (Laboratoire de Mathématiques Appliquées de Grenoble)

Encadrants

Diego Monteiro
Isabelle Gouttevin

Tutelle gestionnaire

CNRS DR14

Dates stage

Mars-juillet 2025