
BANANLP
Extraction d’informations sur les itinéraires techniques phytosanitaires en bananeraie (Antilles françaises) par NLP sur corpus historique – pilote transférable aux vignobles d’Occitanie
Résumé du projet
Nous construirons un corpus de documents historiques et techniques (Antilles) et développerons des méthodes de traitement automatique du language (eg. extraction d’entités et de relations) pour extraire des itinéraires phytosanitaires en bananeraie. Ce pilote bien borné préparera la réplication en Occitanie (vigne), monoculture intensive comparable, pour outiller O3T en exploitation de données textuelles.
Résultats attendus
(i) Données réutilisables : corpus structuré + jeu annoté + pipeline reproductible (FR/EN) ;
(ii) Outils d’aide à la décision : informations extraites et normalisées sur les pratiques par période/règlement ;
(iii) Transférabilité vers la vigne d’Occitanie (monoculture, forte empreinte réglementaire) ;
(iv) Montée en compétences O3T sur l’exploitation de données textuelles (collecte → extraction d’informations → extraction de relations) et co-construction avec acteurs territoriaux et experts filières.
Transférabilité vers la vigne d’Occitanie : L’approche méthodologique qui sera mise en place au cours de ce stage aura pour objectif d’être transposable au contexte viticole en Occitanie, dans la mesure où un corpus de référence pertinent est d’ores et déjà identifié (e.g., revues techniques, rapports Essais INRA/Institut Français de la Vigne, etc.). Le déploiement spécifique à l’Occitanie pourrait constituer l’objet d’un second stage (AAP 2027), mobilisant un profil d’étudiant davantage orienté vers l’expertise thématique que vers l’informatique.
Méthodes et Compétences déployées
- Constitution et normalisation d’un corpus :
o collecte ciblée à partir d’un liste de sources pertinentes (FR/EN) ; traitement de PDF scientifiques/techniques avec librairie Python GROBID (Lopez, 2009) ; extraction des métadonnées
o pré-traitements : reconnaissance optique des caractères (OCR) si besoin, segmentation du contenu textuel (titre/section/phrase). - Traitement automatique du language (FR/EN) : extraction et normalisation d’entités agro-phytos (produit, matière active, culture, stade, dose, cible, équipement), à l’aide d’approches d’extraction d’entités nommées qui combineront ressources lexicale existantes et modèles de langue pré-entrainés (Martin et al., 2020). Le.a stagiaire comparera des approches de fine-tuning de modèles de langue pré-entrainés (Yao et al. 2024) avec des approches zero-shot à l’aide de modèles de langue génératifs (Ogrinc et al., 2024).
- Extraction de relations : règles hybrides + modèles neuronaux pour relier produit–dose–stade–cible et dater introduction/retrait/interdiction en s’appuyant sur des jeux/cadres multilingues du domaine, notamment la ressource AGROVOC (Kaushik & Chatterjee N., 2018), et des modèles de langues (De et al.,2025). La représentation des information extraites sous forme d’un graphe de connaissance pourra s’appuyer sur l’approche ontologique proposée par Yacoubi Ayadi et al. (2024).
- Annotation & évaluation : ligne directrice d’annotation Bulletins de Santé du Végétal (Courtin et al., 2024) pour schéma d’entités/relations, validation experte.
Stagiaire
Ana Vajic
Groupe de travail
Plaine, littoral
Labos / organismes
TETIS, CIRAD
Équipe d’accueil
MISCA
Collaboration / partenariats
CIRAD/INRAE Antilles (accès corpus, expertise banane)
Office de l’Eau/DAAF (sources locales)
partenaires Occitanie du Pôle Vigne & Vin (équipes recherche, conseil/transfert)
collaborations méthodes (universités/INRIA pour TALN, sémantique/ontologies)
Encadrants
Sarah VALENTIN
Jérémy LAVARENNE
Tutelle gestionnaire
CIRAD
Dates stages
Du 23/02/2026 au 28/08/2026
Formation
Master en Technologies des langues Université de Strasbourg
