BANANLP

Extraction d’informations sur les itinéraires techniques phytosanitaires en bananeraie (Antilles françaises) par NLP sur corpus historique – pilote transférable aux vignobles d’Occitanie

Résumé du projet

Nous construirons un corpus de documents historiques et techniques (Antilles) et développerons des méthodes de traitement automatique du language (eg. extraction d’entités et de relations) pour extraire des itinéraires phytosanitaires en bananeraie. Ce pilote bien borné préparera la réplication en Occitanie (vigne), monoculture intensive comparable, pour outiller O3T en exploitation de données textuelles.

Résultats attendus

(i) Données réutilisables : corpus structuré + jeu annoté + pipeline reproductible (FR/EN) ;
(ii) Outils d’aide à la décision : informations extraites et normalisées sur les pratiques par période/règlement ;
(iii) Transférabilité vers la vigne d’Occitanie (monoculture, forte empreinte réglementaire) ;
(iv) Montée en compétences O3T sur l’exploitation de données textuelles (collecte → extraction d’informations → extraction de relations) et co-construction avec acteurs territoriaux et experts filières.

Transférabilité vers la vigne d’Occitanie : L’approche méthodologique qui sera mise en place au cours de ce stage aura pour objectif d’être transposable au contexte viticole en Occitanie, dans la mesure où un corpus de référence pertinent est d’ores et déjà identifié (e.g., revues techniques, rapports Essais INRA/Institut Français de la Vigne, etc.). Le déploiement spécifique à l’Occitanie pourrait constituer l’objet d’un second stage (AAP 2027), mobilisant un profil d’étudiant davantage orienté vers l’expertise thématique que vers l’informatique.

Méthodes et Compétences déployées

Constitution et normalisation d’un corpus :
o collecte ciblée à partir d’un liste de sources pertinentes (FR/EN) ; traitement de PDF scientifiques/techniques avec librairie Python GROBID (Lopez, 2009) ; extraction des métadonnées
o pré-traitements : reconnaissance optique des caractères (OCR) si besoin, segmentation du contenu textuel (titre/section/phrase).
Traitement automatique du language (FR/EN) : extraction et normalisation d’entités agro-phytos (produit, matière active, culture, stade, dose, cible, équipement), à l’aide d’approches d’extraction d’entités nommées qui combineront ressources lexicale existantes et modèles de langue pré-entrainés (Martin et al., 2020). Le.a stagiaire comparera des approches de fine-tuning de modèles de langue pré-entrainés (Yao et al. 2024) avec des approches zero-shot à l’aide de modèles de langue génératifs (Ogrinc et al., 2024).
Extraction de relations : règles hybrides + modèles neuronaux pour relier produit–dose–stade–cible et dater introduction/retrait/interdiction en s’appuyant sur des jeux/cadres multilingues du domaine, notamment la ressource AGROVOC (Kaushik & Chatterjee N., 2018), et des modèles de langues (De et al.,2025). La représentation des information extraites sous forme d’un graphe de connaissance pourra s’appuyer sur l’approche ontologique proposée par Yacoubi Ayadi et al. (2024).
Annotation & évaluation : ligne directrice d’annotation Bulletins de Santé du Végétal (Courtin et al., 2024) pour schéma d’entités/relations, validation experte.

Stagiaire

Ana Vajic

Groupe de travail

Plaine, littoral

Labos / organismes

TETIS, CIRAD

Équipe d’accueil

MISCA

Collaboration / partenariats

CIRAD/INRAE Antilles (accès corpus, expertise banane)

Office de l’Eau/DAAF (sources locales)

partenaires Occitanie du Pôle Vigne & Vin (équipes recherche, conseil/transfert)

collaborations méthodes (universités/INRIA pour TALN, sémantique/ontologies)

Encadrants

Sarah VALENTIN

Jérémy LAVARENNE

Tutelle gestionnaire

CIRAD

Dates stages

Du 23/02/2026 au 28/08/2026

Formation

Master en Technologies des langues Université de Strasbourg