Vous êtes sur la page 1sur 6

Mise en relation de données hétérogènes pour le renforcement des

systèmes de sécurité alimentaire – Cas de la production agricole en


Afrique de l’Ouest
CST, première année

Hugo Deléglise

1- Cadre de la thèse
Ma thèse s’intitule « Mise en relation de données hétérogènes pour le renforcement des systèmes de
sécurité alimentaire. Cas de la production agricole en Afrique de l’Ouest » et se déroule entre octobre
2018 et octobre 2021 à la maison de la télédétection. Elle est cofinancée par le CIRAD (Centre de
coopération internationale en recherche agronomique pour le développement) et l’institut
convergence #DigitAg. Mon directeur de thèse est Mathieu Roche, je suis également co-encadré par
Roberto Interdonato, Maguelonne Tesseire, Agnès Bégué et Elodie maître d’hôtel.

2- Introduction
Les pénuries alimentaires restent un problème d’actualité en Afrique de l’ouest, et ce à cause de
facteurs multiples, cumulatifs et souvent corrélés. Les causes peuvent être météorologiques : une
hausse des températures, une baisse de la pluviométrie peuvent provoquer sécheresse et incendies
et affecter la qualité des récoltes. Autre facteur, les conflits et guerres civiles auxquels certains pays
d’Afrique de l’ouest font face depuis le début des années 2000, provoquant la chute de systèmes de
production et de circuits de distribution des denrées. Certaines crises alimentaires sont aussi des
crises des prix, dont les causes ne sont pas climatiques mais commerciales et financières. Un enjeu
majeur est d’être en mesure de prédire localement les situations d’insécurité alimentaire et de
comprendre comment les évènements climatiques, économiques, etc. s’enchainent pour entrainer
une situation alimentaire critique. Depuis la seconde moitié du siècle dernier, plusieurs systèmes de
suivi de la sécurité alimentaire (SSA) très actifs aujourd’hui ont été créés par des organisations
étatiques et des ONG pour répondre à ces problématiques1. Les données agro-climatiques (imagerie
satellitaire, données climatiques, etc.) sont largement utilisées dans les SSA, en revanche l’utilisation
de données provenant de différents domaines (enquêtes ménages, médias sociaux, presse, analyses
de marché) a souvent été négligée. La télédétection, utilisée en routine pour les suivis en temps réel
de la croissance de la végétation, ne suffit pas à expliquer des situations d’insécurité alimentaire. De
plus, la mise en lien des indicateurs d’alerte est en général effectuée par un regard expert, ce qui
demande du temps et rend difficile le déploiement de ces systèmes à grande échelle. Durant cette
première année, nous nous sommes tournés vers le machine learning qui consiste à faire apprendre
à un algorithme des règles d’associations entre une variable à prédire et des variables explicatives à
partir d’un jeu de données du passé pour générer un modèle de prédiction. Le site d’étude choisi est
la Burkina Faso, pays pour lequel nous avons accès aux données de plusieurs enquêtes ménages sur
la sécurité alimentaire.

1
A comparison of global agricultural monitoring systems and current gaps, Steffen Fritz & Al., Agricultural Systems (2019)
3- Objectif
L'objectif de cette thèse est double :

(i) Enrichir les données de télédétection en les reliant à des données de domaines différents
(enquêtes ménages, presse, analyse de marché) afin de les rendre plus adaptées à l'analyse
des phénomènes complexes de la sécurité alimentaire.
(ii) Définir des techniques originales de fouille de données efficaces pour le traitement de
données hétérogènes dans le contexte de la sécurité alimentaire.

4- Données
4-1- Réflexion sur l’hétérogénéité des données
L’insécurité alimentaire et les famines sont multifactorielles (climat, économie, politique, etc.) et
surviennent de façon complexe dans l’espace et le temps. Les indicateurs de sécurité alimentaire sont
généralement complexes à prédire : par exemple, des chercheurs du World Food Program (WFP) ont
cherché à prédire de tels indicateurs pour des résultats globalement faibles2. Pour saisir toute cette
complexité, il est nécessaire d’intégrer des données hétérogènes au système d’alerte alimentaire.

L’hétérogénéité des données peut-être :


- Structurelle (forme);
 Différents types : images satellites, données quantitatives, articles de journaux, etc.
 Différentes sources : textes issus de réseaux sociaux vs. Journaux vs. Articles
scientifiques ; images de différents satellites (sentinel, Landsat, Modis, etc.)
- Sémantique (fond)
 Différentes spatialités ; les données peuvent être à l’échelle nationale, régionale,
communale, d’un ménage, d’une parcelle de culture ou encore à l’échelle d’un pixel
d’image satellitaire.
 Différentes temporalités ; les données peuvent être à l’échelle annuelle, mensuelle,
hebdomadaire, journalière ou encore à une échelle de 3h pour certaines données
météo.
 Différentes thématiques ; les thèmes pertinents ne concernent pas que la sécurité
alimentaire : climat, économie, santé, politique, etc.

4-2- Site d’étude


Le site d’étude choisi est le Burkina Faso, pays d’Afrique de l’ouest qui n’a pas connu de grande crise
alimentaire depuis la sécheresse de 2012, mais qui possède 20% de la population en situation
d’insécurité alimentaire3. Pour ce pays, nous avons accès aux données de 3 enquêtes ménages sur la
sécurité alimentaire. Ces données sont nécessaires pour le développement d’un algorithme de
machine learning.

Les données du Burkina Faso disponibles sont en général subdivisées dans l’une des 3 limites
administratives officielles du pays : 13 régions, 45 provinces et 351 communes.

2
https://wfp-vam.github.io/HRM/ (Chapitre « Results »)
3
https://www.usaid.gov/burkina-faso/agriculture-and-food-security
4-3- Choix des variables
4-3-1- Variables cibles
La variable cible est l’indicateur que l’on veut apprendre à prédire, elle est en général issue de vérités
terrain recueillies lors d’enquêtes ménages. Le choix des variables cibles revêt une grande
importance car c’est ce qui définira la crédibilité du projet vis-à-vis des thématiciens. En effet, un
choix de variable cible qui soit déjà aisée à obtenir par un autre biais ou bien non révélatrice de la
sécurité alimentaire limiterait l’apport de ce travail de thèse. De plus, ce choix est particulièrement
complexe dans notre cas car il n’existe pas de variable unique, synthétique et consensuelle, qui
prenne en compte les différentes composantes de la sécurité alimentaire, d’où la nécessité d’en
sélectionner plusieurs.

Les organismes pour la sécurité alimentaire (le WFP, par exemple) utilisent souvent 3 classes
d’indicateurs complémentaires de sécurité alimentaire :
- 1) Les indicateurs de consommation alimentaire : capturent la quantité et la diversité de
l’apport alimentaire
- 2) Les indices de stratégie de survie : capturent des informations sur la suffisance de l’apport
alimentaire
- 3) Les dépenses alimentaires : prend en compte la prédisposition des personnes plus proches
du seuil de pauvreté à dépenser une part plus grande de leur revenu pour la nourriture.

Pour l’instant, les variables cibles disponibles sont issues de 3 enquêtes ménages distinctes :
- L’Enquête Permanente Agricole (EPA) menée par l’état Burkinabé, contenant le score de
consommation alimentaire des ménages (SCA), le score de diversité alimentaire des ménages
(SDA) et l’indice des stratégies de survie simplifié (rCSI) pour 342 communes de 2009 à 2013
- L’enquête Living Standards Measurement Study (LSMS) contenant le SDA et les dépenses
alimentaires des ménages pour les 45 provinces en 2014
- L’enquête Comprehensive Food Security and Vulnerability Analysis (CFSVA) menée par le
World Food Program (WFP), contenant le SCA, le SDA, le rCSI et les dépenses alimentaires
moyens de 558 villages géo-référencés en 2018
4-3-2- Variables explicatives
Les variables explicatives doivent également être choisies avec soin. Chacune des variables doit
apporter une information complémentaire et parcimonieuse pour capter un maximum d’information
tout en évitant le sur-apprentissage et la surinterprétation.

Les variables explicatives recueillies jusqu’à maintenant sont les suivantes :

 NDVI (végétation) ; Modis ; fréquence 16 jours ; résolution 250m

 Estimation des pluies ; Trmm ; fréquence 10 jours ; résolution 6km

 Temperature condition index, Noaa ; fréquence 7 jours, résolution 4km

 Biomasse ; Proba-V ; fréquence 1an ; par province

 Prix du maïs ; SONAGES ; fréquence 1 mois ; par marché

 Densité de population ; AfriPop ; 2014 ; résolution 100m


5- Algorithmes
Dans un 1er temps, les variables explicatives ont été mises en entrée d’un random forest pour prédire
les indicateurs de sécurité alimentaire disponibles (SCA, SDA, dépenses alimentaires) et qui servira de
baseline par la suite. Les performances sont faibles comme attendu, mais nous avons pu constater
que certaines variables comme le NDVI, les estimations de pluies et les prix du maïs sont porteuses
d’informations complémentaires pour la prédiction des indices de sécurité alimentaire.

Variables explicatives Nb Variables R2(RF)


NDVI(année t) 14 0,07
NDVI(année t) ; pluies(année t) 35 0,10
NDVI(années t,t-1,t-2) ; pluies(années t,t-1,t-2) 105 0,14
NDVI(t,t-1,t-2) ; pluies(t,t-1,t-2) ; prix mais(t,t-1,t-2) 125 0,17
NDVI(t,t-1,t-2) ; Pluies(t,t-1,t-2) ; prix mais(t,t-1,t-2) ; biomasse (t,t-1,t-2) 128 0,18
Tableau 1-Apprentissage d’un Random Forest pour la prédiction du SDA sur les données EPA de 2010

Dans un second temps, les variables reconnues précédemment comme étant les plus corrélées à la
sécurité alimentaire (séries temporelles de NDVI, pluies, prix du maïs des 3 années précédant
l’enquête) ont été intégrées à un réseau de neurones de type LSTM (Long Short Term Memory). Les
réseaux de neurones sont une familles d’algorithmes d’apprentissage automatique supervisé. Ces
méthodes sont très efficaces pour identifier les interactions entre variables, ce qui est intéressant
pour ce travail car l’hypothèse faite est que l’information pertinente pour prédire la sécurité
alimentaire se trouve dans l’interaction complexe entre de multiples causes. Les LSTM sont des
réseaux de neurones particuliers adaptés aux séries temporelles, capables d’identifier les régularités
dans les enchainements temporels des variables. Les résultats sont légèrement meilleurs (voir
tableau 2) qu’avec un random forest et pourront encore être améliorés en y ajoutant de nouvelles
séries temporelles et en optimisant les réglages du LSTM.

En parallèle, dans le cadre d’un partenariat avec le WFP, une équipe du WFP qui travaille sur une
problématique semblable à celle de ma thèse nous ont donné accès au framework qu’ils ont
développé ainsi qu’à leurs données. Pour prédire le SCA et les dépenses alimentaires des ménages,
leur framework prend en entrée les données suivantes :

- Open Street Map (distance d’un hôpital, d’une école, d’une route, etc.)
- Google Map (images RGB à 1m)
- Sentinel 2 (NDVI, NDWI, NDBI à 10m)
- NORA (luminosité de nuit à 100m)
- ACLED4 (évènements violents)

Leur framework, qui prend en compte davantage de données possède des performances légèrement
meilleures que le LSTM (voir tableau 2). Mais celui-ci pourrait largement être amélioré car il ne prend
pas en compte la dimension temporelle des données et donne beaucoup d’importance à la variable
« luminosité de nuit » qui ne semble pas pertinente dans le contexte du Burkina Faso.

4
Armed Conflict Location & Event Data Project
Figure 1 - Structure du framework du WFP

Indicateur Source Random Forest LSTM Algo_WFP


SCA WFP 0 0,27 0,34
Food expenditures WFP 0 0,12 0,12
SCA EPA 0 0 /
SDA EPA 0,18 0,31 /
Food expenditures LSMS 0,16 0,30 /
Tableau 2-Comparaison des performances (R2) d’un LSTM avec celles d’un random forest et du framwork du WFP

Durant cette 1ère partie de thèse, nous nous sommes davantage concentrés sur l’aspect temporel des
variables, il faudra envisager par la suite d’utiliser conjointement d’autres techniques d’extraction
d’information adaptées à chaque type de variable (articles de journaux, données textuelles de
l’ACLED, etc.), en s’inspirant par exemple de la structure conçue par le WFP.

Figure 2-Structure imaginée pour la suite de la thèse


6- Valorisation
Présentations lors de conférences :

- CNRIA (ConféreNce sur la Recherche en Informatique et ses Applications), Saint-Louis


(Sénégal), avril 2019
- AgriNumA : Symposium “Agriculture Numérique en Afrique”, Dakar (Sénégal), mai 2019

Co-Encadrement :

- Stage Camille Schaeffer (M2), Mise en place d’un système d’acquisition semi-automatique
d’un corpus de données hétérogènes (Images et Textes) – Application à la problématique de
la sécurité alimentaire en Afrique de l’Ouest.

Formations (modules doctoraux) :


- Réunion d'information des nouveaux doctorants (3h)
- Anglais (18h)
- Atelier #DigitAg : Quelles sont les possibilités offertes par la science des données à
l’agriculture ? 7 décembre 2018, Montpellier (6h)
- Data sciences for Geosciences, Janvier 2019, Brest (15h)
- DeepLearn, Juillet 2019, Varsovie (37h30)
7- Conclusion
Les données de télédétection, économiques, démographiques sont porteuses d’informations
complémentaires pour expliquer les indicateurs de sécurité alimentaire. L’utilisation de réseaux de
neurones de type LSTM améliore les prédiction d’indices de sécurité alimentaire, cette méthode
semble adaptée au traitement de données hétérogènes temporelles.

8- Perspectives
L’agenda de cette seconde année de thèse s’annonce riche :

 Intégration de nouvelles données aux modèles (OpenStreetMap, ACLED, variables


extraites d’articles de journaux, etc.)
 Progresser dans l’utilisation des réseaux de neurones et découvrir de nouvelles
techniques de prédiction adaptées au traitement de données hétérogènes et de
séries temporelles (par exemple, nouvelles variables de type séquentiel)
 Poursuivre le partenariat avec le WFP
 Rédaction d’un article scientifique avant la fin de l’année 2019
 Présentation dans la conférence Global Food Security en juin 2020

Vous aimerez peut-être aussi