Vous êtes sur la page 1sur 5

Rapport préliminaire sur la thèse de

doctorat : « Mise en relation de données


hétérogènes pour le renforcement des
systèmes de sécurité alimentaire – Cas de la
production agricole en Afrique de l’Ouest »
L’objet de cette thèse est de créer un algorithme de machine learning capable de prédire un indicateur
pertinent de l’insécurité alimentaire de manière rapide, fiable et peu chère. Cet outil pourrait être utilisé en
complément des systèmes de surveillance et d’alerte en sécurité alimentaire existant pour améliorer la
précision et la précocité des alertes.

Table des matières


I) Hétérogénéité des données ........................................................................................................... 1
II) Difficultés ..................................................................................................................................... 2
A) Choix de l’algorithme ............................................................................................................ 2
B) Sélection des données à intégrer au système d’alerte............................................................ 2
Conditions de sélection ................................................................................................................ 2
Zoom sur les sources de données clés :........................................................................................ 3
III) Planning prévisionnel ................................................................................................................ 5

I) Hétérogénéité des données


L’insécurité alimentaire et les famines sont multifactorielles (climat, économie, politique, etc.) et
surviennent de façon complexe dans l’espace et le temps. Pour saisir toute cette complexité, il est
nécessaire d’intégrer des données hétérogènes au système d’alerte alimentaire.

Il existe 3 classes d’hétérogénéité des données :

- Spatiale ; les données peuvent être à l’échelle nationale, régionale (13), provinciale (45),
communale (359), d’un village (~8000), d’un ménage, d’une parcelle de culture ou encore à l’échelle
d’un pixel d’image satellitaire.

- Temporelle ; les données peuvent être à l’échelle annuelle, mensuelle, hebdomadaire, journalière
ou encore à une échelle de 3h pour certaines données météo.

- Structurelle ; les données peuvent être de différents types : données quantitatives collectées par
des organismes, photos satellitaires, articles de journaux ou encore messages de réseaux sociaux.

1
II) Difficultés
Combiner ces données hétérogènes pour en extraire les informations qu’elles contiennent dans toute leur
complexité pose plusieurs difficultés.

A) Choix de l’algorithme

La question de la combinaison algorithmique de données hétérogènes est actuellement un problème


ouvert, dont il n’existe pas (encore) de réponse absolue.
Une solution naïve consiste à choisir une échelle spatiale et une échelle temporelle de référence et de
convertir les sources de données hétérogènes en variables quantitatives ou qualitatives pour être traitées
par un algorithme de machine learning classique. Cependant, ce mode d’action risque de provoquer une
importante perte en information. Une autre solution consiste à utiliser un algorithme capable de traiter
directement les données hétérogènes ; il existe plusieurs pistes comme la compression des données
hétérogènes en clés de hachages comparables ou l’utilisation de réseaux de neurones adaptés au
traitement de données hétérogènes.

Figure 1 - Structure globale de l'algorithme de machine learning attendu

B) Sélection des données à intégrer au système d’alerte

Conditions de sélection

Qualité des données


L’hétérogénéité des sources de données a pour conséquence une qualité inégale des données. Les
méthodes de recueil peuvent être difficiles à mettre en œuvre et ne sont parfois pas effectuées assez
rigoureusement, ce qui peut entrainer des biais dans les données (définition des variables, valeurs
manquantes, biais de sélection, etc.). Par conséquent, il est important de bien étudier comment chaque jeu
de données a été recueilli, recodé, etc. pour être conscient des biais éventuels et de prendre cela en
compte lors de la sélection des données

Variable cible
Pour ce travail de thèse, la variable cible est d’une importance capitale. Son choix définira la finesse spatio-
temporelle d’analyse de la sécurité alimentaire, la période d’analyse mais surtout la crédibilité du projet vis-
à-vis des thématiciens. En effet, un choix de variable cible qui soit déjà aisée à obtenir par un autre biais ou
bien non révélatrice de la sécurité alimentaire rendrait ce travail de thèse hors sujet sinon inutile. De plus, le
choix de la variable cible est particulièrement complexe dans notre cas car il n’existe pas de variable unique,
synthétique et consensuelle, qui prenne en compte les différentes composantes de la sécurité alimentaire
(nutrition, production, prix ?).

2
Données explicatives
Les données explicatives doivent également être choisies avec soin. Chacune des données doit apporter un
gain en information, et ce sachant les autres données pour éviter l’excès de redondance et de bruit. Cela
implique de choisir en priorité les données les moins imprécises et qui semblent les plus pertinentes vis-à-
vis de la variable cible. Pour des données brutes apriori porteuses d’informations pertinentes mais non
exploitables dans leur état, des prétraitements sont à envisager (traitement d’images, de données
textuelles, imputation, etc.), le temps à apporter à l’élaboration de ces prétraitements doit être
proportionnel au potentiel explicatif de la donnée. Les données explicatives ne doivent pas avoir participé à
la construction de la variable cible, car si tel était le cas il serait superflu d’invoquer des méthodes
complexes de machine learning pour reconstruire la variable cible ! D’un point de vue opérationnel, les
données explicatives devraient être de préférence simples à obtenir pour que l’algorithme soit utilisable en
temps réel et à grande échelle.

Tableau 1 - Liste des sources de données disponibles en ligne

Zoom sur les sources de données clés :

 EPA
o Cahier 1.1 : informations sur les membres des ménages [agr : habitant] [annuel] [2009-
2017]
 Age, sexe, niveau d’instruction, nature du toit et des murs où dort l’individu,
adhésion aux organisations paysannes, statut d’activité (actif agricole, actif non
agricole, inactif, chômeur), propriétaire d’animaux
 Responsable de cultures pluviales, de parcelles arboricoles, d’animaux
 Participation à des travaux de culture pluviale, de culture maraîchère,
d’arboriculture, d’autres cultures de saison sèche, d’élevage, de pêche, d’artisanat,
de cueillette

3
o Cahier 2 : informations sur les parcelles [agr : parcelle] [annuel] [2011-2017]
 Surface, rendement, poids pour 23 types de plantations
 Facteur de perte (inondation, sécheresse, etc.)
 Main d’œuvre rémunérée, entraide

o Cahier 6.1-2 : informations habitudes des ménages [agr : ménage] [annuel] [2009-2017]
 Consommation les 1, …, 7 derniers jours de céréales, racines, légumineuses,
oléagineuses, légumes vitaminés, autres légumes, feuilles, fruits vitaminés, autres
fruits, lait, viandes, abats, poisson, œufs, huile, sucre, boissons, condiments
(permet de calculer les scores de consommation alimentaire et de diversité
alimentaire)
 Lors des 7 derniers jours, nombre de jours où consommation d’aliments moins
coûteux, emprunté des aliments, réduit la quantité de nourriture, réduit le nombre
de repas

o Grand panel : informations sur les ménages [agr : ménage] [annuel] [1993-2012]
 Nombre de membres, de membres actifs
 Surface, rendement, production, stock de maïs, mil, sorgho, riz, coton, niébé,
arachide, sésame
 Nombre ovins, bovins, volailles, charrues, charrettes, dabas (des NA selon année)

o Données annuelle de 2015 avec beaucoup d’informations sur les ménages (peut être
disponibles pour d’autres années)

 Banque mondiale [agr : national] [annuel] [2009-2017]


o Agriculture : Emplois dans l’agriculture (% du total des emplois), agriculture : valeur ajoutée
(% du pib)
o Economiques : PIB par habitant, valeurs ajoutées des services, industries, fabrication,
créances sur le secteur privé, sur le gouvernement central, avoirs étrangers nets, crédit in-
térieur brut, commerce de marchandises (% du pib), importation de marchandises, balance
extérieure (% du pib), importation, exportation de biens et services (% du pib), formation
brute de capital fixe, immobilisé (% du pib), dépense nationale brute (% du pib), dépense
de consommation finale des ménages, des institutions publiques (% du pib), chômage (%
de la pop), Emplois vulnérables (% des emplois), revenu national brut (par habitant), crois-
sance du revenu national brut, indice des prix à la consommation
o Démographiques : Densité de population, croissance de la population (% annuel), popula-
tion urbaine, rurale (% de la pop), pyramide des âges, sexe ratio
o Médicales : Incidence et prévalence du VIH, taux de mortalité néonatal, infantile
o Pas de valeur en 2017 : importation de nourriture, taux de fertilité, taux de mortalité, ren-
dement des céréales, indice de production de bétail, vivrière, des récoltes

 Historique-meteo [agr : 9 villes] [jour] [2009-2018]


o Température matin, midi, soir, min, max (degrés), indice de chaleur (température ressen-
tie)
o Vitesse moyenne du vent (km/h)
o Précipitation (mm), taux d’humidité, visibilité (km), pression (Pa), couverture nuageuse (%),
point de rosée (degrés)

 MODIS [pixel < 1km] [< 1 mois] [1995-2018]


o Réflectances sol et atmosphère
o Indices de végétation, anomalies thermiques, zones brulées
o Beaucoup d’autres indicateurs

4
 Le faso [agr : national] [jour] [2003-2018]
o Rubriques : politique, société, économie, coopération, culture

 Humanitarian response :
o Prix de la nourriture (source : World Food Programme – VAM) (maïs, riz, haricots, poisson,
sucre) [agr : régional] [mois] [1992-2018] : des valeurs manquantes, toutes les nourritures
et toutes les régions ne sont pas représentées pour chaque mois
o Biomasse annuelle (source : action contre la faim surveillance West Africa) [agr < régional]
[année] [1998-2018]
o Recensement des conflits (source : ACLED) [agr : village] [jour] [1997-2018]
 Pour tout conflit : jour, type de conflit, acteur 1, acteur 2, résumé, région, province,
commune, village, coordonnées GPS, source

III) Planning prévisionnel

Maintenant que le cadre de la problématique de thèse est posé et qu’il existe des pistes de travail aussi bien
au niveau des algorithmes que des sources de données à utiliser, il a été proposé de fonctionner en 3 temps :

 Un petit nombre de données sera exploité à court terme (courant janvier) pour être intégrées à un
algorithme « naïf » à définir, mais qui sera probablement un algorithme d’apprentissage par réseaux
de neurones (la littérature scientifique rapporte que cette technique est adaptée au traitement de
données hétérogènes).
 Données EPA, photos satellites (extraction de NDVI, humidité des sols, etc.), variables
quantitatives pertinentes qui ne nécessitent pas de prétraitements

 Des données nécessitant des prétraitements (de sophistication variable) seront progressivement
intégrées à l’algorithme durant la thèse.
 Données météo, articles de journaux, etc.

 Certaines données sont difficilement exploitables car elles nécessitent un prétraitement long et
complexe, sont disponibles sur une échelle de temps trop réduite ou possèdent trop de valeurs
manquantes. Si le planning et des méthodes le permettent, ces données pourront éventuellement
enrichir l’algorithme en fin de thèse.

Vous aimerez peut-être aussi