Académique Documents
Professionnel Documents
Culture Documents
- Spatiale ; les données peuvent être à l’échelle nationale, régionale (13), provinciale (45),
communale (359), d’un village (~8000), d’un ménage, d’une parcelle de culture ou encore à l’échelle
d’un pixel d’image satellitaire.
- Temporelle ; les données peuvent être à l’échelle annuelle, mensuelle, hebdomadaire, journalière
ou encore à une échelle de 3h pour certaines données météo.
- Structurelle ; les données peuvent être de différents types : données quantitatives collectées par
des organismes, photos satellitaires, articles de journaux ou encore messages de réseaux sociaux.
1
II) Difficultés
Combiner ces données hétérogènes pour en extraire les informations qu’elles contiennent dans toute leur
complexité pose plusieurs difficultés.
A) Choix de l’algorithme
Conditions de sélection
Variable cible
Pour ce travail de thèse, la variable cible est d’une importance capitale. Son choix définira la finesse spatio-
temporelle d’analyse de la sécurité alimentaire, la période d’analyse mais surtout la crédibilité du projet vis-
à-vis des thématiciens. En effet, un choix de variable cible qui soit déjà aisée à obtenir par un autre biais ou
bien non révélatrice de la sécurité alimentaire rendrait ce travail de thèse hors sujet sinon inutile. De plus, le
choix de la variable cible est particulièrement complexe dans notre cas car il n’existe pas de variable unique,
synthétique et consensuelle, qui prenne en compte les différentes composantes de la sécurité alimentaire
(nutrition, production, prix ?).
2
Données explicatives
Les données explicatives doivent également être choisies avec soin. Chacune des données doit apporter un
gain en information, et ce sachant les autres données pour éviter l’excès de redondance et de bruit. Cela
implique de choisir en priorité les données les moins imprécises et qui semblent les plus pertinentes vis-à-
vis de la variable cible. Pour des données brutes apriori porteuses d’informations pertinentes mais non
exploitables dans leur état, des prétraitements sont à envisager (traitement d’images, de données
textuelles, imputation, etc.), le temps à apporter à l’élaboration de ces prétraitements doit être
proportionnel au potentiel explicatif de la donnée. Les données explicatives ne doivent pas avoir participé à
la construction de la variable cible, car si tel était le cas il serait superflu d’invoquer des méthodes
complexes de machine learning pour reconstruire la variable cible ! D’un point de vue opérationnel, les
données explicatives devraient être de préférence simples à obtenir pour que l’algorithme soit utilisable en
temps réel et à grande échelle.
EPA
o Cahier 1.1 : informations sur les membres des ménages [agr : habitant] [annuel] [2009-
2017]
Age, sexe, niveau d’instruction, nature du toit et des murs où dort l’individu,
adhésion aux organisations paysannes, statut d’activité (actif agricole, actif non
agricole, inactif, chômeur), propriétaire d’animaux
Responsable de cultures pluviales, de parcelles arboricoles, d’animaux
Participation à des travaux de culture pluviale, de culture maraîchère,
d’arboriculture, d’autres cultures de saison sèche, d’élevage, de pêche, d’artisanat,
de cueillette
3
o Cahier 2 : informations sur les parcelles [agr : parcelle] [annuel] [2011-2017]
Surface, rendement, poids pour 23 types de plantations
Facteur de perte (inondation, sécheresse, etc.)
Main d’œuvre rémunérée, entraide
o Cahier 6.1-2 : informations habitudes des ménages [agr : ménage] [annuel] [2009-2017]
Consommation les 1, …, 7 derniers jours de céréales, racines, légumineuses,
oléagineuses, légumes vitaminés, autres légumes, feuilles, fruits vitaminés, autres
fruits, lait, viandes, abats, poisson, œufs, huile, sucre, boissons, condiments
(permet de calculer les scores de consommation alimentaire et de diversité
alimentaire)
Lors des 7 derniers jours, nombre de jours où consommation d’aliments moins
coûteux, emprunté des aliments, réduit la quantité de nourriture, réduit le nombre
de repas
o Grand panel : informations sur les ménages [agr : ménage] [annuel] [1993-2012]
Nombre de membres, de membres actifs
Surface, rendement, production, stock de maïs, mil, sorgho, riz, coton, niébé,
arachide, sésame
Nombre ovins, bovins, volailles, charrues, charrettes, dabas (des NA selon année)
o Données annuelle de 2015 avec beaucoup d’informations sur les ménages (peut être
disponibles pour d’autres années)
4
Le faso [agr : national] [jour] [2003-2018]
o Rubriques : politique, société, économie, coopération, culture
Humanitarian response :
o Prix de la nourriture (source : World Food Programme – VAM) (maïs, riz, haricots, poisson,
sucre) [agr : régional] [mois] [1992-2018] : des valeurs manquantes, toutes les nourritures
et toutes les régions ne sont pas représentées pour chaque mois
o Biomasse annuelle (source : action contre la faim surveillance West Africa) [agr < régional]
[année] [1998-2018]
o Recensement des conflits (source : ACLED) [agr : village] [jour] [1997-2018]
Pour tout conflit : jour, type de conflit, acteur 1, acteur 2, résumé, région, province,
commune, village, coordonnées GPS, source
Maintenant que le cadre de la problématique de thèse est posé et qu’il existe des pistes de travail aussi bien
au niveau des algorithmes que des sources de données à utiliser, il a été proposé de fonctionner en 3 temps :
Un petit nombre de données sera exploité à court terme (courant janvier) pour être intégrées à un
algorithme « naïf » à définir, mais qui sera probablement un algorithme d’apprentissage par réseaux
de neurones (la littérature scientifique rapporte que cette technique est adaptée au traitement de
données hétérogènes).
Données EPA, photos satellites (extraction de NDVI, humidité des sols, etc.), variables
quantitatives pertinentes qui ne nécessitent pas de prétraitements
Des données nécessitant des prétraitements (de sophistication variable) seront progressivement
intégrées à l’algorithme durant la thèse.
Données météo, articles de journaux, etc.
Certaines données sont difficilement exploitables car elles nécessitent un prétraitement long et
complexe, sont disponibles sur une échelle de temps trop réduite ou possèdent trop de valeurs
manquantes. Si le planning et des méthodes le permettent, ces données pourront éventuellement
enrichir l’algorithme en fin de thèse.