Vous êtes sur la page 1sur 19

TRAITEMENT DES VALEURS

MANQUANTES

Classe : Sous la supervision de :

AS1 - A Dr ABY Gwladys


MEMBRES DU GROUPE

ADOUMTSOP ABDOULAYE EL ALLARANGUE


TCHIENO GALIUS HADJI AMADOU AYMBE EZECHIAS
IMANE
PLAN DE
L’EXPOSE
1 2

INTRODUCTION TECHNIQUES
3

CONCLUSION
INTRODUCTION

1
Dans une base de données il arrive que les données et les valeurs soient
manquantes, elles ne sont pas renseignées pour tous les cas, d’où la notion des valeurs
manquantes. Le traitement des valeurs manquantes est une étape importante pour garantir la
qualité et la fiabilité des résultats obtenus. Les valeurs manquantes peuvent avoir plusieurs
origines telles que les erreurs de collecte de données, les problèmes de gestion de données, le
mauvais fonctionnement de la machine, l’extraction volontaire de certains sujets par exemple
pour protéger la confidentialité.
Notre travail consistera à donner quelques techniques et leurs fonctionnements pour le
traitement des valeurs manquantes.
TECHNIQUES

2
Il existe plusieurs technique de traitement des valeurs
manquantes à savoir : la suppression et les différents
types d’imputation.
1) Traitement par
suppression

Certains outils le font automatiquement lorsqu’on exécute un algorithme.


Cette méthode semble efficace mais attention, on risque d’éliminer beaucoup
d’individus et de se retrouver avec les données qui ne sont plus représentatives
(un tout petit échantillon).
C’est conseillé d’utiliser cette méthode lorsqu’on a peu de données manquantes
sinon nous risquerons de biaiser les données
2) Traitement par
imputation

a - Imputation par une valeur fixe


La méthode la plus simple consiste à remplacer les valeurs manquantes d’une
variable par une valeur fixe. Pour choisir cette valeur, on analyse la variable pour les
individus ayant des valeurs renseignées, il peut s’agir de la moyenne, la médiane, la
valeur la plus fréquente(mode), une valeur fixe etc.
Il faut noter que certains individus ne sont pas concernés lors de certaines études,
donc les variables ne seront pas remplies. Pour ces cas, il est impératif de ne pas
imputer statistiquement une valeur.
Exemple: La variable ‘’date de décès’’ d’une étude épidémiologique ne sera pas
renseignée pour les patients n’étant pas décédés. Dans ce cas vous n’aurez pas
besoin de compléter les valeurs manquantes, ça n’aurait pas de sens.
b - Imputation par arbre de décision

Avec cette méthode l’on commence à se préciser un peu plus. Au bien


d’attribuer toujours la même valeur pour tous les individus, on va affecter une
valeur personnalisée en fonction des autres données existantes.
c - Imputation par la méthode KNN

Pour ce faire, on peut utiliser la méthode KNN dite K plus proche du voisin pour
exprimer les valeurs manquantes. Pour chaque individu ayant une valeur manquante,
on recherche les K individus les plus proches en calculant la distance sur les autres
variables renseignées puis on remplace par la moyenne de ces K individus.
d - Imputation par des algorithmes dédiés

La problématique des données manquantes est telle que des algorithmes


spécifiques ont été développés pour y répondre. Vous trouverez ces
algorithmes implémentés dans certains outils par exemple le package HMSIC
permet d’utiliser plusieurs méthodes à base de régression. Et aussi le SAS et
SPSS qui offrent des options pour le remplacement des données
manquantes.
e – Imputation par interpolation

 Interpolation linéaire
Les données existantes sont utilisées pour tracer une régression de la variable
indépendante et de la variable dépendante. Elle utilise l’équation de régression pour
prédire le point de données manquantes.
En sachant comment les variables existantes sont liées, cela fournira des informations
plus précises pour le point de données manquantes.
L’interpolation utilise soit une régression linéaire ou non pour remplacer les valeurs
manquantes.
La forme la plus simple d’interpolation consiste à connecter des points de données
avec une ligne droite. L’équation de la fonction d ’interpolation linéaire est :


 Interpolation quadratique

Si trois points de données sont disponibles l’estimation est effectuée à l’aide d’un polynôme
du second degré par :
 Interpolation cubique

Lorsque quatre points sont disponibles; un polynôme de degré 3 peut être appliqué comme suit:
CONCLUSION

3
Il existe plusieurs méthodes de traitement des valeurs
manquantes mais il est très judicieux d’utiliser une méthode
qui convient pour éviter de biaiser les données (se retrouver
avec les statistiques qui ne fournissent l’information exacte de
la population ) ou encore se retrouver avec un échantillon non
représentative.
Dans tous les cas, quand vous allez utiliser une méthode simple
ou plus compliquée, le traitement des valeurs manquantes est
une partie importante de la préparation des données qu’il ne
faut absolument pas négliger.
REFERENCES BIBLIOGRAPHIQUES
- Analyse des séries temporelles Manuel et
exercices corrigés, collection DUNOD;
- Revue de statistique appliquée, tom 44,
n°2(1996),p.105-115;
- Internet (YouTube, Google).
MERCI POUR VOTRE
ATTENTION

Questions ?

Vous aimerez peut-être aussi