Académique Documents
Professionnel Documents
Culture Documents
MANQUANTES
INTRODUCTION TECHNIQUES
3
CONCLUSION
INTRODUCTION
1
Dans une base de données il arrive que les données et les valeurs soient
manquantes, elles ne sont pas renseignées pour tous les cas, d’où la notion des valeurs
manquantes. Le traitement des valeurs manquantes est une étape importante pour garantir la
qualité et la fiabilité des résultats obtenus. Les valeurs manquantes peuvent avoir plusieurs
origines telles que les erreurs de collecte de données, les problèmes de gestion de données, le
mauvais fonctionnement de la machine, l’extraction volontaire de certains sujets par exemple
pour protéger la confidentialité.
Notre travail consistera à donner quelques techniques et leurs fonctionnements pour le
traitement des valeurs manquantes.
TECHNIQUES
2
Il existe plusieurs technique de traitement des valeurs
manquantes à savoir : la suppression et les différents
types d’imputation.
1) Traitement par
suppression
Pour ce faire, on peut utiliser la méthode KNN dite K plus proche du voisin pour
exprimer les valeurs manquantes. Pour chaque individu ayant une valeur manquante,
on recherche les K individus les plus proches en calculant la distance sur les autres
variables renseignées puis on remplace par la moyenne de ces K individus.
d - Imputation par des algorithmes dédiés
Interpolation linéaire
Les données existantes sont utilisées pour tracer une régression de la variable
indépendante et de la variable dépendante. Elle utilise l’équation de régression pour
prédire le point de données manquantes.
En sachant comment les variables existantes sont liées, cela fournira des informations
plus précises pour le point de données manquantes.
L’interpolation utilise soit une régression linéaire ou non pour remplacer les valeurs
manquantes.
La forme la plus simple d’interpolation consiste à connecter des points de données
avec une ligne droite. L’équation de la fonction d ’interpolation linéaire est :
‘
Interpolation quadratique
Si trois points de données sont disponibles l’estimation est effectuée à l’aide d’un polynôme
du second degré par :
Interpolation cubique
Lorsque quatre points sont disponibles; un polynôme de degré 3 peut être appliqué comme suit:
CONCLUSION
3
Il existe plusieurs méthodes de traitement des valeurs
manquantes mais il est très judicieux d’utiliser une méthode
qui convient pour éviter de biaiser les données (se retrouver
avec les statistiques qui ne fournissent l’information exacte de
la population ) ou encore se retrouver avec un échantillon non
représentative.
Dans tous les cas, quand vous allez utiliser une méthode simple
ou plus compliquée, le traitement des valeurs manquantes est
une partie importante de la préparation des données qu’il ne
faut absolument pas négliger.
REFERENCES BIBLIOGRAPHIQUES
- Analyse des séries temporelles Manuel et
exercices corrigés, collection DUNOD;
- Revue de statistique appliquée, tom 44,
n°2(1996),p.105-115;
- Internet (YouTube, Google).
MERCI POUR VOTRE
ATTENTION
Questions ?