Académique Documents
Professionnel Documents
Culture Documents
INTRODUCTION
L’analyse des données représente un processus d’extraction des connaissances à partir des
données. Son objectif est de décrire, de résumer ou d’interpréter des phénomènes donc le
caractère essentiel est la variabilité.
Selon le domaine d’activité, l’analyse des données constitue un outil d’interprétation adapté
aux conditions particulières à toute personne appartenant à ce domaine.
Ce n’est que à l’issu de ces étapes que l’enquêteur peut prétendre à une véritable analyse des
données.
Selon que l’analyse porte sur une, deux ou plusieurs variables, et en fonction de la nature de
ces variables, de nombreux outils statistiques sont à la disposition de l’analyste pour résoudre
son problème.
Le schéma ci-dessous résume la méthodologie d’analyse des données ainsi que les outils qui
seront développés dans ce cours.
PROBLEME A RESOUDRE
Analyse descriptive
Analyse Bivariée Analyse Multivariée
(Analyse univariée)
Les données peuvent provenir de plusieurs sources, le recensement, l’enquête statistique, les
données administratives et enfin des entrepôts des données.
A-Les méthodes de collecte des donnés (Voir chapitre conduite des enquêtes statistiques)
Les données qui proviennent des différentes sources ne sont pas toujours directement
exploitables ou ne se prêtent pas toujours à l’analyse des données. On peut en effet faire face
à des données manquantes ou aberrantes. La nécessité donc de les corriger ou de les
transformer avant l’analyse se pose, par exemple en procédant à une normalisation et ou un
centrage. Les différentes opérations de préparation des données peuvent être :
Elle s’effectue sur des données qui sont déjà sous la forme tabulaire. Il s’agit ici de définir un
filtre qui permet de sélectionner un sous ensemble de lignes ou colonnes. L’objectif étant, soit
de réduire le nombre de données, soit de sélectionner les lignes ou les colonnes les plus
pertinentes par rapport aux préoccupations de l’utilisateur.
Le fait que les données soient manquantes ou aberrantes peut gêner l’analyse. En fonction du
problème posé plusieurs solutions existent :
Lorsque l’on est en face d’une donnée manquante, une des solutions consiste à supprimer
l’observation correspondante, quand on en a suffisamment. On peut aussi envisager estimer
cette dernière. D’autres méthodes consistent à remplacer s’il s’agit d’une variable qualitative
ou quantitative continue, toute donnée manquante par des méthodes d’induction comme la
régression pour les variables quantitatives.
b-2 Les valeurs aberrantes
Selon la méthode de l’intervalle de confiance, une valeur aberrante pour une variable
quantitative X donnée, est toute donnée dont la valeur n’appartient pas à l’intervalle
La valeur détectée comme aberrante est ramenée à la limite haute ou à la limite basse de cet
intervalle, ou alors on peut tout simplement chercher à l’estimer par des méthodes de
régression.
On cherche ici à transformer une variable en une variable , qui serait selon les objectifs de
l’étude, plus appropriée. Différentes méthodes sont pratiquées comme la discrétisation qui
consiste à transformer des attributs continus en découpant le domaine de ces attributs en
intervalles afin d’obtenir des attributs qualitatifs. On peut également centrer les valeurs des
variables continues par rapport à la moyenne et réduire par l’écart type. Ce traitement leur
confère certaines propriétés mathématiques intéressantes lors de la mise en œuvre de
méthodes d’analyse des données multidimensionnelles.