Vous êtes sur la page 1sur 4

COURS D’ANALYSE DES DONNEES

INTRODUCTION

L’analyse des données représente un processus d’extraction des connaissances à partir des
données. Son objectif est de décrire, de résumer ou d’interpréter des phénomènes donc le
caractère essentiel est la variabilité.

Selon le domaine d’activité, l’analyse des données constitue un outil d’interprétation adapté
aux conditions particulières à toute personne appartenant à ce domaine.

Toutefois plusieurs étapes sont préalables à l’analyse des données :

- L’énonciation et la formulation d problème


- L’identification des objectifs et de l’ensemble des moyens informationnels et
technologiques nécessaire ;
- La collecte des données…….
- Le nettoyage des données ;

Ce n’est que à l’issu de ces étapes que l’enquêteur peut prétendre à une véritable analyse des
données.
Selon que l’analyse porte sur une, deux ou plusieurs variables, et en fonction de la nature de
ces variables, de nombreux outils statistiques sont à la disposition de l’analyste pour résoudre
son problème.
Le schéma ci-dessous résume la méthodologie d’analyse des données ainsi que les outils qui
seront développés dans ce cours.
PROBLEME A RESOUDRE

ORIGINE EN COLLECTE DE DONNEES

PROBLEMATIQUE, CODIFICATION, MISE DES DONNEES EN TABLEAU

Analyse descriptive
Analyse Bivariée Analyse Multivariée
(Analyse univariée)

Estimation des paramètres Test d’association Analyse factoriel (ACP,


de tendance centrale AFC, ACM, Analyse
Test de corrélation discriminante)
Estimation et signification
des paramètres de Autres tests Modélisation (modèle de
dispersion Anova deux facteurs régression multiple)

Graphique Modélisation (modèle de prévision

ANOVA à un facteur régréssion)

Test d’inférence sur une Prévision


variable

Les données peuvent provenir de plusieurs sources, le recensement, l’enquête statistique, les
données administratives et enfin des entrepôts des données.
A-Les méthodes de collecte des donnés (Voir chapitre conduite des enquêtes statistiques)

B- Méthodes de prétraitement des données

Les données qui proviennent des différentes sources ne sont pas toujours directement
exploitables ou ne se prêtent pas toujours à l’analyse des données. On peut en effet faire face
à des données manquantes ou aberrantes. La nécessité donc de les corriger ou de les
transformer avant l’analyse se pose, par exemple en procédant à une normalisation et ou un
centrage. Les différentes opérations de préparation des données peuvent être :

a- Sélection de lignes / colonnes

Elle s’effectue sur des données qui sont déjà sous la forme tabulaire. Il s’agit ici de définir un
filtre qui permet de sélectionner un sous ensemble de lignes ou colonnes. L’objectif étant, soit
de réduire le nombre de données, soit de sélectionner les lignes ou les colonnes les plus
pertinentes par rapport aux préoccupations de l’utilisateur.

b- Le traitement des données manquantes ou aberrantes

Le fait que les données soient manquantes ou aberrantes peut gêner l’analyse. En fonction du
problème posé plusieurs solutions existent :

b-1- les valeurs manquantes

Lorsque l’on est en face d’une donnée manquante, une des solutions consiste à supprimer
l’observation correspondante, quand on en a suffisamment. On peut aussi envisager estimer
cette dernière. D’autres méthodes consistent à remplacer s’il s’agit d’une variable qualitative
ou quantitative continue, toute donnée manquante par des méthodes d’induction comme la
régression pour les variables quantitatives.
b-2 Les valeurs aberrantes

Selon la méthode de l’intervalle de confiance, une valeur aberrante pour une variable
quantitative X donnée, est toute donnée dont la valeur n’appartient pas à l’intervalle

[ − 1,96 ; − 1,96 ] ou , est la moyenne des valeurs leur écart type.

La valeur détectée comme aberrante est ramenée à la limite haute ou à la limite basse de cet
intervalle, ou alors on peut tout simplement chercher à l’estimer par des méthodes de
régression.

c-) Les transformations des variables

On cherche ici à transformer une variable en une variable , qui serait selon les objectifs de
l’étude, plus appropriée. Différentes méthodes sont pratiquées comme la discrétisation qui
consiste à transformer des attributs continus en découpant le domaine de ces attributs en
intervalles afin d’obtenir des attributs qualitatifs. On peut également centrer les valeurs des
variables continues par rapport à la moyenne et réduire par l’écart type. Ce traitement leur
confère certaines propriétés mathématiques intéressantes lors de la mise en œuvre de
méthodes d’analyse des données multidimensionnelles.

Vous aimerez peut-être aussi