Vous êtes sur la page 1sur 13

Analyse des données :

CI-2
Bibliographie
• L.Lebart, A.Morineau et N.Tabard (1977)
Techniques de la description statistique
• L.Lebart, A.Morineau et J.P.Fénelon (1982)
Traitement des données statistiques
• M.Volle (1985)
Analyse des données
• B.Escofier et J.Pagès (1998)
Analyses factorielles simples et multiples
• Gilbert Saporta (2006)
Probabilités, Analyse des données et Statistique
2
Méthodes de l’analyse des données

• Les techniques de l’analyse des données sont


des méthodes statistiques multivariées qui sont
essentiellement descriptives.Ces méthodes sont
particulièrement utiles lorsque les tableaux de
données à analyser sont de très grandes
dimensions.Ces techniques peuvent être
rangées en deux familles :
• Les méthodes factorielles;
• Les méthodes de classification.
3
Les méthodes factorielles

• L’analyse en composantes principales (ACP)


• L’analyse factorielle des correspondances (AFC)
• L’analyse des correspondances multiples (ACM)
• L’analyse factorielle discriminante (AFD)

4
Les méthodes factorielles

Basées sur les techniques d’analyse


factorielle, ces méthodes utilisent des
ajustements qui font essentiellement
appel à l’algèbre linéaire et au calcul
matriciel.
Ces méthodes permettent de produire
des représentations graphiques ou les
objets à décrire deviennent des points
dans un plan.
L’origine de ces méthodes remonte au
début du siècle. 5
1. Analyse en composantes principales
(ACP)
L’objet de l’analyse en composantes principales est
d’élaborer et de figurer géométriquement sur un plan
les informations les plus diverses contenues dans un
tableau nxp dont les lignes représentent n individus et
les colonnes correspondent à p variables mesurées
sur ces individus.
Ce tableau peut être de très grande taille et les
données étudiées peuvent être très hétérogènes.
Le but fondamental de la représentation
géométrique est de fournir une image qui permet d’un
seul coup d’œil de saisir rapidement l’ensemble des
éléments présentés et de mettre en évidence certains
faits essentiels.
6
2. Analyse factorielle des correspondances
(AFC)

Cette méthode est bien adaptée pour l’étude


des tableaux de contingence. Elle a été
également largement utilisée pour l’analyse de
très nombreux modèles de données : Tableaux
de taux, tableaux de notes …
L’originalité et la puissance de l’analyse des
correspondances font de cette méthode le
modèle de référence dans l’analyse des
données.

7
3. Analyse des correspondances multiples
(ACM)

Cette méthode s’applique lorsque le nombre


des caractères étudiés est supérieur à 2. Elle
consiste en l’application de l’analyse factorielle
des correspondances à des tableaux logiques.
C’est une méthode très souple qui permet de
traiter simultanément l’ensemble des variables
soient quantitatives ou qualitatives.
Cette méthode admet de nombreux domaines
d’application et permet l’analyse de tableaux de
données mettant en jeu de nombreuses
variables (analyse des questionnaires).
8
4. Analyse factorielle discriminante
(AFD)

L’AFD permet d’étudier le lien existant entre


des variables quantitatives et un caractère
qualitatif. Ce dernier permet de repartir la
population statistique étudiée en plusieurs
classes.
Les objectifs majeurs de cette méthodes sont:
• Objectif descriptif ;
• Objectif prévisionnel.

9
Les techniques de classification automatique

Ces techniques sont destinées à produire des


groupements des unités statistiques étudiées en un
certain nombre de classes.
L’objet de cette méthode est de trouver la meilleure
classification des données observées. Elle fait appel à
une démarche algorithmique et non aux calculs
formalisés tel qu’en analyse factorielle.
Il existe plusieurs familles d’algorithmes de
classification :
• Les algorithmes ascendants ou agglomératifs;
• Les algorithmes descendants;
• Les méthodes d’agrégation autour de centres
mobiles. 10
Exemples des tableaux des données

• Tableau individus-
individus-variables
qualité de service du réseau téléphonique

IGQS IZZA EZZA TSI VR2 TCR TCOM

Bordeau 61.4 58.6 55.6 43.3 53.0 31.6 13.4


Lille 89.5 66.3 66.2 28.0 83.9 68.0 18.7
Lyon 95.2 69.1 68.4 19.0 87.3 68.3 15.2
Marseille 89.3 67.4 66.1 29.2 84.7 70.6 15.9
Nancy 88.0 67.6 66.9 30.5 80.3 70.2 16.2
Paris 98.2 66.6 68.4 23.2 89.8 54.1 17.1

11
Exemples des tableaux des données

• Tableau de contingence

Répartition d’une population de X individus


selon deux critère :
Mode d’hébergement
Catégorie Hotel Maison Chez des Chez des Caravane Village Divers
socioprofessionnelle louée Parents Amis

Agriculteurs 160 28 321 36 141 45 65


Employé 441 404 166 1079 175 434 178
Cadres Sup 312 471 158 305 360 162 152
Cadre Moy 572 537 1678 209 748 706 159
Patrons 700 354 959 185 272 119 140
Autres Actifs 77 60 839 53 124 28 53

12
Exemples des tableaux des données

• Tableau brut et tableau logique


Nous prendrons l’exemple d’une enquête réalisée
auprès de 2003 familles :

1- Profession du père 2- Profession de la mère


3- Salaire du père 4- Salaire de la mère
5- Age du père 6- Age de la mère
7- Nombre d’enfants
Ces 7 variables admettent 58 modalités
Dimension des tableaux :
• Brut 20037
• Logique 200358 13

Vous aimerez peut-être aussi