Vous êtes sur la page 1sur 14

ACP INTERPRÉ TATIONS

Dé finition 1. LA STATISTIQUE DESCRIPTIF  :

Moyenne Ecart-type n analyse

1- Qu’est-ce que l’ACP ? La vitesse 3,60 1,091 176


C’est l’ensemble de techniques multi variées qui ont pour but principal de réduire et de résumer les
Le confort 3,34 ,769 176
données.
La sécurité 3,44 ,812 176
C’est une technique d’interdépendance dans laquelle toute les variables sont considérées
simultanément.* La tenue de route 3,41 ,844 176

2- Quel est le principe de l’ACP ? L'espace 3,31 ,769 176


C’est la réduction de l’espace de représentation des individus par la définition de nouvelles variables
L'esthétique 3,90 1,009 176
« synthétiques » pour lesquelles la variance (inertie) est maximale : les composantes principales.
La consommation 3,40 1,152 176
3- Quels sont les objectifs de l’ACP ?
 Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères. La pollution 3,44 ,942 176
 Révéler des différences entre individus ou groupes d’individu, relativement à L'entretien 3,36 ,578 176
l’ensemble des caractères.
 Réduire l’information qui permet de décrire la position d’un individu dans l’ensemble
de la population

4- Que permet l’ACP ?


Elle permet une analyse des diverses variables statistiques définies sur les caractères étudiés. On doit dans cette partie interpréter la moyenne et l’écart-type :

Elle permet de construire des variables artificielles (car non mesurés mais calculés à partir des Moyenne : la valeur qui a la moyenne la plus élevée est celle qui donne le plus de
données) qui expliquent l’ensemble des variables statistiques prises en compte dans l’ACP satisfaction à l’utilisateur et vice versa.
5- Qu’est ce qu’on obtient ? Ecart-type : on analyse tous les écart-type plus E moins il y a de dispersion
On obtient ainsi un ensemble de nouvelles variables, en plus petits nombre que les variables initiales.
Chacune de ces variables initiales est liée à l’ensemble des variables artificielles retenus autour de la moyenne chose qui implique une certaine homogénéisation quant au
degré de satisfaction des individus.
6- Quelles sont les propriétés de l’ACP ?
- Les composantes principales sont centrées et non corrélées entre elles
- L’inertie expliquée par chaque axe principal = la variance de la composante associé
- Les composantes sont classées par ordre décroissant des variances
2. MATRICE DE CORRÉLATION  :

Indice KMO : il sert à détecter les variables dont la corrélation n’est pas
significative et dont il faut se séparer pour passer Analyse en composantes
principales. Un KMO assez élevé (> 0,6) est indispensable pour obtenir une
ACP intéressante.

KMO | Recommandation
>0,9 | très excellent
0,8+ | Excellent
 Elle permet de déceler les variables à forte corrélation pouvant être 0,7+ | Moyen
regroupées (si les variables présentes des valeurs élevées de corrélation 0,6 | Médiocre
0,5 | Misérable
entre elles alors il faut procéder à une analyse en composantes
<0,50 | Inacceptable
principales)
 Plus la corrélation approche de 1 ou -1 plus il y a de corrélation entre les 2 !!!Si le KMO est inférieur à 0.5 alors la suppression des variables initiales n’est
variables. pas nécessaire. Il faut calculer le KMO pour chaque variable afin de retrancher
 Plus les variables présentent de fortes corrélation plus elles peuvent être celles qui ne présentent pas une corrélation significative grâce à la matrice anti-
regroupés en dimensions homogènes. Sinon elles sont hétérogènes. (Quel images.
est le problème qui se pose quand les variables sont hétérogènes ? Grand
nombre de variables et visualisations)

 Exemple : les variables « confort et espace » sont fortement corrélées


avec une corrélation égale à 0.895 => en effet plus la voiture est
spacieuse plus le confort est garanti .

(,694 | ,774 | …) ces valeurs correspondent aux mesures KMO calculés pour
chaque variable afin de mesurer sa corrélation avec les autres.

3. INDICE KMO ET TEST DE BARTLETT  :


 TEST DE BARTLETT : Sert à vérifier la corrélation entre variables.

Si la valeur de khi-deux est élevée et la signification = 0 ou est proche de 0 alors


les variables sont suffisamment corrélées.

4. VARIANCE TOTALE EXPLIQUÉE :

Vient confirmer le nombre de composantes principlaes extraites précedament

On ne retient que les composantes qui expliquent plus d’une « 1 » valeurs propre.

On dit :  « on ne reteient que les 3 premiéres composantes pour une


représentation en 3 axes parce que leurs valeurs propres sont supérieures à 1.

6. MATRICE DES COMPOSANTES  :

Permet de calculer la variance expliquée par les composantes principales


On retient que les composantes dont le  « total » est supérieur à 1.
Le cumule des % des composantes principales représente le pourcentage
d’information que notre ACP procède. On dit : « Malgré la réduction des
variables de N variables à X composantes principales, la richesse de ces
dernières en terme d’information retenus dépasse les Y%. »
Composantes principales ?
1ère composante = celle pour laquelle la variance des individus est maximale
2ème composante = est cherchée sous deux conditions :
- Avoir une corrélation nulle avec la première composante
- Exprimer à son tour la plus grande variance des individus
- Le processus se déroule jusqu’à l’obtention des p composantes Elle reteient les coéfficients permettant d’expliquer chacune des variables en
fonction des composantes extraites.

5. GRAPHIQUE DES VALEURS PROPRES  :  Pour savoir si chaque varibale est bien représenté graphiquement :
On léve au carré les coéfficients de chaque variables et on calcule leurs somme : o Les groupes d’individu ayant donc un comportement identique
o Les individus isolés
o Ex : la variable « vitesse » :0,815²+0,043²+0,199²= 0,70 o La position relative des individus par rapport aux axes
8. DIAGRAMME DES COMPOSANTES :
Si la somme <1 alors la vraibles est bien représenté graphiquement et donc elle
est proche du cercle de correlation .

 Les valeurs qui expliquent chaque composante :

Repérer les valeurs dont le MAX (coefficient) appartient à la composante.

o Ex : La première composante est expliquée par les variables suivantes


« vitesse, confort, sécurité, tenue de route, esthétique, espace », et la
2ème composante regroupe les variables « pollution et entretien »
enfin la 3ème composante expliquée par une seule variable : la
consommation.

7. DIAGRAMME  :

Plus les variables sont proches par rapport au axes qui les représentes moin une
rotation est nécessaire.

Pourquoi la rotation ?

Obtenir une structure plus sensée. Les axes initiaux sont tournés autour de l’origine
jusqu’à ce qu’une autre position soit atteinte.

Qu’est ce qu’une rotation orthogonale ?


C’est le fait d’obtenir une structure factorielle dans laquelle chaque variable (ex. question)
 Plus les individus sont regroupés autour de l’origine de l’axe qui représente la contribue essentiellement à une seule et seulement une seule dimension
moyenne de l’échantillon, plus il y a de différence à distinguer les différents
o La variable devrait présenter une forte corrélation avec la composante et
groupes. presque une corrélation nulle avec les autres composantes.
 Observer la répartition des individus sur le plan et essayer de mettre en o Les axes sont maintenus à 90°, les facteurs sont mathématiquement
évidence la formation de groupes homogènes. orthogonaux
Il convient de mettre en valeur : 9. QUALITÉ DE REPRÉSENTATION  :
Autres :

Qu’est ce qu’on entend par la distance entre individu  ?


C’est la longueur du segment joignant les deux points de l’espace qui représente
les individus

Qu’est ce que l’inertie ?


Elle correspond à la somme des variances des variables initiales, centrées réduites

Elle permet de mesurer la dispersion du nuage autour de son centre de gravité

 Représente la qualité d’extraction pour chaque variable.


 Calcul d’extraction : sommation des cos2 des composantes ( somme des carré
de coéfficient précedement calculé )
 Plus l’ extraction est proche de 1 plus la variable qui lui correspond est meiux
représentée.
 Ex : 0,815²+0,043²+0,199²= 0,70 <1

on peut constater que 70% de la variance de la variable vitesse est expliquée par
les 3 composantes extraites et qu’ elle a une très bonne qualité de représenation.

ANALYSE TYPOLOGIQUE
Ex : On peut agréger « Tenue de route » avec « sécurité », aussi

Objectifs « l’esthétique » avec « la vitesse » et même « l’espace » avec « le confort ».

•Construire à partir des variables choisies a priori des groupes d’individus.


•Constituer des groupes de façon à ce que : 2) CHAÎNE DES AGRÉGATIONS

a) les individus appartenant à un même groupe se rassemblent le plus


possible

b) les groupes soient les plus différents possible les uns des autres.

1) MATRICE DE PROXIMITÉ :

 Historique des regroupements. les deux classes les plus proches sont
regroupées . La distance entre les deux classes regroupées est affichée dans la
colonne coefficients, selon un ordre croissant.
 Dans l’étape de l’apparition de la classe figure la dernière phase où sont
apparus les groupes pour la dernière fois.

On doit transformer les données brutes en une matrice de proximité netre


des objets ou individus . Cette matrice révèle donc les distances existantes
entre les différentes variables, par conséquent plus la distance entre deux
variables est faible plus on peut facilement les agréger.
3) DENDROGRAMME On va refaire notre analyse et demander les
solutions en 6et 5 classes

4) ANOVA

 Le dendogramme met en évidence la composition des différentes classes,


ainsi que l’ordre dans lequel elles ont été formées.
 Les regroupements les plus intéressants sont ceux obtenus après un saut
du coefficient important, c’est-à-dire, le découpage résultant du
regroupement de deux classes nettement plus éloignées que les
précédentes. (bel 3arbia la plus grande distance entre deux étapes qui se
suivent)
 Ex : Dans ce cas-là il est intéressant de faire une coupe entre la 6ème et la
7ème étape, vu qu’on note un saut très important après ce niveau-là.

 Permet de déterminer les variables ayant le plus contribuées au


regroupement. Elles correspondent aux variables ayant les plus grandes
valeurs de F. Les significations ne sont pas ici interprétables.
 EX : La variable « entretien » se distingue par la faible valeur de son fisher
qui est égale à 7.926 .c’est elle qui a contribué le moins à au 6) HISTORIQUE DES ITÉRATIONS
regroupement .

Classification en nuées dynamiques


5) CENTRES DE CLASSES INITIAUX

Affiche pour chaque itération, la distance de déplacement de chaque centre. La


dernière itération doit révéler une distance de déplacement minimale. Dans le cas
contraire, on peut augmenter le nombre d’itérations ou modifier le nombre de
groupes souhaités.

La convergence obtenue est due à l'absence ou à la quasi-absence de


modifications dans les centres de classes. La modification absolue maximale des
coordonnées d'un centre est ,000. L'itération en cours est 7. La distance minimale
entre les centres initiaux est 4,444.

Coordonnées des centres initiaux. Permet de connaître le point de départ de


l’algorithme. Il est nécessaire de voir le centre de classes finales pour pouvoir
faire une interprétation.
7) CENTRE DE CLASSES FINAUX :
8) NOMBRE D'OBSERVATIONS DANS CHAQUE CLASSE

 Une classe sous ou sur représentée (à tord) peut amener à faire une
nouvelle analyse avec un nombre différent de classes.
 dans ce cas on elimine la classe 4.

 coordonnées des centres de chaque classe finale. Ces centres (et donc les
classes associées) sont interprétés par leurs coordonnées sur les
différentes variables.
 Une coordonnée importante (positive) sur une variable signifiera que le
groupe correspondant est caractérisé par des valeurs fortes (au dessus de
la moyenne) pour cette variable.
ANALYSE FACTORIELLE DES CORRESPONDANCES 1. TABLEAU DES CORRESPONDANCES
Quels sont les objectifs de l’AFC ?
o Evaluer les ressemblances entre modalités d’une même variable
o Evaluer les proximités entre les modalités des deux variables
Quel est l’intérêt de l’AFC ?
o Expliquer graphiquement une variable à partir d’une autre
variable
o Aspect non inférentiel de la méthode
Il faut aussi tenir compte dans l’interprétation que l’AFC n’étudie que la
liaison entre les deux variables (et non les variables elles-mêmes).
Méthode :

Il s’agit du tableau de contingence(Dépendance, liaison entre deux


caractères). Une lecture rapide permet de déceler des classes sous ou
surreprésentées. On retiendra surtout l’effectif global (k) à l’intersection des
deux marges actives.
2. RÉSUMÉ À l’aide des tableaux Caractéristiques des points lignes/colonnes, on essaye
d’interpréter les axes.

INTERPRÉTATION DES AXES


La même interpretation que « points lignes » ou :
 LES DISTANCES ENTRE LES POINTS MODALITÉS SONT ÉGALES AUX DISTANCES DU
KHI-DEUX ENTRE LES PROFILS ASSOCIÉS.