Vous êtes sur la page 1sur 10

UNIVERSITE DE TUNIS ESSECT

Analyse des Données


Travaux Dirigés (3)
Analyse en Composantes Principales sur la base de données voitures.sav

La base de données voitures.sav est constituées de 24 modèles de voitures de l’années 1989.


Pour chaque modèle, on dispose des caractéristiques techniques suivantes : cylindrée,
puissance, vitesse, poids, longueur, largeur.

Effectuer une ACP sur cette base :

Démarche principale : Analyse > Réduction des dimensions > Analyse factorielle.

1. Quel est l'intérêt de cette ACP ?

L’intérêt de cette ACP est double :

- Réduire le nombre de variables décrivant les marques de voitures en fournissant un petit


nombre de nouvelles variables (les composantes principales) les décrivant.

- Identifier les groupes des marques de voitures ayant les mêmes caractéristiques et décrire
ces groupes.

2. Etudier la pertinence de cette ACP.

> Descriptives : Matrice des corrélations (Coefficients + Indice KMO et test de Bartlett).

D'abord, nous devons nous assurer que les variables sont corrélées entre elles.

Matrice des corrélations : Nous pouvons observer que toutes les variables semblent
fortement corrélées (>0.4), nous suggérant déjà quelques associations.

1
Indice de KMO et test de Bartlett : L’indice KMO de 0,705 peut être qualifié d’excellent ou
de méritoire. Il nous indique que les corrélations entre les variables sont de bonne qualité.
Ensuite, le résultat du test de sphéricité de Bartlett est significatif (p < 0,01). Nous pouvons
donc rejeter l'hypothèse nulle pour lequel la matrice de corrélation est une matrice d’identité.
Les corrélations ne sont donc pas toutes égales à zéro. Nous pouvons donc poursuivre
l'analyse.

Fiabilité du modèle : Alpha de crombach :

Analyse > Échelle > Analyse de la fiabilité > statistiques > échelle sans élement.

Le premier tableau contient la valeur de l’indice alpha de Cronbach. Nous remarquons ici que
la valeur du coefficient est de 0,623, ce qui est excellent, puisqu’il dépasse le seuil minimum
requis de 0,60. Par conséquent, on peut dire qu’on obtient, pour cette échelle composée de six
éléments, une cohérence interne satisfaisante.

La dernière colonne du deuxième tableau est tout de même celle qui retient le plus notre
attention. On rappelle que la valeur alpha est de 0,623 pour notre échelle lorsqu'elle contient
les six éléments. On constate que la consistance est maximisée en conservant tous ces
éléments, puisque si nous en retirons un, la consistance va diminuer (sauf pour les éléments
vitesse et largeur, mais dans ce cas la fiabilité n’augmente pas remarquablement). Donc on
n’a pas intérêt à éliminer aucun élément de l’ACP.

2
En conclusion, on peut dire que l’ACP est pertinente et qu’on a intérêt à garder tous les
élements.

3. Combien de composantes principales devrait-on retenir ? Justifier votre réponse.

> Extraction > Méthode (composantes principales) – Analyse (Matrice des corrélations –


Afficher (Structure factorielle sans rotation + diagrammes des valeurs propres) – Extraire
(Valeurs propres supérieures à (1, par défaut)).

Critère de kaiser : On ne retienne que les facteurs ayant des valeurs propres supérieures à 1.
En regardant la deuxième colonne du tableau ci-dessus, nous constatons qu’un seul facteur
(ou composante) possède une valeur propre plus élevée que 1. Nous le conservons donc pour
l'analyse (Cependant, cette méthode n’est pas satisfaisante lorsque le nombre de variables est
inférieur à 20).

Critère du taux d’inertie cumulée : On choisit le nombre d’axe en fonction de la restitution


minimale d’information que l’on souhaite. Par exemple, on veut que le modèle restitue au
moins 80% de l’information. Dans notre exemple, le premier facteur explique à lui seul 77,6
% de la variance totale des 6 variables de l'analyse. L’axe 2 retient tout de même 15.254% de
la variance totale, ce qui conduit à un taux d’inertie expliquée de 92.854%, ce qui est un très
bon résultat. Il peut être donc intéressant de l’étudier aussi.

Critère du coude. On observe le graphique des valeurs propres et on ne retient que les
valeurs qui se trouvent à gauche du point d’inflexion. Nous voyons un changement après le
deuxième facteur. Nous retenons donc deux facteurs pour l'analyse, puisque ce critère est plus
rigoureux que celui de Kaiser.

3
4. Interpréter les axes retenus et la qualité de représentation des variables.

> Extraction > Extraire (Nombre fixe de facteurs à extraire (2)).1

Qualité de représentation : La qualité de représentation des variables par les facteurs est
évaluée par les communautés (Extraction). Les variables qui présentent des communautés
faibles (moins de 0,5) sont supprimées de l’analyse. On voit que les différentes variables sont
bien représentées par les facteurs (plus de 0.5).

1
Il est nécessaire à ce stade de fixer le nombre d’axes factoriels (2) que l’on souhaite retenir.

4
Interprétation de la matrice des composantes : La matrice des composantes représente les
corrélations existantes entre les facteurs et les variables. Un coefficient élevé (en valeur
absolue) indique que le facteur et la variable sont étroitement corrélés, ou encore que la
variable apporte beaucoup de sens au facteur.

Dans notre exemple, toutes les variables sont fortement corrélées (positivement) avec le
premier facteur. On pourra donc parler d’un effet taille dans le premier axe.2

Or, cette matrice factorielle (sans rotation) permet rarement d’aboutir à des facteurs pouvant
être interprétés. En effet, il ressort que toutes les variables saturent fortement sur le facteur 1
et aucune variable n’est associée avec le facteur 2. Il serait très difficile avec une telle matrice
d’interpréter les résultats.

Interprétation du digramme des composantes : La carte des variables aboutis au même


résultat précédent. On voit que le premier facteur est corrélé positivement, et assez fortement,
avec chacune des 6 variables initiales : plus que la voiture possède de bonnes caractéristiques
techniques plus elle a un score élevé sur l'axe 1, et inversement. Toutes les variables sont
associées à un seul axe. Dans un tel cas, il faut procéder à une rotation pour transformer la
matrice des composantes.

2
Effet taille : les variables sont toutes du même coté de l’axe. (i.e. elles contribuent toutes dans le même sens à
la formation de l’axe).

5
5. Justifier l'intérêt de faire une rotation à l'issu de cette ACP puis donner une
interprétation des axes retenus.

> Rotation > Méthode (Varimax) – Afficher (Structure après rotation + Carte factorielle).

Intérêt de la rotation : La rotation permet de transformer la matrice factorielle en une


matrice plus simple et plus facile à interpréter, en maximisant le poids de chaque variable sur
un facteur et en le diminuant sur l’autre.

Comme le montre les résultats avant et après rotation, nous remarquons que les variables sont
beaucoup mieux réparties sur les deux facteurs. Seule la variable cylindrée a vu ses
coordonnées s’améliorer sur la 2ème composante et diminuer sur la 1ère (0.728 et 0.625

6
respectivement). De l’autre part, les corrélations des variables « puissance » et « vitesse » ont
chuté remarquablement sur la 1ère composante et ce sont améliorées sur la 2 ère composante
(0.874 et 0.959). Ces variables deviennent associées avec la deuxième composante, après la
rotation. Pour les variables « poids » et « longueur », les coordonnées ont diminué faiblement
sur la 1ère composante ; et augmenté sur la 2ème composante. Malgré ça ces deux variables sont
encore associés avec la 1ère composante (0.977 et 0.901). La corrélation de la variable
« largeur » a augmenté sur la 1ère composante et diminué sur la deuxième. Cette variable est
encore associée avec la 1ère composante (0.922).

Interprétation des axes : L’axe 1 est représenté par les variables : poids, longueur et
largeur : ce sont les caractéristiques de « dimension » de la voiture. L’axe 2 est représenté par
les variables : puissance et vitesse : ce sont les caractéristiques de « force du moteur ». Ainsi,
le facteur 1 permettait de différencier les petites voitures des grosses voitures alors que le
deuxième différencie les voitures familiales ayant un moteur moyen aux voitures sportives
ayant un moteur très puissant. Nous remarquons aussi que la variable cylindrée sature de
façon importante sur les deux facteurs (Ceci signifie qu’il faudrait probablement retirer cette
variable qui ne se positionne pas de façon adéquate sur un seul facteur et recommencer
l’analyse).

Cette interprétation, qui est déjà assez claire, peut être précisée avec la carte des variables
après rotation :

On peut voir que les variables : vitesse et puissance sont associées avec la composante 2 (axe
des ordonnées) et que les variables : poids, largeur et longueur sont associées avec la
composante 1 (axe des abscisses).

7
6. Déterminer les coordonnées des individus sur les axes retenus : on multipliera les
coordonnées standardisées sur chaque axe, fournies par SPSS dans le tableau initial (i.e.
fact1_1, fact2_1 ...), par la racine carrée de la valeur propre associée à cet axe :

> Facteurs : Enregistrer dans des variables (Méthode régression).3

Puis, on multiplie la première colonne FAC1_1 par √ 3 .192 et la deuxième colonne FAC1_2
par √ 2 .379 pour avoir les coordonnées des individus (C1 et C2) : Transformer > Calculer la
variable > variable cible (C1) – expression numérique (FAC1_1 * SQRT (3.192)). Les
résultats sont affichés sur le tableau suivant, extrait de « l’affichage des données » de la base
voitures.sav :

Modèle FAC1_1 FAC2_1 C1 C2


Honda Civic -0,92 -0,32 -1,65 -0,49
Renault 19 -0,19 -0,33 -0,34 -0,50
Fiat Tipo -0,18 -0,71 -0,32 -1,10
Peugeot 405 0,20 -0,45 0,36 -0,69
Renault 21 0,47 -0,46 0,84 -0,71
Citroen BX -0,05 -0,31 -0,08 -0,48
BMW 530i 0,86 1,79 1,54 2,76
Rover 827i 0,64 1,52 1,14 2,35
Renault 25 0,83 1,46 1,48 2,26
Opel Omega 1,03 -0,19 1,84 -0,30
Peugeot 405 Break 0,12 0,28 0,21 0,43
Ford Sierra 0,54 -0,14 0,96 -0,21
BMW 325iX -0,27 1,57 -0,48 2,42
Audi 90 Quattro -0,20 1,27 -0,35 1,96
Ford Scorpio 1,07 0,70 1,91 1,07
Renault Espace 0,89 -0,45 1,60 -0,69
Nissan Vanette 1,16 -1,46 2,07 -2,25
VW Caravelle 1,96 -1,56 3,50 -2,40
Ford Fiesta -0,66 -1,71 -1,18 -2,65
Fiat Uno -1,32 -1,08 -2,36 -1,66
Peugeot 205 -1,19 -0,41 -2,13 -0,64
Peugeot 205 Rallye -1,76 0,53 -3,14 0,82
Seat Ibiza SX I -1,26 0,17 -2,25 0,26
Citroen AX Sport -1,77 0,28 -3,16 0,43

7. Représenter la carte des individus et interpréter les résultats.


Graphes > Boite de dialogue ancienne version > Dispersion/Point > Dispersion simple :
Définir : C 1 > vers l’axe X et C 2 > vers l’axe Y
Modèle > vers Etiqueter les observations par
Options : Afficher le diagramme avec les étiquettes

Carte des individus

3
Pour enregistrer les deux nouveaux facteurs (i.e. fact1_1, fact2_1) obtenus après l’extraction avec rotation. On
peut également utiliser les facteurs avant rotation sans avoir aucun changement dans l’interprétation de la carte
des individus.

8
On trouve 3 nuages de points : Le premier comprend les modèles qui réunissent entre la
grande dimension et la force du moteur (bmw530i, bmw325ix, rover 827i, Renault 25, Audi
90quatro)  ; le deuxième est caractérisé par la force du moteur et les petites dimensions et
comprend les modèles de Rallye (Peugeot 205rallye, Citroën AXsport, Honda civic) ; le
troisième nuage comprend des voitures ayant une force et forme moyenne et il est difficile
d’interpréter ce nuage car il est situé au point d’intersection des deux axes.
Force du moteur

Voitures de faible dimension et de moteur puissant


Voitures de grande dimension et de moteur puissant

Dimension

Voitures de faible dimension et de faible moteur


Voitures de grande dimension et de faible moteur

8. Evaluer la qualité de représentation du modèle « Rover » :

9
La qualité de représentation d'un individu « Rover » est mesurée par la formule suivante4  :

C2Rover C 1 1,14 ²
QLTC1 (Rover) = 2 2
= = 0,19 ; Ainsi, 19 % des propriétés de la
C Rover C 1+ C Rover C 2 1,14 ²+2,35 ²
voiture « Rover » se retrouvent sur l'axe 1.
C2Rover C 2 2,35 ²
QLTC2 (Rover) = 2 2
= = 0, 81
C Rover C 1+ C Rover C 2 1,14 ²+2,35 ²
QLTC1 (Rover) + QLTC2 (Rover) = 0,19 + 0,81 = 1

Le modèle Rover est très bien représenté par le deuxième axe. Le modèle Rover est
caractérisé par un moteur puissant en termes de vitesse et de puissance.

4
1.14 et 2.35 représentent les coordonnées du Rover sur l’axe C1 et l’axe C2, respectivement. Voir le tableau de
la page 8. La qualité de représentation de l’individu i sur l’axe j est mesurée par :
c ²ij
QLT j ( i ) = j

∑ c ² ij
1

10

Vous aimerez peut-être aussi