Vous êtes sur la page 1sur 29

2017

Université d’Oum El Bouaghi, Algérie


Faculté des sciences de la terre et de l’architecture

Prof. Adad Mohamed Chérif


Domaines d’intérêt: architecture,
urbanisme, spss, VBA, électronique
pratique.
Traitement des données

S Les variables sont


Traitement univarié traitées une par une
i
g
rechercher l’interaction
Traitement bivarié n entre 2 variables
i
f Rechercher la liaison
simultanée entre plus de
Traitement multivarié i deux variables
Et fournir une
e information synthétisée
DÉFINITION ET OBJECTIFS
 Analyse en composantes principales (ACP) est une analyse statistique
descriptive multivariée qu’on applique à un ensemble de variables
initiales qu’ on veut réduire en quelques facteurs ou composantes
(nouvelles variables). . Ces derniers sont aussi appelés axes. Elle
consiste à synthétiser les données issues d’un croisement entre
plusieurs variables numériques. ACP vise à identifier le grand
nombre de variables initiales ou les items présentant un coefficient de
corrélation relativement important qui peuvent être regroupés entre
eux en vue de faciliter leur interprétation et leur donner un sens .
 On peut aussi utiliser l’ACP pour détecter les variables redondantes
afin de simplifier le recueil des données .

 Aussi, l’ACP traite les n variables d’un questionnaire en même temps


dans un espace à deux ou trois dimensions, afin d'identifier des
groupes homogènes d'observations, ou au contraire des observations
atypiques.

 ACP représente graphiquement les données par rapport à ces facteurs


sous forme d’axes. Ces représentations graphiques sont du type nuage
de points .
Méthode statistique
descriptive multidimensionnelle
est

Méthode factorielle
Recherche

Facteurs
qui remplacent les variables initiales
Réduit

Nombre données
en déformant le moins
possible la réalité
Caractéristiques

 L’APC est une analyse qui s’intéresse à un nombre important de


variables continues qui ne devront pas être obligatoirement
distribuées selon la lois normale.
 L’ACP permet donc de réduire les variables initiales en un petit
nombre de variables tout en conservant un maximum
d’information. Ces variables initiales sont appelées « métriques ».
 Dans ce type d’analyse, il n’y a pas de variable dépendante ou
indépendante préalablement identifiée. Aussi, aucune vérification
de l’hypothèse nulle est exigée.
 Dans le monde de l'ACP les données sont appelées inertie .
Conditions d’utilisation de l’ACP
Utilisation de variables
quantitatives continues et les
variables qualitatives ordinales.

Relation linéaire entre les


variables Les données devraient
( CPA est basée sur la être adaptées à la
corrélation de Pearson) réduction des données
(test de Bartlett de la
Sauf pour les variables ordinales
sphéricité )
Adéquation de l’échantillonnage : Ce test doit être très
pour assurer une puissance significatif < 0.05
statistique minimale. Entre 0.05 et 0.10
Un minimum de 150 cas, soit 5 à 10 acceptable et au dessus
cas par variable, a été recommandé de 0.10, rejeté.
comme taille minimale de
l'échantillon En réalité, il y a
La mesure Kaiser-Meyer-Olkin toujours une condition
tend vers 1 qui n’est pas vérifiée,
0,50 et moins est misérable • entre Cependant il y a
0,60 et 0,70, c’est médiocre • entre souvent une solution
0,70 et 0,80 c’est moyen • entre 0,80 pour à cela.
et 0,90 c’est méritoire • et plus 0,9
c’est très bon .
 Objectifs de l’étude
 Variables de l’étude
Formuler le problème  Echelle
 Taille de
l’échantillon

Lancer l’ACP sur SPSS Saisie des notes sur Spss

Calcul la matrice de corrélations et vérifier si les données  Test KMO


sont-elles factorisables  Test Bartlett

Extraire les facteurs et déterminer leur nombre • Variance totale expliquée

Interpréter les facteurs

Matrice de composantes et Matrices des


composantes après rotation
 Diagramme de composantes dans l’espace
après rotation
Voyons notre cas d’étude
Soit un échantillon de 30 étudiants en architecture 1 ère
année pris au hasard et qui ont obtenu les notes /20
suivantes . L’objectif est d’analyser la corrélation entre les
variables quantitatives au nombre de 7 qui sont ici les notes
de: atelier, théorie de projet, dessin codifié, HCA, TMC,
physique et math. Aussi, pour savoir si un changement dans
une note pourrait affecter une autre.
Les notes des étudiants ne sont plus représentés dans un espace be-
dimensionnel, mais dans un espace de dimension 7 (chaque étudiant
étant caractérisé par ses 7 notes). Donc, l’objectif de l’ACP est de
revenir à un espace de dimension réduite, ici à 2 dimensions) en
déformant le moins possible la réalité. La finalité est de mettre en
évidence le mieux les liaisons initiales entre les variables ou items.
Cette méthode est basée sur la recherche des axes principaux d’un
nuage de points [Benzecri, 1973]
Saisie des données et
Lançons maintenant le logiciel spss saisie des variables

1
Affichage des variables

Affichage des données


Ici toutes les données sont quantitatives
continues (Mesure= Echelle), sauf Id qui est
la nomination des étudiants et qui ne sont
pas pris dans le calcul.
Pour mettre en œuvre l’ACP , il faut aller au menu :
Analyse---Réduction des dimensions---- Analyse factorielle
Sélectionner toutes les variables sauf la variable « Nom
des étudiants » puis les insérer dans la fenêtre « Variables »

Vers
1 2
Appuyer sur le bouton « descriptibles »

Dans la boite de dialogue « Analyse factorielle : caractéristiques »

 Sélectionner « coefficients » : elle va produire la corrélation de Pearson entre


les variables sur laquelle l’ACP est construite.
 Sélectionner « Indice KMO et test sphéricité de Bartlett , pour voir si les
données sont factorisables ou non , l'adéquation des échantillons pour
mettre en œuvre l’ACP.
 Appuyer sur « Poursuivre »
Appuyer sur le bouton « Extraction »
Dans la boite de dialogue « Extraction »
 Choisir dans « Méthode » Composantes principales
 Cocher « Matrice de corrélation » (table de corrélation)
 Cocher « Structure factorielle sans rotation »
 Cocher « Diagramme des valeurs propres »,(scree plot) , qui produit le graphique de Kattell (1966)
qui est fondé sur la courbe décroissante des valeurs propres. Il s’agit de déterminer le nombre de
composantes principales ou facteurs à extraire .
 Dans «Basé sur la valeur propre » dans l’encadré « Extraire choisir la valeur 1, cela indique que tous
les axes avec une valeur propre (Eigenvalue) supérieure à 1 seront conservées . Il s’agit du critère de Kaiser
pris par défaut par le spss. C’est ici dans cet encadré qu’on peut préciser le nombre précis de
composantes principales ou de facteurs .
 Appuyer sur « Poursuivre »
 Appuyer le bouton « Rotation » Boite de dialogue « Rotation »

• Cocher « Varimax »
C’est une rotation orthogonale : une approche pour produire une rotation orthogonale des facteurs .
Cela signifie que la rotation Varimax aide à identifier la contribution des variables à la formation des
axes factoriels ou composantes, ce qui facilite de tirer, d’une manière rapide et synthétique, des
conclusions sur les dimensionnalités des variables.
La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à
représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont
rapprochées des axes auxquels elles contribuent de manière à en faciliter l’interprétation.
http://www.lesphinx-developpement.fr/blog/tag/

• Cocher « structure après Rotation »


• Cocher « Cartes factorielles » [loading plot(s)] pour montrer le nuage de points .
 Appuyer sur « Poursuivre »
Boite de dialogue « Option »
Appuyer sur « Option »
 Cocher « Classement des variables par
taille » , cela signifie qu’on trie les
composantes sur la base de la taille , cela
facilitera la lecture et l’interprétation.
 Appuyer sur « Poursuivre »

On clique à la fin sur ok pour entamer le traitement des données.


Analyse des résultats

L’analyser des résultats d’une ACP, passe par la


réponse à trois questions :
 a. Les données sont-elles factorisables ?
 b. Combien de facteurs ou composantes à
retenir ?
 c. Les résultats sont-ils interprétables ? La
corrélation entre les variables d’une part et
entre les variables et les composantes d’autre
part?
1- Les données sont-elles factorisables ?
Pour répondre à la 1ère question, il faut d’abord observer les corrélations des variables,
puis l’indice de KMO (Kaiser-Meyer-Olkin) et enfin le test de sphéricité de Bartlett. Si
l’ACP satisfait à au moins deux de ces trois conditions, il est possible de continuer notre
interprétation.
1- Analysons la matrice de corrélation (Correlation Matrix ), pour estimer si les données
sont-elles factorisables. Si plusieurs variables sont corrélées la factorisation est possible.
Dans le cas contraire , on peut dire que la factorisation n ’est pas conseillée.
Comme on peut le voir dans le table , on peut dire que beaucoup de variables sont
corrélées et leurs coefficient s de Pearson sont assez élevés. De ce faite, dans notre
exemple, la factorisation est possible. Les corrélations <0,3 ne sont pas prises en
considération. Dès le début de l’analyse, dans la boite de dialogue «Option » on pouvait
choisir dans « Valeur absolue inférieure à » 0, 3.
2- Aussi, il convient d’observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit
obligatoirement tendre vers 1. Si ce n’est pas le cas, la factorisation n’est pas plus
possible . Ici KMO=0,658 , même si c’est médiocre, c’est un bon résultat.
Pour juger de l’indice de KMO:
 0,50 et moins , c’est misérable
 entre 0,60 et 0,70, c’est médiocre
 entre 0,70 et 0,80, c’est moyen
 entre 0,80 et 0,90, c’est méritoire
 plus 0,9, c’est merveilleux.

 Enfin, on utilise le test de sphéricité de Bartlett. : Dans notre cas


sig=0,000, c’est très significatif. Si sig< 0,05, c’est significatif et rejeté si
sig <0,10.
22- Extraction des composantes principales (facteurs)

• 1 ère règle: selon la règle de Kaiser seules les composantes aux valeurs propres
(Eigenvalue) supérieures à 1 sont retenues .
 2 ème règle: le nombre de composantes (appelées aussi axes) est choisi en fonction
de la restitution minimale d’information désirée. On souhaite, par exemple, que
notre ACP rétablie au moins 80% de l’information initiale.

« Variance totale expliquée » ( Total variance explained)


1

2
Coude
3
4
5
6
7

 3ème règle :le critère de kattel, il est basé sur le graphique scree plot qui
représente en abscisse les composantes.et en ordonnée les valeurs propres
 Test du coude (Scree-test ). On observe le graphique des valeurs propres et on ne
retient que les composantes 1 et 2 qui se trouvent à gauche du point d’inflexion
(le coude, point 3). Sur le plan graphique, on trace une droite qui rejoint les
composantes(3,4,5,6,7) situées à droite . Ces composantes apportent le moins
d’information et seules celles situées au dessus du coude sont maintenues.
 un autre critère
Boite de dialogue « Extraction »

 Donc, le scree plot nous aide à déterminer le nombre de


composantes principales qui nous fournissent un pourcentage
non négligeable d’information . On peut revenir au bouton
« extraction » et on fixe à 2 en « Nombre de facteurs à
extraire » ou on force « Facteurs à extraire » à 2 dès le
début de l’analyse .
3- Interprétation de l’analyse en composante principale
On revient encore une fois au table de « Variance totale expliquée ». Dans la
colonne « Total » qui indiquent les valeurs propres initiales (Initial Eigenvalues) ,
seules les valeurs propres supérieures à 1 (le critère de Kaiser ) sont retenues
(2,890 et 1,698). De ce fait , uniquement les composantes 1 et 2 sont maintenues.
Elles concentrent plus de variances que les variables initiales . Pour cela que les
1er et 2ème axes sont ceux qui restituent le maximum d’information. En d’autres
termes, ils représentent environ 65,552% de la variance totale parmi les 30 items.
Le 1er pour un pourcentage de 41,290 et le 2ème pour 24,262%. Ensemble les 2
composantes concentrent à elles seules 65,552 %. (dans la colonne cumulative % )
des informations apportées par les 7 variables de départ.
Cela signifie que la 1ère composante a une valeur propre de 2,890 et explique
environ 41,290 % de la variance, la 2ème composante à une valeur propre de 1,698
et explique 24,262% la variance .
La table qualité de représentation (Communalities), la colonne
extraction de cette table , nous indique pour chaque variable la part de la variance
expliquée par la solution à 2 composantes. Si on parcoure les valeurs nous pouvons
dire que toutes les valeurs sont supérieures à 65,552 %. le niveau global de
variances. Seule la valeur de 0,142 sort du lot, cela indique que cette variable
n’est corrélée à aucune autre variable.
Interprétation de l’analyse en composante
principale (suite)
Dans la matrice ci-contre, on peut le voir, les 2
composantes ont une corrélation égale à zéro. Elle montre
les corrélations ( de -1 à +1) entre les variables et les
composantes.
Interprétation des principales composantes est basée sur
la recherche de variables qui sont le plus fortement
corrélées avec chaque composante, c'est-à-dire quelles
sont celles qui ont de grande valeur et les plus éloignés
de zéro dans leur direction positive ou négative. Ici, une
valeur de corrélation supérieure à 0,5 est jugée
importante. Ces corrélations sont indiquées dans le table
ci-contre.
La 1ère composante principale est fortement corrélée avec quatre variables originales. Cette
composante augmente avec l'augmentation de l'atelier, théorie de projet, dessin et HCA. Cela
indique que ces quatre variables varient ensemble. Si l’une augmente, les trois autres ont tendance
à faire la même chose. Donc, cette composante peut être considérée comme une mesure de l'atelier,
théorie de projet, dessin et HCA. De plus, nous voyons que la première composante est la plus
fortement corrélée avec la théorie de projet.
En fait, on pourrait affirmer que sur la base de la corrélation de 0,881 que cette composante
principale est avant tout une mesure de la théorie de projet. Il s'ensuivrait que les valeurs élevées
ont tendance à prouver que les étudiants travaillent beaucoup et assistent aux cours et participer
activement aux différents débats sur l'architecture. Aussi, la grande valeur des corrélations montre
clairement que l'atelier, théorie de projet, dessin et HCA sont des modules de base pour la 1ère
année architecture et qu’il faut bien maitriser leurs contenus.
Interprétation de l’analyse en composantes
principales (suite)
 2ème composante principale
La deuxième composante principale augmente avec seulement deux
variables: physique et mathématiques. On y constate que ces deux
variables ont des saturations élevées sur le 2ème facteurs. Ces deux
matières ne sont pas corrélées avec celles de la 1ère composante. Cela
signifie qu’être bon en physique et mathématiques n’est pas toujours une
preuve suffisante pour attester que cet étudiant est apte à être réceptif
aux études en architecture.
Par contre, les deux variables sont bien corrélées et une augmentation de
l’une entraine une augmentation de l’autre .
Chaque point représente une variable . Sur le diagramme on peut voir deux
groupes de variables qui ne sont pas corrélés. Le 1er est constitué de l'atelier,
théorie de projet, dessin et HCA et le 2ème de la physique et des mathématiques . Ces
derniers sont de grande valeur pour la 2ème composante principale . Aussi, les
étudiants ont des bonnes notes dans les modules d’atelier, théorie de projet,
dessin et. La variable TMC, pour la 2ème composante, occupe une position isolée du fait
de sa très faible valeur et puis elle n’est corrélée à aucune variable .
Université d’Oum El Bouaghi
Faculté des sciences de la terre et de l’architecture

Prof. Adad Mohamed chérif

Vous aimerez peut-être aussi