Vous êtes sur la page 1sur 35

Analyse des données

L’Analyse en Composantes Principales(ACP).

Pr : RAZZOUK REDOUANE

Gestion d’entreprise et Informatique


Semestre 4
Année universitaire 2011-2012
Plan
Introduction à la Méthode de l’ACP
Objectifs ACP
Concepts de base
Exemples de l’ACP
les plus importants tests de validité
Conclusion
Introduction
• L’analyse en composantes principales(ACP),
introduite par K. Pearson et Thurston (années 20),

• Elle est une technique des statistiques descriptives


destinée à l’analyse des données
multidimensionnelles.

• Elle permet de réduire la dimension de l’espace des


Variables.
Objectifs:
• Réduire le nombre de (variables) avec le minimum de
perte d’information et préservant les relations existant
déjà avec entre les différents .
• Prendre une série de décisions portant sur les
propriétés des variables soumises à l’analyse, les
propriétés de la matrice d’intercorrélation, le nombre de
composantes à extraire …etc
X i k = valeur de la variable k pour
Concepts de base l’observation i

Tableau quantitatif I = nombre d’observations


1 k K
K= nombre de variables
1 !

! OBJECTIF DE L’ACP

!
lignes : ressemblances
i - - - - - -Xik - - - - -
similarité et typologie
!

!
colonnes : liens
corrélation et typologie
I !
Calcul des distances dans l’ACP
Pour les observations
mesurer la ressemblance entre deux observations

d 2
(i, l)   (x ik  x )
lk
2

k K

Pour les variables


mesurer les liens entre les variables

1 xik  xk xih  xh
r(k, h)  ( )( )
I i I sk sh
Rappels
• Matrice de variance-covariance : mesure la liaison entre les
différents variables

Σ= où cov(Xi, Xi) = Var(Xi).

• Matrice de corrélation : même chose que Σ sauf qu’il s’agit


d’un paramètre sans dimension
R = (Rij)i,j
Principes de l’ACP

1° : centrer les variables


résultats
(xih  xh) aucune influence sur les

origine des axes =


centre de gravité

2° : réduire les variables


xih  xh toutes les variances = 1
( )
sh
variables Analyse des lignes (observations)
1 k K
NI
1 !

! i
x x
x
observations

x Variable k
xik  xk x G
i ( )
sk x

! xik  xk
( )
sk
I !

dans RK la corrélation = distance euclidienne


Exemple : variables mesurant les motivations à
acheter une marque de voiture.

Variables
Types Couleur Puissance Vitesse Prix

Renault 11 60 110 40
Golf 12 62 93 25
Peugeot 15 80 113 39
Citroën 14 75 94 25
Fait 14 82 100 30
Toyota 13 72 102 32
Statistiques descriptives

Minimum Maximum Moyenne Ecart type

Couleur 11 15 13,1667 1,4720

Puissance 60,00 82,00 71,8333 9,1305

Vitesse 93,00 113,00 102,00 8,1731

Prix 25,00 40,00 31,8333 6,5549


Matrice de corrélation entre les quatre variables

Couleur Puissance Vitesse Prix

Couleur 1 0,970 -0,064 0,094

Puissance -- 1 -0,102 0,037

Vitesse -- -- 1 0,986

Prix -- -- -- 1
Remarques
Le tableau 1 est difficile à lire (en particulier
lorsqu’on a plusieurs variables et sujets).
 Par conséquent les relations entre les
différents variables sont indécelables à
première vue.
 La matrice de corrélation (matrice de liaison
sans dimension) montre que la Couleur est
fortement corrélée avec la Puissance ; il en
est de même pour les variables 3 et 4.
Comment résoudre notre problématique
• Les variables de départ sont remplacées par
« des vecteurs propres » de la matrice Σ ou
de la matrice R, appelés Composantes
principales.
• Y-a-t-il un critère d’arrêt ? généralement on
s’arrête quand au moins 75% de la variance
est expliquée par la variance cumulée par
les CP.
Qu’est-ce qu’un vecteur propre ?
•  est une valeur propre de la matrice A si et
seulement si
Av = v
• Le vecteur v dans la relation ci-dessus est appelé
vecteur associé à 
• Les valeurs propres s’obtiennent en résolvant le
système d’équations det(A- I) = 0.
vecteur propre (Suite)
• Le nombre de valeurs propres, 1> … > p,
est égal au nombre de lignes = nombre de
colonnes de la matrice A

• Important : La somme des valeurs propres


de A est égale à la variance contenue dans
l’ensemble des données.
Expression des composantes principales
• D’un point de vue pratique les composantes
principales s’écrivent
Fj = 1X1+….+ pXp

c’est-à-dire que Fj est une combinaison linéaire des


variables initiales X1,… , Xp.
En plus de cet aspect calculatoire on doit pouvoir
faire des affirmations sur la qualité de la réduction et
la qualité de la représentation graphique.
Interprétation
• Chaque valeur propre représente la variance prise en compte
par la composante principale correspondante.
• Pour l’exemple on obtient :

Couleur Puissance Vitesse Prix


Valeur 2.0011 1.8668 0.0317 0.0003
Propre
Prop. 0.5003 0.4917 0.0079 0.0001
Variance
Prop. 0.5003 0.9920 0.9999 1
Cumulée
Interprétation (Suite)
• Ici les deux premières composantes rendent
compte de 0,5003+0,4917 = 0,9920 = 99,2
% de la variance totale.
• Ce qui veut dire que les 4 variables peuvent
être remplacés par les 2 premières
composantes tout en préservant la quasi-
totalité de l’information (réduction).
Représentation graphique
Représentation graphique
Consommations annuelles de 8 types de denrées
alimentaires pour 8 catégories socio-professionnelles

PAO PAA VIO VIA POT LEC RAI PLP

AGRI 167 1 163 3 41 8 6 6

SAAG 162 2 141 12 40 12 4 15

PRIN 119 6 69 56 39 5 13 41

CSUP 87 11 63 111 27 3 18 39

CMOY 103 5 68 77 32 4 11 30

EMPL 111 4 72 66 34 6 10 28

OUVR 130 3 76 52 43 7 7 16

INAC 138 7 117 74 53 8 12 20


Variables : Observations :

PAO Pain ordinaire AGRI Exploitants agricoles


PAA Autre pain SAAG Salariés agricoles
VIO Vin ordinaire PRIN Professions indépendantes
VIA Autre vin CSUP Cadres supérieurs
POT Pommes de terre CMOY Cadres moyens
LEC Légumes secs EMPL Employés
RAI Raisin de table OUVR Ouvriers
PLP Plats préparés INAC Inactifs
les plus importants tests de validité de
la méthode utilisée
Le test de Kaiser-Meyer-Olkin
Le test est une mesure généralisée de la corrélation partielle
entre les variables de l’étude. Cette mesure est basée sur la
moyenne des coefficients de corrélation qui sont situés dans la
diagonale de la matrice anti-image.
r ik
2

La formule est : KMO  ik

aik : les corrélations partielles r  a


ik
2
ik
ik
2
ik
(Anti-image corrélation)
La lecture du test KMO se fait de la façon suivante :

– 0,90 et plus = très grande validité ;


– 0,89 à 0,80 = grande validité ;
– 0,79 à 0,70 = validité moyenne ;
– 0,69 à 0,60 = validité faible ;
– 0,59 à 0,50 = validité au seuil limite ;
– 0,49 et moins = invalide.
Exemple

Le test de Kaiser-Meyer-Olkin

Indice KMO
Mesure de précision de l'échantillonnage de Kaiser-
Meyer-Olkin. ,67

Le résultat du test de Kaiser-Meyer-Olkin montre que la solution de


l’analyse en composante Principales est insuffisante , ce qui est
justifié par la faiblesse de taux de validité
Nous constatons que les corrélations partielles sont importants.
le test de sphéricité de Bartlett
 Le test de Sphéricité de Bartlett examine la matrice des corrélations dans son
intégralité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes
les corrélations sont de zéro.

Le test de Bartlett est un test d’hypothèse, une forme approchée


du khi carré. Le calcul se fait à partir du rapport r de la moyenne
géométrique à la moyenne arithmétique des valeurs propres ; les formules
utilisées sont: 2p  5
 2
  (n  1  ) ln | R |
6
2p  5
 (n  1  )  rik2
6 ik

 p(p  1) 
est supérieur au seuil 1-
2
  
 2 
Exemple

Test de sphéricité de Bartlett Khi-deux approché 26,182


ddl 6
Signification ,000

le test de sphéricité de Bartlett nous donne une valeur de 26,182


ce que nous permet évidemment de rejeter l’hypothèse nulle et
d’affirmer qu’il ne s’agit pas non plus d’une matrice d’identité
Le test du coude de Cattell
En 1966, Cattell a proposé une méthode graphique pour décider
du nombre de composantes à extraire. Le test d’accumulation de variance
communément appelé « scree test » demande que l’on trace un graphique
illustrant la taille des valeurs propres « eigenvalues » des différentes
composantes en fonction de leur ordre d’extraction.

Le Graphique des valeurs propres donne une représentation graphique


des informations sur les valeurs propres de chaque facteur présentées
dans le tableau des statistiques initiales.

Dans cette représentation, il faut rechercher le point (parfois les points)


de cassure qui représente le nombre de facteurs au-delà duquel
l'information ajoutée est peu pertinente.
On y constate que la pente
change radicalement avec la
composante C3. La
représentation graphique des
variances nous aide à voir que
le point C3 appartient beaucoup
plus au segment C3 à C 4
qu’au segment C1 à C3.
Selon le critère de Cattell on
devrait donc se limiter à
l’extraction des deux premières
composantes.
Qualité de représentation des variables
Qualité de représentation
Initial Extraction
COULOUR 1,000 ,971
VITESSE 1,000 ,998
PUISSANC 1,000 ,969
PRIX 1,000 ,999

La qualité de la représentation permet de vérifier si les variables initiales


sont bien prises en compte par les variables extraites. Ici, la qualité de
représentation de la variable «COULOUR » est de 0,971. Ce qui signifie que 97,1
% de la variance de la variable est prise en compte par l’une des deux
dimensions extraites. Dans cet exemple, les variables «VITESSE
»,«PUISSANCE » et «PRIX» sont bien représentées.
CONCLUSION

Principe de la méthode de l’ACP

 Calcul des distances entre individus


 Recherche des directions de plus grande dispersion du nuage de
points : axes factoriels
• Plus grande dispersion : moindre déformation
• Meilleur respect des distances entre individus
• Maximisation de l’inertie du nuage projeté
• On procède axe par axe, mais les propriétés restent vraies pour le
premier plan factoriel, le premier espace factoriel de dimension 3,
etc
Les étapes principales de l’analyse en composantes
Les principales étapes de l’analyse en composantes principales sont :
1. la recherche des variables similaires ; celles-ci doivent faire partie
d’un même ensemble : mesure de la satisfaction, de l’intérêt, etc. ;
2. la matrice des corrélations entre les variables choisies ;
3. la diagonalisation de la matrice D1, D2, … Dn ;
4. la rotation, qui désigne les facteurs les plus importants selon leur
degré d’inertie (de variance expliquée) ;
5. la définition « littéraire » des facteurs ;
6. la lecture des tests les plus importants ;
7. l’interprétation des résultats au plan des décisions et de l’action.
Références de base
• Fenneteau H. et Biales C.(1993)« Analyse
statistique des données » Edition ellpses
• Giard V. (1992), Statistique appliquée à la
gestion, Editions Economica.
Kerr A. W., Hall H. K., Kozub S. A., (2002),
Doing Statistics with SPSS, Sage
Publications.
Lebart L., Morineau A., Piron M. (1997),
Statistique exploratoire multidimensionnelle,
Editions Dunod.
Merci pour votre aimable
attention

Vous aimerez peut-être aussi