Vous êtes sur la page 1sur 54

Fondamentaux de Statistique pour le

Management QF01
Chapitre 4. Analyse en Composantes Principales (ACP)
Synthétiser l’information de plusieurs variables

C. Hahn & R. Jallet-Cattan


Principe

Méthode d’analyse de données globale où

un ensemble d’individus est décrit par


un ensemble de variables quantitatives

2
Etape1 – Sélectionner les variables et individus

Choisir les variables actives / illustratives


Et
Les individus actifs / illustratifs

Choix personnel !

3
Éléments illustratifs

Introduire des individus (ou variables) supplémentaires


lorsque tous les individus (ou toutes les variables) ne
jouent pas le même rôle.

Possibilité de lecture sur le graphique mais pas de


contribution à la formation des axes factoriels

4
Etape 2 – Construire et étudier le tableau centré réduit

Remédier à l’hétérogénéité des variables :


unités de mesure ou distributions

Centrer et réduire les données

Eliminer les différences de moyenne et de
variance entre les variables

Mettre en illustratif
ACPles individus extrêmes !
normée 5
Objectif 1

Faire un bilan des ressemblances entre


les individus

Etudier le positionnement des individus les


uns par rapport aux autres
au regard des variables considérées
6
Objectif 1: questions

 Quels sont les individus qui se ressemblent ?

 Quels sont ceux qui sont différents ?

 Existe-t-il des groupes homogènes d’individus ?

 Peut-on faire une typologie des individus ?

7
Objectif 2

Faire un bilan des liaisons entre les


variables

Etudier les relations entre les variables


au regard des individus considérés

8
Objectif 2: questions

 Quelles sont les variables qui sont liées positivement entre elles ?

 Quelles sont celles qui s’opposent ?

 Existe-t-il des groupes de variables corrélées entre elles ?

 Peut-on faire une typologie des variables?

9
Objectif 2 : méthodologie

Résumer l’ensemble des variables


par un petit nombre
de variables synthétiques

(=synthèse d’un groupe de variables liées entre elles)

10
Une double représentation géométrique
Tableau
Individus  Variables

 
ensemble de lignes ensemble de colonnes
 
étude des individus étude des variables
 
plans factoriels cercles de corrélation

11
Une double représentation géométrique

12
Représentation des individus
Tableau = juxtaposition de lignes

Individu:
point d’un espace à p dimensions
(chaque dimension = 1 variable)

Nuage de N points
dans un espace à p dimensions
13
Représentation des variables

Tableau = juxtaposition de colonnes

Variable :
point d’un espace à N dimensions
(chaque dimension = 1 individu)

Nuage de p points
dans un espace à N dimensions
14
Etape 3 – Procéder à l’analyse

En 2 temps :

Représentation des individus


&
Représentation des variables

15
3.1 Représentation des individus

Nuage de N points-individus
dans un espace à p dimensions

où O : individu « moyen »
pour l’ensemble des critères

16
Étude du nuage des points- individus

Mesurer la ressemblance entre deux individus

Mesurer la distance entre deux points-individus

Analyser la dispersion du nuage

17
Étude du nuage des points- individus

Bilan des distances

Étudier la forme du nuage

Déterminer les directions principales par rapport


auxquelles les individus se différencient le mieux

Déterminer les axes factoriels


18
Déterminer les axes factoriels

Définir les axes :

 orthogonaux 2 à 2

 passant par O

 qui déterminent les directions de dispersion maximale

19
1er axe factoriel, Δ1

OPi² maximale

Mi points individus

Δ1 1er axe factoriel

Pi projeté de Mi sur Δ1

20
2ème axe factoriel, Δ2

Δ2  Δ1
OPi’² maximale

Δ2 2ème axe factoriel

Pi ’ projeté de Mi sur Δ2
21
Déterminer les p axes factoriels
ou p nouvelles variables Vk

p axes factoriels

p nouvelles variables Vk

22
Déterminer les p nouvelles variables Vk

Les variables Vk sont telles que :

 Non corrélées 2 à 2

 De variance décroissante : V(V1)>V(V2)>…

La variance de Vk correspond à la dispersion des points


individus dans la direction de l’axe factoriel.
23
Déterminer les p nouvelles variables Vk

24
Déterminer les p nouvelles variables Vk

Les nouvelles variables


sont combinaisons linéaires des variables d’origine

Elles permettent de positionner les individus sur les


différents axes factoriels

Vk = Σj αkj Xj
Poids de chaque variable d’origine dans la constitution de Vk 25
3.2 Représentation des variables

Nuage de p points-variables
dans un espace à N dimensions

Dans la représentation des variables,

on s’intéresse aux directions (vecteurs)

plutôt qu’aux extrémités (points)

26
Quelques Propriétés

Propriété 1
Tous les points sont à la même distance de
l’origine du repère

Propriété 2
cos(OX1, OX2) = (X1, X2)

27
Étude du nuage des points-variables

Le nuage des points-variables offre


un support géométrique au
coefficient de corrélation linéaire

Pour faire un bilan des liaisons,


on va étudier les angles des vecteurs
définissant le nuage

28
Étude du nuage des points-variables

Étudier les angles des vecteurs définissant le nuage


est impossible dans un espace de dimension supérieure à 3 !

Nécessité de définir des variables synthétiques

29
Étude du nuage des points-variables
Projection optimale

Conservation des liaisons entre les variables

Conservation des coefficients de corrélation linéaire

Déformation minimum des angles entre les vecteurs


représentant les variables

30
Les cercles de corrélation

Construire des axes orthogonaux 2 à 2


représentant le mieux possible
le nuage de points-variables

Construire des représentations planes optimales :


les cercles de corrélation

31
Les composantes principales

Construire des axes orthogonaux 2 à 2


représentant le mieux possible
le nuage de points-variables

Associer à ces nouveaux axes


des nouvelles variables appelées
les composantes principales et notées Ck
32
Projection d’une variable
dans le cercle de corrélation

33
Lien entre les deux représentations

Les deux nuages sont


deux représentations du même tableau

Il existe des relations fortes,


dites relations de dualité, entre les deux
34
Lien entre les deux représentations

La « dispersion globale » des deux nuages


est identique :

elle est égale au nombre


de variables actives p

35
Lien entre les deux représentations

Nuage des points-individus


A l’axe de rang k, on associe
k = 1/N OPi² avec  k = p

Nuage des points-variables


A l’axe de rang k, on associe
k =  j ²(Xj,Ck) avec  k = p
36
Lien entre les deux représentations

37
Lien entre les deux représentations

38
Etape 4 – Etudier les axes factoriels

Choisir le nombre d’axes factoriels

Interpréter les axes factoriels

Synthétiser par les cercles de corrélation

39
4.1 Choisir le nombre d’axes factoriels
Qualité de la représentation du nuage par un axe

Pourcentage de variance expliquée par un axe


=
Part de la dispersion globale nuage expliquée par l’axe

40
4.1 Choisir le nombre d’axes factoriels
Qualité de la représentation du nuage par un axe

OPi²  OMi²

(avec P projection de M sur l’axe)

Attention à la dimension de l’espace associé aux


variables !

41
4.1 Choisir le nombre d’axes factoriels
Qualité de la représentation du nuage par un axe

On sélectionne les axes qui restituent plus d’information


que la moyenne !

Axes dont l’inertie expliquée est supérieure à 100/p %


Ou encore
Axes associés à une valeur propre supérieur à 1

Critère de Kaiser 42
4.2 Interpréter les axes factoriels

Variables synthétiques
non corrélées linéairement deux à deux

Valeurs des coefficients de la combinaison

Interprétation de l’axe associé

43
Etape 5- Interpréter la position des individus

Evaluer la contribution aux axes

Mesurer la qualité de la représentation

Analyser la position des individus

44
5.1 Evaluer la contribution aux axes

Contribution de l’individu M

OP² / OPi²

(avec P projection de M sur l’axe)

45
5.2 Mesurer la qualité de représentation

La différenciation d’un individu par rapport à l’individu


moyen est caractérisée par sa distance à O

46
Qualité de représentation des individus

Meilleur ajustement du nuage

Meilleure conservation des distances

OMi le plus proche possible de OPi


47
Qualité de représentation d’un individu par un axe Δk

La part expliquée par un axe Δk est caractérisée par :

OP² / OM² = cos²(OP,OM)

Si cos² = 1, alors Δk explique à 100% la différenciation de


cet individu par rapport à l’individu moyen

48
5.3 Analyser la position des individus

On peut étudier la position des individus


macro statistiquement et micro statistiquement
à partir de leurs coordonnées
et des interprétations des axes factoriels faites
précédemment !

49
Procédure générale

50
Quelques éléments de calcul…
La matrice des corrélations

X1 … Xj … Xp
X1 1 (X1, Xp)


Xj (Xj, X1) 1 (Xj, Xp)

Xp (Xp, X1) 1
51
Quelques éléments de calcul

« On* » diagonalise…

…et on obtient…

* le logiciel !
52
Quelques éléments de calcul…
Les valeurs propres

Δ1 … Δj … Δp

1 0 0 0 0
0 . 0 0 0
0 0 j 0 0
0 0 0 . 0
0 0 0 0 p
53
Quelques éléments de calcul…
Les vecteurs propres

Δ1 … Δj … Δp

11 j1 p1


12 j2 p2
13 j3 p3
14 j4 p4
15 j5 p5
54

Vous aimerez peut-être aussi