Académique Documents
Professionnel Documents
Culture Documents
3. Analyse factorielle,
composantes principales
introduction
- résumer et synthétiser ;
- - hiérarchiser l'information contenue dans un tableau de :
- - n lignes (les individus) ;
- - p colonne (les variables).
Les n individus sont décrits par un nuage de p variables. L'information représentée par ce
nuage revient à la dispersion des n points.
- Produire un résumé de cette information c'est projeter ces points dans un espace de
dimension inférieure à p le nombre de variables initiales.
- - Les axes de ce sous-espace sont dits "axes factoriels*" ou "facteurs*".
- - Le résumé est possible dans la mesure où les variables ne sont pas totalement
indépendantes
- - Chaque variable "p" porte en elle :
- une part d'information originale ou part d’inertie ;
- une part d'information redondante avec les autres, venant des corrélations entre
variables.
C'est cette part d'information redondante que l'on va regrouper dans le résumé factoriel.
1
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
A chaque variable est associé un coefficient "a", ce coefficient "a" est proportionnel à
l'intensité qui lie la variable au facteur.
- associé au 1er axe, c'est le meilleur résumé dans un espace à deux dimension
- et ainsi de suite, pour les axes suivants tant que l’on pense qu’ils apportent encore de
l’information.
Avant d’aborder l’explication de la méthode proprement dite, une première section détaillera
intuitivement la question de la définition d’un nuage de points.
2
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Ainsi dans les représentations ci-dessus, le graphique de gauche nous laisse l’idée d’une
absence de liaison, ou du moins d’une absence de constat de liaison dans une première
approche rapide. A l’inverse celui de droite indique une présomption de forte liaison, celle-ci
pouvant se traduire par l’établissement d’un modèle et nous renvoie au chapitre précédent.
Dans le cas de fichiers/tableaux importants en nombre d’individus la situation est souvent plus
complexe et fait apparaître le groupement des individus. Ce type de données peut en grande
partie, et pour une logique explicative dépendre d’un modélisation des interactions à
l’exemple de l’analyse de la covariance. De manière plus directe on peut aussi supposer, dans
ce troisième graphique, que cette représentation dans R2 (à travers de deux variables) conduit
à des conclusions de groupements alors que la comparaison de la distribution de X2 avec une
troisième variable X3 conduirait à une liaison forte entre X2 et X3. Aussi lorsque nous
représentons dans le plan, à deux dimensions, un phénomène de groupement, comme dans le
graphique suivant entre X1 et X2, on peut s’interroger si ce phénomène de groupement se
retrouve en combinant deux à deux les dimensions/variables. Ceci pour un nombre supérieur à
2 de ces dimensions.
Aussi il nous est nécessaire d’imaginer une méthode où les éventuels groupements valables
sur plusieurs dimensions pourraient être représentés de manière simple sur un plan. Dans cet
objectif, on sera conduit à construire une représentation de la complexité en déformant
3
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
l’information initiale. Notre question devient alors : comment rendre minimum ces
distorsions tout en permettant une visualisation synthétique de la question.
Dans le cas le plus général, le tableau X de données initial est supposé comprendre n
individus, soit des lignes indicées i avec i=1 à n. Les caractères variables seront disposées en
colonnes, indicées j, avec j=1 à p. De manière générale p sera de dimension largement
inférieure à n.:
encore noté .
Le but de l'ACP revient à trouver une bonne représentation des individus dans un espace
plus restreint que celui des p variables d’origines (k<p). Souvent même on se limitera à une
représentation dans le plan principal (k=2). Ceci revient à rechercher le sous-espace affine, ou
espace Ek de dimension k (k<p souvent k=2). Un espace affine, dans k dimensions, est obtenu
par transformations linéaires à partir de l’espace « plus riche » de p dimensions.
Le critère retenu pour évaluer ces transformations repose sur la prise en compte de l’inertie
engendrée dans l’espace original qui est prise en compte dans le second espace. Inertie telle
Le centre du nuage de point, ou centre d’inertie, possède pour coordonnées les moyennes des
différentes variables actives dans l’analyse :
La solution de l’analyse factorielle est basée sur l’utilisation des propriétés spectrales des
matrices : les vecteurs propres normés de la matrice VM, matrice des variances covariances
4
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
des variables prises en compte dans l’analyse, ordonnés suivant les valeurs propres
décroissantes fournissent les axes appelés axes factoriels. De plus, les inerties
expliquées par ces axes sont égales aux valeurs propres . Les ui forment une base M-
orthonormée de Ek : les vecteurs ui sont par définition normés et par ailleurs, la matrice VM
étant symétrique, ses vecteurs propres sont orthogonaux.
On peut alors représenter les individus en transposant les résultats dans l'espace Rn (par XM).
En pratique, au lieu de calculer les axes factoriels, on préfère calculer les facteurs principaux
d'inertie, valeurs propres de MV et transposer les résultats par X.
Ceci renvoie à la question analytique du passage d’un espace à un autre espace, donc établir
une projection. Géométriquement les points individus x(1,p), x(2,p), …. x(n,p) peuvent se
représenter pour plusieurs des dimensions p. La représentation de la projection est donnée
dans le graphique suivant où l’on représente deux points quelconque x1 et x2 sur deux
dimensions. Le problème revient à choisir un plan de projection où les distances carrés
moyennes entre les projections sur le plan f1 et f2 seront maximale. Ceci puisque l’opérateur
projection raccourcit par définition les projections et qu’il est souhaitable de conserver les
distances maximales entre f1 et f2.
La moyenne des carrés des distances entre les fi (tracés verts) est donc égale à la moyenne
des carrés des distances entre les ai (tracés bleus) plus la moyenne des carrés des distances
entre les bi (tracés rouges). La méthode, basée, comme tout calcul sur les distances de
projections sur les propriétés des triangles rectangles, revient donc à chercher une droite d1
qui rende maximale la moyenne des distances entre les points, ici a1 et a2, mais généralisés à
ai et aj. Puis trouver une droite d2, perpendiculaire à d1 et rendant maximales les distances
entre bi et bj. On peut ainsi continuer jusqu’à construire un système de projection sur autant
de dimensions que l’on disposait de variables dans le système origibal.
La méthode ainsi décrite, revient à une analyse factorielle car ceci revient à représenter une
réalisé sous une autre forme plus synthétique par un produit de facteurs, ceux-ci parviennent
au mêmes résultats sous une forme plus synthétique. Ceci à l’exemple de a2+2ab+b2 factorisé
en (a+b)2.
5
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
3.1.3 Illustration
Pour donner une illustration de cette démarche, on peut prendre en exemple l’analyse d’un
tableau simple. Celui ci donne l’orientation des bacheliers, filières générales et techniques de
l’an 2000, qui se sont inscrits à la rentrée universitaire dans l’enseignement supérieur. On a
retenu comme « observation » les séries de baccalauréat (L, S, ES et technologique). Pour les
« caractères » orientation on retient l’université, les classes préparatoires aux grandes écoles
et les filières courtes de l’enseignement supérieur (STS et IUT). Dans un second temps ce
tableau a été normé, c’est à dire chaque case à été divisée par le grand total du tableau afin
que le total des cases soit égal à 100..
Si les distributions avaient été indépendantes, la répartition du total des lignes se serait
appliquée à chaque série de baccalauréats. Ainsi si 57% des bacheliers se dirigent vers
l’université, 57% des bacheliers littéraires auraient du se diriger vers l’université or, en
6
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
rapport du total, 10% sur 14% (soit 71% des littéraires) ce sont dirigés vers l’université. A
l’inverse seuls 1/3 des baccalauréats techniques se dirigent vers l’Université.
Ainsi peut-on calculer pour chaque ligne des écarts aux effectifs théoriques de répartition
indépendante :
7
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Tableau théorique
D’indépendance M0
Université CPGE Sup. Court
L 8 1 5 14
ES 10 2 6 18
S 18 3 11 32
Technologie 21 3 12 36
Total 57 9 34 100
Tableau des écarts ME=M-M0
Université CPGE Sup. Court
L 2 0 -2 0
ES 4 0 -4 0
S 3 2 -5 0
Technologie -9 -3 11 0
Total 0 0 0 0
Le talbleau ME donne l’information la plus utile. Les écarts positifs donnent les choix
privilégiés pour chaque série de baccalauréat, alors que les cases négatives de ME traduisent
les séries délaissées par les bacheliers d’une série. Ainsi on peut avancer qu’un écart positif
dans ME traduira une « attraction » entre une ligne et une colonne, alors qu’un écart négatif
traduira une répulsion.
Puisque M=M0-ME, on peut avancer que le tableau M a fait l’objet d’une décomposition
factorielle. Le tableau M0 ou tableau d’indépendance s’obtient directement à partir de ses
marges, puisque chaque case dérive du produit croisant la marge de ligne avec la marge de
colonne ; le but est de donner des poids identiques aux cellules. Le second tableau ME d’écart
à l’indépendance, en l’état, ne peut se résumer simplement
8
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
maximal de ces tableaux est au plus égal à la plus petite dimension (rang) du tableau , soit ici
la dimension des trois colonnes d’orientation.
Un premier constat est celui de la distance à l’origine. On retrouve ainsi la notion d’inertie.
Ainsi dans le processus d’orientation la position des points représentant le bac technique et le
supérieur cours sont plus éloignés du centre d’inertie (origine) que ne le sont les positions
relatives au bac littéraire et à l’Université. Les premiers éléments génèrent plus de variabilité
que n’en créeront les seconds.
Plus intéressant encore peut être constaté de la position des points. Observons la position
respective de l’orientation CPGE, d’une part, et, d’autre part, des séries L et ES. Les cases, de
la matrice ME, qui lient CPGE à ES et L sont nulles. Autrement dit il n’y a pas d’écart à
l’indépendance, donc il y a indépendance. La longueur de la projection est nulle et le produit
de ce projection par n’importe quel élément sera nul. Ceci indique donc que les bacheliers des
séries L et ES intègrent les CPGE comme la moyenne de l’ensemble des bacheliers.
La seconde particularité repose sur les points alignés. Le cas se présente ici pour les séries L
et ES. Dans ce cas les vecteurs lignes représentant les séries et colonnes représentant les
orientations sont en conjonction parfaite (angle nul), en terme vectoriel la projection d’un
vecteur sur l’autre donne comme résultat la plus petite norme. Donc ici on conclu que les
séries L et ES possèdent des caractéristiques d’orientations identiques. De manière générale,
si l’angle est inférieure à l’angle droit, le produit des vecteurs sera positif ; ceci correspond à
un écart positif dans les écarts à l’indépendance donc à une certaine attraction entre deux
points. L’intensité de cette attraction est à relativisée en fonction de la longueur et de l’angle
que forment ces vecteurs. Ce type de liaison s’attachera à relativiser des positions pour des
points se situant de le même quadrant du graphe.
La troisième particularité est représentée par des vecteurs dont l(angle est supérieur à l’angle
droit. La cas le plus net concerne des vecteurs alignés avec des points dans des cadrant
opposés. Ce cas limite concerne un élément du tableau M pour lequel l’élément correspondant
de M0 serait nul. L’ensemble de la variabilité serait ici pris en compte par les écarts à
l’indépendance. Les points sont dits alors en totale opposition. Dans le cas plus général, le
vecteur sur lequel l’on a projeté et la projection sont de signes opposés. Cette opposition
montre un déficit par rapport à l’indépendance. Ainsi, les bac littéraires et ES vont moins que
la moyenne dans les filières de supérieur court.
9
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
L’ACP revient ainsi à effectuer un changement variables où des variables construites à partir
des valeur fondamentales de la description de l’inertie, c’est à dire les valeurs caractéristiques
de la matrice de corrélation. Le but est d’obtenir un ensemble de variables construites qui
puisse expliquer la variiété du tableau de données à partir d’un ensemble de variables
construites en nombre significativement inférieur que celui du jeu de variables initiales.
Ici, on reprend des données extraites des travaux de ANDRE et DELORME sur une analyse
historique de la dépense par fonction dans le budget de l’Etat ( C. André et R. Delorme,
l’évolution de la dépense publique en France, rapport Cepremap 1976). Ces données
s’arrêtant en 1971, elles sont ici actualisée en utilisant les résultats de l’annuaire statistique de
la France de l’INSEE.. Les illustrations et listages sont directement obtenus par copie des
sortie du logicial SPAD
10
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Une partie préliminaire des analyses de l’ACP ne doit pas être négligée, elle fait appel à la
statistique descriptive. Une première analyse peut comprendre deux étapes :
L’exemple ici traité reprend la répartition par pourcentage des dépenses de l’Etat, en France,
ceci pour les fonctions suivantes :
11
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
autres variables. Autrement dit la variété apportée par cette variable est construite ; il est
d’usage dans les analyses multidimensionnelles de considérer cette variable comme
illustrative ; mais de ne pas la prendre en compte dans les calculs de factorisation.
Une première analyse consiste à examiner les statistiques descriptives de ces 11 variables sur
les 29 observations . Ceci est repris dans le tableau suivant à l’image du résultat donné par
SPAD (on note que la pondération est uniforme)
12
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
13
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
G={12,71, 2,02,……………17,28)
Une analyse rapide du tableau permet de mesurer à partir des indications de dispersion et
d’amplitude l’importance des fonctions service de la dette (DET, c11), défense (DEF, c10) et
éducation (EDU, c7) dans l’origine de l’inertie du nuage de points. Ceci se constate dans
l’analyse de la matrice des variances-covariances. La trace de cette matrice, somme des
éléments diagonaux conduit à une valeur de 362; les trois variables précitées y comptent pour
environ plus des deux tiers.
L’inertie de 361 correspond au total des variances, soit une mesure de la dispersion du nuage
de point autour de son centre de gravité. Cette dispersion est ainsi l’inertie autour du centre de
gravité ::
Le terme distance au carré représente effectivement le carré de la distance de chaque point par
rapport au centre de gravité. Soit aussi détaillé pour chaque variable :
L’inertie totale peut donc se calculer comme la somme des variances des variables du
problème, soit ici les 10 fonctions de dépenses.
14
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
* * * PVP AGR CMI TRA LOG EDU ACS ACO DEF DET DIV
C2 | 5.19
C3 | -0.25 2.32
C10 | -5.56 -4.59 -20.13 2.44 -7.69 -45.92 -42.64 -4.94 84.32
C11 | -3.71 -11.74 -39.76 -3.59 -30.64 -54.63 -48.00 1.44 45.50 140.01
C12 | 0.34 -0.40 -1.05 0.25 -1.47 -0.60 -0.96 -1.29 -0.80 5.13 0.86
15
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
VALEUR POURCEN
Numéro PROPRE POURCENT. CUMULE Histogramme
1 240,6931 66,32 66,32 ********************************************************
2 9,1395 19,05 85,36 ***********************
3 23,5955 6,50 91,87 ********
4 17,0950 4,71 96,58 ******
5 5,1091 1,41 97,98 **
6 3,6348 1,00 98,98 **
7 1,4697 0,40 99,39 *
8 0,9724 0,27 99,66 *
9 0,9015 0,25 99,91 *
10 0,3405 0,09 100,00 *
A « l’individu », ici les individus sont des budgets, est associé le point :
Par construction le centre de gravité sera formé des coordonnées nulles et l’inertie totale est
formé par la somme du nombre de variable puisque la variance est normé sur l’unité.
16
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
fonctions économiques (LOG, CMI) ; ces deux groupes de fonction subissent elles-mêmes un
effet de concurrence du service de la dette et de la fonction de défense.
C2 C3 C4 C5 C6 C7 C8 C9 C10 C11
PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
C2 PVP 1
C3 AGR -0,07 1
C4 CMI 0,1 0,57 1
C5 TRA 0,19 -0,25 0,08 1
C6 LOG -0,01 0,43 0,85 0,16 1
C7 EDU 0,24 0,53 0,47 -0,15 0,11 1
C8 ACS 0,35 0,43 0,49 -0,12 0,19 0,92 1
C9 ACO -0,69 0,05 -0,04 -0,31 0,05 -0,04 -0,04 1
C10 DEF -0,27 -0,33 -0,52 0,12 -0,22 -0,75 -0,8 -0,14 1
C11 DET -0,14 -0,65 -0,8 -0,13 -0,68 -0,69 -0,7 0,03 0,42 1
C2 C3 C4 C5 C6 C7 C8 C9 C10 C11
Figure 1 Dendrogramme
Une seconde méthode pour évaluer les résultats de calcul de dépendances entre variables est
l’analyse des valeurs tests. SPAD donne dans son listage de résultats la matrice symétrique
des valeurs-tests. Ce calcul basé sur la démarche du Chi2 indique une présomption de
dépendance entre deux variables (au seuil de 5% de risque) si la valeur de la cellule de
croisement est inférieure à 2. Les valeurs supérieures à 2, indiquant des dépendances entre
variables confirment les liaisons forte entre les éléments des fonctions d’action économique
(LOG, TRA, CMI), d’actions sociales (EDU, ACS) et la concurrence entre les fonctions de
défense et les fonctions « sociales ».
17
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Pour rappel on souligne qu’il est possible de calculer la proximité de chaque variable par
rapport à l’ensemble des autres en utilisant la somme du carré des corrélation, sur l’ensemble
des autres variables, concernant cette variable, ce dernier résultat divisé par le nombre de
variable. Ainsi, il apparaît que la variable qui crée le plus de variance est la dette, si lon prend
le total des carrés des corrélations reprises ci-dessous on obtient un total de 3,9 soit 0,33 après
division par le nombre de variables.
PVP AGR CMI TRA LOG EDU ACS ACO DEF DET DIV
-0,14 -0,65 -0,8 -0,13 -0,68 -0,69 -0,7
0,03 0,42 1,00 0,47
C2 C3 C4 C5 C6 C7 C8 C9 C10 C11
PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
C2 99.99
C3 -0.38 99.99
C4 0.52 3.46 99.99
C5 1.05 -1.40 0.43 99.99
C6 -0.04 2.46 6.75 0.89 99.99
C7 1.32 3.16 2.73 -0.84 0.60 99.99
C8 1.96 2.49 2.90 -0.62 1.04 8.62 99.99
C9 -4.57 0.25 -0.20 -1.70 0.27 -0.23 -0.19 99.99
C10 -1.47 -1.84 -3.12 0.63 -1.20 -5.27 -5.91 -0.75 99.99
C11 -0.75 -4.19 -5.93 -0.72 -4.45 -4.62 -4.66 0.17 2.40 99.99
où y(i) est la projection orthogonale P.D(x*i) du point x*i sur la droite D ou ∆. Cette droite D,
suivant le principe des moindres carrées minimise I(N*,D) et constitue le premier axe
factoriel du nuage N*. Cette droite passe par l’origine 0, centre de gravité de N* (voir figure)
et est engendré par le vecteur unitaire u1, vecteur propre de la matrice des corrélations entre
variables Xj. Vecteur associé à la plus grande valeur propre .
Sur notre exemple = 4,5 environ . Pour le premier vecteur propre associé à , les valeurs
en sont reprises dans la seconde ligne du tableau suivant. On peut vérifier, du fait de la
condition d’orthogonalité, que :
18
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Val Prop PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
1 4,57 -0,07 -0,36 -0,41 0,04 -0,28 -0,39 -0,37 -0,11 0,32 0,41
2 2,14 0,50 -0,01 0,16 0,35 0,13 -0,26 0,08 -0,67 -0,04 -0,12
3 1,68 -0,33 0,20 0,26 0,13 0,45 -0,37 -0,35 -0,04 0,38 -0,15
4 0,86 0,04 -0,46 -0,17 0,73 0,14 0,23 0,02 0,30 0,02 -0,17
5 0,74 0,35 -0,17 -0,28 -0,32 -0,12 -0,05 0,23 -0,14 0,20 -0,15
Les tableaux suivants reprennent les calculs réalisés dans cette exemple sous SPAD, on peut
remarquer la décroissance rapide des valeurs propres. Seuls les cinq première composantes
paraissent utiles à l’analyse en représentant une prise en charge de plus de 90% de l’inertie.
Ceci est confirmé par un calcul présenté par SPAD sur les intervalles laplaciens. La règle de
décision revient à comparé les recouvrements, pour deux composantes consécutives. La
presque totale correspondance avec les intervalles de la 4 et de la 5 ème composante montre
qu’il serait peut utile de pour suivre l’analyse vers les rangs inférieurs.
19
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
La première composante Y1 est ainsi une nouvelle variable définie pour chaque individu i par
la longueur algébrique de la projection du point xi* dur l’axe D1. La valeur Y1(i) est donc
égale au produit scalaire entre les vecteurs u1 et x*i
Cette composante principale est centrée par construction puisque elle est combinaison linéaire
de variables elles-mêmes centrée. Sa variance est égale à la première valeur propre
La variance de la première composante principale Y1 est égale à l’inertie du nuage des points
projetés sur D1 par rapport au centre de gravité 0. Les corrélations entre les variables Xj et la
Dans l’exemple de la dépense de l’Etat ceci conduit à 0,424 à comparer au 0,329 obtenu pour
l’apport de la dette.
20
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
peut se décomposer en deux parties, avec une analogie très proche de la méthode des MCO :
- un premier terme représentant l’inertie totale du nuage [y1,….yn] des projections des points
x*i sur l’axe D1. Cette part représente l’inertie expliquée par l’axe D1 et donc vaut . Elle
s’exprime par la valeur:
- un second terme représente l’inertie résiduelle du nuage qui n’est pas prise en compte
par l’ajustement sur la droite D1 ; cette valeur s’exprime par:
n
1/ n∑ d 2 ( xi* , yi ) = I ( N *, D1 )
i =1
Ainsi dans notre exemple sur une inertie totale de 10, l’inertie résiduelle par rapport à D1 est
de 10-4,50 soit environ 5,5. Ainsi 41% de l’inertie du nuage de point est ajustée par cet axe
D1. La mesure de la qualité de la première composante est donc la part d’inertie expliquée
soit environ 41% dans notre exemple. Ainsi ici la valeur explicative de ce premier axe est
largement supérieure à celle des variables initiales1
La qualité de la représentation de chaque individu sur l’axe D1( ou ∆1) est donnée par le
critère du cosinus carré de l’angle formé entre l’axe D1 et le vecteur x*i, soit :
d 2 ( yi , 0) Y 1(i ) 2
cos 2 ( xi , D1) = =
d 2 ( x *i , 0) d 2 ( x *i , 0)
Les résultats sur ce critère montrent, tableau page 24, que les périodes les plus anciennes et
les plus récentes sont assez bien représentées par ce premier axe et beaucoup mieux que ne le
sont les périodes de l’entre deux-guerres.
1
Pour qu’il s’agit d’une analyse « centrée-réduite » chacune de ces variables d’origine comptait pour 10% de
l’inertie du phénomène.
21
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
3.3.3 Généralisation
De manière générale les considérations de calcul établies sur le premier axe peuvent être
étendues aux autres axes. Dans les tableaux suivants, pour des raisons de clarté des tableaux,
les résultats ont été extraits pour les cinq premiers axes factoriels, sur donc 10 (nombre de
variables possibles).
Dans ces tableaux sont donc présentés les résultats concernant 5 axes principaux
(D1,D2,D3,D4,D5)comptant pour 76% de la variance. La figure 4 synthétise cette
représentation du nouveau repère exprimé par le Y à partir de celui des X*, les données
centrées réduites initiales.
Dans ce système les composantes principales Y1 à Yp (ici p=10, mais p=5 dans les tableaux)
sont définies par le produit des vecteurs propres u issus de la factorisation de la matrice
P
(X’*X*), soit Yh(i) = ∑ uhj x *ij ; Ces Yh(i), composantes principales, représentent les
j=1
coordonnées2 des points observations x*(i) dans le nouveau repère. Ces composantes sont
centrées, de variance λh et non corrélées entre elles. Donc, par analogie, les points initiaux
P
peuvent être reconstitués par : x *ij = ∑ Yh(i).u
h=1
hj . La contribution d’un axe pour une
22
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
p
d 2 ( x *i , 0) = x *i = ∑ Yh(i ) 2 . On peut en déduire deux formules de
2
à l’origine est :
h =1
p p
restitution: ∑ cos
h =1
2
( xi , Dh) = 1 et ∑ λ h = p ; mais surtout les corrélation entre variables X*
h =1
et composantes Y soit : cor ( Xj , Yh) = λh uh , j . Ainsi la part d’inertie expliquée par l’axe h
p
λh
s’exprime aussi 1/ p ∑ cor 2 ( Xj , Yh) = .
j =1 p
Figure 4
Les axes principaux. Les composantes principales
23
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
CORRELATIONS
COORDONNEES VARIABLE-FACTEUR
VARIABLES | ANCIENS AXES UNITAIRES
IDEN Libelle 1 2 2 3 4 5 1 2 3 4 5 1 2 3 4
C2 PVP -0,22 0,56 0,81 0,18 -0,26 -0,16 -0,22 0,81 0,18 -0,26 -0,16 -0,1 0,14 -0,28 -0,19
C3 AGR -0,71 -0,17 -0,24 -0,05 -0,34 0,36 -0,71 -0,24 -0,05 -0,34 0,36 -0,33 -0,04 -0,36 0,41
C4 CMI -0,84 -0,08 -0,12 0,35 0,14 0,26 -0,84 -0,12 0,35 0,14 0,26 -0,4 0,27 0,15 0,29
C5 TRA 0,06 0,21 0,31 0,67 0,48 -0,28 0,06 0,31 0,67 0,48 -0,28 0,03 0,52 0,52 -0,32
C6 LOG -0,62 -0,23 -0,33 0,6 0,11 0,19 -0,62 -0,33 0,6 0,11 0,19 -0,29 0,46 0,12 0,21
C7 EDU -0,82 0,17 0,25 -0,41 0 -0,11 -0,82 0,25 -0,41 0 -0,11 -0,39 -0,31 0 -0,13
C8 ACS -0,84 0,19 0,28 -0,34 0,03 -0,24 -0,84 0,28 -0,34 0,03 -0,24 -0,4 -0,26 0,04 -0,27
C9 ACO -0,01 -0,53 -0,78 -0,41 0,37 -0,16 -0,01 -0,78 -0,41 0,37 -0,16 0 -0,32 0,4 -0,19
C10 DEF 0,72 -0,18 -0,26 0,42 -0,39 -0,06 0,72 -0,26 0,42 -0,39 -0,06 0,34 0,32 -0,42 -0,07
C11 DET 0,91 0,06 0,09 -0,25 0,06 0,12 0,91 0,09 -0,25 0,06 0,12 0,43 -0,19 0,06 0,14
24
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Observa
COORDONNEES CONTRIBUTIONS COSINUS CARRES
tions |
Poids Distorsion 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
1872 3,45 17,83 2,66 2,26 -0,25 -0,80 0,45 5,40 8,30 0,10 2,50 0,90 0,40 0,29 0,00 0,04 0,01
1880 3,45 19,09 2,61 2,04 1,86 1,55 -0,10 5,20 6,80 7,10 9,70 0,00 0,36 0,22 0,18 0,13 0,00
1890 3,45 8,34 2,48 0,84 -0,16 -0,85 0,38 4,70 1,10 0,10 2,90 0,60 0,74 0,08 0,00 0,09 0,02
1900 3,45 7,25 2,00 0,97 0,19 -1,12 0,89 3,10 1,50 0,10 5,00 3,60 0,55 0,13 0,00 0,17 0,11
1903 3,45 11,00 2,56 0,67 0,17 0,20 1,24 5,00 0,70 0,10 0,20 7,00 0,60 0,04 0,00 0,00 0,14
1906 3,45 6,09 2,06 0,81 0,28 -0,92 0,24 3,30 1,10 0,20 3,40 0,30 0,70 0,11 0,01 0,14 0,01
1909 3,45 5,89 1,96 1,18 0,31 -0,45 0,14 2,90 2,30 0,20 0,80 0,10 0,65 0,24 0,02 0,03 0,00
1912 3,45 5,70 1,72 0,66 0,62 -0,86 -0,42 2,30 0,70 0,80 3,00 0,80 0,52 0,08 0,07 0,13 0,03
1920 3,45 11,66 2,38 -0,22 1,77 -0,21 -1,52 4,40 0,10 6,40 0,20 10,40 0,49 0,00 0,27 0,00 0,20
1923 3,45 14,72 2,10 -2,49 -1,62 0,46 0,47 3,40 10,10 5,40 0,80 1,00 0,30 0,42 0,18 0,01 0,02
1926 3,45 16,49 2,41 -0,90 -2,31 1,14 1,03 4,50 1,30 10,90 5,20 4,70 0,35 0,05 0,32 0,08 0,06
1929 3,45 9,96 1,97 -1,12 -1,08 1,75 -0,13 3,00 2,00 2,40 12,20 0,10 0,39 0,13 0,12 0,31 0,00
1932 3,45 10,30 0,82 -2,10 -0,82 1,03 -1,75 0,50 7,20 1,40 4,30 13,70 0,07 0,43 0,06 0,10 0,30
1935 3,45 8,48 0,50 -2,28 -1,26 0,41 -0,66 0,20 8,50 3,20 0,70 1,90 0,03 0,62 0,19 0,02 0,05
1938 3,45 7,95 1,30 -1,71 -0,54 -1,08 -0,96 1,30 4,80 0,60 4,60 4,10 0,21 0,37 0,04 0,15 0,12
1947 3,45 9,78 -0,98 -0,07 2,56 -0,05 -0,99 0,70 0,00 13,40 0,00 4,40 0,10 0,00 0,67 0,00 0,10
1950 3,45 24,49 -2,07 -0,71 3,36 2,36 1,22 3,30 0,80 23,10 22,30 6,70 0,17 0,02 0,46 0,23 0,06
1953 3,45 9,27 -0,77 -1,40 2,05 -0,59 -0,32 0,50 3,20 8,60 1,40 0,50 0,06 0,21 0,45 0,04 0,01
1956 3,45 12,07 -2,13 -2,04 1,08 -0,84 0,82 3,50 6,80 2,40 2,80 3,00 0,38 0,35 0,10 0,06 0,06
1959 3,45 9,19 -2,00 -1,50 0,44 -1,30 0,48 3,10 3,70 0,40 6,70 1,00 0,43 0,25 0,02 0,18 0,02
1962 3,45 7,82 -2,24 -1,17 -0,05 -1,04 0,22 3,80 2,20 0,00 4,30 0,20 0,64 0,17 0,00 0,14 0,01
1965 3,45 7,84 -2,38 0,08 -0,09 0,51 0,91 4,30 0,00 0,00 1,10 3,70 0,72 0,00 0,00 0,03 0,11
1968 3,45 14,64 -2,81 -0,45 -1,03 -0,51 1,99 6,00 0,30 2,20 1,00 17,80 0,54 0,01 0,07 0,02 0,27
1971 3,45 7,59 -2,32 -0,05 -0,46 -0,18 -0,91 4,10 0,00 0,40 0,10 3,70 0,71 0,00 0,03 0,00 0,11
1978 3,45 9,80 -2,55 0,98 -0,93 -0,39 -1,03 5,00 1,60 1,80 0,60 4,70 0,66 0,10 0,09 0,02 0,11
1981 3,45 8,31 -2,08 1,64 -0,67 0,53 -0,46 3,30 4,40 0,90 1,10 0,90 0,52 0,32 0,05 0,03 0,03
1987 3,45 9,77 -2,31 1,61 -0,99 0,04 -0,54 4,10 4,20 2,00 0,00 1,30 0,55 0,26 0,10 0,00 0,03
1992 3,45 11,89 -2,36 2,06 -1,02 0,78 0,06 4,30 6,90 2,10 2,40 0,00 0,47 0,36 0,09 0,05 0,00
1997 3,45 15,80 -2,56 2,44 -1,37 0,42 -0,76 5,00 9,70 3,90 0,70 2,60 0,41 0,38 0,12 0,01 0,04
25
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Les méthodes d’analyse multidimensionnelle sont en premier lieu des méthodes exploratoires.
Aussi la vision synthétique du graphique va permettre d’apporter la valeur ajoutée essentielle
à la méthode.
On représente les variables dans le plan à l’aide des points Bj =cor(Xj,Y1),cor(Xj,Y2), ceci
permet d’obtenir la figure ci-dessous appelée « cercle des corrélations ». Les logueurs Rj des
vecteurs variables B représentent la corrélation multiple telle que :
2
Bj = co r 2 ( X j , Y 1) + co r 2 ( X j , Y 2) = R 2 ( X j ; Y 1, Y 2 )
Cette écriture est possible puisque les variables Y1 et Y2 sont non corrélées entre-elles. On
peut remarquer que les corrélations entre les variables initiales sont approximativement
reconstituées en fonctions des longueurs des vecteurs variables et des cosinus des angles entre
ces mêmes variables. ON retrouve ainsi la forte corrélation entre action sociale et éducation
aperçue lors de la construction du dendrogramme.
26
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
La carte des individus revient à obtenir les projections des points xi* sur les premiers axes
principaux (∆1,∆2). Le graphe des points Ai=(Y1(i),Y2(i)) permet d’observer la répartition
des individus selon les axes. Le graphique ci dessus montre les translations sous la forme d’un
U au cours du cheminement chronologique.
En prenant quelques précautions sur les échelles, il est tout à fait logique de représenter
simultanément les coordonnées, des variables et des observations, dans le premier plan. Si
l’on admet que les points sont bien représentés sur le plan principal, la formule de
p
reconstitution des données d 2 ( x *i , 0) = x *i = ∑ Yh(i ) 2 permet d ‘écrire :
2
h =1
2
xij * = ∑ Yh(i ) uhj en notant la transformation Y *h = Yh / λ h et en utilisant le résultat
h =1
27
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
Toutes les techniques factorielles proposent une représentation d’une projection planaire (sur
le plan principal en premier) du nuage des individus. L’interprétation se fait souvent dans
l’ordre suivant : si le plan est pertinent, il faut lui trouver un sens (description des axes
factoriels), savoir quels sont les individus qui contribuent le plus à sa formation, et ne pas
oublier de ne considérer que les individus bien représentés sur ce plan.par chacun des axes.
Pour une ACP ou une AFC (analyse factorielle de correspondances, chapitre 4), elle peut être
interprétée comme un pourcentage de l’information du nuage initial retranscrite par la
projection sur l’axe. En ACM (analyse des correspondances multiples), les parts d’inertie
n’ont pas vraiment de sens. En ACP ou AFC, un plan représentant moins de 10% de l’inertie
ne sera pas forcément intéressant. La part d’inertie de k axes factoriels correspondant aux
valeurs propres faisant partie de l’ensemble Ik est donnée par la formule :
Pour un espace jugé intéressant, il faut interpréter les axes qui le constituent. Cette description
des axes peut être faite conjointement de deux manières. Pour un tableau centré réduit, on
peut calculer les corrélations des variables aux axes avec la formule :
Plus une variable est corrélée avec un axe, plus elle est importante pour le décrire. On peut
visualiser les corrélations de toutes les variables sur le cercle des corrélations (pour un plan
factoriel donné). Si une variable est très fortement corrélée à un axe, c’est que cet axe oppose
des individus ayant des valeurs contraires pour cette variable.
28
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales
En plus de cette description par les variables, on fait aussi une description par les individus,
en introduisant la notion de contribution. La contribution de l’individu i à l’axe k est donnée
par la formule . Les individus qui contribuent à un axe sont majoritairement ceux qui
sont aux extrémités. Si quelques individus ont des contributions très fortes, il peut être
intéressant de refaire une analyse en les mettant en illustratifs. Ainsi, ce ne seront plus ces
individus, présentant des valeurs particulièrement fortes pour une variable qui influenceront la
formation des axes.
Il faut aussi s’assurer que la représentation des individus sur les plans principaux est de bonne
qualité. Pour un individu ei, on mesure cette qualité à l’aide du cosinus de l’angle formé par le
plan principal et le vecteur défini par l’individu ei. L’indicateur utilisé dans les logiciels est
alors couramment noté cos². Idéalement, lorsqu’un individu est sur le plan factoriel, l’angle
défini est alors nul, ce qui entraîne un cos² égal à 1. Au contraire, un individu orthogonal à
chacun des axes du plan factoriel aura un cos² nul. Tous les individus occupant des positions
intermédiaires entre ces deux extrémités auront un cos² compris entre 0 et 1, d’autant plus
proche de 1 que l’individu est bien représenté par sa projection sur le plan.
En règle générale, les individus contribuant bien aux axes du plan y sont bien représentés
(puisque sont ceux qui forment les axes). L’indicateur cos² est principalement à utiliser quand
on veut interpréter les points centraux.
M-orthonormés : M-1-orthonormés.
,
M(ui,ui)=1 ; M(ui,uj)=0 M-1(ui,ui)=1 ; M-1 (ui,uj)=0
29