Vous êtes sur la page 1sur 29

Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3. Analyse factorielle,
composantes principales

introduction

3.1. Analyse d'un nuage de points

3.2 Détail pratique de la méthode

3.3. Recherche des composantes principales

3.4 Résumé sur la méthode

Méthode de base de l’analyse des données, cette méthode recherche à synthétiser


l’information contenue dans un tableau croisant des individus (observations) et des caractères
(variables). Cette méthode se prête particulièrement aux données quantitatives continues.

Une analyse factorielle sert à :

- résumer et synthétiser ;
- - hiérarchiser l'information contenue dans un tableau de :
- - n lignes (les individus) ;
- - p colonne (les variables).

Les n individus sont décrits par un nuage de p variables. L'information représentée par ce
nuage revient à la dispersion des n points.

- Produire un résumé de cette information c'est projeter ces points dans un espace de
dimension inférieure à p le nombre de variables initiales.
- - Les axes de ce sous-espace sont dits "axes factoriels*" ou "facteurs*".
- - Le résumé est possible dans la mesure où les variables ne sont pas totalement
indépendantes
- - Chaque variable "p" porte en elle :
- une part d'information originale ou part d’inertie ;
- une part d'information redondante avec les autres, venant des corrélations entre
variables.

C'est cette part d'information redondante que l'on va regrouper dans le résumé factoriel.

- Chaque facteur est la combinaison linéaire des "p" variables.

1
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

A chaque variable est associé un coefficient "a", ce coefficient "a" est proportionnel à
l'intensité qui lie la variable au facteur.

Les facteurs sont hiérarchisés :

- le 1er axe concentre le maximum de l'information ;

- c'est l'axe de la plus grande dimension du nuage de points

- c'est le meilleur résumé dans un espace à une dimension

- mais il laisse des résidus (de l'information)

- le 2e axe concentre le maximum de l'information restante ;

- il est orthogonal au premier (par construction)

- c'est l'axe de la plus grande dimension résiduelle du nuage de points

- associé au 1er axe, c'est le meilleur résumé dans un espace à deux dimension

- mais il laisse aussi des résidus

- le 3e axe prend encore une part d'information moindre ;

- il est orthogonal au deux premiers (toujours par construction)

- et ainsi de suite, pour les axes suivants tant que l’on pense qu’ils apportent encore de
l’information.

Avant d’aborder l’explication de la méthode proprement dite, une première section détaillera
intuitivement la question de la définition d’un nuage de points.

3.1. ANALYSE D'UN NUAGE DE POINTS

3.1.1 Visualisation d'un nuage de points. Inertie.

La distribution d’individus/observations au travers de deux caractères, par exemple X1 et X2,


permet sur un graphique plan de juger instinctivement de la liaison entre ces deux variables.

2
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Ainsi dans les représentations ci-dessus, le graphique de gauche nous laisse l’idée d’une
absence de liaison, ou du moins d’une absence de constat de liaison dans une première
approche rapide. A l’inverse celui de droite indique une présomption de forte liaison, celle-ci
pouvant se traduire par l’établissement d’un modèle et nous renvoie au chapitre précédent.

Dans le cas de fichiers/tableaux importants en nombre d’individus la situation est souvent plus
complexe et fait apparaître le groupement des individus. Ce type de données peut en grande
partie, et pour une logique explicative dépendre d’un modélisation des interactions à
l’exemple de l’analyse de la covariance. De manière plus directe on peut aussi supposer, dans
ce troisième graphique, que cette représentation dans R2 (à travers de deux variables) conduit
à des conclusions de groupements alors que la comparaison de la distribution de X2 avec une
troisième variable X3 conduirait à une liaison forte entre X2 et X3. Aussi lorsque nous
représentons dans le plan, à deux dimensions, un phénomène de groupement, comme dans le
graphique suivant entre X1 et X2, on peut s’interroger si ce phénomène de groupement se
retrouve en combinant deux à deux les dimensions/variables. Ceci pour un nombre supérieur à
2 de ces dimensions.

Aussi il nous est nécessaire d’imaginer une méthode où les éventuels groupements valables
sur plusieurs dimensions pourraient être représentés de manière simple sur un plan. Dans cet
objectif, on sera conduit à construire une représentation de la complexité en déformant

3
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

l’information initiale. Notre question devient alors : comment rendre minimum ces
distorsions tout en permettant une visualisation synthétique de la question.

3.1.2 Précisions sur la méthode

L'Analyse en Composantes Principales (ACP) sert à traiter des données multidimensionnelles.


Ceci impose de disposer pour toutes les variables observées sont de type numérique et que
l'on veut voir s'il y a des liaisons entre ces variables. Les variables sont donc supposées
définies sur Rn.

Dans le cas le plus général, le tableau X de données initial est supposé comprendre n
individus, soit des lignes indicées i avec i=1 à n. Les caractères variables seront disposées en
colonnes, indicées j, avec j=1 à p. De manière générale p sera de dimension largement
inférieure à n.:

encore noté .

Le but de l'ACP revient à trouver une bonne représentation des individus dans un espace
plus restreint que celui des p variables d’origines (k<p). Souvent même on se limitera à une
représentation dans le plan principal (k=2). Ceci revient à rechercher le sous-espace affine, ou
espace Ek de dimension k (k<p souvent k=2). Un espace affine, dans k dimensions, est obtenu
par transformations linéaires à partir de l’espace « plus riche » de p dimensions.

Le critère retenu pour évaluer ces transformations repose sur la prise en compte de l’inertie
engendrée dans l’espace original qui est prise en compte dans le second espace. Inertie telle

que , inertie du nuage N par rapport à l'espace Ek soit minimum. Il


s'agit alors de maximaliser l'inertie par rapport à l'orthogonal de Ek , ce qui revient à
considérer le nuage avec un angle qui rend maximum la dispersion des individus. On montre
que le problème a une solution, et que la construction de l'espace Ek s'effectue axe par axe.

Le centre du nuage de point, ou centre d’inertie, possède pour coordonnées les moyennes des
différentes variables actives dans l’analyse :

La solution de l’analyse factorielle est basée sur l’utilisation des propriétés spectrales des
matrices : les vecteurs propres normés de la matrice VM, matrice des variances covariances

4
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

des variables prises en compte dans l’analyse, ordonnés suivant les valeurs propres
décroissantes fournissent les axes appelés axes factoriels. De plus, les inerties
expliquées par ces axes sont égales aux valeurs propres . Les ui forment une base M-
orthonormée de Ek : les vecteurs ui sont par définition normés et par ailleurs, la matrice VM
étant symétrique, ses vecteurs propres sont orthogonaux.

On peut alors représenter les individus en transposant les résultats dans l'espace Rn (par XM).
En pratique, au lieu de calculer les axes factoriels, on préfère calculer les facteurs principaux
d'inertie, valeurs propres de MV et transposer les résultats par X.

Ceci renvoie à la question analytique du passage d’un espace à un autre espace, donc établir
une projection. Géométriquement les points individus x(1,p), x(2,p), …. x(n,p) peuvent se
représenter pour plusieurs des dimensions p. La représentation de la projection est donnée
dans le graphique suivant où l’on représente deux points quelconque x1 et x2 sur deux
dimensions. Le problème revient à choisir un plan de projection où les distances carrés
moyennes entre les projections sur le plan f1 et f2 seront maximale. Ceci puisque l’opérateur
projection raccourcit par définition les projections et qu’il est souhaitable de conserver les
distances maximales entre f1 et f2.

Ceci revient à déterminer deux droites d1 et d2 perpendiculaires entre-elles où

Distance carrée (f1,f2) = distance carrée (a1,a2) + distance carrée (b1,b2)

La moyenne des carrés des distances entre les fi (tracés verts) est donc égale à la moyenne
des carrés des distances entre les ai (tracés bleus) plus la moyenne des carrés des distances
entre les bi (tracés rouges). La méthode, basée, comme tout calcul sur les distances de
projections sur les propriétés des triangles rectangles, revient donc à chercher une droite d1
qui rende maximale la moyenne des distances entre les points, ici a1 et a2, mais généralisés à
ai et aj. Puis trouver une droite d2, perpendiculaire à d1 et rendant maximales les distances
entre bi et bj. On peut ainsi continuer jusqu’à construire un système de projection sur autant
de dimensions que l’on disposait de variables dans le système origibal.

Ainsi en projetant un point quelconque du système originale donc de coordonnées x(1,p),


x(2,p), …. x(n,p) on réécrit sur la nouvelle base au travers des coordonnées c(1,p), c(2,p), ….
c(n,p). Les nouveaux caractères, remplaçant les variables initiales, seront les composantes
principales et chacune de ces composantes ne sera qu’une réécriture par combinaison linéaire
des variables initiales

La méthode ainsi décrite, revient à une analyse factorielle car ceci revient à représenter une
réalisé sous une autre forme plus synthétique par un produit de facteurs, ceux-ci parviennent
au mêmes résultats sous une forme plus synthétique. Ceci à l’exemple de a2+2ab+b2 factorisé
en (a+b)2.

5
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3.1.3 Illustration

Pour donner une illustration de cette démarche, on peut prendre en exemple l’analyse d’un
tableau simple. Celui ci donne l’orientation des bacheliers, filières générales et techniques de
l’an 2000, qui se sont inscrits à la rentrée universitaire dans l’enseignement supérieur. On a
retenu comme « observation » les séries de baccalauréat (L, S, ES et technologique). Pour les
« caractères » orientation on retient l’université, les classes préparatoires aux grandes écoles
et les filières courtes de l’enseignement supérieur (STS et IUT). Dans un second temps ce
tableau a été normé, c’est à dire chaque case à été divisée par le grand total du tableau afin
que le total des cases soit égal à 100..

Université CPGE Sup. Court


L 43 500 5300 10 800 59 600
ES 58 500 6 700 9 800 75 000
S 88 500 23 100 24 600 136 200
Technologie 52 300 1 100 99 400 152 800
Total 242 800 36 200 144 600 423 600
Source MEN-DPD, note d’information 01-05
structure Université CPGE Sup. Court
L 10 1 3 14
ES 14 2 2 18
S 21 5 6 32
Technologie 12 0 23 36
Total 57 9 34 100

Si les distributions avaient été indépendantes, la répartition du total des lignes se serait
appliquée à chaque série de baccalauréats. Ainsi si 57% des bacheliers se dirigent vers
l’université, 57% des bacheliers littéraires auraient du se diriger vers l’université or, en

6
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

rapport du total, 10% sur 14% (soit 71% des littéraires) ce sont dirigés vers l’université. A
l’inverse seuls 1/3 des baccalauréats techniques se dirigent vers l’Université.

Ainsi peut-on calculer pour chaque ligne des écarts aux effectifs théoriques de répartition
indépendante :

Pour les littéraires le calcul suivant est effectué.:

Université CPGE Sup. Court


Observés 10 1 3 14
Théoriques 8 arrd(*) de57/100*14 1 arrd de9/100*14 5 arrd de34/100*14 14=100/100*14
Ecart +2 0 -2 0

(*)Arrd : calcul arrondi à l’entier le plus proche

7
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Ainsi pour chaque série on obtient le tableau théorique d’indépendance M0 et le tableau


d’écart ME:

Tableau théorique

D’indépendance M0
Université CPGE Sup. Court
L 8 1 5 14
ES 10 2 6 18
S 18 3 11 32
Technologie 21 3 12 36
Total 57 9 34 100
Tableau des écarts ME=M-M0
Université CPGE Sup. Court
L 2 0 -2 0
ES 4 0 -4 0
S 3 2 -5 0
Technologie -9 -3 11 0
Total 0 0 0 0

Le talbleau ME donne l’information la plus utile. Les écarts positifs donnent les choix
privilégiés pour chaque série de baccalauréat, alors que les cases négatives de ME traduisent
les séries délaissées par les bacheliers d’une série. Ainsi on peut avancer qu’un écart positif
dans ME traduira une « attraction » entre une ligne et une colonne, alors qu’un écart négatif
traduira une répulsion.

Puisque M=M0-ME, on peut avancer que le tableau M a fait l’objet d’une décomposition
factorielle. Le tableau M0 ou tableau d’indépendance s’obtient directement à partir de ses
marges, puisque chaque case dérive du produit croisant la marge de ligne avec la marge de
colonne ; le but est de donner des poids identiques aux cellules. Le second tableau ME d’écart
à l’indépendance, en l’état, ne peut se résumer simplement

De manière synthétique, on peut avancer qu’au valeur positives des cellules de ME


correspondent les choix favoris par les sortants d’une filière de baccalauréat ainsi l’Université
serait choisi par les trois première séries, alors qu’il y a déficit de bacheliers techniques dans
l’Université. Ces derniers étant particulièrement attirés par les filières courtes et repoussés par
l’Université.

Continuons la factorisation de ME. A la suite d’un calcul d’ajustement, on peut retracer ME


comme la somme de deux matrices ME1 et ME2, chacune obtenue des produits suivants

Le nombre de tableaux, obtenus par produit du vecteur ligne et du vecteur colonne,


nécessaires est ici de trois. On retrouve un résultat de mathématique selon lequel le nombre

8
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

maximal de ces tableaux est au plus égal à la plus petite dimension (rang) du tableau , soit ici
la dimension des trois colonnes d’orientation.

Une représentation de l’information contenue dans le tableau (matrice) ME consiste à


reprendre comme abscisses les éléments de ligne (séries du bac) et de colonne (orientation)
pour l’axe horizontal (premier facteur) relatif à ME1, puis de manière identique de reporter
sur l’axe des ordonnées (second facteur) les mêmes informations relatives à ME2.

Le graphique suivant en donne la représentation. Certaines situations sont à commenter.

Un premier constat est celui de la distance à l’origine. On retrouve ainsi la notion d’inertie.
Ainsi dans le processus d’orientation la position des points représentant le bac technique et le
supérieur cours sont plus éloignés du centre d’inertie (origine) que ne le sont les positions
relatives au bac littéraire et à l’Université. Les premiers éléments génèrent plus de variabilité
que n’en créeront les seconds.

Plus intéressant encore peut être constaté de la position des points. Observons la position
respective de l’orientation CPGE, d’une part, et, d’autre part, des séries L et ES. Les cases, de
la matrice ME, qui lient CPGE à ES et L sont nulles. Autrement dit il n’y a pas d’écart à
l’indépendance, donc il y a indépendance. La longueur de la projection est nulle et le produit
de ce projection par n’importe quel élément sera nul. Ceci indique donc que les bacheliers des
séries L et ES intègrent les CPGE comme la moyenne de l’ensemble des bacheliers.

La seconde particularité repose sur les points alignés. Le cas se présente ici pour les séries L
et ES. Dans ce cas les vecteurs lignes représentant les séries et colonnes représentant les
orientations sont en conjonction parfaite (angle nul), en terme vectoriel la projection d’un
vecteur sur l’autre donne comme résultat la plus petite norme. Donc ici on conclu que les
séries L et ES possèdent des caractéristiques d’orientations identiques. De manière générale,
si l’angle est inférieure à l’angle droit, le produit des vecteurs sera positif ; ceci correspond à
un écart positif dans les écarts à l’indépendance donc à une certaine attraction entre deux
points. L’intensité de cette attraction est à relativisée en fonction de la longueur et de l’angle
que forment ces vecteurs. Ce type de liaison s’attachera à relativiser des positions pour des
points se situant de le même quadrant du graphe.

La troisième particularité est représentée par des vecteurs dont l(angle est supérieur à l’angle
droit. La cas le plus net concerne des vecteurs alignés avec des points dans des cadrant
opposés. Ce cas limite concerne un élément du tableau M pour lequel l’élément correspondant
de M0 serait nul. L’ensemble de la variabilité serait ici pris en compte par les écarts à
l’indépendance. Les points sont dits alors en totale opposition. Dans le cas plus général, le
vecteur sur lequel l’on a projeté et la projection sont de signes opposés. Cette opposition
montre un déficit par rapport à l’indépendance. Ainsi, les bac littéraires et ES vont moins que
la moyenne dans les filières de supérieur court.

9
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3.2 Détail pratique de la méthode


Dans cette section, au travers d’un exemple, nous allons détailler la méthode à partir de la
question des axes d’inertie.

3.2.1 Recherche des axes principaux d'inertie : analyse historique de la dépense de


l’Etat.

Ce processus peut s’étendre aux tableaux de grandes dimensions. Il s’agit de remplacer le


tableau initial par une suite de tableaux plus simples qui soient une bonne représentation des
données. Ainsi le premier tableau doit prendre en compte le maximum de variété (inertie) du
tableau, le second une correction à l’approximation apporté par le premier tableau et ainsi de
suite vers des corrections négligeables.

L’ACP revient ainsi à effectuer un changement variables où des variables construites à partir
des valeur fondamentales de la description de l’inertie, c’est à dire les valeurs caractéristiques
de la matrice de corrélation. Le but est d’obtenir un ensemble de variables construites qui
puisse expliquer la variiété du tableau de données à partir d’un ensemble de variables
construites en nombre significativement inférieur que celui du jeu de variables initiales.

Ici, on reprend des données extraites des travaux de ANDRE et DELORME sur une analyse
historique de la dépense par fonction dans le budget de l’Etat ( C. André et R. Delorme,
l’évolution de la dépense publique en France, rapport Cepremap 1976). Ces données
s’arrêtant en 1971, elles sont ici actualisée en utilisant les résultats de l’annuaire statistique de
la France de l’INSEE.. Les illustrations et listages sont directement obtenus par copie des
sortie du logicial SPAD

10
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3.2.2 Les sources d’inertie

Une partie préliminaire des analyses de l’ACP ne doit pas être négligée, elle fait appel à la
statistique descriptive. Une première analyse peut comprendre deux étapes :

- les statistiques élémentaires

- les tableaux de corrélation.

Les statistiques élémentaires reviennent à calculer certaines modalités de distribution des


variables statistiques prises en compte. Ceci est toujours possible dans les logiciels
d’application, du moins comme option préliminaire. Ces statistiques sont à l’évidence la
moyenne et les critiques de variabilité (variance et écart type) ; la visualisation de l’amplitude
(différence entre minimum et maximum) est souvent utile. Au delà de ces données, des
informations plus fines sur la distribution (déciles, quartiles, indice de concentration,…) sont
aussi précieux pour l’analyse.

L’exemple ici traité reprend la répartition par pourcentage des dépenses de l’Etat, en France,
ceci pour les fonctions suivantes :

1 . PVP Puissance publique, ( variable CONTINUE )

2 . AGR Agriculture, ( CONTINUE )

3 . CMI Commerce et industrie, ( CONTINUE )

4 . TRA Travail ( CONTINUE )

5 . LOG Logement ( CONTINUE )

6 . EDU Education, ( CONTINUE )

7 . ACS Action sociale, ( CONTINUE )

8 . ACO Anciens combattants ( CONTINUE )

9 . DEF Défense, ( CONTINUE )

10 . DET Service de la Dette, ( CONTINUE )

11 . DIV Fonctions diverses ( CONTINUE )

12 . total Ensemble des fonction (égal à 100% par construction)

Le premier tableau de résultats présente les statistiques descriptives concernant ces 12


variables, en fait 11, compte tenu du total construit par la somme des pourcentages. Ces
données sont observées sur 29 observations. Le tableau est donc de dimension, 11 variables,
p=11 et 29 lignes (observations), n=29. De fait ici nous remarquons que la fonction divers est
quelque peu particulière. Elle n’est que le complément à la totalité de la somme des 10 autres
fonctions. D’un point de vue formel, elle peut donc s’exprimer comme une combinaison des

11
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

autres variables. Autrement dit la variété apportée par cette variable est construite ; il est
d’usage dans les analyses multidimensionnelles de considérer cette variable comme
illustrative ; mais de ne pas la prendre en compte dans les calculs de factorisation.

Une première analyse consiste à examiner les statistiques descriptives de ces 11 variables sur
les 29 observations . Ceci est repris dans le tableau suivant à l’image du résultat donné par
SPAD (on note que la pondération est uniforme)

12
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

EFFECTIF TOTAL : 29 POIDS TOTAL : 29.00

| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM

| 1 . C2 - PVP 29 29.00 | 12.71 2.28 | 7.60 18.00

| 2 . C3 - AGR 29 29.00 | 2.02 1.52 | 0.30 6.00

| 3 . C4 - CMI 29 29.00 | 4.33 4.19 | 0.10 16.50

| 4 . C5 - TRA 29 29.00 | 8.32 2.27 | 4.50 15.30

| 5 . C6 - LOG 29 29.00 | 3.82 3.82 | 0.50 15.80

| 6 . C7 - EDU 29 29.00 | 12.05 6.65 | 2.10 23.80

| 7 . C8 - ACS 29 29.00 | 7.04 5.81 | 0.50 21.03

| 8 . C9 - ACO 29 29.00 | 3.87 3.88 | 0.00 13.40

| 9 . C10 - DEF 29 29.00 | 27.38 9.18 | 11.70 42.40

| 10 . C11 - DET 29 29.00 | 17.28 11.83 | 3.40 41.50

| 11 . V12 - DIV 29 29.00 | 1.18 0.93 | 0.00 2.90

13
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Ces statistiques descriptives permettent d’obtenir l’expression du centre d’inertie

G={12,71, 2,02,……………17,28)

Une analyse rapide du tableau permet de mesurer à partir des indications de dispersion et
d’amplitude l’importance des fonctions service de la dette (DET, c11), défense (DEF, c10) et
éducation (EDU, c7) dans l’origine de l’inertie du nuage de points. Ceci se constate dans
l’analyse de la matrice des variances-covariances. La trace de cette matrice, somme des
éléments diagonaux conduit à une valeur de 362; les trois variables précitées y comptent pour
environ plus des deux tiers.

L’inertie de 361 correspond au total des variances, soit une mesure de la dispersion du nuage
de point autour de son centre de gravité. Cette dispersion est ainsi l’inertie autour du centre de
gravité ::

Le terme distance au carré représente effectivement le carré de la distance de chaque point par
rapport au centre de gravité. Soit aussi détaillé pour chaque variable :

L’inertie totale peut donc se calculer comme la somme des variances des variables du
problème, soit ici les 10 fonctions de dépenses.

14
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

MATRICE DES COVARIANCES

| C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12

* * * PVP AGR CMI TRA LOG EDU ACS ACO DEF DET DIV

C2 | 5.19

C3 | -0.25 2.32

C4 | 0.92 3.62 17.59

C5 | 0.99 -0.88 0.76 5.15

C6 | -0.06 2.48 13.60 1.41 14.58

C7 | 3.63 5.34 13.05 -2.33 2.81 44.17

C8 | 4.60 3.82 11.99 -1.52 4.24 35.57 33.71

C9 | -6.10 0.27 -0.60 -2.69 0.74 -1.09 -0.81 15.06

C10 | -5.56 -4.59 -20.13 2.44 -7.69 -45.92 -42.64 -4.94 84.32

C11 | -3.71 -11.74 -39.76 -3.59 -30.64 -54.63 -48.00 1.44 45.50 140.01

C12 | 0.34 -0.40 -1.05 0.25 -1.47 -0.60 -0.96 -1.29 -0.80 5.13 0.86

| C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12

15
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Les Valeurs propres de la matrice des variances-covariances, sur données brutes,.confirment


cet effet « d’écrasement ».

VALEUR POURCEN
Numéro PROPRE POURCENT. CUMULE Histogramme
1 240,6931 66,32 66,32 ********************************************************
2 9,1395 19,05 85,36 ***********************
3 23,5955 6,50 91,87 ********
4 17,0950 4,71 96,58 ******
5 5,1091 1,41 97,98 **
6 3,6348 1,00 98,98 **
7 1,4697 0,40 99,39 *
8 0,9724 0,27 99,66 *
9 0,9015 0,25 99,91 *
10 0,3405 0,09 100,00 *

Même si ces variables sont exprimées en pourcentage, on remarque aisément que la


répartition de l’inertie est ici intimement liée à la grandeur du pourcentage (ainsi DEF compte
pour plus de 60 dans l’inertie par rapport à AGR). Cette question se rapproche de la notion de
conditionnement entrevue dans le chapitre 2 (page 9 du support). Aussi par pratique est-il
plus judicieux de transformer les variables d’origine en variables « centrées-réduites » de
moyenne nulle et de variance unitaire.. Le nouveau tableau étudié est formé des quantités :

A « l’individu », ici les individus sont des budgets, est associé le point :

Par construction le centre de gravité sera formé des coordonnées nulles et l’inertie totale est
formé par la somme du nombre de variable puisque la variance est normé sur l’unité.

3.2.3 Analyse des corrélations

Pour analyser plus complètement les corrélations, on peut construire un dendrogramme


représenté par la figure 1. Celui s’obtient à partir de la matrice des corrélations qui, pour
rappel, n’est que la matrice des covariances calculée sur des variables centrées réduite. Un
examen rapide montre que les fonctions ACS (action sociale) et EDU (éducation) sont les
plus liées à 0,92. En second lieu, d’autre part, sont liées toujours avec une corrélation positive
les fonctions subventions au commerce et à l’industrie (CMI) et l’action pour le logement
(LOG). Par ailleurs on remarque que la fonction défense DEF est liée négativement (-0,8, trait
rouge), au même niveau le paiement de la dette (DET) est lié négativement avec les fonction
« économiques » comme l’action au logement. Enfin ACS, action sociale, et service de la
dette sont liés négativement avec une corrélation de 0,70. On a ainsi, dans ce dendrogramme,
retracé l’arbre des principales liaisons de ces corrélations. Du point de vue de l’interprétation
on peut ainsi distinguer des fonctions sociales (EDU, ACS), relativement éloignées des

16
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

fonctions économiques (LOG, CMI) ; ces deux groupes de fonction subissent elles-mêmes un
effet de concurrence du service de la dette et de la fonction de défense.

MATRICE DES CORRELATIONS

C2 C3 C4 C5 C6 C7 C8 C9 C10 C11
PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
C2 PVP 1
C3 AGR -0,07 1
C4 CMI 0,1 0,57 1
C5 TRA 0,19 -0,25 0,08 1
C6 LOG -0,01 0,43 0,85 0,16 1
C7 EDU 0,24 0,53 0,47 -0,15 0,11 1
C8 ACS 0,35 0,43 0,49 -0,12 0,19 0,92 1
C9 ACO -0,69 0,05 -0,04 -0,31 0,05 -0,04 -0,04 1
C10 DEF -0,27 -0,33 -0,52 0,12 -0,22 -0,75 -0,8 -0,14 1
C11 DET -0,14 -0,65 -0,8 -0,13 -0,68 -0,69 -0,7 0,03 0,42 1
C2 C3 C4 C5 C6 C7 C8 C9 C10 C11

Figure 1 Dendrogramme

Une seconde méthode pour évaluer les résultats de calcul de dépendances entre variables est
l’analyse des valeurs tests. SPAD donne dans son listage de résultats la matrice symétrique
des valeurs-tests. Ce calcul basé sur la démarche du Chi2 indique une présomption de
dépendance entre deux variables (au seuil de 5% de risque) si la valeur de la cellule de
croisement est inférieure à 2. Les valeurs supérieures à 2, indiquant des dépendances entre
variables confirment les liaisons forte entre les éléments des fonctions d’action économique
(LOG, TRA, CMI), d’actions sociales (EDU, ACS) et la concurrence entre les fonctions de
défense et les fonctions « sociales ».

17
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Pour rappel on souligne qu’il est possible de calculer la proximité de chaque variable par
rapport à l’ensemble des autres en utilisant la somme du carré des corrélation, sur l’ensemble
des autres variables, concernant cette variable, ce dernier résultat divisé par le nombre de
variable. Ainsi, il apparaît que la variable qui crée le plus de variance est la dette, si lon prend
le total des carrés des corrélations reprises ci-dessous on obtient un total de 3,9 soit 0,33 après
division par le nombre de variables.

PVP AGR CMI TRA LOG EDU ACS ACO DEF DET DIV
-0,14 -0,65 -0,8 -0,13 -0,68 -0,69 -0,7
0,03 0,42 1,00 0,47

MATRICE DES VALEURS-TESTS

C2 C3 C4 C5 C6 C7 C8 C9 C10 C11
PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
C2 99.99
C3 -0.38 99.99
C4 0.52 3.46 99.99
C5 1.05 -1.40 0.43 99.99
C6 -0.04 2.46 6.75 0.89 99.99
C7 1.32 3.16 2.73 -0.84 0.60 99.99
C8 1.96 2.49 2.90 -0.62 1.04 8.62 99.99
C9 -4.57 0.25 -0.20 -1.70 0.27 -0.23 -0.19 99.99
C10 -1.47 -1.84 -3.12 0.63 -1.20 -5.27 -5.91 -0.75 99.99
C11 -0.75 -4.19 -5.93 -0.72 -4.45 -4.62 -4.66 0.17 2.40 99.99

3.3. Recherche des composantes principales

3.3.1 Du calcul de l’inertie à la caractérisation de la première composante.

La recherche de la première composante principale revient à ajuster une droite D1 de façon à


décrire une part maximum de l’inertie du nuage de points. On mesure la dispersion du nuage
N*, formé des données centrées-réduites, autour de D à l’aide de l’inertie I(N*,D) :

où y(i) est la projection orthogonale P.D(x*i) du point x*i sur la droite D ou ∆. Cette droite D,
suivant le principe des moindres carrées minimise I(N*,D) et constitue le premier axe
factoriel du nuage N*. Cette droite passe par l’origine 0, centre de gravité de N* (voir figure)
et est engendré par le vecteur unitaire u1, vecteur propre de la matrice des corrélations entre
variables Xj. Vecteur associé à la plus grande valeur propre .

Sur notre exemple = 4,5 environ . Pour le premier vecteur propre associé à , les valeurs
en sont reprises dans la seconde ligne du tableau suivant. On peut vérifier, du fait de la
condition d’orthogonalité, que :

u1 = ∑ j =1 u1, j = −0, 07 2 + ( −0,36 ) + .... + 0, 412 = 1


2 p 2 2

18
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Le tableau est volontairement limité au 5 premières valeurs caractéristiques.

Val Prop PVP AGR CMI TRA LOG EDU ACS ACO DEF DET
1 4,57 -0,07 -0,36 -0,41 0,04 -0,28 -0,39 -0,37 -0,11 0,32 0,41
2 2,14 0,50 -0,01 0,16 0,35 0,13 -0,26 0,08 -0,67 -0,04 -0,12
3 1,68 -0,33 0,20 0,26 0,13 0,45 -0,37 -0,35 -0,04 0,38 -0,15
4 0,86 0,04 -0,46 -0,17 0,73 0,14 0,23 0,02 0,30 0,02 -0,17
5 0,74 0,35 -0,17 -0,28 -0,32 -0,12 -0,05 0,23 -0,14 0,20 -0,15

Figure 2 : Le premier axe

Les tableaux suivants reprennent les calculs réalisés dans cette exemple sous SPAD, on peut
remarquer la décroissance rapide des valeurs propres. Seuls les cinq première composantes
paraissent utiles à l’analyse en représentant une prise en charge de plus de 90% de l’inertie.

HISTOGRAMME DES PREMIERES VALEURS PROPRES


POURCENT.POURCENT
NUMERO VALEUR . Histogramme
PROPRE CUMULE
1 4.5053 40.96 40.96 **************************************************************************>>>
2 2.1262 19.33 60.29 **************************************
3 1.6845 15.31 75.60 ******************************
4 0.8625 7.84 83.44 ****************
5 0.7669 6.97 90.41 **************
6 0.5797 5.27 95.68 ***********
7 0.2541 2.31 97.99 *****
8 0.1100 1.00 98.99 **
9 0.0689 0.63 99.62 **

Ceci est confirmé par un calcul présenté par SPAD sur les intervalles laplaciens. La règle de
décision revient à comparé les recouvrements, pour deux composantes consécutives. La
presque totale correspondance avec les intervalles de la 4 et de la 5 ème composante montre
qu’il serait peut utile de pour suivre l’analyse vers les rangs inférieurs.

19
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

INTERVALLES LAPLACIENS D'ANDERSON

INTERVALLES AU SEUIL 0.95

Borne Valeur |Borne


N ordre inférieure Propre supérieure
1 2.1453 4.5053 6.8653
2 1.0124 2.1262 3.2400
3 0.8021 1.6845 2.5669
4 0.4107 0.8625 1.3144
5 0.3652 0.7669 1.1686

La première composante Y1 est ainsi une nouvelle variable définie pour chaque individu i par
la longueur algébrique de la projection du point xi* dur l’axe D1. La valeur Y1(i) est donc
égale au produit scalaire entre les vecteurs u1 et x*i

Cette composante principale est centrée par construction puisque elle est combinaison linéaire
de variables elles-mêmes centrée. Sa variance est égale à la première valeur propre

La variance de la première composante principale Y1 est égale à l’inertie du nuage des points
projetés sur D1 par rapport au centre de gravité 0. Les corrélations entre les variables Xj et la

composante Y1 peuvent se calculer à l’aide de la formule corr(Xj,Y1)= . Il est aisé


d’en déduire que la proximité de Y1 à l’ensemble des variables vaut

Dans l’exemple de la dépense de l’Etat ceci conduit à 0,424 à comparer au 0,329 obtenu pour
l’apport de la dette.

3.3.2 Qualité de la première composante.

Pour obtenir la qualité de la première composante principale on utilise une fonction de


décomposition de l’inertie totale. Le vecteur y(i) est la projection orthogonale du vecteur xi*
sur la droite D1, on a donc :

20
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

d’où l’inertie totale

peut se décomposer en deux parties, avec une analogie très proche de la méthode des MCO :

- un premier terme représentant l’inertie totale du nuage [y1,….yn] des projections des points
x*i sur l’axe D1. Cette part représente l’inertie expliquée par l’axe D1 et donc vaut . Elle
s’exprime par la valeur:

- un second terme représente l’inertie résiduelle du nuage qui n’est pas prise en compte
par l’ajustement sur la droite D1 ; cette valeur s’exprime par:

n
1/ n∑ d 2 ( xi* , yi ) = I ( N *, D1 )
i =1

La figure 3 donne une interprétation géométrique sur la décomposition de l’inertie ; on y


remarque de manière intuitive que la qualité de la projection est inversement

proportionnelle à la norme du segment (x,y) donc à l’ouverture de l’angle x0 y .

Ainsi dans notre exemple sur une inertie totale de 10, l’inertie résiduelle par rapport à D1 est
de 10-4,50 soit environ 5,5. Ainsi 41% de l’inertie du nuage de point est ajustée par cet axe
D1. La mesure de la qualité de la première composante est donc la part d’inertie expliquée
soit environ 41% dans notre exemple. Ainsi ici la valeur explicative de ce premier axe est
largement supérieure à celle des variables initiales1

La qualité de la représentation de chaque individu sur l’axe D1( ou ∆1) est donnée par le
critère du cosinus carré de l’angle formé entre l’axe D1 et le vecteur x*i, soit :

d 2 ( yi , 0) Y 1(i ) 2
cos 2 ( xi , D1) = =
d 2 ( x *i , 0) d 2 ( x *i , 0)

Les résultats sur ce critère montrent, tableau page 24, que les périodes les plus anciennes et
les plus récentes sont assez bien représentées par ce premier axe et beaucoup mieux que ne le
sont les périodes de l’entre deux-guerres.

1
Pour qu’il s’agit d’une analyse « centrée-réduite » chacune de ces variables d’origine comptait pour 10% de
l’inertie du phénomène.

21
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Figure 3 décomposition de l’inertie

3.3.3 Généralisation

De manière générale les considérations de calcul établies sur le premier axe peuvent être
étendues aux autres axes. Dans les tableaux suivants, pour des raisons de clarté des tableaux,
les résultats ont été extraits pour les cinq premiers axes factoriels, sur donc 10 (nombre de
variables possibles).

Dans ces tableaux sont donc présentés les résultats concernant 5 axes principaux
(D1,D2,D3,D4,D5)comptant pour 76% de la variance. La figure 4 synthétise cette
représentation du nouveau repère exprimé par le Y à partir de celui des X*, les données
centrées réduites initiales.

Dans ce système les composantes principales Y1 à Yp (ici p=10, mais p=5 dans les tableaux)
sont définies par le produit des vecteurs propres u issus de la factorisation de la matrice
P
(X’*X*), soit Yh(i) = ∑ uhj x *ij ; Ces Yh(i), composantes principales, représentent les
j=1

coordonnées2 des points observations x*(i) dans le nouveau repère. Ces composantes sont
centrées, de variance λh et non corrélées entre elles. Donc, par analogie, les points initiaux
P
peuvent être reconstitués par : x *ij = ∑ Yh(i).u
h=1
hj . La contribution d’un axe pour une

observation représente l’apport de chaque axe dans l’explication de la « distortion » d’un


point observation, soit en fait le carré de sa distance au centre d’inertie.
2
Donc voir le tableau des coordonnées individus dans les pages qui suivent.

22
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

Les éléments de la matrice de corrélation entre deux variables j et l


devient : cor ( X j , X l ) = ∑ h =1 λh .uh , j .uh ,l et la décomposition du carré de la distance d’un point
p

p
d 2 ( x *i , 0) = x *i = ∑ Yh(i ) 2 . On peut en déduire deux formules de
2
à l’origine est :
h =1
p p
restitution: ∑ cos
h =1
2
( xi , Dh) = 1 et ∑ λ h = p ; mais surtout les corrélation entre variables X*
h =1

et composantes Y soit : cor ( Xj , Yh) = λh uh , j . Ainsi la part d’inertie expliquée par l’axe h
p
λh
s’exprime aussi 1/ p ∑ cor 2 ( Xj , Yh) = .
j =1 p

Figure 4
Les axes principaux. Les composantes principales

23
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

COORDONNEES DES VARIABLES SUR LES AXES 1 A 5


VARIABLES ACTIVES

CORRELATIONS
COORDONNEES VARIABLE-FACTEUR
VARIABLES | ANCIENS AXES UNITAIRES
IDEN Libelle 1 2 2 3 4 5 1 2 3 4 5 1 2 3 4
C2 PVP -0,22 0,56 0,81 0,18 -0,26 -0,16 -0,22 0,81 0,18 -0,26 -0,16 -0,1 0,14 -0,28 -0,19
C3 AGR -0,71 -0,17 -0,24 -0,05 -0,34 0,36 -0,71 -0,24 -0,05 -0,34 0,36 -0,33 -0,04 -0,36 0,41
C4 CMI -0,84 -0,08 -0,12 0,35 0,14 0,26 -0,84 -0,12 0,35 0,14 0,26 -0,4 0,27 0,15 0,29
C5 TRA 0,06 0,21 0,31 0,67 0,48 -0,28 0,06 0,31 0,67 0,48 -0,28 0,03 0,52 0,52 -0,32
C6 LOG -0,62 -0,23 -0,33 0,6 0,11 0,19 -0,62 -0,33 0,6 0,11 0,19 -0,29 0,46 0,12 0,21
C7 EDU -0,82 0,17 0,25 -0,41 0 -0,11 -0,82 0,25 -0,41 0 -0,11 -0,39 -0,31 0 -0,13
C8 ACS -0,84 0,19 0,28 -0,34 0,03 -0,24 -0,84 0,28 -0,34 0,03 -0,24 -0,4 -0,26 0,04 -0,27
C9 ACO -0,01 -0,53 -0,78 -0,41 0,37 -0,16 -0,01 -0,78 -0,41 0,37 -0,16 0 -0,32 0,4 -0,19
C10 DEF 0,72 -0,18 -0,26 0,42 -0,39 -0,06 0,72 -0,26 0,42 -0,39 -0,06 0,34 0,32 -0,42 -0,07
C11 DET 0,91 0,06 0,09 -0,25 0,06 0,12 0,91 0,09 -0,25 0,06 0,12 0,43 -0,19 0,06 0,14

24
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS, AXES 1 A 5

Observa
COORDONNEES CONTRIBUTIONS COSINUS CARRES
tions |
Poids Distorsion 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
1872 3,45 17,83 2,66 2,26 -0,25 -0,80 0,45 5,40 8,30 0,10 2,50 0,90 0,40 0,29 0,00 0,04 0,01
1880 3,45 19,09 2,61 2,04 1,86 1,55 -0,10 5,20 6,80 7,10 9,70 0,00 0,36 0,22 0,18 0,13 0,00
1890 3,45 8,34 2,48 0,84 -0,16 -0,85 0,38 4,70 1,10 0,10 2,90 0,60 0,74 0,08 0,00 0,09 0,02
1900 3,45 7,25 2,00 0,97 0,19 -1,12 0,89 3,10 1,50 0,10 5,00 3,60 0,55 0,13 0,00 0,17 0,11
1903 3,45 11,00 2,56 0,67 0,17 0,20 1,24 5,00 0,70 0,10 0,20 7,00 0,60 0,04 0,00 0,00 0,14
1906 3,45 6,09 2,06 0,81 0,28 -0,92 0,24 3,30 1,10 0,20 3,40 0,30 0,70 0,11 0,01 0,14 0,01
1909 3,45 5,89 1,96 1,18 0,31 -0,45 0,14 2,90 2,30 0,20 0,80 0,10 0,65 0,24 0,02 0,03 0,00
1912 3,45 5,70 1,72 0,66 0,62 -0,86 -0,42 2,30 0,70 0,80 3,00 0,80 0,52 0,08 0,07 0,13 0,03
1920 3,45 11,66 2,38 -0,22 1,77 -0,21 -1,52 4,40 0,10 6,40 0,20 10,40 0,49 0,00 0,27 0,00 0,20
1923 3,45 14,72 2,10 -2,49 -1,62 0,46 0,47 3,40 10,10 5,40 0,80 1,00 0,30 0,42 0,18 0,01 0,02
1926 3,45 16,49 2,41 -0,90 -2,31 1,14 1,03 4,50 1,30 10,90 5,20 4,70 0,35 0,05 0,32 0,08 0,06
1929 3,45 9,96 1,97 -1,12 -1,08 1,75 -0,13 3,00 2,00 2,40 12,20 0,10 0,39 0,13 0,12 0,31 0,00
1932 3,45 10,30 0,82 -2,10 -0,82 1,03 -1,75 0,50 7,20 1,40 4,30 13,70 0,07 0,43 0,06 0,10 0,30
1935 3,45 8,48 0,50 -2,28 -1,26 0,41 -0,66 0,20 8,50 3,20 0,70 1,90 0,03 0,62 0,19 0,02 0,05
1938 3,45 7,95 1,30 -1,71 -0,54 -1,08 -0,96 1,30 4,80 0,60 4,60 4,10 0,21 0,37 0,04 0,15 0,12
1947 3,45 9,78 -0,98 -0,07 2,56 -0,05 -0,99 0,70 0,00 13,40 0,00 4,40 0,10 0,00 0,67 0,00 0,10
1950 3,45 24,49 -2,07 -0,71 3,36 2,36 1,22 3,30 0,80 23,10 22,30 6,70 0,17 0,02 0,46 0,23 0,06
1953 3,45 9,27 -0,77 -1,40 2,05 -0,59 -0,32 0,50 3,20 8,60 1,40 0,50 0,06 0,21 0,45 0,04 0,01
1956 3,45 12,07 -2,13 -2,04 1,08 -0,84 0,82 3,50 6,80 2,40 2,80 3,00 0,38 0,35 0,10 0,06 0,06
1959 3,45 9,19 -2,00 -1,50 0,44 -1,30 0,48 3,10 3,70 0,40 6,70 1,00 0,43 0,25 0,02 0,18 0,02
1962 3,45 7,82 -2,24 -1,17 -0,05 -1,04 0,22 3,80 2,20 0,00 4,30 0,20 0,64 0,17 0,00 0,14 0,01
1965 3,45 7,84 -2,38 0,08 -0,09 0,51 0,91 4,30 0,00 0,00 1,10 3,70 0,72 0,00 0,00 0,03 0,11
1968 3,45 14,64 -2,81 -0,45 -1,03 -0,51 1,99 6,00 0,30 2,20 1,00 17,80 0,54 0,01 0,07 0,02 0,27
1971 3,45 7,59 -2,32 -0,05 -0,46 -0,18 -0,91 4,10 0,00 0,40 0,10 3,70 0,71 0,00 0,03 0,00 0,11
1978 3,45 9,80 -2,55 0,98 -0,93 -0,39 -1,03 5,00 1,60 1,80 0,60 4,70 0,66 0,10 0,09 0,02 0,11
1981 3,45 8,31 -2,08 1,64 -0,67 0,53 -0,46 3,30 4,40 0,90 1,10 0,90 0,52 0,32 0,05 0,03 0,03
1987 3,45 9,77 -2,31 1,61 -0,99 0,04 -0,54 4,10 4,20 2,00 0,00 1,30 0,55 0,26 0,10 0,00 0,03
1992 3,45 11,89 -2,36 2,06 -1,02 0,78 0,06 4,30 6,90 2,10 2,40 0,00 0,47 0,36 0,09 0,05 0,00
1997 3,45 15,80 -2,56 2,44 -1,37 0,42 -0,76 5,00 9,70 3,90 0,70 2,60 0,41 0,38 0,12 0,01 0,04

25
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3.4 Représentation graphiques

Les méthodes d’analyse multidimensionnelle sont en premier lieu des méthodes exploratoires.
Aussi la vision synthétique du graphique va permettre d’apporter la valeur ajoutée essentielle
à la méthode.

On représente les variables dans le plan à l’aide des points Bj =cor(Xj,Y1),cor(Xj,Y2), ceci
permet d’obtenir la figure ci-dessous appelée « cercle des corrélations ». Les logueurs Rj des
vecteurs variables B représentent la corrélation multiple telle que :
2
Bj = co r 2 ( X j , Y 1) + co r 2 ( X j , Y 2) = R 2 ( X j ; Y 1, Y 2 )

Cette écriture est possible puisque les variables Y1 et Y2 sont non corrélées entre-elles. On
peut remarquer que les corrélations entre les variables initiales sont approximativement
reconstituées en fonctions des longueurs des vecteurs variables et des cosinus des angles entre
ces mêmes variables. ON retrouve ainsi la forte corrélation entre action sociale et éducation
aperçue lors de la construction du dendrogramme.

26
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

La carte des individus revient à obtenir les projections des points xi* sur les premiers axes
principaux (∆1,∆2). Le graphe des points Ai=(Y1(i),Y2(i)) permet d’observer la répartition
des individus selon les axes. Le graphique ci dessus montre les translations sous la forme d’un
U au cours du cheminement chronologique.

En prenant quelques précautions sur les échelles, il est tout à fait logique de représenter
simultanément les coordonnées, des variables et des observations, dans le premier plan. Si
l’on admet que les points sont bien représentés sur le plan principal, la formule de
p
reconstitution des données d 2 ( x *i , 0) = x *i = ∑ Yh(i ) 2 permet d ‘écrire :
2

h =1

2
xij * = ∑ Yh(i ) uhj en notant la transformation Y *h = Yh / λ h et en utilisant le résultat
h =1

précédent où cor ( Xj , Yh) = λh uh , j , la reconstitution des données devient


2
xij * = ∑ Yh(i ) cor ( X j , Yh ) . Cette dernière formule exprime que les données initiales sonr
h =1
reconstitués par le produit scalaire entre les vecteurs A*i=(Y*1(i),Y*2(i)) et
Bj=(cor(Xj,Y1),cor(Xj,Y2)).

27
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

3.5 Résumé sur la méthode

Toutes les techniques factorielles proposent une représentation d’une projection planaire (sur
le plan principal en premier) du nuage des individus. L’interprétation se fait souvent dans
l’ordre suivant : si le plan est pertinent, il faut lui trouver un sens (description des axes
factoriels), savoir quels sont les individus qui contribuent le plus à sa formation, et ne pas
oublier de ne considérer que les individus bien représentés sur ce plan.par chacun des axes.
Pour une ACP ou une AFC (analyse factorielle de correspondances, chapitre 4), elle peut être
interprétée comme un pourcentage de l’information du nuage initial retranscrite par la
projection sur l’axe. En ACM (analyse des correspondances multiples), les parts d’inertie
n’ont pas vraiment de sens. En ACP ou AFC, un plan représentant moins de 10% de l’inertie
ne sera pas forcément intéressant. La part d’inertie de k axes factoriels correspondant aux
valeurs propres faisant partie de l’ensemble Ik est donnée par la formule :

où VM représente en ACP la matrice des variances-covariances.

Pour un espace jugé intéressant, il faut interpréter les axes qui le constituent. Cette description
des axes peut être faite conjointement de deux manières. Pour un tableau centré réduit, on
peut calculer les corrélations des variables aux axes avec la formule :

Plus une variable est corrélée avec un axe, plus elle est importante pour le décrire. On peut
visualiser les corrélations de toutes les variables sur le cercle des corrélations (pour un plan
factoriel donné). Si une variable est très fortement corrélée à un axe, c’est que cet axe oppose
des individus ayant des valeurs contraires pour cette variable.

28
Cours Traitement des données 2001-2002 : Chapitre 3, Analyse en composantes principales

En plus de cette description par les variables, on fait aussi une description par les individus,
en introduisant la notion de contribution. La contribution de l’individu i à l’axe k est donnée

par la formule . Les individus qui contribuent à un axe sont majoritairement ceux qui
sont aux extrémités. Si quelques individus ont des contributions très fortes, il peut être
intéressant de refaire une analyse en les mettant en illustratifs. Ainsi, ce ne seront plus ces
individus, présentant des valeurs particulièrement fortes pour une variable qui influenceront la
formation des axes.

Il faut aussi s’assurer que la représentation des individus sur les plans principaux est de bonne
qualité. Pour un individu ei, on mesure cette qualité à l’aide du cosinus de l’angle formé par le
plan principal et le vecteur défini par l’individu ei. L’indicateur utilisé dans les logiciels est
alors couramment noté cos². Idéalement, lorsqu’un individu est sur le plan factoriel, l’angle
défini est alors nul, ce qui entraîne un cos² égal à 1. Au contraire, un individu orthogonal à
chacun des axes du plan factoriel aura un cos² nul. Tous les individus occupant des positions
intermédiaires entre ces deux extrémités auront un cos² compris entre 0 et 1, d’autant plus
proche de 1 que l’individu est bien représenté par sa projection sur le plan.

En règle générale, les individus contribuant bien aux axes du plan y sont bien représentés
(puisque sont ceux qui forment les axes). L’indicateur cos² est principalement à utiliser quand
on veut interpréter les points centraux.

Analyse du nuage de variables. Interprétation des résultats.

Les différents résultats sont regroupés dans le tableau suivant :

Rp, dimension initiale p Rp*, dimension retenue de p* Rn


variables composantes
ui λi ci=Xαi=XMui
ième axe factoriel ou axe ième facteur principal d'inertie ième composante principale
principal d'inertie.
ui : vecteur propre de VM αi : vecteur propre de MV ci : vecteur propre de
associé à la valeur propre λ i. associé à la valeur propre λi. XMtXDp associé à la valeur
propre λi.
Les (ui) sont des vecteurs Les (αi) sont des vecteurs

M-orthonormés : M-1-orthonormés.
,
M(ui,ui)=1 ; M(ui,uj)=0 M-1(ui,ui)=1 ; M-1 (ui,uj)=0

29

Vous aimerez peut-être aussi