Vous êtes sur la page 1sur 78

Master Actuariat Finance

Introduction
• L’analyse factorielle est une technique statistique
aujourd’hui surtout utilisée pour dépouiller des
enquêtes : elle permet, quand on dispose d’une
population d’individus pour lesquelles on possède
de nombreux renseignements concernant les
opinions, les pratiques et le statut (sexe, âge, etc.),
d’en donner une représentation géométrique ,
c'est-à-dire en utilisant un graphique qui permet
de voir les rapprochements et les oppositions
entre les caractéristiques des individus.
Introduction
• Cette technique est déjà centenaire : elle a été créée
en 1904 par le psychologue anglais Charles Spearman,
dans le but de mesurer l’intelligence . Sa technique porte
le nom aujourd’hui d’analyse factorielle des psychologues.
D’autres techniques d’analyse factorielle seront
développées ensuite : l’analyse en composantes
principales (ACP) et une variété de celle-ci l’analyse
factorielle des correspondances (AFC), créée dans les
années 1960 par Jean-Paul Benzécri .
Du fait de l’essor de l’informatique, cette dernière
technique est devenue une technique standard, intégrée
dans les grands logiciels statistiques internationaux.
(extrait de "Principe de l’analyse factorielle" par Philippe Cibois )
LE CONTENU DU COURS
Le cours traitera les chapitres suivants :
Analyse en composantes principales non Normée dans
R² (ACP non normée dans le cas de 2 variables)

Analyse en composantes principales Normée (Rp)

 Analyse factorielle des correspondances (AFC)

 Analyse des correspondances Multiples (ACM)

 Un survol de la méthode de Classification


LES PRÉ-REQUIS AU COURS

• Algèbre linéaire et géométrie dans l’espace

• Analyse statistique unidimensionnelle et


bidimensionnelle

• Inférence statistique( de préférence)


LE LOGICIEL REQUIS
R
(C'est un logiciel libre et gratuit, téléchargeable depuis www.r-project.org).

• LES LOGICIELS CONSEILLÉS

• XLSTAT

• SPSS

• SPHINX
Analyse en composantes
principales non Normée
(cas de 2 var)

Chapitre 1
Introduction
• Notre objectif est d’analyser et décrire les données à
travers les Individus et/ou les Variables.
• L’étude de ces individus consistera à appréhender les
ressemblances entre ces derniers. Autrement, citer les
individus les plus proches, les plus éloignés et les
intermédiaires. D’où la nécessité de calculer les distances
entre individus. Un espace sur lequel on peut définir une
distance (donc un produit scalaire) s’appelle un Espace
Vectoriel Euclidien.
• Comme ici on a choisi de travailler avec deux variables,
les individus vont évoluer dans
l’ Espace Vectoriel Euclidien à deux dimensions: R2.
I- QUELQUES NOTIONS D‘ALGEBRE LINEAIRE
1- Espace Vectoriel Euclidien (préhilbertien) Rn.
i)- NOTATION :
• Soit x  x1  xi  xn  un élément de Rn,
on note alors X la matrice colonne ( à n lignes et 1
colonne) constituées des composantes, dans la base
canonique B, du vecteur x .
 x1 
 
 
• X= x 
 i; la transposée X’= x1  xi  xn 
 
x 
 n
la matrice ligne ( à 1 ligne et n colonnes)
• Où B={ e1, e2, …, en } et

1  0 0
     
 0  
e1      ei   1   en    
     
  
  0 1
     
ii)- Forme Bilinéaire dans Rn

•Définition 1

on appelle forme bilinéaire symétrique


sur Rn une forme bilinéaire f sur Rn (une
application bilinéaire de Rn × Rn dans R ) telle
que
x, y  R  R
n n
f x, y   f  y, x 
• Exemple :

1) La forme bilinéaire f définie sur Rn par :


n
f x, y    xi yi  X ' Y
i 1
est une forme bilinéaire symétrique.

   
2) Si A  M n R , f X , Y  X ' AY est une
forme bilinéaire symétrique si, et
seulement si, la matrice A est symétrique
•Définition 2
• On appelle produit scalaire sur Rn
toute forme bilinéaire symétrique sur Rn
possédant les propriétés suivantes :

 x  R n
f  x, x   0
 f  x, x   0  x  0

• NOTATION : f (x, y) = < X | Y >f


• On dit alors que le produit scalaire sur Rn
est une forme bilinéaire symétrique définie
positive.

• Rn , muni d'un produit scalaire ,est appelé


espace vectoriel préhilbertien
ou Euclidien.
iii)- Produit Scalaire définis par 1 Matrice
• Soit f la forme bilinéaire symétrique
définie par : f  X , Y   X ' AY , A  Sn R 
• Où S n R  est l’ensemble des matrices carrées
symétriques à (n lignes et n colonnes).

• Théorème: Pour que f soit un produit scalaire il faut


et il suffit que toutes les valeurs propres de sa
matrice A , qui sont toujours des nombres réels,
soient strictement positives.
a)- Produit scalaire canonique.
• On l’obtient sur Rn lorsque A= In :

• ((x1, ... , xn), (y1, ... , yn)) < X | Y > = X’ In Y

 y1 
 
  
y 
= x 1  xi  xn   i =
  
y 
 n
b)- Produit scalaire défini par une
matrice des poids
Soit P une matrice diagonale dont les éléments
diagonaux sont des nombres réels strictement
positifs : n
• < X | Y >P = X’ P Y =   i xi yi
i 1
•  i est dit le ieme poids
• Rem 1: Le produit scalaire canonique correspond au
cas où la matrice P est la matrice unité In
Rem 2 : si P= In, tous les poids sont égaux à
et la somme des poids vaut 1
𝟏 𝟏 𝒏
< X | Y >P = X’ In 𝒀 = 𝒊=𝟏 𝒙𝒊 𝒚𝒊
𝒏 𝒏
iv)- Norme d'un vecteur
• Si f est un produit scalaire sur Rn, le nombre
réel positif
x f
 f x, x   X/X f
s'appelle la f -norme de X, ou f -longueur de X.

• On dit qu'un vecteur est normé pour f (ou


unitaire) si sa longueur || x ||f est égale à 1.
• Par exemple, dans R² muni du produit scalaire
canonique, la longueur de x=(x1, x2) est

x  2
x1  x2
2

• et le vecteur u=(1, 0) est normé: u  12


 0 2
1

• le vecteur
x est normé x
x
• La distance entre deux points A=(xi) et B=(yi)
est :
d  A, B   A  B   xi  yi 
2
vi)- Soit x et y deux vecteurs de Rn, et soit q
l’angle que forme les deux vecteurs entre eux.
Alors :

X / Y  x y cosq 

q

X
vii)- Orthogonalité.
• Deux vecteurs X et Y de Rn sont orthogonaux si, et
seulement si, leur produit scalaire est nul :
< X | Y >= 0

• Remarques :
• — 0 est orthogonal à tout vecteur de Rn.

• — L'angle de deux vecteurs non nuls orthogonaux est
• — La base canonique de Rn muni du produit scalaire 2
canonique est formée de vecteurs normés orthogonaux deux
à deux : on parle alors de
• base orthonormée.
ix)- Projeté orthogonal.
Soient X et Y deux vecteurs non nuls de Rn .Il existe un
unique vecteur Z de Rn, proportionnel à Y et tel que X – Z
soit orthogonal à Y.
• Démonstration
Pour tout vecteur Z on peut écrire :
< X – Z | Y >= < X | Y >– < Z | Y >
Z étant proportionnel à Y, donc il existe un a tel que Z = a Y,
d’où :

< X – Z | Y >= < X | Y >– a < Y | Y >


= < X | Y >– a || Y ||2.
• Pour que X – Z soit orthogonal à Y,
soit < X – Z | Y >= 0, il faut et il suffit que l'on prenne
a=
L'unique vecteur Z = Y, proportionnel à Y et tel que X
– Z soit orthogonal à Y, s'appelle le projeté orthogonal de X
sur Y.
• Propriété du projeté orthogonal.
• Le projeté orthogonal Z0 de X sur Y est le vecteur Z de Rn
proportionnel à Y, qui minimise || X – Z||2

X X - Z0

q

Z0 Y
II- Méthodes Géométriques En Statistique

• Soit X une variable statistique quantitative à valeurs dans R.


• Pour chaque individu i (appartenant à une population de taille
n), X prend une valeur xi .
• A X on associe le vecteur x= (x1, x2, , xn) de Rn , et on note
 x1 
 
  
x 
• X =  i . On muni cet espace Rn de la métrique des poids
  
x 
 n
uniformes; c.-à-d. de la distance du produit scalaire défini par la
matrice des poids P = In . Autrement, chaque individu aura la
probabilité d’être choisi :
1)- La moyenne

• La moyenne x de X n’est autre que le produit

scalaire de X par le vecteur unité

• Rem : le vecteur unité 1n est unitaire pour ce produit


scalaire: 1n  
1 2
n

1    12  1

• La moyenne peut être interpréter comme la coordonnée du


projeté orthogonal du vecteur x sur le ss-espace engendré par
le vecteur 1n
Notons X0 = X- la variable centrée. On vérifie qu’elle

est orthogonale à .
𝑥1 𝑥 𝑥1 1
𝑋0 = ⋮ − ⋮ = ⋮ − 𝑥 ⋮ = 𝑋 − 𝑥 𝕝𝑛
𝑥𝑛 𝑥 𝑥𝑛 1

X
X0

𝕝𝑛
0
𝑥 𝕝𝑛

2)- La Variance

• La variance de la variable X est le carré de la


norme de la variable centrée X0 :

1 2
1 1 𝑡 2
𝑉𝑋 = 𝑥𝑖 − 𝑥 = 𝑋0 𝑋0 𝐼𝑛 = 𝑋0 𝑋0 = 𝑋0
𝑛 𝑛 𝑛
3)- Covariance
1 1 1
• Cov (X, Y) = 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 𝑥0 𝑦0 = 𝑋0 𝑌0 𝐼𝑛
𝑛 𝑛 𝑛
1 𝑡
= 𝑋0 𝑌0
𝑛
• La covariance est le produit scalaire des variables centrées.

4)- Coefficient de corrélation linéaire


• 𝑐𝑜𝑣 𝑋, 𝑌 𝑋0 𝑌0 𝑃
𝑟𝑋𝑌 = = = cos 𝑋0 , 𝑌0
𝑉 𝑋 𝑉 𝑌 𝑋0 𝑃 𝑌0 𝑃

• Le coefficient de corrélation linéaire est le cosinus de l'angle


des variables centrées.
III- ANALYSE EN COMPOSANTES PRINCIPALES

• On se donne maintenant le couple des deux


variables (X, Y) qu’on appelle :
la variable Statistique quantitative bidimensionnelle

à valeurs dans R².

• On étudie une Population de n individus selon la


V.S.B. (X, Y)
1)- Définitions des Espaces

a)- Espace des individus

• C’est l’espace vectoriel dans lequel évoluent les n individus


de la population et où chaque axe est représenté par une
variable statistique. Sa dimension est donc égale aux
nombres de variables statistiques mises en jeu. Ici,
puisqu’on n’a que deux variables (p=2), l’espace des
individus est R p = R 2 Y
Mi
• On muni l'espace des individus,R², du produit yi
scalaire canonique grâce à la matrice identité
Q =I2 et de la base canonique {e1, e2} X
orthonormée pour ce produit scalaire. xi
b)- Espace des variables

• Les n valeurs x1  xi  xn  de X pour les n


individus peuvent être considérées comme les coordonnées
d'un vecteur de Rn.
• Même chose pour les n valeurs

 y1,  , yi ,  , yn  de Y.
• Rn est appelé l'espace des variables et est de dimension n.

• On muni l'espace des variables, Rn, du produit


scalaire défini par la matrice des poids
uniformes P = In X Y
i
xi yi
2)- REGRESSION ORTHOGONALE
• On a vu dans le chapitre de la régression (Ajustement
linéaire), en S1, que lorsqu’on veut expliquer Y par X (i.e
ajuster le nuage des points individus par une droite), on
minimise la somme des carrés des écarts entre les individus
et leurs projetés sur la droite parallèlement à l’axe Y. Et si
on veut expliquer X par Y, on refait ceci mais parallèlement
à X.
Y X
• (MMC) Mi Mi
yi xi

X Y
xi yi
Y=aX+b X=a’Y+b’
• Par contre, si on ne veut expliquer
aucune des deux variables statistiques
par l’autre, nous serons alors conduits à
une autre technique, celle de
la réduction des données.

• C’est la Régression orthogonale


a)- la droite de régression orthogonale.
• Nous cherchons alors dans R ² une droite (D) qui
minimise la somme S ² des carrés des écarts entre
les individus et leurs Projetés Orthogonales sur la
droite
• Y
Mi
yi

X
xi
i)- Présentation des données
On présente les 2n données sous forme d’un
tableau à double entrée (Observation / Variable),
soit par une matrice M(nx2) à n lignes et 2 colonnes ;
où la ligne i représente la valeur prise par le ième
individu(Mi) pour les 2 variables quantitatives X et Y

• X Y
• M1 𝑥1 𝑦1
𝑀= ⋮ ⋮
• Mn 𝑥𝑛 𝑦𝑛
i)- Présentation des données
Dans l’espace des Individus, chaque individu est
représenté par un point Mi de coordonnées (xi ,yi ).
Soit G le barycentre du nuage :𝐺 𝑥 , 𝑦 .

G sera pris comme nouvelle origine de l’espace, par


conséquent le point Mi aura pour coordonnées
𝑥0𝑖
dans le nouveau repère (x0i ,y0i ) et on notera G𝑀𝑖 𝑦
0𝑖

𝑥01 𝑦01
Et Z= ⋮ ⋮ la matrice des données centrées
𝑥0𝑛 𝑦0𝑛
ii)- POSITION DU PROBLEME

• Soit (D) une droite passant par G et considérons u


le vecteur unitaire de R2 orthogonal à la droite (D) :
𝛼 2
𝑢⊥ = 𝛽 , avec 𝑢⊥ 𝑄 = a² + b² = 1.
𝛽
• Le vecteur unitaire u porté par la droite (D) est −𝛼

• La droite (D) est l'ensemble des points m = (x , y)


vérifiant :
< u | 𝐺𝑚 >Q = 0 , soit ax0 + by0 = 0.
• Soit mi la projection orthogonale du point Mi sur la
droite D, le vecteur 𝐺𝑚𝑖 est le projeté orthogonal de
𝐺𝑀𝑖 sur le vecteur u :
𝒖⊥
Y
Mi D
y0i 𝒖
yi

𝑮 mi
𝑦
x0i

𝒐 𝑥 xi X
𝛽
𝐺𝑚𝑖 =< 𝐺𝑀𝑖 | u > u = 𝑢′𝐺𝑀𝑖 𝑢 = (b𝑥0𝑖 – a𝑦0𝑖 )
−𝛼
𝑥𝑖0 𝛽
𝑚𝑖 𝑀𝑖 = 𝐺𝑀𝑖 − 𝐺𝑚𝑖 = 𝑦 - (b𝑥𝑖0 – a𝑦𝑖0 )
𝑖0 −𝛼
1 − 𝛽2 𝑥𝑖0 + 𝛼𝛽𝑦𝑖0 𝛼 2 𝑥𝑖0 + 𝛼𝛽𝑦𝑖0
= 2
= 2
1 − 𝛼 𝑦𝑖0 + 𝛼𝛽𝑥𝑖0 𝛽 𝑦𝑖0 + 𝛼𝛽𝑥𝑖0
𝛼
= α𝑥𝑖0 + β𝑦𝑖0 𝛽 = α𝑥𝑖0 + β𝑦𝑖0 u⊥

|| 𝑚𝑖 𝑀𝑖 || ² = (α𝑥𝑖0 + β𝑦𝑖0 )2 u⊥ 2
=(α𝑥0𝑖 + β𝑦0𝑖 ) ²
(car (a² + b²) = 1)
1 2 1
2 2
𝑆 = 𝑖 𝑚𝑖 𝑀𝑖 = 𝑖 α𝑥0𝑖 + β𝑦0𝑖
𝑛 𝑛
2
= α𝑋0 + β𝑌0 𝑃
• Donc chercher la droite ( D) de régression
orthogonale, revient à chercher, dans l'espace des
variables Rn , un vecteur a X0 + b Y0, combinaison
linéaire fictive des deux variables X0 et Y0, qui
minimise α𝑋0 + β𝑌0 2𝑃 , sous la contrainte
a2b 2= 1 et où P est la matrice des poids
uniformes.

• C’est l’objet de l'analyse en composantes


principales
b)- NOTION D’INERTIE
• Après l’approche géométrique du
problème, nous allons nous pencher vers
une approche analytique (notion d’Inertie).
• Rappelons qu’on se place dans R2
l’espace des Individus, qu’on muni du
produit scalaire canonique (i.e. défini par
la matrice Q).

• La distance d’un point Mi au centre G est

𝑑 𝑀𝑖 , 𝐺 = 𝐺𝑀𝑖
i)- INERTIE TOTAL D’UN NUAGE
• La variance est une mesure
unidimensionnelle de la dispersion. Alors
que l’Inertie en est une mesure
multidimensionnelle.

• Définition : L’inertie du nuage des


points est la moyenne des carré des
distances de G à tous les points
1 2 1 2 2
IT = 𝑖 𝐺𝑀𝑖 = 𝑖 (𝑥0𝑖 + 𝑦0𝑖 )
𝑛 𝑛
= V (X) + V (Y).
ii)- INERTIE D’UN NUAGE PAR RAPPORT A
UNE DROITE

• Définition :
Soit Du la droite de vecteur directeur u et
traversant le nuage et passant par son
centre de gravité G, alors L’inertie du
nuage par rapport à Du est :
1 2
1 2
𝑰 𝑫𝒖 = 𝑑 𝑀𝑖 , 𝐷𝑢 = 𝑀𝑖 𝑚𝑖 = 𝑺𝟐 ;
𝑛 𝑛
𝑖 𝑖
𝑜ù 𝑑 𝑀𝑖 , 𝐷𝑢 = 𝑑 𝑀𝑖 , 𝑚𝑖 𝑒𝑡 𝑜ù 𝑚𝑖 𝑒𝑠𝑡 𝑙𝑒
𝑝𝑟𝑜𝑗𝑒𝑐𝑡é 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙 𝑑𝑒 𝑀𝑖 𝑠𝑢𝑟 𝐷𝑢
• Le problème maintenant revient à minimiser
I(Du) (puisque égale à S2 ). Or comme on a la
relation : 2 2 2
𝐺𝑀𝑖 = 𝐺𝑚𝑖 + 𝑚𝑖 𝑀𝑖
Théorème de Pythagore
⟹ 𝐼𝑇 = 𝐼 𝐷𝑢 ⊥ + 𝐼 𝐷𝑢
⟹ 𝐼 𝐷𝑢 ⊥ = 𝐼𝑇 − 𝐼 𝐷𝑢 .
𝑜ù 𝐷𝑢 ⊥ 𝑒𝑠𝑡 𝑙𝑎 𝑑𝑟𝑜𝑖𝑡𝑒 𝑜𝑟𝑡ℎ𝑜𝑔𝑜𝑛𝑎𝑙𝑒 à 𝐷𝑢
𝒖⊥
On doit maximiser Mi
𝒖
1 2
𝐼 𝐷𝑢 ⊥ = 𝐺𝑚𝑖
𝑛
𝑖 𝑮 mi
• 𝐼 𝐷𝑢 est appelée l’inertie résiduelle.

•𝐼 𝐷𝑢 ⊥ est appelée l’inertie expliquée par Du.


c)- Liaison avec la variance-covariance.
On a déjà vu que l’inertie expliquée par Du s’écrit

1 2 1 2
𝐼 𝐷𝑢 ⊥ = 𝑖 𝐺𝑚𝑖 = 𝑖 𝛽𝑥0𝑖 − 𝛼𝑦0𝑖
𝑛 𝑛

= α2 𝑉 𝑌 + β2 𝑉 𝑋 − 2βαcov X, Y
𝑉 𝑋 cov X, Y 𝛽
= 𝛽 −𝛼
cov X, Y 𝑉 𝑌 −𝛼
𝐀
= 𝑢′𝐴𝑢
La matrice A s'appelle la matrice des variances-covariances.
En introduisant la matrice Z des variables centrées, la
matrice des variances-covariances s'écrit sous les
formes
𝑉 𝑋 cov X, Y
𝐴=
cov X, Y 𝑉 𝑌
𝑥10 𝑦10
1 𝑥10 ⋯ 𝑥𝑛0
= ⋮ ⋮
𝑛 𝑦10 ⋯ 𝑦𝑛0
𝑥𝑛0 𝑦𝑛0
1
= 𝑍′ 𝐼𝑛 𝑍
𝑛
• Remarque

L'inertie totale est la trace de la matrice A ,


somme des éléments diagonaux V(X) et
V(Y) :

IT = Tr (A)=  


d)- Méthode des multiplicateurs de LAGRANGE
• Revenons au problème de maximisation de
l’inertie expliquée.

• On doit maximiser 𝑢′𝐴𝑢 sous la contrainte :


• 𝑢 2𝑄 = 𝑢 ′ 𝑢 = 1 .

𝑂𝑛 𝑐ℎ𝑒𝑟𝑐ℎ𝑒 𝑢 𝑡𝑒𝑙 𝑞𝑢𝑒


𝜕
𝑢′ 𝐴𝑢 − 𝜆 𝑢′ 𝑢 − 1 = 0; 𝜆 ∈ ℝ
𝜕𝑢
𝑢′ 𝑢 = 1
i)- Rappels
𝜕𝑓 𝑢
𝑢1 𝜕𝑓 𝑢 𝜕𝑢1
• Soit 𝑢= ∈ ℝ2 𝑎𝑙𝑜𝑟𝑠 = .
𝑢2 𝜕𝑢 𝜕𝑓 𝑢
𝜕𝑢2

• Valeurs et Vecteurs propres


La matrice des variances-covariances A est,
comme on le voit, symétrique réelle.
Une valeur propre de A est un nombre réel tel
qu'il existe un vecteur u≠ 𝟎, appelé vecteur propre
vérifiant
A u = u
• D’où, pour l’équation précédente :

2𝐴𝑢 − 2𝜆𝑢 = 0
⇒ 𝐴𝑢 = 𝜆𝑢

• Ce qui montre que u est un vecteur


propre de A associé à la valeur propre  .

• D’où :

𝐼 𝐷𝑢 ⊥ ′ ′
= 𝑢 𝐴𝑢 = 𝑢 𝜆𝑢 = 𝜆𝑢 𝑢 = 𝜆 ′
• Donc  doit être la plus grande des valeurs
propres de A et par conséquent le vecteur
cherché est le vecteur propre normé u de A
associé à la plus grande valeur propre  .

• Notons ce vecteur u1 et la plus grande valeur


propre 1.
• u1définit l’axe Du1expliquant la plus forte inertie.

• Autrement, u1 définit la direction du plus grand


allongement du nuage.
• Cet axe est appelé premier axe factoriel
ou 1ère composante principale
• Recherche du deuxième axe factoriel :
• Réutilisons de nouveau la méthode des
multiplicateurs de LAGRANGE.
• Cherchons un deuxième axe Du2 qui soit
orthogonal à Du et que I(Du2 ) soit maximale
1 

• On maximise 𝑢2 𝐴𝑢2 sous les contraintes :
• 2
𝑢2 𝑄 = 𝑢2′ 𝑢2 = 1 𝑒𝑡 𝑢1′ 𝑢2 = 0
𝑂𝑛 𝑐ℎ𝑒𝑟𝑐ℎ𝑒 𝑢2 𝑡𝑒𝑙 𝑞𝑢𝑒
𝜕
𝑢2′ 𝐴𝑢2 − 𝜆 𝑢2′ 𝑢2 − 1 − 𝜇 𝑢1′ 𝑢2 − 0 =0
𝜕𝑢2
𝑢2′ 𝑢2 = 1 𝑒𝑡 𝑢1′ 𝑢2 = 0
• D’où, pour l’équation précédente :
2𝐴𝑢2 − 2𝜆𝑢2 − 𝜇𝑢1 = 0

Multiplions cette équation par 𝑢1 :
′ ′ ′
2 𝑢1 𝐴 𝑢2 − 2𝜆 𝑢1 𝑢2 − 𝜇 𝑢1 𝑢1 =0
𝐴𝑢 1 ′ 0 1
𝜆1𝑢 1 ′

2𝜆1 𝑢1′ 𝑢2 − 𝜇 𝑢1′ 𝑢1 = 0 ⇒ 𝜇 = 0


0 1

Revenons à la première équation :


2𝐴𝑢2 − 2𝜆𝑢2 = 0 ⇒ 𝐴𝑢2 = 𝜆𝑢2
• Ce qui montre que u2 est un vecteur
propre de A associé à la valeur propre  2.

• On prend alors 2 la deuxième plus grande


valeur propre de A associée à u2 vecteur propre
normé et orthogonal à u1

′ ′ ′
𝐼 𝐷𝑢 2 ⊥ = 𝑢2 𝐴𝑢2 = 𝑢2 𝜆2 𝑢2 = 𝜆2 𝑢2 𝑢2 = 𝜆2
Rem :
• 𝜆1 (𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑖𝑣𝑒𝑚𝑒𝑛𝑡 𝜆2 ) n’est autre que
l’inertie expliquée par le premier
(respectivement deuxième) axe principal.

• Inertie = Variance = Information

•   𝑰 𝑫𝒖𝟐 + 𝑰 𝑫𝒖𝟏 =1 +2 = V(X) + V(Y)


• Expressions des valeurs et vecteurs propres de A

Soient 1 et2 les valeurs propres de la matrice des variances-


covariances, rangées par ordre décroissant :

1 >2 > 0.
1
1 = 2
𝑉 𝑋 + 𝑉 𝑌 + (𝑉 (𝑋) − 𝑉 (𝑌))² + 4 (𝐶𝑜𝑣 (𝑋, 𝑌))²

1
2 = 2
𝑉 𝑋 + 𝑉 𝑌 − (𝑉 (𝑋) − 𝑉 (𝑌))² + 4 (𝐶𝑜𝑣 (𝑋, 𝑌))²

Rem: la démonstration se fera en cours.


𝑉 𝑌 −𝜆 1 𝑉 𝑌 −𝜆 2
Les deux vecteurs propres −cov X,Y
et −cov X,Y

associés à 1 et 2 forment une base de R ² .

Et les deux vecteurs normés 𝑢1 , 𝑢2 forment donc une

Base orthonormée de R² où :

1 𝑉 𝑌 −𝜆 1
𝑢1 =
𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 −cov X,Y

1 𝑉 𝑌 −𝜆 2
𝑢2 =
𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 −cov X,Y
• Désormais, on note V la matrice des
vecteurs propres :

𝑢1 𝑢2
↓ ↓
𝑉 𝑌 − 𝜆1 𝑉 𝑌 − 𝜆2
𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2
𝑽=
−cov X, Y −cov X, Y
𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2 𝑉 𝑌 − 𝜆2 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2
Le taux d'inertie totale expliquée par le premier
axe factoriel est le rapport

𝐼 𝐷𝑢 2 𝜆1 𝜆1
= =
𝐼𝑇 𝑉 𝑋 +𝑉 𝑌 𝜆1 + 𝜆2

Le taux d'inertie totale expliquée par le


deuxième axe factoriel est le rapport

𝐼 𝐷𝑢 1 𝜆2 𝜆2
= =
𝐼𝑇 𝑉 𝑋 +𝑉 𝑌 𝜆1 + 𝜆2
3)-Coordonnées factorielles et composantes principales
• On dispose maintenant, dans R², de deux
bases : l’une est la blase orthonormée
Canonique { e1, e2 } et l’autre est la base
propre orthonormée { u1, u2 }.
• le vecteur 𝐺𝑀𝑖 a pour coordonnées, dans
{e1, e2}, (x0 , y0) et dans la base {u1,u2}:

𝐺𝑀𝑖 | 𝑢1 , 𝐺𝑀𝑖 | 𝑢2

= 𝑥0𝑖 𝑦0𝑖 𝑢1 , 𝑥0𝑖 𝑦0𝑖 𝑢2 = 𝑥0𝑖 𝑦0𝑖 𝑉


• Coordonnées factorielles et composantes principales
• D’où les n coordonnées du nuage centré sur G,
dans la base {u1,u2} :

𝐺𝑀1 𝑢1 𝐺𝑀1 𝑢2 𝑥 01 𝑦0
1

𝐹= ⋮ ⋮ = ⋮ ⋮ 𝑉
𝐺𝑀𝑛 𝑢1 𝐺𝑀𝑛 𝑢2 𝑥 0𝑛 𝑦0
𝑛

F est donc la matrice, à n lignes et 2


colonnes, dont les lignes sont les
coordonnées factorielles du nuage de
points dans R ² muni de la base { u1, u2 }
Les deux colonnes de la matrice F constituent
les deux composantes principales de la variable
statistique (X0 , Y0).
𝒖𝟐
Y
Mi
y0i 𝒖𝟏
yi
<GMi|u2>
<GMi|u1>
x0i
𝑮

𝒐 xi X
La première colonne de la matrice F = Z V est
donc le vecteur
(1)
F = Z u1

De même, la deuxième colonne de la matrice F


est le vecteur
(2)
F = Z u2
Les deux composantes principales F1 et F2 de la
variable statistique (X, Y) s'obtiennent ainsi par les
formules :

𝑥10 𝑦10 𝑥10 𝑦10


1 𝑉 𝑌 − 𝜆1
𝐹 (1) = ⋮ ⋮ 𝑢1 = ⋮ ⋮
𝑥𝑛0 𝑦𝑛0 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2
𝑥𝑛0 𝑦𝑛0 −cov X, Y
𝑥10 𝑦10 𝑥10 𝑦10
1 𝑉 𝑌 − 𝜆2
𝐹 (2) = ⋮ ⋮ 𝑢2 = ⋮ ⋮
𝑥𝑛0 𝑦𝑛0 𝑉 𝑌 − 𝜆1 2 + 𝑐𝑜𝑣 𝑋, 𝑌 2
𝑥𝑛0 𝑦𝑛0 −cov X, Y



Rem: F(1)(F(2)) peut s’écrire aussi sous la forme suivante

(1)
𝑢11
𝐹 = 𝑢11 𝑋0 + 𝑢12 𝑌0 ; 𝑜ù 𝑢1 = 
𝑢12

(2)
𝑢21
𝐹 = 𝑢21 𝑋0 + 𝑢22 𝑌0 ; 𝑜ù 𝑢2 = 
𝑢22
4)- Propriétés des composantes principales.

a) Les composantes principales sont centrées.

𝐹 (1) = 𝐹 (1) 𝕝𝑛 𝑃
=0

𝐹 (2) = 0
b) La variance d'une composante principale est la valeur
propre correspondante.
(1) (1)
V(𝐹 ) = || 𝐹 ||P = 𝐹 (1) 𝐹 (1)
2
𝑃
= 1
(2)
V(𝐹 ) = 2
c) Les composantes principales sont non corrélées.
(1) (2) (1) (2)
Cov (𝐹 ,𝐹 )= 𝐹 𝐹 𝑃
1
= u1’ Z’Z u2= u1’ A u2
𝑛
= 2 u1’u2 = 
Exemple d’Application
• Considérons deux variables X1 et X2 mesurées sur
cinq individus de poids uniformes :

• Individus 1 2 3 4 5
X1 1 2 3 4 9
X2 5 10 8 8 12

• On propose de traiter ces données par l’ACP


Présentation des données
1 5
2 10
1) 𝑀 = 3 8
4 8
9 12
−2.8 −3.6
−1.8 1.4
2) 𝑍= −0.8 −0.6
0.2 −0.6
5.2 3.4
𝑜ù 𝑥 = 3.8 𝑒𝑡 𝑦 = 8.6
• On effectue une ACP non Normée

• Les éléments de cette ACP :


• n=5 p=2 Q = I2 P = (1/5) I5

3) Calcul de A (var-cov) :
1
𝑨 = 𝑍′𝑃𝑍 = 𝑍′𝑍
5
−2.8 −3.6
1 −2.8 −1.8 1.4
−1.8 −0.8 0.2 5.2
= −0.8 −0.6
5 −3.6 1.4 −0.6 −0.6 3.4
0.2 −0.6
5.2 3.4
7.76 5.12
=
5.12 5.44
4) Calcul des valeurs et vecteurs propres de A

p=2 ⟹ deux valeurs propres de A 1 et 2


Tr A + Tr A 2 − 4det A
λ1 =
2
13.2 + 13.2 2 − 4 × 16
= = 11.85 ⟹
2
λ2 = Tr A − 11.85 = 1.35
V Y − λ1 −6.41
u1 = = 5.44 − 11.85 =
−cov X1 ; X 2 −5.12 −5.12
u1 −0.78
Le vecteur normé U1 = =
u1 −0.62
On prend alors le vecteur dans la direction opposée
+0.78
+0.62
ème
De même on calcule le 2 vecteur
u2 −0.62
U2 = =
u2 0.78

 Vérifier qu’ils sont orthonormés !


5) a) 𝐹1 = 𝑍U1 = 0.78 X01 + 0.62 X02
2
𝐹 = 𝑍U2 = −0.62 X01 + 0.78 X02

1 2
b) 𝑉 𝐹 = λ1 𝑉 𝐹 = λ2
λ1
𝜏 𝐹1 = = 90%
λ 1 + λ2
2 1
𝜏 𝐹 = 100 − 𝜏 𝐹 = 10%

REM :
𝑉 𝑋1 𝑉 𝑋2
𝜏 𝑋1 = = 59% 𝜏 𝑋2 = = 41%
λ1 +λ2 λ1 +λ2
6)
Les coordonnées des individus dans le plan factoriel :
−2.8 −3.6
−1.8 1.4
0.78 −0.62
𝐹 = 𝑍𝑉 = −0.8 −0.6
0.62 0.78
0.2 −0.6
5.2 3.4
−4.42 −1.07
−0.54 2.21
= −1.00 0.03
−0.22 −0.59
6.16 −0.57 −4.42
𝐷𝑜𝑛𝑐 𝑀1 −1.07

14
13,5
13
12,5
12
11,5
5
11
10,5
10
9,5
2
9
8,5
8
7,5 3 4 X2
7
6,5
G
6 u1
5,5
5
4,5
1
4
3,5
3
2,5
2
1,5
1
0,5
0
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
Observations (axes F1 et F2 : 100,00 %)

2
2,217
F2 (10,23 %)

0
0,030
-1 -0,594 -0,589
-1,065
-2

-3

-4
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
F1 (89,77 %)

Vous aimerez peut-être aussi