Académique Documents
Professionnel Documents
Culture Documents
Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/
1
Le coefficient de corrélation par l’exemple Exemple issu du site Spurious Correlations
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
http://www.tylervigen.com/spurious-correlations.
0.8
x1 −0.0052
−0.99 0.13
0.4
Partie II. Données : vision
0.0
0.8
x2 0.023
0.88
0.4
matricielle
0.0
0.0
−1.0 −0.5
x3 −0.087
Notation
0.8
x4
0.4
1
· · · xp1
4
j x1 x21
x1
3
y
x2 x2
1 2
xj
2
2 ..
.
1
−4 −2 0 2 4
j
x
x = . , X = . .
.. .. · · · xi j
.
. .
Fausses corrélations xn j
x1n xpn
Quand ? Elles peuvent se trouver quand on a peu de don-
nées Un individu est représenté par
Exemple Importations de pétrole brut de la Norvège vers e′i = [x1i , . . . , xji , . . . , xpi ]
les États-Unis et nombre de conducteurs tués par une colli-
sion avec un train : r = 0, 95 entre 1999 et 2009. La matrice des poids
US crude oil imports from Norway
correlates with Définition on associe aux individus un poids pi tel que
Drivers killed in collision with railway train
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 p1 + · · · + pn = 1
150 million barrels 100 deaths
US crude oil imports from Norway
50 million barrels 60 deaths p1 0
p2
0 million barrels 40 deaths
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Dp = . .
Railway train collisions US crude oil imports from Norway . .
tylervigen.com
0 pn
Tableau centré il est obtenu en centrant les variables où on a utilisé le fait que z̄ j = ȳ j = 0. La matrice de
autour de leur moyenne variance-covariance des variables centrées-réduites est donc
la matrice de corrélation R.
yij = xji − x̄j , c’est-à-dire yj = xj − x̄j 1n
Symétrie Comme rjℓ = rℓj , la matrice R est symétrique : Généralisation simple on donne un poids mj > 0 à la
R′ = R. variable j
p
X
Formule matricielle R = D1/σ VD1/σ , où 2
d (u, v) = mj (uj − vj )2
1 j=1
0
σ1 √
.. Cela revient à multiplier la coordonnée j par mj
D1/σ = .
1
0 σp
∥u + v∥2M = ∥u∥2M + ∥v∥2M + 2⟨u, v⟩M Métrique réduite obtenue quand M = D1/σ2 = D21/σ
c i1
a2 a1 = a′k MVMak = λk a′k Mak = λk .
c i2
Covariance de même, pour k ̸= ℓ,
y2
= YMVMak
−2 −1 0 1 2
= λk YMak = λk ck .
ei − g = (yi1 , yi2 )′ = yi1 (1, 0)y′ 1+ yi2 (0, 1)′ = ci1 a1 + ci2 a2
La matrice W =YMY′ a pour terme général le produit
scalaire
Les composantes principales
⟨ei, − g, ej − g⟩M = (ej − g)′ M(ej − g).
Coordonnées
Pp des individus supposons que ei − g =
ℓ=1 ciℓ aℓ , alors Facteurs principaux
p
X
⟨ei − g, ak ⟩M = ciℓ ⟨aℓ , ak ⟩M = cik Définition on associe à ak le facteur principal uk = Mak
ℓ=1 de taille p. C’est un vecteur propre de MV car
La coordonnée de l’individu centré ei −g sur l’axe principal MVuk = MVMak = λk Mak = λk uk
ak est donc donné par la projection M-orthogonale
Calcul en pratique, on calcule les uk par diagonalisation
cik = ⟨ei − g, ak ⟩M = (ei − g)′ Mak . de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
Composantes principales ce sont les variables ck = intéressants.
(c1k , . . . , cnk ) de taille n définies par Interprétation Si on pose u′k = (u1k , . . . , upk ), on voit
ck = YMak . que la matrice des ujk sert de matrice de passage entre la
nouvelle base et l’ancienne
Chaque ck contient les coordonnées des projections M- p p
X X
orthogonales des individus centrés sur l’axe défini par les ak . cik = yij ujk , ck = yj ujk ck = Yuk
j=1 j=1
Représentation des individus dans un plan prin- Propriété Les facteurs principaux sont M−1 -orthogonaux
cipal car
Qu’est-ce que c’est ? pour deux composantes principales ⟨uk , uℓ ⟩M−1 = u′k M−1 uℓ = a′k MM−1 Maℓ = a′k Maℓ = ⟨ak , aℓ ⟩M .
c1 et c2 , on représente chaque individu i par un point d’abs-
cisse ci1 et d’ordonnée ci2 . Formules de reconstitution
0.5 1.0
c i2 ei
Reconstitution
Pp Par définition des ck , on a ei − g =
k=1 cik a k , et donc
p p p
2
X X X
c
3.5
3.0
— Les composantes principales sont les nouvelles va-
2.5
riables statistiques décrivant nos données ;
2.0
— les facteurs principaux donnent leur définition à partir
1.5
des variables d’origine ;
1.0
— les axes principaux permettent de reconstituer les va-
0.5
riables d’origine à partir des composantes principales.
0.0
Propriétés
2 4 6 8 10