Vous êtes sur la page 1sur 64

Analyse en Composantes Principales

ACP

Said El Hassani
Préambule
L’analyse en composantes principales est une analyse qui appartient à un champs de
la statistique multi variées
Fait partie de la technique d’analyse des données:
L’analyse en composantes principales s’apparente à une « Statistique exploratoire
multidimensionnelle »
Multidimensionnelle :
s’oppose à unidimensionnelle, c’est dire que l’on traite plusieurs
variables en même temps,
les individus statistiques seront caractérisés par plusieurs variables (Ex :
une enquête avec un questionnaire qui comprends 25 questions  les
individus sont les personnes questionnées et les variables sont les
questions posées
Exploratoire : Veut dire qu’on n’a pas une question précise, on fait de
l’exploration des données, on veut connaitre les données , une idée de la
variabilité des données. Exploratoire s’oppose à inférentielle

Said El Hassani
Sommaire

1. Données-Notations-Exemples
2. Objectifs
3. Nuages des Individus Ni
4. Ajustement des Nuages des Individus
5. Représentation des variables associées à la
représentation des individus
6. Nuages des Variables Nk
7. Conclusion

Said El Hassani
Données en ACP

Said El Hassani
Données en ACP
Variables quantitatives
1 k K
1

Individus i xik

Tableau rectangulaire :
Lignes  Individus
Colonnes  Variables
I xk
xik est la réponse de l’individu i pour la question k sk
Autrement dit : le score de la kème variable pour l’observation i

Said El Hassani
Exemples de Données en ACP
Etudiants Notes Note de l’étudiant i pour
l’examen k
Pays Indicateurs Economiques (PNB, Taux Valeur de l’indicateur k
Chômage, Endettement, etc) pour le pays i
Entreprise Postes du bilan Valeur du poste k pour
l’entreprise i
Enquête Questions quantitatives (poids, Réponse de l’individu i à
taille, revenus, dépense, etc.) la question k

Etudiants : Je peux m’intéresser aux notes des étudiants comme base de


données, mais je peux aussi m’intéresser aux profils des étudiants (18 math et 0
partout <> 18 math et partout ailleurs)
Entreprise : je peux m’intéresser à un poste de bilan mais aussi à un profil
d’entreprise (exportatrices, importatrices, bénéficiaires, déficitaires, etc.)
Enquêtes : avec l’ensemble des questions, je peux catégoriser les individus
enquêtés.

Said El Hassani
Objectifs de l’ACP

Said El Hassani
Objectifs
Concernant les individus

Si on compare les individus lignes par lignes  on ne s’en sort pas (cas
de grands tableaux
On s’intéresse à un profil de réponse, c’est-à-dire un ensemble de
réponses
Des individus se ressemblent s’ils ont le même profil de réponses 
Difficulté dans le multidimensionnel
Ce que je veux analyser : c’est la variabilité des profils des individus
Quels sont les profils qui sont les mêmes
Quels sont les profils qui sont différents
J’ai besoin d’une visualisation synthétique des ressemblances entre
profils de réponses

DONC : Individus 
Ressemblance entre Individus
Profils de Réponses
Synthèse
Said El Hassani
Objectifs 1 j k K
1
Concernant les variables

On ne parle pas de ressemblance entre


variables, cela n’a pas de sens
On parle de liaison entre variables
Ressemblance entre individus  liaisons i xij xik
entre variables
Les liaisons entre variables sont bien connus :
on utilise les coefficients de corrélations (Pearson)
Je calcule mes coefficients de corrélations et je I
les ranges dans une « matrice des corrélations » xj xk
rijest le coefficient de corrélation entre la
variable i et la variable j 1 r12 r13 ... r1K 
Etudier les relations entre variables reviens à r 1 r23 
étudier la matrice de corrélation  dans le cas  12 
d’un grand nombre de variables : impossible  r13 r23  
 
On essai d’identifier des groupes de variables
 1  
qui sont très liées entre elles (ex :Note), et on sort  

avec des profils (Epreuves scientifiques, Epreuves  
littéraires , etc.) r1K ... 1 
Said El Hassani
Objectifs 1 j k K
1
Concernant les variables

Par exemple : le cas des notes :


on s’aperçois que les notes en Math et en
Physique sont très liés  j’ai tendance à les
regrouper ensemble en un concept : Epreuve i xij xik
scientifique
On s’aperçois que les notes en philo et histoire
sont très liés  j’ai tendance à les regrouper en
un concept : épreuve littéraire. I
xj xk
En d’autres termes : je simplifie le problème :
J’étudie les liaisons entre variables 1 r12 r13 ... r1K 
Je crée des groupes de variables r 1 r23 
étroitement corrélées entre elles  12 
 r13 r23  
 
 1  
  
 
r1K ... 1 
Said El Hassani
Objectifs 1 j k K
1
Notion d’Indicateurs synthétique

Question : Comment pourrais-je synthétiser un


groupe de variables qui sont très corrélées (ex :
Bloc d’aptitude aux épreuves littéraires, bloc
d’aptitudes aux épreuves scientifiques, etc.) i xij xik
Question : Autrement dis : comment je peux
résumer un groupe de variables en un indicateur
synthétique.
Pour de petites matrices, on peut regarder à à I
l’œil nu  pour les grandes matrices : Impossible xj xk
L’ACP répond à se problème (C’est au fait une
Composante) 1 r12 r13 ... r1K 
r 1 r23 
 12 
 r13 r23  
 
 1  
  
 
r1K ... 1 
Said El Hassani
Objectifs

Récapitulons :
Pour les individus :
Ce que je veux analyser c’est la variabilité des profils des individus
Quels sont les profils qui sont le mêmes
Quels sont les profils qui sont différents
J’ai besoin d’une visualisation synthétique des ressemblances entre
profils de réponses
Pour les variables
Le multidimensionnel rend l’analyse très difficile, voir impossible
Je veux synthétiser un groupe de variables qui sont corrélées entre elles en un
seul indicateur que je peux appréhender

Je procède par Réduction de dimension

Said El Hassani
Objectifs

Que signifie Réduction des Dimensions

Said El Hassani
Nuages des Points NI

Said El Hassani
Nuages des Individus Nl
Individus : 1 j k K
Un individu est un profil de réponse 1
Exemple :
Etudiants : Notes obtenus
Pays : Indicateurs économiques
Enquête : Réponses des
questionnaires
Un individu est une ligne de tableau  i xij xik
ensemble de variables
On introduit la notion d’individu moyen :
Moyenne des différentes variables : On dit aussi I
centre de gravité

GI xj xk
DONC : un individu est un ensemble de K
valeurs numériques  On peut le représenter
dans un espace de dimension K

Said El Hassani
Nuages des Individus Nl
j k K R K d 2 i, l 
1
1
Ml
Mi
GI

i xij xik Ni
k
I
O
GI xk
xj xk

Chaque dimension représente une variable Variable k

Said El Hassani
Nuages des Individus Nl
Cas particulier :
Pour K=2
C’est un plan : exemple
Poids et Taille
Température et Latitude

Taille d 2 i, l 
Ml
tl Mi
t GI
Nl

O Poids
p pl pi
Said El Hassani
Nuages des Individus Nl
Cas particulier :
Por K=3
C’est un espace de dimension 3 que nous pouvons percevoir par nos sens :
exemple
Poids, taille et longueur des bras
Latitude, pluviométrie et température
d 2 i, l 
Poids Ml
Mi
p
GI Nl

O Longueur des bras


l

t
Said El Hassani
Taille
Nuages des Individus Nl
j k K R K d 2 i, l 
1
1
Ml
Mi
GI

i xij xik
Ni
k
I
O
GI x k xlk xik
xj xk

Le point Mi a la coordonnée xik sur l’axe k


Le point Ml a la coordonnée xlk sur l’axe k
Variable k
Quand je considère l’ensemble des points  j’ai un
nuage Ni des individus  Centre de gravité GI

Said El Hassani
Nuages des Individus Nl
R K d 2 i, l 
Le point Mi a la coordonnée xik sur l’axe k
Le point Ml a la coordonnée xlk sur l’axe k
Nuage Ni des individus  Centre de gravité GI Ml
Mi
GI
Si K>3 on ne peut pas le visualiser 
Néanmoins, il y’a des caractéristiques intéressante : Ni
Lorsque deux individus sont proches : Mi et
Ml cela veut dire qu’ils ont presque les k
mêmes coordonnées
O
Je peux définir une distance x k xlk xik
1 j k K
1

xij xik
i

I
xj xk
Said El Hassani GI
Nuages des Individus Nl
R K d 2 i, l 
Distance entre individus
Motivation : Ml
Afin de pouvoir considérer la Mi
structure du nuage des individus, il GI
faut définir une distance, qui induira
une géométrie.
Ni
Distance euclidienne classique : k
La distance la plus simple entre deux O
points de R K est définie par x k xlk xik
2

d 2 i, l    xik  xlk 


k
Généralisation :
Il y’a plusieurs distance que l’on peut définir. La plus utilisée est
celle euclidienne car elle induit le théorème de Pythagore et
permet d’utiliser des propriétés importantes
Nuages des Individus Nl
Mon espace est intéressant :
Les distances que l’on peut calculer R K d 2 i, l 
correspondent exactement à la notion de
ressemblances multidimensionnelles Ml
Je ne peux pas voir les points mais je sais
calculer leurs distances
Mi
GI
Sur la dimension humaine : je ne peux pas 2
visualiser le nuage d i, l    xik  xlk 
2

Ce qui m’intéresse est la forme du nuage Ni k

Dans le cas du plan Poids-Taille, si je constate k


par exemple que j’ai deux groupes  j’en conclueO
que j’ai deux sous-populations x k xlk xik
DONC : La visualisation de ce nuage nous 1 j k K
apprends beaucoup de choses 1

On voudrait faire la même chose ici mais on se


xij xik
heurte à la limite du cerveau humain qui ne peut i
représenter que trois dimensions
I
xj xk
Said El Hassani GI
Nuages des Individus Nl
R K d 2 i, l 
Ce que l’on veut visualiser c’est la forme du
nuage
Existence de groupe Ml
Existence d’allongement Mi
Etc.
GI
On essayera d’avoir une image approchée 2

d i, l    xik  xlk 


2

C’est l’idée de l’ACP


Ni k

k
Mais avant : il faut harmoniser notre nuage de
O
points x k xlk xik
Centrage et Réduction
1 j k K
1

xij xik
i

I
xj xk
Said El Hassani GI
Nuages des Individus Nl
R K d 2 i, l 
Que veut dire Centrage et Réduction
Ml
Au lieu d’utiliser xik , j’utilise des variables Mi
centrées réduites: GI

xik  xk
2

d i, l    xik  xlk 


2

xik  Ni k

sk k
O
Cela reviens à
x k xlk xik
Centrage : déplacer le centre O vers le
1 j k K
centre de gravité 1
Réduction : Ne plus tenir compte de
l’unité de mesure
xij xik
i

I
xj xk
Said El Hassani GI
Nuages des Individus Nl
Que veut dire Centrage et Réduction

Au lieu d’utiliser xik , j’utilise des variables


centrées réduites: xik  xk
xik 
sk
Poids en Kg Poids en Quintaux

G G
Taille en m Taille en cm

La forme du nuage dépend des unités de mesure


Je ne doit pas laisser les unités telles qu’elles
Il y’a un arbitraire qu’il faut résoudre : en divisant par l’écart type
Toute les variables auront une moyenne de « Zéro » et un Ecart Type de « Un »
Said El Hassani
Ajustement du Nuage des Individus

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension :
EXEMPLE
V0 V1 V2 15
G
A 2 10 14
13
B 5 12 B
12
C 6 5 11
D 7 3 A
Avant Projection 10
E 12 6 9
8
F 16 4
7
G 17 14 6 E H
H 20 6 5 C
4 F
V0 V1 V2 3 D
A 2 0 2
1
B 5 0
0
C 6 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
D 7 0 Après Projection 1
E 12 0 0 A B C D E F G H
F 16 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
G 17 0
H 20 0

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension :
EXEMPLE
15
G
Dista 14
nces A B C D E F G H 13
A 0,00 3,61 6,40 8,60 10,77 15,23 15,52 18,44 B
12
B 0,00 7,07 9,22 9,22 13,60 12,17 16,16 11
C 0,00 2,24 6,08 10,05 14,21 14,04 10 A
D 0,00 5,83 9,06 14,87 13,34 9
E 0,00 4,47 9,43 8,00
8
F 0,00 10,05 4,47
7
G 0,00 8,54 E H
6
H 0,00
5 C
Dista 4 F
nces A B C D E F G H 3 D
A 0 3 4 5 10 14 15 18
2
B 0 1 2 7 11 12 15
1
C 0 1 6 10 11 14
D 0 5 9 10 13 0O
E 0 4 5 8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
F 0 1 4 1
G 0 3
0 A B C D E F G H
H 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Moy Var Ec
V1 10,62 42,84 6,54
V2 7,5 16 4

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension :
EXEMPLE
Moy Var Ec 15
G
V1 10,62 42,84 6,54 14
V2 7,5 16 4 13
B
12

Distance au centre de l’Axe 11


A
10
Avant Après 9
8
A 10,2 2
7
B 13 5 6 E H
C 7,81 6 5 C
D 7,62 7 4 F
3 D
E 13,4 12
2
F 16,5 16 1
G 22 17 0O
H 20,9 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
1

0 A B C D E F G H
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

Nous voulions avoir une image de notre nuage sur un plan


Nous avons donc projeté sur un axe
Nous avons déformé le nuage
Nous avons perdu de l’information
L’idéal est de ne pas perdre de l’information
Nous allons toujours perdre de l’information en projetant sur un espace de
dimension inférieur
Nous avons projeté sur un axe arbitraire
Ce n’est pas forcément le meilleur axe qui déforme le moins notre nuage


u Said El Hassani
Ajustement du Nuage des Individus Nl
Le but est d’avoir une image approchée de
notre nuage d’individus  dans un espace de
faible dimension : Pourquoi pas dimension 3 ou RK
2 ou 1 Mi

Pour 1 : Représentation axiale
u
Pour 2 : Représentation sur un plan
Pour 3 : représentation dans l’espace Hi
Prenons le cas de 1 (représentation axiale)
La question est : quelle est la meilleure O  GI
représentation axiale possible de NI ?
Les individus ne prennent pas tout l’espace
On va essayer de réduire le nuage de points
sur une ligne, puis deux, puis trois Ni

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

Essayons de projeter le nuage de points sur RK


une ligne  voir le schéma Mi

u

On choisit une ligne de vecteur directeur u
Hi
H i est la projection du point M i sur cette
ligne
O  GI
Toute la question est de trouver un vecteur
astucieux : EN PROJETTANT, JE DEFORME LE
MOINS POSSIBLE LE NUAGE
On déformera le nuage a tout les coups, mais Ni
on va essayer de le déformer le moins possible

On quoi consiste la déformation :

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

Avant la projection, la distance au centre RK


était OM i Mi
Après la projection, la distance est OH i Mj 
La déformation vient du fait que :
u
OH i OM i
Hi
OM i2  OH i2  M i H i
2

Pour déformer le moins possible il faut que


Hj
je réduise le moins possible O  GI
 il faut que les OH i soient les plus grands
possibles
Je ne peut pas rendre les OH i
individuellement maximum Ni
La question de la déformation
 minimale
revient à : IL FAUT TROUVER u tel que :
1
i I OH i2 Soit maximum  Je passe au Carré car la somme
de OHi est nulle (Variables centrées
 réduites)
On appelle u Axe d’inertie maximum Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

L’inertie d’un nuage à un point V est définie RK


par : Mi
Iv   M i  V
2 
u
L’inertie au centre de gravité est donnée par
IG   M i  G
2

i
Hi
Pour des données centrées et
réduites, l’inertie au centre de gravité est : O  GI
IG   M i   OM i2
2

i i
Après projection, l’inertie devient :
I G '   OH i2 Ni
i
I G'  I G
1
i I OH i2 Soit maximum  Je passe au Carré car la somme
de OHi est nulle (Variables centrées
 réduites)
On appelle u Axe d’inertie maximum Said El Hassani
On peut définir l’inertie comme la quantité d’information contenue dans un
tableau de données ou un nuage de point

Une inertie nulle signifie que tous les individus sont presque identiques.
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

1
i I i
OH 2
Soit maximum RK
Mi

Récapitulons :
u
On veut déformer le moins possible le
nuage Hi
Pour cela, on doit
 trouver une droite
(ou un vecteur u ) sur laquelle la
projection déforme le moins O  GI
C’est-à-dire maximiser la sommes des
carrées des distances

Ni
Que représente OH i2
C’est la distance au centre de gravité  Distance au centre moyen
Ecart à la moyenne
Somme au carré des écarts à la moyenne  Variance

ON CHERCHE UNE DIRECTION DE VARIANCE MAXIMUM


Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

1
i I i
OH 2
Soit maximum RK
Mi

DONC : minimiser la déformation revient à :
u
Chercher une direction de variance
maximum Hi
Chercher une direction de variabilité
maximum
Chercher une direction ou les points O  GI
projetés sont le plus dispersés possibles .

Récapitulons :
Nuage de points Ni
Projection
Déformation
variance

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur UNE dimension

1
i I i
OH 2
Soit maximum 
u

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur DEUX dimensions

Essayons de projeter le nuage de points RK P


sur un plan Mi
Cherchons la meilleure représentation 
plane de NI qui déforme le moins le nuage
u1
Cela revient à chercher un plan tel que les OH i
soient maximum
1
Ou bien trouver P tel que  OH i2 Hi
soit maximum i I

Par analogie, on parle de Plan d’inertie O  GI


maximum


Ni u2

Said El Hassani
Ajustement du Nuage des Individus Nl
Image approchée sur DEUX dimensions

Le plan a chercher
 est caractérisé par RK P
deux vecteurs u1 et u2 Mi

u1
On démontre que : u1  P
C’est-à-dire que le meilleur plan contient
le meilleur axe (emboitement des solutions) Hi
L’emboitement des solutions nous permet
de considérer la première solution sur un O  GI
axe, si cela ne me suffit pas, je passe à la
solution a deux dimensions
La solution à deux dimensions : c’est la solution 
à une dimension plus un peu plus de détail Ni u2

On cherche ensuite u2 : l’axe d’inertie
 
maximum avec la contrainte que u1  u2

Said El Hassani
Image approchée sur DEUX dimensions

M2

M1

M3
O

H2
H1

H3

Said El Hassani
Ajustement du Nuage des Individus Nl
Plus généralement : Image approchée sur S
dimensions (S étant le nombre de facteurs)
RK P
Jusqu’à présent :  Mi
On a cherché un premier axe u1 
On cherche
 u1
 un deuxième axe u2
avec u1  u2
Pourquoi ne pas chercher d’autres axes
d’inertie maximum : la seule condition est Hi
qu’ils soient orthogonaux tous deux à
deux O  GI
On ne risque pas de retrouver les
mêmes axes car la condition
d’orthogonalité exclue ce cas 
On dit qu’on cherche une suite d’axes Ni u2
d’inerties maximum tous orthogonaux
deux à deux La solution à s-1 dimensions : c’est la solution
à s dimensions plus un peu plus de détail

Said El Hassani
Ajustement du Nuage des Individus Nl

Plus généralement : Image approchée sur S dimensions (S étant le nombre de


facteurs)

Problème :
Trouver une suite d’axes orthogonaux d’inertie maximum

Notons u s le vecteur unitaire de l’axe de rang s trouvé

Notons H is la projection de M i sur u s
  
 1 s 2
Le problème est de trouver u tel que
s 
OH i soit maximum
Avec la contrainte : t  s, u  u
 i I
s t
Solution : (l’important est de savoir que l’on cherche des axes d’inertie maximum)
La matrice de corrélation
On procède à une diagonalisation de la matrice de corrélation

Les u sont les vecteurs propres unitaires de la matrice de corrélation
s 
La valeur propre s de rang s associé au vecteur propre u n’est autre que
s

I 
les 1 2
OH s
i
Said El Hassanii
Ajustement du Nuage des Individus Nl

Plus généralement : Image approchée sur S dimensions (S étant le nombre de facteurs)

Théorème :
Une base orthonormée du sous espace vectoriel de dimension S s’ajustant au mieux
(au sens des moindres carrée, c’est-à-dire distance euclidienne) au nuage Ni dans R K
  
 
est constituée par les S vecteurs propre u1 , u2 ,......, u s correspondants aux S
 
plus grandes valeurs propres 1 , 2 ,......, s de la matrice X t X
Solution : (l’important est de savoir que l’on cherche des axes d’inertie maximum)
La matrice de corrélation
On procède à une diagonalisation de la matrice de corrélation

Les u s sont les vecteurs propres unitaires de la matrice de corrélation

La valeur propre s de rang s associé au vecteur propre u s n’est autre que

I 
1 2
les OH is
i

Said El Hassani
Rappels sur les Matrices et Valeurs Propres

Définition
n2
Soit A R , une matrice réelle.

Le vecteur non nul v  C est dit « vecteur propre » associé à la « valeur
n
 
propre »   C si : Av  v
Interprétation : si on considère A comme une fonction de transformation :
Un vecteur est dit vecteur propre par une application linéaire s'il est non
nul et si l'application ne fait que modifier sa taille sans changer sa direction
(à ne pas confondre avec son sens !).
Une valeur propre associée à un vecteur propre est le facteur de
modification de taille, c’est-à-dire le nombre par lequel il faut multiplier le
vecteur pour obtenir son image. Ce facteur peut être négatif (renversement
du sens du vecteur) ou nul (vecteur transformé en un vecteur de longueur
nulle).
Source : Wikipedia

Said El Hassani
Rappels sur les Matrices et Valeurs Propres

Exemple :

5  3
Soit la matrice A   
6  4
1
On peut dire que le vecteur v    est un vecteur propre associé à la
valeur propre   1  2

En effet
 5  3  1   5 1   3  2    5  6    1  1
             1  
 6  4  2   6 1   4  2   6  8    2   2

Said El Hassani
Rappels sur les Matrices et Valeurs Propres

Propriétés :

Les valeurs propres sont les solutions du polynôme : det A  I   0

5  3
Exemple : Soit la matrice A   
6  4
  5  3  1  5   3 
det A  I   det         det   0
  6  4  1   6 4
5     4     18  0  2    2  0
  1
Solution
2
Said El Hassani
Rappels sur les Matrices et Valeurs Propres

Propriétés :

 i  det  A
i 1

n n

 i  tr  A   aii
i 1 i 1

Said El Hassani
Nuages des Variables Nk

Said El Hassani
Nuages des Variables Nk
Variables 1 j k K
Jusqu’à présent : on a parlé d’indicateurs 1
synthétiques et de profils des individus, mais on
n’a pas parlé de variables
Ici on s’intéresse aux variables et aux liaisons
entre les variables
Une variable est une colonne du tableau
C’est un paquet de I nombre(s) : I étant le i xij xik
nombre d’individus
Exemple :
Math : Notes obtenus par les I
étudiants pour les maths
Moyenne : 0
Indicateurs économiques : pour les
Ecart Type : 1
pays considérés
DONC : une variable est un ensemble de I
valeurs numériques  un vecteur de I
composantes  On peut le représenter dans un
espace de dimension I

Said El Hassani
Nuages des Variables Nk
1 j k K RI
1 Ml
Mk

 kl
i xij xik

O
xik i
I
Chaque dimension correspond à un individu
Dimension I
Le point M k représente la variable k
Ces coordonnées sont xik

Par analogie, on dit qu’une variable est un point


dans un espace à I dimensions dont les On n’a pas de centre de gravité des
coordonnées sont les valeurs de cette variables variables car cela ne veut rien dire
pour les différents individus
Said El Hassani
Nuages des Variables Nk
RI
On ne représente plus les variables par des Ml
points, mais plutôt par des vecteurs Mk
Pourquoi :
Parce que l’angle entre deux variables, c’est-à-  kl
dire entre deux vecteurs est intéressant

Souvenez vous : pour les individus, on


O
considéraient les distances entre individus  la xik i
distance formalisait la ressemblance entre les
individus
Ici, l’angle formalise le rapprochement de deux
variables

Said El Hassani
Nuages des Variables Nk
Cas particulier :
Pour I=2 c’est-à-dire deux individus
C’est un plan : exemple
Poids, Taille, longueur des bras (Vp,Vt,Vl)
Température et Latitude, Longitude Cos(Ɵpt)=r(Vp,Vt)
Individu 2 Cos(Ɵtl)=r(Vt,Vl)
Cos(Ɵpl)=r(Vp,Vl)
l2 Vl : Variable Longueur des Bras
t2 Vt : Variable Taille

p2 Vp: Variable Poids

O Individu 1
l1 t1 p1
Said El Hassani
Nuages des Variables Nk
Cas particulier :
Por I=3, c’est-à-dire trois individus
C’est un espace de dimension 3 que nous pouvons percevoir par nos sens :
exemple
Poids, taille et longueur des bras (Vp,Vt et Vl)

Individu 3 Vt : Variable Taille

t3

p3
Vp : Variable Poids

p1 t1
O Individu 1
t2
p2

Individu 2 Said El Hassani


Nuages des Variables Nk
RI
Propriété intéressante :
Pour des données centrées : Ml

r k , l   cos kl 
Mk

 kl
Pour  kl  0  cos0  1 : Les deux
variables sont corrélées, presque confondues
Pour  kl  90  cos90  0 : Les deux O
xik i
variables ne sont pas corrélées, on dit
ORTHOGONALE
Pour kl  180  cos180  1 : Les deux
variables sont négativement corrélées

Pour des données réduites :


La longueur des vecteurs vaux 1 C’est donc un nuage très particulier
OM k  1
2
Si on arrive à visualiser ce nuage de vecteurs, on
aura une vue très synthétique sur la corrélation des
C’est une sphère (ou hyper sphère) de
variables  existence de faisceaux de vecteurs plus
rayon 1
ou moins rapprochées Said El Hassani
Nuages des Variables Nk
Je veux visualiser ce nuage de vecteurs mais je ne
peux pas si la dimension est supérieure à 3 RI
AJUSTEMENT : Je procède exactement comme Mk
pour le cas des individus : je projette sur des axes
orthogonaux d’inertie maximum 
vs
Notations
  ks
v s : Un vecteur unitaire de la direction de rang s H ks
I
M k : La représentation de la variable k dans R O i
s xik
H : Projection de la variable de rang « k » sur l’axe
k

orthogonal de rang « s »

Il faut trouver v s tel que :

 OH 
k
s 2
k
soit maximum

 
Avec la contrainte t  s, u s  ut

Said El Hassani
Nuages des Variables Nk
Propriétés RI

 OH    cos 
Mk
s 2
1 s 2 s 2
OM k k k
k k 
vs
Que signifie v s ?
 ks
I H ks
C’est un vecteur de R !!!
Il a des coordonnées dans R
I
!!!! O i
C’est au fait une coordonnée par individus xik
Il peut donc être assimilé à une « Variable »
je peux donc calculer le coefficient de corrélation
entre ces deux séries de nombres
Ce n’est pas une variable mesurée mais calculée :
elle combine d’autres variables

 OH    cos    r k , v 
s 2 s 2 2
k k s
k k k
Said El Hassani
Nuages des Variables Nk
Propriétés (suite) RI

 OH    cos    r k , v 
Mk
s 2 s 2 2
k k s
k k k 
vs
Que signifie cette formule :
 ks
Je maximise la somme des carrées des coefficients H ks
de corrélation entre la nouvelle variable v s et O i
toutes les autres variable xik
v s a donc tendance a être très corrélées à toutes
les variables k
v s est une variable synthétique qui est la plus
corrélée possible à toute les variables

Au fait :ce qu’on voulais : c’est de créer une


variable synthétique qui représente le mieux les
autres variables
L’ACP est une machinerie qui calcule et dégage
cette variable synthétique Said El Hassani
Conclusion

Said El Hassani
L’analyse en composantes principales est une technique
adaptée au tableau rectangulaire de données quantitatives
Son but est de réduire la complexité de l’exploration des
données multi variées
Elle procède par réduction des dimensions des données en
projetant les données sur des espaces orthogonaux de
dimensions inférieures
La projection des données tient à minimiser la déformation
du nuage initial
Cette analyse donne une visualisation des principales
dimensions de variabilités des individus
Permet de faire un bilan des liaisons entres variables
Elle fournit des variables synthétiques

Said El Hassani
Merci

Said El Hassani