Vous êtes sur la page 1sur 32

Université de Jijel

Faculté des sciences exactes et informatique


Département d’informatique
1ère année Master (ILM & SIAD)

Chapitre 3: L’analyse en composantes


principales (A.C.P.)

2020-2021
Les méthodes factorielles

Les méthodes factorielles consistent en la projection sur un


espace de dimension inférieure pour obtenir une visualisation
de l’ensemble des liaisons entre variables tout en minimisant la
perte de l’information.
Elles cherchent à réduire le nombre de variables en les
résumant par un petit nombre de composantes synthétiques.

Cours Analyse de données


Les méthodes factorielles

Les principales techniques factorielles sont :

 L’analyse en composantes principales (Hotelling, 1933) qui


analyse un ensemble de données (observations) faites sur un
ensemble de variables quantitatives (numériques).
 L’analyse des correspondances (Benzekri, 1964) qui est une
technique de base pour analyser des tables de contingence qui
peut être utilisée pour des variables qualitatives.
 L’analyse canonique.(Hotelling) la Régression multiple et
l’analyse discriminante comme des cas particulier.

Cours Analyse de données


L’analyse en composantes principales

L’ACP (Hotelling, 1933) a pour objectif de réduire le nombre de


données, souvent très élevé, d’un tableau de données
représenté, algébriquement, comme une matrice et,
géométriquement comme un nuage de points.
L’ACP consiste en l’étude des projections des points de ce nuage
sur un axe (axe factoriel ou principal), un plan ou un hyperplan
judicieusement déterminé.
Mathématiquement, on obtiendrait le meilleur ajustement du
nuage par des sous-espaces vectoriels.

Cours Analyse de données


Projeter la réalité sur un plan

• Lorsqu’on projette les données sur


un plan, on obtient un graphique
déformé de la réalité.
La meilleure projection =
•la plus « suggestive »
•La moins déformante
•La vue la plus fidèle de la forme réelle
du nuage Figure de J.P. Fenelon
•la vue la plus vaste de l’objet

Le rôle de l’ACP est de trouver des espaces de dimensions


plus petites minimisant les déformations.

Cours Analyse de données


L’ACP

Données :
p variables quantitatives observées sur n individus.
1 2 j p
X X X X
x11 x1j x1p
x12 x2j x2p
X n xi xij xip individu i
1
(n,p)

x1n xnj xnp


INDIVIDU = Élément de Rp
Variable Xj
VARIABLE = Élément de Rn
p

Cours Analyse de données


L’ACP

L’A.C.P. permet d’explorer les liaisons entre variables et


les ressemblances entre individus.
Résultats :
 Visualisation des individus
(Notion de distances entre individus)
 Visualisation des variables
(en fonction de leurs corrélations)

Cours Analyse de données


Deux nuages de points
Le tableau peut être vu comme un ensemble de lignes ou un ensemble de
colonnes.

Etude des individus Etude des variables


1 j P 1 j P
1 1

i X p i X
R n
R

n n
var 1 Ind 1

Var j ind i

Cours Analyse de données


Nuage des individus

A chaque individu noté ei, on peut associer un point dans


Rp = espace des individus.
A chaque variable du tableau X est associé un axe de Rp.
X3
x 3i
ei Impossible à
visualiser dès
que p > 3.

xi1

X1

x2i

X2

Cours Analyse de données


Principe de l’ACP

On cherche une représentation des n individus , dans un sous-


espace Fk de Rp de dimension k ( k petit 2, 3 …; par exemple un
plan)
Autrement dit, on cherche à définir k nouvelles variables
combinaisons linéaires des p variables initiales qui feront
perdre le moins d’information possible.

Ces variables seront appelées : composantes principales


les axes qu’elles déterminent : axes principaux

Cours Analyse de données


Principe de l’ACP
X1
2
axe 2
X

On visualise

axe 1

Xi
F3
p axe 3
R
axes principaux

Cours Analyse de données


Perdre le moins d’information possible

Fk devra être « ajusté » le mieux possible au nuage


 des individus: la somme des carrés des distances
des individus à Fk doit être minimale.

Fk est le sous-espace tel que le nuage projeté ait une


 inertie (dispersion) maximale.

 et  sont basées sur les notions de :


− distance
− projection orthogonale

Cours Analyse de données


ei

ej

2 fi
i
j fj

i j 1

La distance entre fi et fj est inférieure


ou égale à celle entre ei et ej

Cours Analyse de données


Choix de la distance entre individus

yB B
Dans le plan:
A d 2 A, B x B  x A 2  y B  y A 2
yA

xA xB

Dans l’espace Rp à p dimensions, on généralise cette notion : la


distance euclidienne entre deux individus s’écrit:


e i  x1i x 2i ... x ip  e j  x1j x 2j ... x pj 
  
d 2 e i ,e j  x 1i  x 1j  
2
 x 2i  x 2j 
2

 ... x ip  x pj 
2

   
p
2
d2 e i ,e j  x ik  xk
j
k1

Cours Analyse de données


Point moyen ou centre de gravité

• On appelle le point moyen ou centre de


gravité le vecteur G des moyennes
arithmétiques de chaque variable: o
o𝑖 oo
o o
o o
G  x1, x 2, x 3,..., x q  oo
𝐺
o
o o o o o
o
• Lorsqu’on analyse des variables centrées,
ce point moyen G sera le centre du
repère considéré: G  O

Cours Analyse de données


Inertie totale du nuage de points

On appelle inertie totale du nuage de points, et on la note Ig = mesure


de dispersion des points au sein du nuage
= somme pondérée des carrés des distances par rapport au centre de
gravité G du nuage
n
I g   1 d 2 e i , g 
i1
n

ou de façon plus générale

n
e , g
n
I g  p i d 2
i avec  pi = 1
i1 i1

Cours Analyse de données


Équivalence des deux critères concernant la perte d’information

ei

Projection orthogonale
du nuage sur un sous-
espace

fi
F g

Soit F un sous-ensemble de Rp
f i la projection orthogonale de e i sur F
2 2
ei  g  ei  f i  f ig i  1 ... n
2

Cours Analyse de données


Équivalence des deux critères concernant la perte d’information

On va chercher F tel que :

 p i ei  f i
i1
2
soit minimal

ce qui revient d’après le théorème de Pythagore à maximiser :

n

2
pi f i  g
i1

Cours Analyse de données


Équivalence des deux critères concernant la perte d’information

2 2
ei  g  ei  f i  f ig i  1 ... n
2

Donc :

Inertie minimiser cette 


maximiser
totale quantité (carrés des l’inertie du
distances entre nuage projeté
points individus et
leurs projections)

Cours Analyse de données


Centrage de données

• Le centrage est réalisé de façon systématique en ACP

Translation du centre de gravité du nuage sur


l'origine G

• Centrer les données ne modifie pas la forme du nuage


⇒ toujours centrer

Cours Analyse de données


Réduction des données

+++ + +

190
19

15
+ +
+ ++ +
++ +
++ +
+ +

10

180
++
18
Taille (en m)

Taille (en cm)


+

Taille (en m)
+ +
+ ++ +
+

5
++ + +

170
+ + +++++++++++++++++ +++++++++++++++++++++ +
++ ++
1.7

+
++ + +

0
+ +
+
++ +
+

160
++

−5
+ + + + +
1.6

+
+ +
+ +
+

−10
+

150
+
1.5

55 60 65 70 75 80 85 55 60 65 70 75 80 85 −20 −10 0 10 20

poids (en kg) poids (en kg) poids (en quintal)

• Plus la variable a un écart-type élevé, plus elle apporte de l'inertie en projection


et plus elle « attire les axes ».
• Or, l'écart type dépend directement de l'unité de mesure...

Cours Analyse de données


Réduction des données

• Pour éviter d'accorder une plus grande importance aux variables exprimées
arbitrairement avec de plus grandes valeurs, on réduit les variables
• Chaque variable a le même écart-type = 1 (donc la même longueur)

Lorsque les variables sont exprimées dans des unités de mesure différentes,
 réduction systématique des données

En cas d’unités de mesure identiques ?


Réduction : consiste à accorder une même importance à chaque variable
Non réduction : accorde plus d’importance aux variables de forte dispersion

Cours Analyse de données


Réduction des données

• Réduire ou normer donne la même dispersion, une même importance, à


chaque variable (dans l'espace, elles ont même longueur : 1)
 On dit que l'on réalise une ACP normée

• Ne pas réduire ou ne pas normer laisse à chaque variable son écart-type


initial ce qui conduit à accorder à chaque variable une importance
proportionnelle à son écart-type.
 On dit que l'on réalise une ACP non normée (simple)

Cours Analyse de données


Recherche des axes factoriels

La recherche d’axes portant le maximum d’inertie équivaut à la


construction de nouvelles variables (auxquelles sont associés ces
axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de
façon à se placer dans un nouveau système de représentation où le
premier axe apporte le plus possible de l’inertie totale du nuage, le
deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite.
Cette réorganisation s’appuie sur la diagonalisation de la matrice de
variances-covariances (matrice de corrélations pour des données
centrées-réduites).

Cours Analyse de données


Recherche des axes factoriels

Les axes principaux sont ceux maximisant la variance projetée.


Ce sont les vecteurs propres normés associés aux plus grandes valeurs
propres de la matrice de covariance/corrélation.
On extrait :
-les vecteurs propres normés à 1 (axes de direction ou axes factoriels)
-les valeurs propres (inerties associées aux axes)

Le premier axe est celui associé à la plus grande valeur propre .


On le note u1
Le deuxième axe est celui associé à la deuxième valeur propre . On
le note u2
...
Cours Analyse de données
Composantes principales

 À chaque axe est associée une variable appelée composante


principale. La composante c1 est le vecteur renfermant les
cordonnées des projections des individus sur l’axe 1.
 La composante c2 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 2.
 Pour obtenir ces coordonnées, on écrit que chaque composante
principale est une combinaison linéaire des variables initiales.

Cours Analyse de données


Propriétés des composantes principales

 La variance d’une composante principale est égale à l’inertie


portée par l’axe principal qui lui est associé.
 Les composantes principales sont centrées.
 Les composantes principales sont non corrélées deux à
deux. En effet, les axes associés sont orthogonaux.

Cours Analyse de données


Représentation des individus

La jème composante principale fournit les

coordonnées des n individus sur le jème axe principal.

Si on désire une représentation plane des individus, la


meilleure sera celle réalisée grâce aux deux premières
composantes principales.

Cours Analyse de données


L’inertie est donc aussi égale à la somme des variances
des variables étudiées.
En notant V la matrice de variances-covariances :

p
I g   s2i
i1

Ig  Tr V

Remarque
Dans le cas où les variables sont centrées réduites, la variance de
chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).

Cours Analyse de données


Qualité de représentation

Pour chaque individu , la qualité de sa représentation est


définie par le carré du cosinus de l’angle entre l’axe de
vecteur e i . Plus la valeur est proche
projection et le de 1, meilleure est la
qualité de représentation.
En général, les qualités de représentation sont données axe par
axe. Pour avoir la qualité de représentation dans un plan, on
additionne les critères correspondant aux axes étudiés.
Ce critère n’a pas de signification pour les individus
proches de l’origine.

Cours Analyse de données


Représentation des variables

Les proximités entre les composantes principales et les variables


initiales sont mesurées par les covariances, et surtout les corrélations.

 
r cj , x i c j
est le coefficient de corrélation linéaire entre et x i

c2

 
x
r c2 , xi

r c1 , x i  c1

CERCLE DES CORRÉLATIONS

Cours Analyse de données


Représentation des variables

Le cercle des corrélations est la projection du nuage des variables sur


le plan des composantes principales.
c2

corrélation = cosinus

c1
Les variables bien représentées sont
celles qui sont proches du cercle,
celles qui sont proches de l’origine
sont mal représentées.

Cours Analyse de données

Vous aimerez peut-être aussi