Vous êtes sur la page 1sur 54

COURS :

ANALYSE DE DONNÉES
PLAN DUCOURS

CHAPITRE I : INTRODUCTION À L’ANALYSEDE DONNÉES ETÀ LADATASCIENCE


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES
CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES
CHAPITRE VI : ANALYSE DES CORRESPONDANCES MULTIPLES
CHAPITRE V : CLASSIFICATIONAUTOMATIQUEHIÉRARCHIQUE
CHAPITRE II : ANALYSE EN COMPOSANTES
PRINCIPALES -ACP
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Exemple introductif:
On dispose de deux variables :
revenu et consommation sur 100 ménages.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

35

30

25

20

15

10

0
0 5 10 15 20 25 30 35
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Si on a trois variables:
-Revenu,
-Consommation et
-nombre personnes dans le ménage.

On peut effectuer représentation


une graphique àtrois
dimensions.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Si on a plusieurs variables (par exemple plus


de 15 ) sur plusieurs individus alors on ne
peut plus faire desgraphique à15 dimensions.

=>D’où l’utilisation des méthodes de


projection.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Méthodes de projection : méthodes


factorielles ou méthodes de réduction de
dimension.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Projeter : c’est faire de bonne photo.

La question qui sepose : sur quelle direction


projeter.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les différents types de tableaux :

Tableau de variables quantitatives sur


des individus.

Tableau croisant deux variables qualitatives.


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les différents types de tableaux :

Tableau de variables qualitatives sur


les individus.

Autre type de tableaux (tableau de paquets


de variables).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Les méthodes d’analyse des données suivant le


type de tableau:

Tableau de variables quantitatives sur


des individus : ACP.
Tableau croisant deux variables qualitatives :
AFC.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Tableau de variables qualitatives sur


les individus : ACM.
Autre type de tableaux (tableau de paquets
de variables): les méthodesAFM.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

De l’image à la réalité: outils


les d’interprétation.

Ce que est observé sur les peut


photos conduire àdes conclusions
trompeuses.

Il faut des outils d’aide àinterprétation.


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles

Les outils d’aide àl’interprétation :


-Les Cosinus carré: (COS2) : qualité de la
représentation.
-La contribution (CTR): permet de mesurer la part
des variables ou individus dans la formation des
axes.
-Les distance: distance d’un individu à l’individu
moyen (les proximités).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP
Type de tableau : Individus*Variables.
Variables quantitatives.

Sur ce tableau on veut savoir :


- quelles sont les variables qui sont liée entre
elles,

- quels sont les individus qui seressemblent.


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP

En pratique :

-Approximation du tableau X( n*p) par un tableau C


(n*q, q <p) (dans l’idéal, q=2 ou 3), restituant la
majeure partie del’information contenue dans X.

-Les variables de C sont obtenues comme


combinaisons linéaires des variables d’origine . Elles
sont appeléeslescomposantes principales.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP

-Visualisation des nuages de points associés au tableau


X dans le nouveau repère constitué par les directions
descomposantesprincipales.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuage des individus, nuage des variables

L’ACP étudie deux nuages :


- Nuage des variables
- Nuage des individus.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuage des individus, nuage des variables

Ces deux nuages permettent de visualiser :

-les liens entre les variables

-les ressemblances/dissemblances entre individus

contenus dans le tableau de donnéesX.


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP

Nuage des individus, nuage des variables


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Types d’ACP

-ACP : décomposition factorielle des nuages


de points associés àun tableau
individus*variables.

-Plusieurs types d’ACP selon la métrique


choisie pour mesurer la distance entre
deux individus:
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Types d’ACP
--ACP centrée :
Décomposition factorielle du tableau centré
(variables homogènes, même unité demesure).

--ACP normée:
Décomposition factorielle du tableau réduit (donne
aux variables la même influence sur le calcul de la
distance entre individus).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Tableau individus*variables

-p variables X1,...X p observés sur n individus I1 ,...I n

-On note X la valeur de la variable


i
j Xj observée
sur l’individu I i

Individu/Variable X1 X2 … (j) Xp
I1 X 11 X 21 X 1j X 1p
I2 X 12 X 22 X 2j X p2
… (i) … … X ij …
In X 1n X 2n X nj X pn
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Représentation matricielle

x11 x12 ... x1j ... x1p 


 2 2 
 x1 x2 ... x j ... x p 
2 2

X  i 
............ x j ........ 
xn n n
 1 x2 ... x j ... x p 
n
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Vecteur individu

Chaque individu est décrit par p variables, formant


un vecteur de dimension p.

 x1i 
 i 
 x2 
... 
I i   i   IR p
x j 
 
... 
 xi 
 p
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Vecteur variable

Chaque variable peut être représentée par un


vecteur de dimension n.

Ce vecteur correspond aux valeurs prises par cette


variable sur les n individus.
x j 
1

 
 x nj 
 
X j   i  IRn
...
x 
 j
... 
 n
 xj 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Réécrire ce tableau sous forme matricielle. Et donner des exemples de


vecteur individu et vecteur variable.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP

Solution :
4 variables quantitatives : notes de 4 matières.
X1 : Note Mathématiques
X2 : Note Physique
X3 : Note Français
X4 : Note Anglais

9 individus = élèves
Ii : ième individu.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP

6 6 5 5,5 
8 
 8 8 8 
6 7 11 9,5 
 
14,5 14,5 15,5 15 
X  14 14 12 12,5 
 
11 10 5,5 7 
 5,5 7 14 11,5 
 
13 12,5 8,5 9,5 
9 
 9,5 12,5 12 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP

6 
8 
 
6 
 
14,5
X1  14 
 
11 
 5,5 
 
13 
9 
 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP

6 
6 
I1   
5 
 
5,5
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Matrice des poids associés aux individus

Le poids attribué à chaque individu exprime


l’importance que l’on désire lui accorder dans l’étude
(représentativité de l’échantillon étudié dans la
population) :

 p1 0 .............. 0 
0 p ............. 0  n
P 2  0  p  1; i  1,..., n;  p  1; n  IN
0............ pi ...0  i
i1
i

 
0 ...................pn 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Matrice des poids associés aux individus

Généralement :

1
P In
n
I n : Matrice Identité
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuages de points associés aux données

Nuage des points-individus = coordonnées des n


points-individus dans le repère de dont les axessont
lesp variables dutableau.


I i  x x ... x ... x
i
1
i
2
i
j p
i t
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuages de points associés aux données

Nuage des points-variables = coordonnées des p


points-variables dans le repère de dont les axes sont
déterminés par lesn individus.


X j  x x ... x ... x
1
j
n
j
i
j j
n t
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Le centre de gravité d’un nuage

Le centre de gravité du nuage de points G


caractérise la position globale d’un nuage (individu)
danslerepère.

C’est le point autour duquel «gravitent »lespoints


du nuage. x 1 
x 
 2
...  n
G    x j   pi x ij
xj  i1
... 
 
xp 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Déterminer le centre de gravité G du nuage de points-individus


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage

Eloignement d’un point du nuage par rapport au


centre de gravité (distance euclidienne).

p
d (I i ,G)  G  I i   (x ij  x j ) 2
2 2

j1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage

Inertie du nuage de points par rapport àson centre


de gravité = somme pondérée des éloignements :

n
Inertie  It   pi d 2 (I i , G)
i1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage

L’inertie caractérise la dispersion ou la forme du


nuage par rapport àson centre.

Au plus It est élevée, au plus le nuage est dispersé


autour de son centre de gravité.

Une inertie nulle signifie que tous les individus


sont presque identiques.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Centre de gravité du nuage de points-individus

G = vecteur de dimension p dont les coordonnées


sont les moyennes arithmétiques pondérées desp
variables (G =individu moyen ) :
x1 
x 
 2
...  n
G  x j   pi x ij
xj  i1
... 
 
xp 
G  X t PE
E = vecteur de dimension n dont toutes les
composantes sont égales à1.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée associée à X

Centrage : permet de ramener toutes les colonnes


de X àla même origine, zéro : xi
 xi
x
j j j

Matrice centrée:

 x  x1 x
1 
1 x ... x 1
 x ... x 1
x 

1 2 2 j j p p

 x1  x1 x2  x2 ... x j  x j ... x p  x p 
2 2 2 2

X C  X  EGt   
............ .............. x j  x j .............. 
i

 n 
 x1  x1 x2  x2 ... x j  x j ... x p  x p 
n n n
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Déterminer la matrice centrée


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de variance-covariance associée à X

n
Cov(X j , Xk )   pi (x  xj )(xki  xk)
i
j
i1
n
Var(X j )  Cov(X j , X j )  i
p (x i
jxj ) 2

i1

 (X j )  Var(X j )
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de variance-covariance associée à X

Var( X 1 ) Cov( X 1 , X 2 ) ... Cov( X 1 , X j ) ... Cov( X 1 , X p ) 


 
 Cov(X 2 , X 1 ) Var( X 2 ) ... Cov( X 2 , X j ) ... Cov( X 2 , X p 
)
V  ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 
 
Cov(X j , X 1 ) Cov( X j , X 2 ) ... Var( X j ) ... ... Cov( X j , X p )
 
Cov(X p , X 1 ) Cov( X p , X 2 ) ... Cov( X p , X j ) ... Var( X p )

V  X t PX ou V  X t PX GtG
C C
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Déterminer la matrice de variance-covariance


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée réduite associée à X

Réduction = ramener toutes les variables à


une même origine 0 et un même écart-
type 1.
j  xj
i
x
Centrage + réduction = x j 
i

 (X j )
La matrice centrée réduite : X r  XC Ds1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée réduite associée à X

 x11  x1 x12  x2 x1p  x p 


 ... 
  ( X 1 )  (X 2 )  (X p) 
 2 x 2p  x p 
 1x  x 1
x 2  x2
2

...
  ( X1 )  ( X 2 )  (X p) 
 
 ... ... ... ... ... ... ... ... 
Xr  
x i
 x 2  x2
i x ip  x p 
 1 1 x
... 
  (X 1 )  ( X 2 )  (X p) 
 
... ... ... ... ... ... ... ... 
 n x np  x p 
 1x  x 1
x 2  x2
n

...
 ( X 1 )  ( X 2 )  ( X p ) 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Déterminer la matrice centrée réduite


CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de corrélation associée à X

Le coefficient de corrélation linéaire entre deux


variables quantitatives permet de mesurer le lien
linéaire entre cesdeux variables :
Cov(X , X )
r(X , X )  j k
j k  (X ) (X )
1 r(X j , Xk ) 1
j k

-D’autant plus grand en valeur absolue que le lien


linéaire est grand.
-Nul si absence de lien linéaire.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de corrélation associée à X

1 r( X 1 , X 2 ) ... r( X 1 , X j ) ... r( X 1 , X p ) 
 
r( X 2 , X1 ) 1 ... ... ... r( X 2 , X j ) ... r( X 2 , X p ) 
... ... ... ... ... ... ... ... ... ... ... ... ... ... 
R 
r( X j , X 1 ) r( X j , X 2 ) ... 1 ... ... ... r( X j , X p ) 
 
... ... ... ... ... ... ... ... ... ... ... ... ... ... 
r(X p , X 1 ) r( X p , X 2 ) ... r( X p , X j ) ... ... ... 1 
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12

Déterminer la matrice descorrélations

Vous aimerez peut-être aussi