ACP Et AFC

25/03/2014
Analyse des donnes:

Les mthodes factorielles
Prof. Mohamed El Merouani
Introduction:
Lanalyse des donnes est une des branches
les plus vivantes de la statistique.
Les principales mthodes de lanalyse des
donnes se sparent en deux groupes:
Les mthodes de classification,
Les mthodes factorielles.
http:\\elmerouani.jimdo.com
25/03/2014
Les mthodes de classification:

Elles visent rduire la taille de lensemble
des individus en formant des groupes
homognes dindividus ou de variables.
Ces groupes on les appelle aussi des classes,
ou familles, ou segments, ou clusters.
La classification est appele aussi
Segmentation ou Clustering ou
Les mthodes factorielles:

Parmi les mthodes descriptives ou nonsupervises du Datamining, on trouve les
mthodes factorielles de lAnalyse des
donnes.
les mthodes factorielles consistent en la
projection sur un espace de dimension
infrieure pour obtenir une visualisation de
lensemble des liaisons entre variables tout en
minimisant la perte de linformation.
25/03/2014

Elles cherchent rduire le nombre de variables
en les rsumant par un petit nombre de
composantes synthtiques.
Si on travaille avec un tableau de variables
numriques, on utilisera lanalyse en
composantes principales,
Si on travaille avec des variables qualitatives, on
utilisera lanalyse des correspondances.
Les liens entre deux groupes de variables peuvent
tre traits par lanalyse canonique.

Les mthodes factorielles regroupent :
LACP : Lanalyse en composantes principales
L AFC : Lanalyse factorielle des correspondances
25/03/2014
LACP
LACP (Hotelling, 1933) a pour objectif de rduire le
nombre de donnes, souvent trs lev, dun tableau
de donnes reprsent, algbriquement, comme une
matrice et, gomtriquement comme un nuage de
points.
LACP consiste en ltude des projections des points de
ce nuage sur un axe (axe factoriel ou principal), un plan
ou un hyperplan judicieusement dtermin.
Mathmatiquement, on obtiendrait le meilleur
ajustement du nuage par des sous-espaces vectoriels.
Soit un tableau de donnes ayant p lignes et q

colonnes:
colonnes
x11
x1j
x1q
xi1
xij
xiq
xp1
xpj
xpq
lignes
25/03/2014
On reprsente ce tableau sous forme dune

matrice note X de type (p,q).
x11
x21
M
X =
xi1
M
x
p1
x12
x22
L x2 j
xi 2
M
L
x1 j
xij
M
x p 2 L x pj
x1q
L x2 q
M
L xiq
M
L x pq
L
LACP
Algbriquement, il sagit de chercher les
valeurs propres maximales de la matrice des
donnes et par consquent ses vecteurs
propres associs qui reprsenteront ces sousespaces vectoriels (axes factoriels ou
principales).
25/03/2014
Procdure de lACP:
On cherche X la transpose de la matrice X.
On dtermine les valeurs propres de la
matrice symtrique XX.
Soient 1, 2, , q ces valeurs propres.
On les classe 1>2>3> 4>.
1 0 L 0
Alors XX=AA-1 o
0 2 O M
=
M O O 0
0 L 0
q
Procdure de lACP:
Daprs les proprits de la trace des matrices;
on a:
) (
tr ( X ' X ) = tr AA1 = tr AA1 = tr

Soit tr ( X ' X ) = 1 + 2 + L + q
En raison des valeurs numriques

dcroissantes de 1, 2, , la somme des
premiers valeurs propres reprsente, souvent,
une proportion importante de la trace de XX.
25/03/2014
Procdure de lACP:
Ainsi, dans la pratique on peut se limiter
trouver les premiers valeurs propres 1, 2, ,
s avec s assez infrieur q.
Linformation perdue est alors relativement
faible.
On pratique s=3 (trois premiers valeurs
propres les plus grands)
Procdure de lACP:
Les valeurs propres trouvs tant simples, les
espaces propres associs aux vecteurs propres
seront des droites vectorielles (on les appelles
des axes factoriels ou des facteurs).
Dun point de vue gnral, LACP nous a permit
de traiter un trs grand nombre de donnes
(matrice) pour identifier un nombre
relativement restreint de donnes (axes
factoriels)
25/03/2014
Gomtriquement, on reprsente le tableau

comme un nuage de points.
LACP gomtriquement:
Lors de la projection, le
nuage peut tre
dform est donc serait
diffrent de rel, alors
les mthodes
dajustement consistent
en minimiser cette
possible dformation et
ce en maximisant les
distances projetes.
25/03/2014
Distance ou mtrique utilise:

Soient Lm et Ln deux points de IRq:
Lm = (xm1 , xm 2 ,L , xmj ,L , xmq )
Ln = (xn1 , xn 2 ,L , xnj ,L , xnq )
La distance euclidienne (classique) entre ces

points est:
d (Lm , Ln ) =
(x
q
j =1
mj xnj )

Ou bien
2
2
2
d 2 (Lm , Ln ) = (xm1 xn1 ) +L+ (xmj xnj ) +L+ (xmq xnq )
Les points Lm et Ln sont encore plus proches
lorsque la somme prcdente est plus petite.
Si les diffrents coordonnes des points L ne
se mesurent pas avec les mmes units, la
distance d sera la somme des termes de
poids trs diffrents.
25/03/2014

Pour viter ce problme des units, on va
centrer auparavant les vecteurs colonnes de la
matrice X.
Le tableau des donnes centrs Y est :
x11 x1
x 21 x1
Y =
M
x x
p1 1
x12 x 2
x 22 x 2
x p 2 x2
L x1q x q
L x2q xq
O
M
L x pq x q
LACP norm:
On sintresse tudier la matrice des
variances-covariances V au lieu de la matrice
X de dpart.
La matrice V est une matrice de type carre
dordre q de terme gnral vkl gal :
1 p
1 p
vkl = ( yik yk )( yil yl ) = ( xik xk )( xil xl )
p i =1
p i =1
1 p
v kl =
(x ik x il x k x l )
p i =1
10
25/03/2014
La matrice V des variances-covariances est

telle que
1
V =
Y Y
On peut aussi considrer la matrice Z des

donnes centres et norms dlments zij
zij =
xij x j
Avec
p
xj =
x
i =1
ij
; j =
1 p
(xij x j )2
p i =1
Matrice centre norme:

Donc, la matrice des donnes centres et
normes sera:
x11 x1
1
x x
21 1
Z = 1
M
x x
p1 1

1
x12 x2
x22 x2
O
x p 2 x2
x1q xq
q
x2 q xq
M
x pq xq
11
25/03/2014
A partir de cette matrice, on dfinit la matrice

des corrlations entre les q variables prises
deux deux:
12
1
21 1
=
M
q1 L
L 1q
L 2q
O M
L 1
rsume la structure des dpendances

linaires entre les q variables et on a
1
= Z'Z
p
Procdure de lACP norm:

On extrait les valeurs propres les plus grands
1, 2, , de la matrice V des variancescovariances ou de la matrice des
corrlations.
En pratique, on arrte lextraction des valeurs
propres lorsque la somme des s valeurs
propres que lon a dtermins reprsente un
pourcentage satisfaisant de la variance.
12
25/03/2014
Procdure de lACP norm:

On dtermine les vecteurs propres associs
aux valeurs propres 1, 2, , s
Ce sont les axes factoriels
Dans la majorit des cas, ne sont prise en
considration que les deux, les trois, ou les
quatre premiers axes factoriels.
Les axes factoriels sont perpendiculaires et ne
sont pas corrls entre eux.
Nombre daxes retenir :

Les critres les plus utilisables sont les suivantes :
1) Interprtation des axes : On retient que les axes que lon
peut attribuer une forme dinterprtation conomique, par
exemple, soit directement, soit en terme des variables avec
lesquelles ils sont trs corrls.
2) Critre de Kaiser (variables centres et rduites) : On ne
retient que les axes associs valeurs propres suprieurs
1, c'est--dire dont la variance est suprieure celle des
variables dorigine.
Une autre interprtation est que la moyenne des valeurs
propres tant 1, on ne garde que celles qui sont
suprieures cette moyenne.
13
25/03/2014
Nombre daxes retenir :

3) boulis des valeurs propres :On cherche un
coude dans le graphe des valeurs propres et on ne
conserve que les valeurs jusquau ce coude .
Qualits et dfauts de lACP :

Dun point de vue technique, ce procd a pour objet
ltude de la structure de la matrice des variancescovariances ou de la matrice des corrlations.
Mais, le procd est imparfait dans la mesure que le nuage
est dform par la projection, mme si cette dernire est la
plus idale possible. Certains points sont plus altrs que
dautres par la transformation.
Linconvnient majeur rside dans linterprtation des axes.
Parfois, lexplication est vidente et fait que lanalyse en
composantes principales soit redondante ; ou bien elle est
contingente pour l'analyste et dans ce dernier cas elle
n'apporte pas des renseignements trs convaincant es pour
l'analyse conomtrique postrieure.
14
25/03/2014
LAFC
LAFC a pour objet le traitement de linformation
contenue dans un tableau appel de contingence
ou de dpendance, relatif deux ensembles de
nature quelconque, en relation par moyen dun
processus naturel ou exprimental plus ou moins
bien connu.
Les donnes sont ici pondres. Les frquences
de rptitions sinterprte facilement en termes
de probabilits.
LAFC
Le tableau de dpendance peut tre ainsi
reprsent dans un espace appropri par un
nuage de points affects de probabilits.
15
25/03/2014
Considrons un tableau double entre :

Ensemble J
(paramttres)
Ensemble I
(individus)
x11 x1j
x1m
xi1
xij
xim
xn1 xnj
xnm
Dans le cas qualitatif, le tableau prcdent se

prsente sous la forme dun tableau des uns
et des zros (suivant si lindividu i possde ou
non le paramtre j).
La probabilit associe au terme xij est:
pij =
xij
n
x
i =1 j =1
ij
16
25/03/2014
Total
p11
p1j
p1m
p1.
pij
pim
pi.
pnj
pnm
pn.
p.m
J
I
1
M
i
pi1
M
n
pn1
Total
p.1
p.j
33
O les probabilits marginales sont:
pi =
p j =
ij
avec i = 1, L , n
ij
avec
j =1
n
p
i =1
j = 1, L , m
qui vrifient les proprits:

n
p
i =1
= 1 et
p
j =1
=1
17
25/03/2014
Cest quoi les correspondances ?

Lorsque les variables sont quantitatives, on
fait une tude de corrlation.
Mais, lorsquon a aussi des variables
qualitatives, on doit faire une tude des
correspondances.
35
Indpendance?
Probabilits conditionnelles, dans ce cas:
pij
pi
= p j
pij
p j
= pi
Formule dindpendance:
pij = pi p j
36
18
25/03/2014
A(I ) = {Li ; pi }
p
p p
p
Li = i1 , i 2 , L , ij , L , im
pi
pi
pi pi
37
Distance du 2
Pour deux individus quelconques i et i:
d 2 (Li , Li ' ) =
j
1 pij pi ' j
p j pi pi '
Pourquoi une telle distance?
38
19
25/03/2014
Pourquoi la distance du 2?
La distance euclidienne ne prend pas compte
compltement de tous les caractres tudis!
Il a t alors propos de modifier la distance
euclidienne en tenant compte des carts entre
deux probabilits de deux individus davoir un
caractre en donnant de limportance aux
probabilits que lindividu ait tous les caractres
tudis.
Cela, donc, par multiplication par linverse de la
probabilit davoir tous les caractres.
39
Aussi, parce que la distance du 2 a une
proprit qui sappelle la proprit
dquivalence distributionnelle et que la
distance euclidienne ne vrifie pas!
Si deux colonnes j et j de J correspond au
mme ligne i, il est logique de les regrouper
en une seule de probabilit (pij+pij), il faut
alors que cette opration ne modifie pas les
distances entre les i.
40
20
25/03/2014
Plus gnralement, la distance du 2 est gale
la distance euclidienne entre:
p
p
p
ij
i
1
i
2
im
,
,L,
,L,
pi p1 pi p2
p
p
p
p
i
j
i
p
pi ' j
pi ' 2
pi 'm
i '1
,
,L,
,L ,
pi ' p1 pi ' p2
pi ' p j
pi ' pm
41
Ce sont les points quon a not Mi dans le

cours
M i = ( i1 , i 2 ,L , ij ,L , im )
Avec
ij =
pij
pi p j
pi tant toujours la pondration

42
21
25/03/2014
B(I ) = {M i ; pi }
43
Ainsi la distance du 2 entre deux points Mi et

Mi est:
d
(M i , M i ' ) = ( ij
i j )
44
22
25/03/2014
Projection du nuage B(I) sur un axe:

On projet orthogonalement le nuage B(I) sur
un axe (espace vectoriel de dim 1) de vecteur
unitaire u, de telle faon que linformation
perdue soit minime.
Comme en ACP, ce qui revient
max uWu, sous la condition uu=1, avec W est
la matrice des variances-covarainces de B(I) .
Ce qui revient trouver la valeur propre la
plus grande max de W.
45
Matrice des variances-covariances W:

La matrice des variances-covariances W du
nuage B(I) relativement un paramtre j est:
v11 v12
v21 v22
W =
M
v
m1 vm 2
L v1m
L v2 m
O M
L vmm
46
23
25/03/2014

La variance vjj caractrise la dispersion du
nuage tout au long de laxe j:
v jj = pi ij p j
La covariance vjk est
)(
v jk = pi ij p j ik pk
'
i
47

Soit encore, en remplaant ij par sa valeur:
p pi p j
v jk = ij
pi pk
i
Posons p p p
ij
i j
pi pk
pik pi pk
pi pk
'
= rij ; i = 1,L , n , j = 1,L , m
48
24
25/03/2014
(r )
ij 1i n
1 j m
=R
W = R' R
o R est la transpose de R.
Maximiser uWu revient maximiser uRRu
sous la condition uu=1, cest--dire dterminer
les vecteurs propres associs aux valeurs propres
de la matrice RR.
49
Variabilit totale du nuage B(I):

On appelle la variabilit totale du nuage B(I),
la trace de la matrice W:
VB = tr (W ) = v jj
j
On parle aussi de la variabilit totale du nuage

projet C(I) qui sera Vc=max
50
25
25/03/2014
Variabilit explique du nuage B(I):

La partie de variabilit explique par la
projection de B(I), sur u est alors:
=
Soit encore:
Vc
VB
max
tr (W )
51
Projection du nuage B(I) sur un plan:

Comme en ACP, les vecteurs propres de W
sappellent axes factoriels du nuage.
La dtermination des axes factoriels se fait en
diagonalisant la matrice symtrique W.
En pratique, on se contente des valeurs
propres les plus grands.
52
26
25/03/2014
Recherche des facteurs:

Les points du nuage C(I) possdent un
nombre rduit de coordonnes dans le
rfrentiel form les axes factoriels.
Ces coordonnes sont les valeurs de nouvelles
variables qui sappellent: Facteurs.
Le premier facteur correspond aux
coordonnes sur le premier axe factoriel.
53
Recherche des facteurs:

On peut dmontrer que les facteurs sont noncorrls entre eux et sexpriment comme
combinaisons linaires des donnes.
Rciproquement, les donnes ont des coefficients
qui sont des combinaisons linaires des facteurs.
Ainsi, partir des facteurs, il est possible de
reconstruire un tableau de donnes avec une
minime perte dinformation, cest--dire obtenir
un tableau plus facilement accessible lanalyse
descriptive.
54
27
25/03/2014
Proximit en IRm et en IRn:

On a vu prcdemment les proximits entre n points de
IRm.
Par des calculs symtriques, on peut tudier les
proximits de m points de IRn.
Sauf quil existe des relations entre les facteurs de IRm et
les facteurs de IRn.
Il est alors possible de reprsenter, sur le mme
graphique, dans le plan des deux premiers axes
factoriels, les proximits entre les individus et les
proximits entre les caractres.
Cette simultanit de reprsentation suggre parfois
une interprtation conomique, sociale, politique,des
axes factoriels.
55
Inconvnients et avantages de lAFC

Les inconvnients sont les dfauts de toute
analyse factorielle: dformation invitable du
nuage durant la projection et la signification
ou interprtation des axes.
Lavantage essentiel rside dans ltude des
caractres qualitatifs.
56
28

ACP Et AFC

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ACP Et AFC

Transféré par

Droits d'auteur :

Formats disponibles

25/03/2014

Analyse des donnes:

Les mthodes de classification:

Les mthodes factorielles:

Les mthodes factorielles:

Les mthodes factorielles:

Soit un tableau de donnes ayant p lignes et q

On reprsente ce tableau sous forme dune

tr ( X ' X ) = tr AA1 = tr AA1 = tr

En raison des valeurs numriques

Gomtriquement, on reprsente le tableau

Distance ou mtrique utilise:

La distance euclidienne (classique) entre ces

Distance ou mtrique utilise:

Distance ou mtrique utilise:

La matrice V des variances-covariances est

On peut aussi considrer la matrice Z des

Matrice centre norme:

A partir de cette matrice, on dfinit la matrice

rsume la structure des dpendances

Procdure de lACP norm:

Procdure de lACP norm:

Nombre daxes retenir :

Nombre daxes retenir :

Qualits et dfauts de lACP :

Considrons un tableau double entre :

Dans le cas qualitatif, le tableau prcdent se

O les probabilits marginales sont:

qui vrifient les proprits:

Cest quoi les correspondances ?

Pourquoi une telle distance?

Ce sont les points quon a not Mi dans le

pi tant toujours la pondration

Ainsi la distance du 2 entre deux points Mi et

Projection du nuage B(I) sur un axe:

Matrice des variances-covariances W:

Matrice des variances-covariances W:

La covariance vjk est

Matrice des variances-covariances W:

= rij ; i = 1,L , n , j = 1,L , m

Matrice des variances-covariances W:

Variabilit totale du nuage B(I):

On parle aussi de la variabilit totale du nuage

Variabilit explique du nuage B(I):

Projection du nuage B(I) sur un plan:

Recherche des facteurs:

Recherche des facteurs:

Proximit en IRm et en IRn:

Inconvnients et avantages de lAFC

Vous aimerez peut-être aussi