Vous êtes sur la page 1sur 28

25/03/2014

Analyse des donnes:


Les mthodes factorielles
Prof. Mohamed El Merouani

Introduction:
Lanalyse des donnes est une des branches
les plus vivantes de la statistique.
Les principales mthodes de lanalyse des
donnes se sparent en deux groupes:
Les mthodes de classification,
Les mthodes factorielles.

http:\\elmerouani.jimdo.com

25/03/2014

Les mthodes de classification:


Elles visent rduire la taille de lensemble
des individus en formant des groupes
homognes dindividus ou de variables.
Ces groupes on les appelle aussi des classes,
ou familles, ou segments, ou clusters.
La classification est appele aussi
Segmentation ou Clustering ou

Les mthodes factorielles:


Parmi les mthodes descriptives ou nonsupervises du Datamining, on trouve les
mthodes factorielles de lAnalyse des
donnes.
les mthodes factorielles consistent en la
projection sur un espace de dimension
infrieure pour obtenir une visualisation de
lensemble des liaisons entre variables tout en
minimisant la perte de linformation.

http:\\elmerouani.jimdo.com

25/03/2014

Les mthodes factorielles:


Elles cherchent rduire le nombre de variables
en les rsumant par un petit nombre de
composantes synthtiques.
Si on travaille avec un tableau de variables
numriques, on utilisera lanalyse en
composantes principales,
Si on travaille avec des variables qualitatives, on
utilisera lanalyse des correspondances.
Les liens entre deux groupes de variables peuvent
tre traits par lanalyse canonique.

Les mthodes factorielles:


Les mthodes factorielles regroupent :
LACP : Lanalyse en composantes principales
L AFC : Lanalyse factorielle des correspondances

http:\\elmerouani.jimdo.com

25/03/2014

LACP
LACP (Hotelling, 1933) a pour objectif de rduire le
nombre de donnes, souvent trs lev, dun tableau
de donnes reprsent, algbriquement, comme une
matrice et, gomtriquement comme un nuage de
points.
LACP consiste en ltude des projections des points de
ce nuage sur un axe (axe factoriel ou principal), un plan
ou un hyperplan judicieusement dtermin.
Mathmatiquement, on obtiendrait le meilleur
ajustement du nuage par des sous-espaces vectoriels.

Soit un tableau de donnes ayant p lignes et q


colonnes:
colonnes

x11

x1j

x1q

xi1

xij

xiq

xp1

xpj

xpq

lignes

http:\\elmerouani.jimdo.com

25/03/2014

On reprsente ce tableau sous forme dune


matrice note X de type (p,q).

x11

x21
M
X =
xi1
M

x
p1

x12

x22

L x2 j

xi 2

M
L

x1 j

xij
M

x p 2 L x pj

x1q

L x2 q
M

L xiq
M
L x pq
L

LACP
Algbriquement, il sagit de chercher les
valeurs propres maximales de la matrice des
donnes et par consquent ses vecteurs
propres associs qui reprsenteront ces sousespaces vectoriels (axes factoriels ou
principales).

http:\\elmerouani.jimdo.com

25/03/2014

Procdure de lACP:
On cherche X la transpose de la matrice X.
On dtermine les valeurs propres de la
matrice symtrique XX.
Soient 1, 2, , q ces valeurs propres.
On les classe 1>2>3> 4>.
1 0 L 0
Alors XX=AA-1 o

0 2 O M
=
M O O 0

0 L 0
q

Procdure de lACP:
Daprs les proprits de la trace des matrices;
on a:

) (

tr ( X ' X ) = tr AA1 = tr AA1 = tr


Soit tr ( X ' X ) = 1 + 2 + L + q

En raison des valeurs numriques


dcroissantes de 1, 2, , la somme des
premiers valeurs propres reprsente, souvent,
une proportion importante de la trace de XX.

http:\\elmerouani.jimdo.com

25/03/2014

Procdure de lACP:
Ainsi, dans la pratique on peut se limiter
trouver les premiers valeurs propres 1, 2, ,
s avec s assez infrieur q.
Linformation perdue est alors relativement
faible.
On pratique s=3 (trois premiers valeurs
propres les plus grands)

Procdure de lACP:
Les valeurs propres trouvs tant simples, les
espaces propres associs aux vecteurs propres
seront des droites vectorielles (on les appelles
des axes factoriels ou des facteurs).
Dun point de vue gnral, LACP nous a permit
de traiter un trs grand nombre de donnes
(matrice) pour identifier un nombre
relativement restreint de donnes (axes
factoriels)

http:\\elmerouani.jimdo.com

25/03/2014

Gomtriquement, on reprsente le tableau


comme un nuage de points.

LACP gomtriquement:
Lors de la projection, le
nuage peut tre
dform est donc serait
diffrent de rel, alors
les mthodes
dajustement consistent
en minimiser cette
possible dformation et
ce en maximisant les
distances projetes.

http:\\elmerouani.jimdo.com

25/03/2014

Distance ou mtrique utilise:


Soient Lm et Ln deux points de IRq:
Lm = (xm1 , xm 2 ,L , xmj ,L , xmq )
Ln = (xn1 , xn 2 ,L , xnj ,L , xnq )

La distance euclidienne (classique) entre ces


points est:

d (Lm , Ln ) =

(x
q

j =1

mj xnj )

Distance ou mtrique utilise:


Ou bien
2
2
2
d 2 (Lm , Ln ) = (xm1 xn1 ) +L+ (xmj xnj ) +L+ (xmq xnq )
Les points Lm et Ln sont encore plus proches
lorsque la somme prcdente est plus petite.
Si les diffrents coordonnes des points L ne
se mesurent pas avec les mmes units, la
distance d sera la somme des termes de
poids trs diffrents.

http:\\elmerouani.jimdo.com

25/03/2014

Distance ou mtrique utilise:


Pour viter ce problme des units, on va
centrer auparavant les vecteurs colonnes de la
matrice X.
Le tableau des donnes centrs Y est :
x11 x1

x 21 x1
Y =
M

x x
p1 1

x12 x 2
x 22 x 2
x p 2 x2

L x1q x q

L x2q xq

O
M

L x pq x q

LACP norm:
On sintresse tudier la matrice des
variances-covariances V au lieu de la matrice
X de dpart.
La matrice V est une matrice de type carre
dordre q de terme gnral vkl gal :
1 p
1 p
vkl = ( yik yk )( yil yl ) = ( xik xk )( xil xl )
p i =1
p i =1
1 p
v kl =
(x ik x il x k x l )
p i =1

http:\\elmerouani.jimdo.com

10

25/03/2014

La matrice V des variances-covariances est


telle que
1

V =

Y Y

On peut aussi considrer la matrice Z des


donnes centres et norms dlments zij

zij =

xij x j

Avec
p

xj =

x
i =1

ij

; j =

1 p
(xij x j )2

p i =1

Matrice centre norme:


Donc, la matrice des donnes centres et
normes sera:
x11 x1

1
x x
21 1
Z = 1
M
x x
p1 1

1

http:\\elmerouani.jimdo.com

x12 x2

x22 x2

O
x p 2 x2

x1q xq

q
x2 q xq

M
x pq xq

11

25/03/2014

A partir de cette matrice, on dfinit la matrice


des corrlations entre les q variables prises
deux deux:

12
1

21 1
=
M

q1 L

L 1q

L 2q
O M

L 1

rsume la structure des dpendances


linaires entre les q variables et on a
1
= Z'Z
p

Procdure de lACP norm:


On extrait les valeurs propres les plus grands
1, 2, , de la matrice V des variancescovariances ou de la matrice des
corrlations.
En pratique, on arrte lextraction des valeurs
propres lorsque la somme des s valeurs
propres que lon a dtermins reprsente un
pourcentage satisfaisant de la variance.

http:\\elmerouani.jimdo.com

12

25/03/2014

Procdure de lACP norm:


On dtermine les vecteurs propres associs
aux valeurs propres 1, 2, , s
Ce sont les axes factoriels
Dans la majorit des cas, ne sont prise en
considration que les deux, les trois, ou les
quatre premiers axes factoriels.
Les axes factoriels sont perpendiculaires et ne
sont pas corrls entre eux.

Nombre daxes retenir :


Les critres les plus utilisables sont les suivantes :
1) Interprtation des axes : On retient que les axes que lon
peut attribuer une forme dinterprtation conomique, par
exemple, soit directement, soit en terme des variables avec
lesquelles ils sont trs corrls.
2) Critre de Kaiser (variables centres et rduites) : On ne
retient que les axes associs valeurs propres suprieurs
1, c'est--dire dont la variance est suprieure celle des
variables dorigine.
Une autre interprtation est que la moyenne des valeurs
propres tant 1, on ne garde que celles qui sont
suprieures cette moyenne.

http:\\elmerouani.jimdo.com

13

25/03/2014

Nombre daxes retenir :


3) boulis des valeurs propres :On cherche un
coude dans le graphe des valeurs propres et on ne
conserve que les valeurs jusquau ce coude .

Qualits et dfauts de lACP :


Dun point de vue technique, ce procd a pour objet
ltude de la structure de la matrice des variancescovariances ou de la matrice des corrlations.
Mais, le procd est imparfait dans la mesure que le nuage
est dform par la projection, mme si cette dernire est la
plus idale possible. Certains points sont plus altrs que
dautres par la transformation.
Linconvnient majeur rside dans linterprtation des axes.
Parfois, lexplication est vidente et fait que lanalyse en
composantes principales soit redondante ; ou bien elle est
contingente pour l'analyste et dans ce dernier cas elle
n'apporte pas des renseignements trs convaincant es pour
l'analyse conomtrique postrieure.

http:\\elmerouani.jimdo.com

14

25/03/2014

LAFC
LAFC a pour objet le traitement de linformation
contenue dans un tableau appel de contingence
ou de dpendance, relatif deux ensembles de
nature quelconque, en relation par moyen dun
processus naturel ou exprimental plus ou moins
bien connu.
Les donnes sont ici pondres. Les frquences
de rptitions sinterprte facilement en termes
de probabilits.

LAFC
Le tableau de dpendance peut tre ainsi
reprsent dans un espace appropri par un
nuage de points affects de probabilits.

http:\\elmerouani.jimdo.com

15

25/03/2014

Considrons un tableau double entre :


Ensemble J
(paramttres)

Ensemble I
(individus)

x11 x1j

x1m

xi1

xij

xim

xn1 xnj

xnm

Dans le cas qualitatif, le tableau prcdent se


prsente sous la forme dun tableau des uns
et des zros (suivant si lindividu i possde ou
non le paramtre j).
La probabilit associe au terme xij est:

pij =

xij
n

x
i =1 j =1

http:\\elmerouani.jimdo.com

ij

16

25/03/2014

Total

p11

p1j

p1m

p1.

pij

pim

pi.

pnj

pnm

pn.

p.m

J
I
1

M
i

pi1
M
n

pn1

Total

p.1

p.j

33

O les probabilits marginales sont:

pi =
p j =

ij

avec i = 1, L , n

ij

avec

j =1
n

p
i =1

j = 1, L , m

qui vrifient les proprits:


n

p
i =1

http:\\elmerouani.jimdo.com

= 1 et

p
j =1

=1

17

25/03/2014

Cest quoi les correspondances ?


Lorsque les variables sont quantitatives, on
fait une tude de corrlation.
Mais, lorsquon a aussi des variables
qualitatives, on doit faire une tude des
correspondances.

35

Indpendance?
Probabilits conditionnelles, dans ce cas:

pij
pi

= p j

pij
p j

= pi

Formule dindpendance:

pij = pi p j
36

http:\\elmerouani.jimdo.com

18

25/03/2014

A(I ) = {Li ; pi }

p
p p
p
Li = i1 , i 2 , L , ij , L , im
pi
pi
pi pi

37

Distance du 2
Pour deux individus quelconques i et i:

d 2 (Li , Li ' ) =
j

1 pij pi ' j

p j pi pi '

Pourquoi une telle distance?

38

http:\\elmerouani.jimdo.com

19

25/03/2014

Pourquoi la distance du 2?
La distance euclidienne ne prend pas compte
compltement de tous les caractres tudis!
Il a t alors propos de modifier la distance
euclidienne en tenant compte des carts entre
deux probabilits de deux individus davoir un
caractre en donnant de limportance aux
probabilits que lindividu ait tous les caractres
tudis.
Cela, donc, par multiplication par linverse de la
probabilit davoir tous les caractres.
39

Pourquoi la distance du 2?
Aussi, parce que la distance du 2 a une
proprit qui sappelle la proprit
dquivalence distributionnelle et que la
distance euclidienne ne vrifie pas!
Si deux colonnes j et j de J correspond au
mme ligne i, il est logique de les regrouper
en une seule de probabilit (pij+pij), il faut
alors que cette opration ne modifie pas les
distances entre les i.
40

http:\\elmerouani.jimdo.com

20

25/03/2014

Pourquoi la distance du 2?
Plus gnralement, la distance du 2 est gale
la distance euclidienne entre:

p
p
p
ij
i
1
i
2
im

,
,L,
,L,
pi p1 pi p2

p
p
p
p
i

j
i

p
pi ' j
pi ' 2
pi 'm
i '1

,
,L,
,L ,
pi ' p1 pi ' p2
pi ' p j
pi ' pm

41

Ce sont les points quon a not Mi dans le


cours

M i = ( i1 , i 2 ,L , ij ,L , im )
Avec

ij =

pij
pi p j

pi tant toujours la pondration


42

http:\\elmerouani.jimdo.com

21

25/03/2014

B(I ) = {M i ; pi }

43

Ainsi la distance du 2 entre deux points Mi et


Mi est:
d

(M i , M i ' ) = ( ij

i j )

44

http:\\elmerouani.jimdo.com

22

25/03/2014

Projection du nuage B(I) sur un axe:


On projet orthogonalement le nuage B(I) sur
un axe (espace vectoriel de dim 1) de vecteur
unitaire u, de telle faon que linformation
perdue soit minime.
Comme en ACP, ce qui revient
max uWu, sous la condition uu=1, avec W est
la matrice des variances-covarainces de B(I) .
Ce qui revient trouver la valeur propre la
plus grande max de W.
45

Matrice des variances-covariances W:


La matrice des variances-covariances W du
nuage B(I) relativement un paramtre j est:

v11 v12

v21 v22
W =
M

v
m1 vm 2

L v1m

L v2 m
O M

L vmm
46

http:\\elmerouani.jimdo.com

23

25/03/2014

Matrice des variances-covariances W:


La variance vjj caractrise la dispersion du
nuage tout au long de laxe j:

v jj = pi ij p j

La covariance vjk est

)(

v jk = pi ij p j ik pk

'

i
47

Matrice des variances-covariances W:


Soit encore, en remplaant ij par sa valeur:

p pi p j
v jk = ij

pi pk
i
Posons p p p
ij
i j

pi pk

pik pi pk

pi pk

'

= rij ; i = 1,L , n , j = 1,L , m

48

http:\\elmerouani.jimdo.com

24

25/03/2014

Matrice des variances-covariances W:

(r )

ij 1i n
1 j m

=R

W = R' R
o R est la transpose de R.
Maximiser uWu revient maximiser uRRu
sous la condition uu=1, cest--dire dterminer
les vecteurs propres associs aux valeurs propres
de la matrice RR.

49

Variabilit totale du nuage B(I):


On appelle la variabilit totale du nuage B(I),
la trace de la matrice W:

VB = tr (W ) = v jj
j

On parle aussi de la variabilit totale du nuage


projet C(I) qui sera Vc=max
50

http:\\elmerouani.jimdo.com

25

25/03/2014

Variabilit explique du nuage B(I):


La partie de variabilit explique par la
projection de B(I), sur u est alors:

=
Soit encore:

Vc
VB

max

tr (W )
51

Projection du nuage B(I) sur un plan:


Comme en ACP, les vecteurs propres de W
sappellent axes factoriels du nuage.
La dtermination des axes factoriels se fait en
diagonalisant la matrice symtrique W.
En pratique, on se contente des valeurs
propres les plus grands.

52

http:\\elmerouani.jimdo.com

26

25/03/2014

Recherche des facteurs:


Les points du nuage C(I) possdent un
nombre rduit de coordonnes dans le
rfrentiel form les axes factoriels.
Ces coordonnes sont les valeurs de nouvelles
variables qui sappellent: Facteurs.
Le premier facteur correspond aux
coordonnes sur le premier axe factoriel.

53

Recherche des facteurs:


On peut dmontrer que les facteurs sont noncorrls entre eux et sexpriment comme
combinaisons linaires des donnes.
Rciproquement, les donnes ont des coefficients
qui sont des combinaisons linaires des facteurs.
Ainsi, partir des facteurs, il est possible de
reconstruire un tableau de donnes avec une
minime perte dinformation, cest--dire obtenir
un tableau plus facilement accessible lanalyse
descriptive.
54

http:\\elmerouani.jimdo.com

27

25/03/2014

Proximit en IRm et en IRn:


On a vu prcdemment les proximits entre n points de
IRm.
Par des calculs symtriques, on peut tudier les
proximits de m points de IRn.
Sauf quil existe des relations entre les facteurs de IRm et
les facteurs de IRn.
Il est alors possible de reprsenter, sur le mme
graphique, dans le plan des deux premiers axes
factoriels, les proximits entre les individus et les
proximits entre les caractres.
Cette simultanit de reprsentation suggre parfois
une interprtation conomique, sociale, politique,des
axes factoriels.
55

Inconvnients et avantages de lAFC


Les inconvnients sont les dfauts de toute
analyse factorielle: dformation invitable du
nuage durant la projection et la signification
ou interprtation des axes.
Lavantage essentiel rside dans ltude des
caractres qualitatifs.

56

http:\\elmerouani.jimdo.com

28