Académique Documents
Professionnel Documents
Culture Documents
Introduction:
Lanalyse des donnes est une des branches
les plus vivantes de la statistique.
Les principales mthodes de lanalyse des
donnes se sparent en deux groupes:
Les mthodes de classification,
Les mthodes factorielles.
http:\\elmerouani.jimdo.com
25/03/2014
http:\\elmerouani.jimdo.com
25/03/2014
http:\\elmerouani.jimdo.com
25/03/2014
LACP
LACP (Hotelling, 1933) a pour objectif de rduire le
nombre de donnes, souvent trs lev, dun tableau
de donnes reprsent, algbriquement, comme une
matrice et, gomtriquement comme un nuage de
points.
LACP consiste en ltude des projections des points de
ce nuage sur un axe (axe factoriel ou principal), un plan
ou un hyperplan judicieusement dtermin.
Mathmatiquement, on obtiendrait le meilleur
ajustement du nuage par des sous-espaces vectoriels.
x11
x1j
x1q
xi1
xij
xiq
xp1
xpj
xpq
lignes
http:\\elmerouani.jimdo.com
25/03/2014
x11
x21
M
X =
xi1
M
x
p1
x12
x22
L x2 j
xi 2
M
L
x1 j
xij
M
x p 2 L x pj
x1q
L x2 q
M
L xiq
M
L x pq
L
LACP
Algbriquement, il sagit de chercher les
valeurs propres maximales de la matrice des
donnes et par consquent ses vecteurs
propres associs qui reprsenteront ces sousespaces vectoriels (axes factoriels ou
principales).
http:\\elmerouani.jimdo.com
25/03/2014
Procdure de lACP:
On cherche X la transpose de la matrice X.
On dtermine les valeurs propres de la
matrice symtrique XX.
Soient 1, 2, , q ces valeurs propres.
On les classe 1>2>3> 4>.
1 0 L 0
Alors XX=AA-1 o
0 2 O M
=
M O O 0
0 L 0
q
Procdure de lACP:
Daprs les proprits de la trace des matrices;
on a:
) (
http:\\elmerouani.jimdo.com
25/03/2014
Procdure de lACP:
Ainsi, dans la pratique on peut se limiter
trouver les premiers valeurs propres 1, 2, ,
s avec s assez infrieur q.
Linformation perdue est alors relativement
faible.
On pratique s=3 (trois premiers valeurs
propres les plus grands)
Procdure de lACP:
Les valeurs propres trouvs tant simples, les
espaces propres associs aux vecteurs propres
seront des droites vectorielles (on les appelles
des axes factoriels ou des facteurs).
Dun point de vue gnral, LACP nous a permit
de traiter un trs grand nombre de donnes
(matrice) pour identifier un nombre
relativement restreint de donnes (axes
factoriels)
http:\\elmerouani.jimdo.com
25/03/2014
LACP gomtriquement:
Lors de la projection, le
nuage peut tre
dform est donc serait
diffrent de rel, alors
les mthodes
dajustement consistent
en minimiser cette
possible dformation et
ce en maximisant les
distances projetes.
http:\\elmerouani.jimdo.com
25/03/2014
d (Lm , Ln ) =
(x
q
j =1
mj xnj )
http:\\elmerouani.jimdo.com
25/03/2014
x 21 x1
Y =
M
x x
p1 1
x12 x 2
x 22 x 2
x p 2 x2
L x1q x q
L x2q xq
O
M
L x pq x q
LACP norm:
On sintresse tudier la matrice des
variances-covariances V au lieu de la matrice
X de dpart.
La matrice V est une matrice de type carre
dordre q de terme gnral vkl gal :
1 p
1 p
vkl = ( yik yk )( yil yl ) = ( xik xk )( xil xl )
p i =1
p i =1
1 p
v kl =
(x ik x il x k x l )
p i =1
http:\\elmerouani.jimdo.com
10
25/03/2014
V =
Y Y
zij =
xij x j
Avec
p
xj =
x
i =1
ij
; j =
1 p
(xij x j )2
p i =1
1
x x
21 1
Z = 1
M
x x
p1 1
1
http:\\elmerouani.jimdo.com
x12 x2
x22 x2
O
x p 2 x2
x1q xq
q
x2 q xq
M
x pq xq
11
25/03/2014
12
1
21 1
=
M
q1 L
L 1q
L 2q
O M
L 1
http:\\elmerouani.jimdo.com
12
25/03/2014
http:\\elmerouani.jimdo.com
13
25/03/2014
http:\\elmerouani.jimdo.com
14
25/03/2014
LAFC
LAFC a pour objet le traitement de linformation
contenue dans un tableau appel de contingence
ou de dpendance, relatif deux ensembles de
nature quelconque, en relation par moyen dun
processus naturel ou exprimental plus ou moins
bien connu.
Les donnes sont ici pondres. Les frquences
de rptitions sinterprte facilement en termes
de probabilits.
LAFC
Le tableau de dpendance peut tre ainsi
reprsent dans un espace appropri par un
nuage de points affects de probabilits.
http:\\elmerouani.jimdo.com
15
25/03/2014
Ensemble I
(individus)
x11 x1j
x1m
xi1
xij
xim
xn1 xnj
xnm
pij =
xij
n
x
i =1 j =1
http:\\elmerouani.jimdo.com
ij
16
25/03/2014
Total
p11
p1j
p1m
p1.
pij
pim
pi.
pnj
pnm
pn.
p.m
J
I
1
M
i
pi1
M
n
pn1
Total
p.1
p.j
33
pi =
p j =
ij
avec i = 1, L , n
ij
avec
j =1
n
p
i =1
j = 1, L , m
p
i =1
http:\\elmerouani.jimdo.com
= 1 et
p
j =1
=1
17
25/03/2014
35
Indpendance?
Probabilits conditionnelles, dans ce cas:
pij
pi
= p j
pij
p j
= pi
Formule dindpendance:
pij = pi p j
36
http:\\elmerouani.jimdo.com
18
25/03/2014
A(I ) = {Li ; pi }
p
p p
p
Li = i1 , i 2 , L , ij , L , im
pi
pi
pi pi
37
Distance du 2
Pour deux individus quelconques i et i:
d 2 (Li , Li ' ) =
j
1 pij pi ' j
p j pi pi '
38
http:\\elmerouani.jimdo.com
19
25/03/2014
Pourquoi la distance du 2?
La distance euclidienne ne prend pas compte
compltement de tous les caractres tudis!
Il a t alors propos de modifier la distance
euclidienne en tenant compte des carts entre
deux probabilits de deux individus davoir un
caractre en donnant de limportance aux
probabilits que lindividu ait tous les caractres
tudis.
Cela, donc, par multiplication par linverse de la
probabilit davoir tous les caractres.
39
Pourquoi la distance du 2?
Aussi, parce que la distance du 2 a une
proprit qui sappelle la proprit
dquivalence distributionnelle et que la
distance euclidienne ne vrifie pas!
Si deux colonnes j et j de J correspond au
mme ligne i, il est logique de les regrouper
en une seule de probabilit (pij+pij), il faut
alors que cette opration ne modifie pas les
distances entre les i.
40
http:\\elmerouani.jimdo.com
20
25/03/2014
Pourquoi la distance du 2?
Plus gnralement, la distance du 2 est gale
la distance euclidienne entre:
p
p
p
ij
i
1
i
2
im
,
,L,
,L,
pi p1 pi p2
p
p
p
p
i
j
i
p
pi ' j
pi ' 2
pi 'm
i '1
,
,L,
,L ,
pi ' p1 pi ' p2
pi ' p j
pi ' pm
41
M i = ( i1 , i 2 ,L , ij ,L , im )
Avec
ij =
pij
pi p j
http:\\elmerouani.jimdo.com
21
25/03/2014
B(I ) = {M i ; pi }
43
(M i , M i ' ) = ( ij
i j )
44
http:\\elmerouani.jimdo.com
22
25/03/2014
v11 v12
v21 v22
W =
M
v
m1 vm 2
L v1m
L v2 m
O M
L vmm
46
http:\\elmerouani.jimdo.com
23
25/03/2014
v jj = pi ij p j
)(
v jk = pi ij p j ik pk
'
i
47
p pi p j
v jk = ij
pi pk
i
Posons p p p
ij
i j
pi pk
pik pi pk
pi pk
'
48
http:\\elmerouani.jimdo.com
24
25/03/2014
(r )
ij 1i n
1 j m
=R
W = R' R
o R est la transpose de R.
Maximiser uWu revient maximiser uRRu
sous la condition uu=1, cest--dire dterminer
les vecteurs propres associs aux valeurs propres
de la matrice RR.
49
VB = tr (W ) = v jj
j
http:\\elmerouani.jimdo.com
25
25/03/2014
=
Soit encore:
Vc
VB
max
tr (W )
51
52
http:\\elmerouani.jimdo.com
26
25/03/2014
53
http:\\elmerouani.jimdo.com
27
25/03/2014
56
http:\\elmerouani.jimdo.com
28