Vous êtes sur la page 1sur 54

Analyse des donnes

applique au marketing

1


Analyse en composante principale
2
Quest-ce que lAnalyse des Donnes ?
A loccasion de sa confrence donne
le 4 octobre 2006 lINA-PG en
introduction au cycle Jean-Pierre
Fnelon, Jean-Paul Benzcri nous fait
lhonneur de confier MODULAD le
texte In memoriam : Pierre
Bourdieu , o il se propose de
rpondre la question de son ami
Quest-ce que lanalyse des donnes ?
.
Jean-Paul Benzcri, octobre
2006,
N en 1932, ancien lve de l'cole normale suprieure (1950),
professeur l'Institut de Statistique de l'Universit de Paris, statisticien
franais fondateur de lcole franaise danalyse des donnes 1960-
1990

Analyse Factorielle
analyse en composante Principale
ACP




Analyse des donnes
applique au marketing
Analyse en composante
principale
LACP, introduite par K. Pearson et
Thurston (annes 20), est une technique des
statistiques descriptives destine lanalyse
des donnes multidimensionnelles
4
Analyse en composante principale
PLAN
Objectifs.
Nuage des individus.
Ajustement du nuage des individus
Reprsentation des variables associs la
reprsentation des individus
Nuage des variables Nk
5
6
1. Les objectifs de lanalyse factorielle
(option composantes principales)
Dcrire un tableau (individus)(variables) :
- Rsumer un tableau de donnes laide dun petit nombre
de facteurs.
- Visualiser le positionnement des individus les uns par
rapport aux autres ( ressemblance ) ( Notion de distance
entre individus )

- Visualiser les corrlations entre les variables ( Notion de
corrlation entre variables ) rechercher des groupes de
variables troitement lies entre elles (Peut on simplifier les
variables
- Donner une interprtation aux facteurs.

7
Modle Cylindre(cm3) Puissance (Ch) Vitesse(Km/h) poids (Kg) Largeur(mm) Longueur(mm)
Citron C2 1.1 Base 1124 61 158 932 1659 3666
Smart Fortwo Coup 698 52 135 730 1515 2500
Mini 1.6 170 1598 170 218 1215 1690 3625
Nissan Micra 1.2 65 1240 65 154 965 1660 3715
Renault Clio 3.0 V6 2946 255 245 1400 1810 3812
Audi A3 1.9 TDI 1896 105 187 1295 1765 4203
Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202
Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676
Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528
BMW 530d 2993 218 245 1595 1846 4841
Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905
BMW 745i 4398 333 250 1870 1902 5029
Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038
Citron C3 Pluriel 1.6i 1587 110 185 1177 1700 3934
BMW Z4 2.5i 2494 192 235 1260 1781 4091
Audi TT 1.8T 180 1781 180 228 1280 1764 4041
Aston Martin Vanquish 5935 460 306 1835 1923 4665
Bentley Continental GT 5998 560 318 2385 1918 4804
Ferrari Enzo 5998 660 350 1365 2650 4700
Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259
Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391
Land Rover Defender Td5 2495 122 135 1695 1790 3883
Land Rover Discovery Td5 2495 138 157 2175 2190 4705
Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765 4455
Un exemple de positionnement de Produits
8
Analyse Uni varie
9
4. Rsum des donnes





Descriptive Statistics
24 698 5998 2722.54 1516.445
24 52 660 206.67 155.721
24 135 350 214.71 56. 572
24 730 2385 1486.58 387.507
24 1515 2650 1838.42 220.842
24 2500 5038 4277.83 581.497
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
N Minimum Maximum Mean Std. Dev iation
Formule utilise pour lcart-type :
2
1
1
( )
1
n
i
i
s x x
n
=
=


Analyse Bivari
10
11
Tableau des corrlations


Toutes les corrlations sont positives.
Cylindre Puissance Vitesse Poids Largeur Longueur
Cylindre 1.000
Puissance 0.954 1.000
Vitesse 0.885 0.934 1.000
Poids 0.692 0.529 0.466 1.000
Largeur 0.706 0.730 0.619 0.477 1.000
Longueur 0.664 0.527 0.578 0.795 0.591 1.000
Toutes les corrlations sont significatives au risque 5%
( 2/ ) R n >
12
Graphique des liaisons inter-variables
(la Ferrari est reprsente par un disque plein)
Cylindre
Puissance
Vitesse
Poids
Largeur
Longueur
Analyse Multivari ACP
13
14
Visualiser
15
Visualisation des donnes
X
1
X
p
F
1
F
2
1

i x
1i
x
pi
F
1i
F
2i

n
*
Tableau
des donnes
Facteurs centrs-rduits
rsumant les donnes


(non corrls entre eux)
i

0 F
1
(i)
F
2
(i)
Le plan factoriel
X
j


0 Cor(X
j
,F
1
)
Cor(X
j
,F
2
)
La carte des variables

=
=
p
1 j
j hj h
X u F
Rappel de quelques notions
Distance Euclidienne
16
Notion de ressemblance Critre de la distance Euclidienne
17
B
A
Xa Xb
Ya
Yb
Distance Euclidienne
X Y
A Xa Ya
B Xb Yb
A B
A 0 D (A, B)
B D (B, A) O
Exemple: Distance entre deux individus ( Marques )A et B
Cas de deux individus:
18
2 2
) ( ) , ( xkl xik x x d
p
k
l i
=

Notion de ressemblance multidimensionnelle


Deux individus se ressemble sil ont le mme profil de rponse
donc les mmes coordonnes. Il sont proche lun de lautre.
.





X
1
X
p
1


i x
1i
x
pi


n



p 1
x ... x

Critre de proximit : Notion de distance
euclidienne multidimensionnelle
19
X
1
X
p
1

i x
1i
x
pi

n
p 1
x ... x
G
x
i

*G
+
0
R
P

X
G
+Mp


+
+
+
+
+
+
Individu Moyen
Variables quantitatives
I
n
d
i
v
i
d
u
s


X
P
+
Mi
) , (
2
p x d
i
2 2
) ( ) , ( xkl xik x x d
p
k
l i
=

N
i


Nuage de points
N = {x
1
, , x
i
, , x
p
} = Nuage de points associ aux donnes


Centre de gravit du nuage N :G=

=
p
i
i
x
n
1
1
Xk
20 20
*G
+
0
R
P

X
G
+Mp


+
+
+
+
+
+
P
X
P
+
Xi
Pour neutraliser le problme des
units on remplace
les donnes dorigine par les
donnes centres-rduites
p
p p
*
p
1
1 1
*
1
s
x X
X

s
x X
X

Problmes des units de mesure


Ces nouvelles variables ont une moyenne 0 et un cart-type 1.
Le nuage est harmonis
Inertie Totale du nuage
21

=
=
n
i
Mi d
n
IG
1
2
) 0 , (
1
= Somme pondre des carres des distances des individus au centre
de gravit G=0
Linertie totale mesure la dispersion du nuage de points
Elle est gale la somme des variances des variables tudies




(
(
(
(

Snn - - - - - -
S33 - - - -
S2n S22 - -
S1n S13 S12 S11
Matrice de variance covariance =
) (
1
2
Cov MatriceVar Tr IG
n
i i
S
= =

=
Inertie du nuage (suite )
On appelle inertie la quantit dinformation contenue
dans un tableau de donnes.
Une inertie nulle signifie que tous les individus sont
presque identiques.
Linertie du nuage sera gale la somme des variances
des j caractres.
Si les j caractres sont centrs-rduits, linertie sera gale
j.
22
23 23 23
Ajustement du nuage de points
Objectif : Trouver la meilleure
reprsentation axiale du nuage Ni
Trouver une direction U telle que

Maximum
:

ou



Minimum

1
1
2

=
n
i
i
OH
n

=
= A
n
i
i i
H M d
n
U N I
1
2
1
*
) (
1
) , (
24
Recherche du premier axe principal A
U1

+
+
*0
+
+
+
+
+
+
+
+
A
U1

Objectif 1 : On cherche laxe Au
1
passant le mieux possible au milieu du nuage N
*
.
On cherche minimiser linertie du nuage N
*
par rapport laxe AU
1
:





M
i
*

H
i

u
1

*

=
= A
n
i
i i
H M d
n
U N I
1
2
1
*
) (
1
) , (
25 25
Premier axe principal A
1

+
+
*0
+
+
+
+
+
+
+
+
A
U

Objectif 2 : On cherche laxe dallongement A
1
du nuage N
*
.
On cherche maximiser linertie du nuage N
*
projet sur laxe A
U1
:



M
i

H
i


1
1
2

=
n
i
i
OH
n
R
p

26 26
Les objectifs 1 et 2 sont atteints simultanment
De :
on dduit :
Inertie totale = p Inertie explique par U Inertie rsiduelle =
+
Maximiser
Minimiser
) , ( ) 0 , ( ) 0 , (
2 2 2
i i i
H M d H d Mi d + =

= = =
+ =
n
i
i i
n
i
i
n
i
H M d
n
H d
n
Mi d
n
1
2
1
2
1
2
) , (
1
) 0 , (
1
) 0 , (
1
27 27
Rsultats
1. Laxe A
U1
passe par le centre de gravit G du nuage de points
N
*
.

1. Laxe Au
1
est engendr par le vecteur norm u
1
, vecteur
propre de la matrice des corrlations R associ la plus
grande valeur propre
1
.

1. Linertie explique par laxe Au
1
est gal
1
.
2. La part dinertie explique par le premier axe principal A
1
est
gal
1
/p.
Ajustement du nuage sur un plan
Chercher la meilleure reprsentation plane du nuage du point Ni
Objectif: Trouver P telle que
soit maximum(plan dinertie maximum)
LES SOLUTIONS :
Le meilleur plan contient la meilleure solutions (
les deux solutions sont emboites):
U1 appartient au Plan .
U2 dinertie Maximale avec
U2 perpendiculaire U1
U1 et U2 forment le mme plan




1
1
2

=
n
i
i
OH
n
29 29
Rsultats
1. Le deuxime axe principal A
2
orthogonal A
1
et passant
le mieux possible au milieu du nuage.
2. Il passe par le centre de gravit 0 du nuage de points et est
engendr par le vecteur norm u
2
, vecteur propre de la
matrice des corrlations R associ la deuxime plus
grande valeur propre
2
.
3. La deuxime composante principale est dfinie par
projection des points sur le deuxime axe principal.
4. La deuxime composante principale est centre, de
variance
2
, et non corrle la premire composante
principale Y
1
.


Suite daxes de reprsentation du nuage Ni
Problme : Trouver une suite daxes orthogonaux
dinertie maximum.
Trouver un vecteur Us de laxe de rang s.
Soit la projection de Mi sur Us
Trouver Ut telle que soit maximale sous
la contrainte Us est perpendiculaire Ut t<S
La solution :
Us est le vecteur propre unitaire de la matrice des
corrlations associe la valeur propre de rang s
(
s
) [A*Us =
s
* Us ou
(A-
s
I) *Us=O


30
H
s
i

=
n
i
s
i
OH
n
1
2
1
31 31
Rsultat SPSS : Valeurs propres











Somme des valeurs propres = p
Total Variance Explained
Eigenvalues
Component
Total % of Variance Cumulative %
1 4.411 73.521 73.521
2 0.853 14.223 87.745
3 0.436 7.261 95.006
4 0.236 3.931 98.937
5 0.051 0.857 99.794
6 0.012 0.206 100.000
Extraction Method: Principal Component Analysis.

1
= 4.411
32
Rsultat SPSS : Les vecteurs propres u
h










Component Score Coeffi cient Matrix
.218 -. 149 -. 325 -. 478 -2.877 -4.459
.209 -. 413 -. 207 -. 356 -. 416 6. 990
.201 -. 397 -. 474 .844 2. 507 -2.823
.172 .675 -. 338 -1.090 1. 716 -. 068
.182 -. 130 1. 338 -. 288 .675 -1.187
.180 .591 .136 1. 379 -1.142 1. 685
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
1 2 3 4 5 6
Component
Extraction Met hod: Principal Component Analy sis.
Component Scores.
* * *
1
.218 .209 ... .180 F Cylindre Puissance Longueur = + + +
33
La variance totale du tableau des donnes centres-rduites est
dfinie par :


La part de la variance de X
j

explique par F
1
est gale
Cor
2
( X
j
, F
1
).

La part de la variance totale explique par F
1
est gale :


Mesure de la qualit du premier facteur F
1

p
*
j
j=1
Variance totale = Var(X ) p =

p
2
j 1 1
j=1
Cor (X , F ) =

34
Variance totale = p = 6
Variance explique par le premier facteur

1
= 4.411
Proportion de variance explique par le premier
facteur :

Le premier facteur explique 73,521% de la
variance totale.

Qualit du premier facteur
1
Variance explique 4.411
0.73521
Variance totale p 6

= = =
Interprtation des rsultats
1. Mesurer la qualit des reprsentations obtenues:
critre global ( linertie totale),critres individuels.

2. Donner des noms aux axes . Expliquer la position
des individus.

3. Utilisation ventuelle de variables supplmentaires
( illustratives).

35
36
Rsultats
Le vecteur u
1
est vecteur propre (eigenvector) de la
matrice des corrlations R associ la plus grande
valeur propre (eigenvalue)
1
.


Le critre


est gal
1
.
) F , X ( cor
1
p
1 j
j
2

=
37
Qualit du score comme rsum des donnes



Somme des carrs des corrlations:
= .956
2
+ .911
2
++.810
2

= 4.4076
La variance totale des donnes centres-rduites est la somme
des variances, soit 6.

La part de la variance totale explique par le score est gale la
somme des carrs des corrlations, soit 4.4076.

Le score explique la proportion 4.4076/6 = 73,46% de la variance totale.
Correlations
.956
.911
.874
.772
.804
.810
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
SCORE
38
Rsultats SPSS : Les facteurs
Citron C2 1.1 Base -1.210 -. 540 .266 .334 -. 894 .278
Smart Fortwo Coup -1.934 -1.765 -. 407 -1.863 -. 126 -. 296
Mini 1.6 170 -. 644 -. 864 -. 552 -. 103 2. 003 .449
Nissan Micra 1.2 65 -1.171 -. 428 .258 .251 -1.249 .447
Renault Clio 3. 0 V6 -. 001 -. 970 -. 571 -. 553 1. 234 -1.181
Audi A3 1.9 TDI -. 522 .179 .250 .537 -. 314 -. 540
Peugeot 307 1.4 HDI 70 -. 804 .318 .615 .719 -1.042 .820
Peugeot 407 3.0 V6 BVA .258 .554 -. 380 .681 .012 .099
Mercedes Classe C 270 CDI .037 .510 -. 781 .742 .521 -1.000
BMW 530d .391 .488 -. 244 1. 361 .197 -. 225
Jaguar S-Ty pe 2.7 V6 Bi-Turbo .336 .951 -. 311 1. 080 .431 1. 146
BMW 745i .991 .646 -. 597 .329 -1.535 .752
Mercedes Classe S 400 CDI 1. 010 .858 .707 .279 .242 -2.257
Citron C3 Pluriel 1.6i -. 756 -. 231 -. 028 .372 -. 023 .283
BMW Z4 2.5i -. 186 -. 632 -. 295 .678 .560 -1.192
Audi TT 1. 8T 180 -. 350 -. 487 -. 200 .673 1. 769 .658
Aston Martin Vanquish 1. 471 -. 678 -1.491 -. 401 -1.685 -2.022
Bentley Cont inental GT 1. 939 .068 -2.216 -1.682 .608 2. 016
Ferrari Enzo 2. 306 -2.734 2. 683 .235 -. 318 .852
Renault Scenic 1.9 dCi 120 -. 392 .403 .364 .226 .350 .084
Volkswagen Touran 1. 9 TDI 105 -. 375 .755 .350 .269 -. 006 .163
Land Rover Def ender Td5 -. 500 .796 .261 -2.383 -1.324 -. 075
Land Rover Discov ery Td5 .396 2. 035 2. 252 -2.015 1. 342 -. 305
Nissan X-Trail 2.2 dCi -. 286 .765 .068 .235 -. 752 1. 045
.000 .000 .000 .000 .000 .000
1. 000 1. 000 1. 000 1. 000 1. 000 1. 000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Mean
Std. Dev iation
Tot al
MODLE Facteur 1 Facteur 2 Facteur 3 Facteur 4 Facteur 5 Facteur 6
39
Corrlations entre les variables et les facteurs
.962 -. 127 -. 142 -. 113 -. 148 -. 055
.923 -. 353 -. 090 -. 084 -. 021 .086
.886 -. 339 -. 206 .199 .129 -. 035
.757 .576 -. 147 -. 257 .088 -. 001
.801 -. 111 .583 -. 068 .035 -. 015
.795 .504 .059 .325 -. 059 .021
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
1 2 3 4 5 6
Component
Extraction Met hod: Principal Component Analy sis.
2 2 2
1 1 1
1
1
( , ) ( , ) ... ( , )

Part de la variance totale explique par
Cor Cylindre F Cor Puissance F Cor Longueur F
F
+ + +
=
=
40
7. Deuxime facteur F
2
On recherche le deuxime facteur centr-rduit


non corrl F
1
et rsumant au mieux le tableau X.
Le facteur F
2
maximise



sous la contrainte cor(F
1
,F
2
) = 0.

=
=
p
1 j
*
j j 2 2
X u F
) F , X ( cor
2
p
1 j
j
2

=
41
Le deuxime facteur F
2
Land Rover Discov ery Td5 2. 035
Jaguar S-Ty pe 2.7 V6 Bi-Turbo .951
Mercedes Classe S 400 CDI .858
Land Rover Def ender Td5 .796
Nissan X-Trail 2.2 dCi .765
Volkswagen Touran 1. 9 TDI 105 .755
BMW 745i .646
Peugeot 407 3.0 V6 BVA .554
Mercedes Classe C 270 CDI .510
BMW 530d .488
Renault Scenic 1.9 dCi 120 .403
Peugeot 307 1.4 HDI 70 .318
Audi A3 1.9 TDI .179
Bentley Cont inental GT .068
Citron C3 Pluriel 1.6i -. 231
Nissan Micra 1.2 65 -. 428
Audi TT 1. 8T 180 -. 487
Citron C2 1.1 Base -. 540
BMW Z4 2.5i -. 632
Aston Martin Vanquish -. 678
Mini 1.6 170 -. 864
Renault Clio 3. 0 V6 -. 970
Smart Fortwo Coup -1.765
Ferrari Enzo -2.734
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
MODLE Facteur 2
Component Matrix
a
-. 127
-. 353
-. 339
.576
-. 111
.504
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
2
Component
Extraction Method: Principal Component Analy sis.
2 components ext ract ed.
a.


Component Score Coeffici ent Matrix
-. 149
-. 413
-. 397
.675
-. 130
.591
Cy lindre
Puissance
Vitesse
Poids
Largeur
Longueur
2
Component
Extraction Method: Principal Component Analy sis.
u
2

Cor(X
j
,F
2
)
42 42
Exemple Auto 2004 : Le premier plan factoriel
Facteur 1
3 2 1 0 -1 -2
F
a
c
t
e
u
r

2

3
2
1
0
-1
-2
-3
Smart Fortwo Coup
Citron C2 1.1
Nissan Micra 1.2
Peugeot 307 1.4 HDI
Citron C3 Pluriel
Mini 1.6 170
Audi A3 1.9 TDI
Land Rover Defender
Renault Scenic 1.9 d
Audi TT 1.8T 180
Volkswagen Touran
Nissan X-Trail 2.2 d
BMW Z4 2.5i
Renault Clio 3.0 V6
Mercedes Classe C
Peugeot 407 3.0 V6
Jaguar S-Type 2.7 V6
BMW 530d
Land Rover Discovery
BMW 745i
Mercedes Classe S
Aston Martin Vanquish
Bentley Continental
Ferrari Enzo
Grosses
Voitures
(73,5%)
Petites
Voitures
Sportives
Familiales (14,2%)
Le plan explique 87,7% de la variance totale
43
La variance totale du tableau des donnes centres-rduites est
dfinie par :


La part de la variance de X
j
*
explique par F
1
et F
2
est gale
R
2
(X
j
; F
1
, F
2
) = Cor
2
(X
j
, F
1
) + Cor
2
(X
j
,F
2
), car Cor(F
1
, F
2
) = 0.

La part de la variance totale explique par F
1
et F
2
est gale :


Mesure de la qualit des deux premiers facteurs F
1
et F
2

p
*
j
j=1
Variance totale = Var(X ) p =

p
2 2
j 1 j 2 1 2
j=1
Cor (X , F) Cor (X , F )
(
+ = +

44 44
Qualit globale de lanalyse
- Variance totale = p

- Proportion de variance explique par le facteur 1 =

- Proportion de variance explique par le facteur 2 =

- Proportion de variance explique par les facteurs 1 et 2

=

Et ainsi de suite pour les autres dimensions...
1
p

p
2

p
2 1
+
Reprsentation du nuage des
variables
45
46
Nuage de variable N
k

(1) :Donnes centres= Cor ( k, l)=Cos
kl
(2) Donne rduite :
1
2
= K
1. Reprsentation des variables :
liaison entre variable
2. Une variable est une colonne
du tableau Vecteur p
composante

AJUSTEMENT
Ys un vecteur de direction de rang s.
Mk la reprsentation de la variable k
dans R
n
H
k
s
la projection de M
K
sur Y
s

Problme :
Trouver Y
s
tel que

soit maximum
Avec la contrainte Ys soit
perpendiculaire Ts


( ) ( ) ( )

= =
k k
s
k
k
s
k
ys k cor OH
2
2 2
) , ( cosu
( )

k
s
k
OH
2
48
Component 1 [Cor(X
1
, F
1
)]
1.0 .5 0.0 -.5 -1.0
C
o
m
p
o
n
e
n
t

2


[
C
o
r
(
X
j

,

F
2
)
]

1.0
.5
0.0
-.5
-1.0
longueur
largeur
poids
Vitesse
Puissance
cylindre
Longueur dune flche = R(X
j
; F
1
, F
2
)
La carte des variables
49
Rsultats

Le vecteur u
2
est vecteur propre de la matrice des
corrlations R associ la deuxime plus grande valeur
propre
2
.
F
2
= u
21
X
1
*
+ u
22
X
2
*
+ + u
2p
X
p
*

F
2
est centr-rduit
Cor(X
j
, F
2
) =
2
u
2j




p
2
j 2 2
j 1
1 2
cor (X , F ) = est maximum
sous la contrainte cor(F, F ) 0.
=

=

Matrice des corrlations


51

Les tapes de lanalyse en composante principale
Rsum
Mthodologie et interprtation
Rsum dune acp


xij



ACP


l

coordonnes
contributions
qualit de repr.
des individus
coordonnes
contributions
qualit repr.
des variables
initiales
tapes dune ACP en tant quanalyse gomtrique
1. Une distance est dfinie entre individus, avec pondration
ventuelle sur les variables.
2. Dtermination des axes principaux; on retient un sous espace
restreint.
3. tude gomtrique du nuage des variables, illustrant leurs
corrlations approximatives.
4. tude gomtrique du nuage des individus, illustrant les distances
approximatives entre eux.
Ce quil faut retenir : Dmarche ACP

1. Examen des statistiques lmentaires :
moyennes, variances, corrlations;
diagramme (distribution) pour chaque variable;
diagramme (corrlations) pour chaque paire de variables.
2. ACP la mieux approprie :
Analyse globale du nuage :
contributions des axes;
contributions des variables;
contributions des individus.
4. Interprtation des axes :
partir des variables initiales;
partir des individus extrmes;
facteur de taille;
5. Analyses complmentaires (classification, etc.)