Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Emmanuel Périnel
Analyse des données – Master 2 Statistique / Actuariat
Programme
2
Analyse des données – Master 2 Statistique / Actuariat
Plan
Objectifs
Objectifs
• Projection d’une
balle sur un tamis
Carbone
Code Altitude pente en ° Végétation type de sol pH %argile %limon %sable
organique
ranker sur
RTH 1080 5 forêt 50,3 3,68 8,00 67,30 24,80
éboulis
THA 1100 4 forêt alocrisol 21,4 3,62 12,30 36,60 51,10
THB 1060 15 forêt alocrisol 13,3 3,96 11,00 25,20 63,80
RCA 1120 4 prairie alocrisol 16,8 4,20 18,40 45,40 36,20
RCD 1170 8 prairie alocrisol 24,8 4,12 11,10 49,40 39,50
CFA 1070 5 prairie alocrisol 19,9 4,000 7,000 17,800 75,200
RCB 1080 3 prairie alocrisol 16,6 4,350 9,700 23,800 66,500
DHS 660 1 forêt alocrisol 20 3,540 12,900 49,500 37,600
ranker
FAC 1300 1 prairie cryptpodzoli 31,3
que 3,700 5,000 24,500 70,500
ranker
KAC 1350 1 prairie cryptpodzoli 20,4
que 3,910 2,900 12,900 84,200
ranker
KAT 1350 1 prairie cryptpodzoli 31,4
que 3,960 2,700 10,900 86,400
sol
WHS 650 18 forêt 4,5
podzolique 3,700 1,100 4,800 94,200
HAC 1080 10 prairie alocrisol 22,3 4,23 5,00 48,00 47,00
Nb Ouv CAV
Ancien. Moy
Nb Ferm CAV
Age 22-43
Nb Clients
% Clients CB
Age <12
Guichet
...
• Variables « clientèles »
10
12
• Variables « performance »
•
15
17
19
Variables IRIS - Insee
21
23
25
27
29
...
4110
4112
4114
4121
4125
4150
4161
4212
4215
• 400 femmes
g n
e
ui
•
bl
rig
ed
ta
in
nt
al
r
40 parfums (pub)
fo
ef
n
_I
m
tio
ive
e
_r
ive
ine
nc
o
•
n
en
nt
ns
_C
g
sic
ct
ra
al
io
in
p
rin
ga
nv
ea
pe
su
di
sy
sh
ag
m
as
75 descripteurs
Ele
Pub
Ad
Da
Co
Ch
Ca
Fe
Ea
Fa
Ex
Fr
Cl
Angel 90 19 41 27 6 129 17 56 70 89 143 111
Aromatics Elixir 116 24 24 33 24 162 19 29 51 51 60 133
Avon Imari 45 44 73 54 34 57 53 81 25 88 206 176
Baby Phat Fabulosity 53 14 18 62 13 57 44 137 147 177 227 142
Belong Celine Dion 32 99 45 80 47 20 140 82 36 88 207 155
Chanel 5 66 17 8 249 32 32 30 275 194 145 251 192
Chanel Chance 84 18 28 62 12 143 44 68 99 96 172 165
Chanel Coco Mad 93 13 21 82 11 151 17 107 140 138 193 151
Ck one 53 61 58 44 13 119 44 14 28 96 60 109
Clinique Happy 45 104 36 34 13 43 141 16 20 65 187 159
Coach 53 26 19 98 30 60 33 95 160 209 162 151
DG Light Blue 66 83 27 70 17 81 89 44 79 86 177 128
DG The One 100 20 14 66 21 107 34 111 153 144 215 172
DK Cashmere Mist 72 48 18 103 31 58 58 90 90 87 165 122
DKNY Be Delicious 57 113 26 47 22 38 137 33 31 77 163 140
Extrait du tableau DKNY Delicious Night 79 37 17 37 24 80 51 60 62 130 198 174
de données Daisy Marc Jacobs 31 45 89 24 5 85 44 20 31 60 135 115
Diesel Fuel for Life 74 21 56 35 19 173 12 33 56 120 112 122
• 13 mammifères
• Composition biologique
variables
Tableau de données sous 𝑋1 𝑋𝑗 𝑋𝑝
forme individus x variables
1 𝑥1j
individus
• Un ensemble de n individus i 𝑥𝑖𝑗
décrits par
• p variables quantitatives
n 𝑥𝑛𝑗
Notations
Objectifs
Présentation intuitive
Représentation axiale Brest Lille RennesNantes Paris GrenobleLyon Bordeaux Montpellier Marseille
Nuage de points
Représentation 3D
Problème :
Quelle représentation proposer
pour plus de trois variables ?
Mécanique
Inertie d’un corps = résistance d’un corps à une mise en rotation autour d’un axe
Statistique
Inertie d’un nuage de points = mesure de dispersion des points au sein du nuage
= somme des carrés des distances par rapport au centre de gravité G du nuage
𝑛
o
𝐼= 𝑚𝑖 × 𝑑 2 𝐺, 𝑖 oo oo 𝑖
o o o
𝑖=1
o 𝐺 o oo
𝑖 : individu (𝑖) o o o
𝐺 : centre de gravité du nuage o o o o o
o
𝑚𝑖 : masse de l’individu (𝑖)
oo
L’inertie est étroitement ooooooo o
o o oooo
oo o
liée à la forme du nuage oo o ooooooo o
ooooooo o o o oooooo
o
o
oo oo
o o o
o o oo
o o o
o o o o o
o
Illustration en
deux dimensions
𝐼 = 𝑉 𝑋1 + 𝑉(𝑋2 )
𝑋2
𝐺
Plus généralement
𝑖
𝑝
𝐼= 𝑉 𝑋𝑗
𝑗=1
𝑋1
Comment restituer
février le plus fidèlement possible
Strasbourg
et à l’aide d’un graphique simple
Clermont la forme de ce nuage ?
Vichy
Lille
janvier
Marseille
décembre
Cette représentation simplifiée du nuage
est obtenue à travers une
projection des individus du nuage sur un plan
La meilleure projection =
• la plus « suggestive »
• La moins déformante
• La vue la plus fidèle de
la forme réelle du nuage
• la vue la plus vaste de l’objet
= Projection orthogonale
En projection sur le plan, les points ont une dispersion, appelée inertie projetée
Celle-ci doit être maximale
𝑛
𝐻𝑖 : projection de l'individu (𝑖) Inertie du 𝐼= 𝑚𝑖 × 𝑑 2 𝐺, 𝐻𝑖
𝐺 : centre de gravité du nuage projeté nuage projeté 𝑖=1
𝑚𝑖 : masse de l’individu (𝑖)
(𝑖)
o
𝐻𝑖
𝐺
𝐻𝑖1
𝐼1 = 𝑚𝑖 × 𝑑 2 𝐺, 𝐻𝑖1
𝑖=1
(𝑖)
o
𝐻𝑖2 𝐻𝑖
𝐼2 = 𝑚𝑖 × 𝑑 2 𝐺, 𝐻𝑖2
𝑖=1
Un critère équivalent
En projection, les distances entre individus sont les moins « déformées » possible
= les plus grandes possible car la projection réduit toujours les distances
Décroissance de l’inertie
Plus les axes sont de rang élevé = plus leur inertie est faible
Problème mathématique
Diagonalisation d’une matrice de variance-covariance ou d’inertie
(matrice de corrélations pour des données centrées-réduites)
On extrait :
- les vecteurs propres (directions ou axes factoriels)
- les valeurs propres (inerties associées aux axes)
Dans ce nuage
𝑟 𝑋1 , 𝑋2 = cos 𝑋1 𝑋2
7 Montpellier
Bordeaux
Marseille
6 Brest
Toulouse
Nantes
février
5 Rennes
Paris
4
Clermont
LyonVichy
3
Grenoble Lille
2
Strasbourg
1
0 1 2 3 4 5 6 7 8
janvier
𝑂
• La variable engendrant le 1er axe
est celle qui synthétise au mieux
les variables initiales
• ACP recherche une suite de
variables synthétiques, les
composantes principales
Axe 2 Axe 2
Axe 1 Axe 1
Axe 2 Axe 2
(j)
(i)
C A
Axe 1 (–) Axe 1
𝑐𝑖1 𝑑𝑗1 (+)
D
B
𝑝 Formules 𝑛
1 𝑥𝑖𝑗 − 𝑥𝑗 1 1 𝑥𝑖𝑗 − 𝑥𝑗
𝑐𝑖𝑘 = 𝑑𝑗𝑘 de 𝑑𝑗𝑘 = 𝑐𝑖𝑘
𝐼𝑘 𝑠𝑗 𝐼𝑘 𝑛 𝑠𝑗
𝑗=1 transition 𝑖=1
• plus élevées que la moyenne pour les variables allant (i) prend des valeurs
dans sa direction et fortement liées à cet axe élevées pour A et B
• moins élevées que la moyenne pour les variables allant (i) prend des valeurs
en direction opposée et fortement liées à cet axe faibles pour C et D
Analyse en composantes principales - ACP 44
Analyse des données – Master 2 Statistique / Actuariat
Le centrage
La réduction
Illustration ind 2
Taille en (cm)
Taille en (m)
ind 1
ind n
• Pour éviter d'accorder une plus grande importance aux variables exprimées
arbitrairement avec de plus grandes valeurs, on réduit les variables
• Chaque variable a le même écart-type = 1 (donc la même longueur)
Lorsque les variables sont exprimées dans des unités de mesure différentes,
réduction systématique des données
• Pa s de règle systématique
• Cela se discute au cas par cas
> res$eig
• Inertie totale du tableau de données = somme des valeurs propres = somme des variances des 𝑋𝑗
• ACP normée : inertie totale = nombre de variables
Commande R
barplot (res$eig[,2], names=paste("Dim",1 :length(res$eig[,2])),
main="Inertie (en %) des axes factoriels", col="orange", border="white")
Application…
Dimensions Dimensions
potentiellement « négligeables »
intéressantes
Tableau de données
aléatoires pour 12
variables
> res$ind
$coord
Dim.1 Dim.2
Bordeaux 3.1207071 0.1092968
Brest -2.2680052 4.0933073
Clermont -1.7259361 -0.5925322
Grenoble -1.5292581 -1.6879482
Lille -4.2168252 0.5952014
Lyon -0.8349399 -1.7882279
Marseille 4.8327218 -0.8288031
Montpellier 4.1473020 -0.4353508
Nantes -0.2812894 1.1145634
Nice 6.0070350 0.7893084
Paris -1.2419376 -0.1563459
Rennes -1.4386528 1.6711221
Strasbourg -4.1055997 -2.1722526
Toulouse 1.7361660 -0.1361262
Vichy -2.2014879 -0.5752126
Application
Calcul de l'inertie de l'axe 1
Règle d'interprétation
• La proximité entre deux points sur le plan
est fidèle à la réalité si leur qualité
de représentation sur ce plan est bonne
• La qualité de représentation est mesurée
par le cos 2 de l'angle formé avec le plan
• « Mesure de proximité » entre un point
et le plan
Propriété
𝐾
𝑄𝐿𝑇𝑘 𝑖 = 1
𝑘=1
Propriété
𝑛
𝐶𝑇𝑅𝑘 𝑖 = 1
𝑖=1
$cor $cor
Dim.1 Dim.1
janvier 0.7612384 janvier 0.7719694
février 0.8804578 février 0.8879332
mars 0.9687704 mars 0.9690470
avril 0.9693357 avril 0.9635356
mai 0.8727646 mai 0.8633813
juin 0.8635747 juin 0.8545429
juillet 0.8415346 juillet 0.8335342
aout 0.8986059 aout 0.8920842
septembre 0.9740289 septembre 0.9708544
octobre 0.9801599 octobre 0.9837772
novembre 0.9037531 novembre 0.9117095
décembre 0.7743349 décembre 0.7858115
Exemple de calcul
• Qualité de représentation
• Variables liées à l'axe 1 ? l'axe 2 ?
• r(C,D), r(A,D), r(A,E), r(A, B), r(B,G) ?
aout avril décembre février janvier juillet juin mai mars novembre octobre septembre
aout 1.0000 0.9490 0.4302 0.5880 0.4051 0.9906 0.9887 0.9803 0.7981 0.6366 0.8121 0.9701
avril 0.9490 1.0000 0.6193 0.7612 0.6115 0.9123 0.9422 0.9526 0.9195 0.7820 0.9053 0.9784
décembre 0.4302 0.6193 1.0000 0.9701 0.9939 0.3239 0.3613 0.3807 0.8336 0.9609 0.8657 0.6224
février 0.5880 0.7612 0.9701 1.0000 0.9735 0.4903 0.5244 0.5466 0.9311 0.9861 0.9403 0.7597
janvier 0.4051 0.6115 0.9939 0.9735 1.0000 0.2969 0.3389 0.3626 0.8353 0.9509 0.8505 0.6037
juillet 0.9906 0.9123 0.3239 0.4903 0.2969 1.0000 0.9915 0.9812 0.7215 0.5472 0.7387 0.9329
juin 0.9887 0.9422 0.3613 0.5244 0.3389 0.9915 1.0000 0.9938 0.7567 0.5725 0.7567 0.9404
mai 0.9803 0.9526 0.3807 0.5466 0.3626 0.9812 0.9938 1.0000 0.7667 0.5910 0.7702 0.9421
mars 0.7981 0.9195 0.8336 0.9311 0.8353 0.7215 0.7567 0.7667 1.0000 0.9273 0.9685 0.9106
novembre 0.6366 0.7820 0.9609 0.9861 0.9509 0.5472 0.5725 0.5910 0.9273 1.0000 0.9643 0.7961
octobre 0.8121 0.9053 0.8657 0.9403 0.8505 0.7387 0.7567 0.7702 0.9685 0.9643 1.0000 0.9256
septembre 0.9701 0.9784 0.6224 0.7597 0.6037 0.9329 0.9404 0.9421 0.9106 0.7961 0.9256 1.0000