Vous êtes sur la page 1sur 6

Analyse en Composantes Principales

Enoncé du TD

EHTP : Analyse de données 2ème année

Enquete-Budget-temps

1. Problématique à étudier et Données utilisées

Le CESP (Centre d’Étude des Supports de Publicité) a relevé, dans son Enquête Budget-temps Multimédia de
1991/1992 auprès de 17 665 personnes, des descripteurs de fréquentation de divers médias (radio, télévision, presse) et
des temps d’activités quotidiennes (cf. Boeswillwald, 1992). Ont été également relevées de nombreuses caractéristiques
socio-économiques, parmi lesquelles l’âge, le sexe, l’activité, le niveau d’éducation, et le lieu de résidence de ces
personnes, ce qui a conduit à créer 96 catégories en croisant ces divers critères. Nous nous intéressons seulement ici à
la sous-population des hommes actifs, soit 27 groupe qui seront, pour cet exemple, les individus. On cherche à
connaître les associations entre les temps consacrés à différentes activités par les individus observés.
Les 27 individus (qui sont en réalité dans le cadre de cet exemple des groupes d’individus) sont repérés par un
identificateur en 4 caractères:
+ le 1er caractère est l'âge du groupe (1=jeune, 2=moyen, 3=âgé)
+ le 2ème caractère est l'activité et est ici toujours égal à 1
(car il s'agit ici d'une sélection d' hommes actifs) .
+ le 3ème est le niveau d'éducation (1=primaire, 2=secondaire,3=supérieur)
+ le 4ème est le type d'agglomération (1=communes rurales; 2=villes moyennes;
3=villes importantes; 4=agglomération parisienne; 5,6,7 = groupes mixtes).
On lit par exemple sur la première ligne du tableau de données que le groupe ‘3124’ (âgé, actifs, niveau secondaire,
résidant à Paris) consacre en moyenne par jour 210.9 minutes aux activités à domicile, 107.3 minutes à des
activités regroupées sous la rubrique déplacement, 55.8 minutes pour les activités à l’extérieur, etc.

IDENT domicile deplacement exterieur repos loisirs travail FreqMedia


3124 210,9 107,3 55,8 487,6 11,2 300 135,8
1115 177,5 95,6 40,4 574,1 7,3 208,8 225,8
1111 158,7 101,4 54,9 497,5 26,9 298,3 135,8
... ... ... ... ... ... ... ...

La signification des variables est comme suit :


domicile = Activité à domicile qui regroupe : jardinage, bricolage, repas chez soi et ménage
deplacement = Déplacement à pied et en voiture, promenades et courses démarches
exterieur = Repas restaurant et viste à amis
repos = Sommeil et repos
loisirs = Loisirs extérieurs, lecture des livres, écoute des disques et des cassettes
travail = Travail rémunéré
FreqMedia = Fréquentation Média (Télévision, Presse, etc.)
Le tableau des données ressemble à :
## domicile deplacement exterieur repos loisirs travail FreqMedia
## 1111 210.9 107.3 55.8 487.6 11.2 300.0 135.8
## 1115 177.5 95.6 40.4 574.1 7.3 208.8 225.8
## 1121 158.7 101.4 54.9 497.5 26.9 298.3 135.8
## 1122 159.9 145.2 73.1 499.5 26.6 239.0 142.3
## 1123 142.7 151.3 57.2 522.2 27.1 212.3 167.7
## 1124 138.5 136.8 66.2 506.7 28.8 226.0 145.1

1
Résumé des variables

## domicile deplacement exterieur repos loisirs travail FreqMedia


## minimum 110.800 93.500 17.600 469.100 5.200 208.800 82.400
## moyenne 175.567 121.015 41.511 503.544 21.656 286.270 140.578
## maximum 222.400 157.600 73.100 574.100 40.200 380.600 225.800
## variance 971.565 356.531 267.519 428.173 102.768 2269.291 1101.228
## ecarttype 31.170 18.882 16.356 20.692 10.137 47.637 33.185

2. Les sorties de l’ACP

2.1 La matrice de corrélation

correlmatrix=round(cor(data),3)
correlmatrix

## domicile deplacement exterieur repos loisirs travail FreqMedia


## domicile 1.000 -0.264 -0.289 0.133 -0.638 -0.077 0.287
## deplacement -0.264 1.000 0.315 -0.071 0.308 -0.570 0.081
## exterieur -0.289 0.315 1.000 0.055 0.298 -0.392 -0.202
## repos 0.133 -0.071 0.055 1.000 -0.490 -0.545 0.511
## loisirs -0.638 0.308 0.298 -0.490 1.000 0.106 -0.501
## travail -0.077 -0.570 -0.392 -0.545 0.106 1.000 -0.621
## FreqMedia 0.287 0.081 -0.202 0.511 -0.501 -0.621 1.000

2.2 Indice de KMO

library(REdaS)

## Loading required package: grid


KMOS(data)

##
## Kaiser-Meyer-Olkin Statistics
##
## Call: KMOS(x = data)
##
## Measures of Sampling Adequacy (MSA):
## domicile deplacement exterieur repos loisirs travail
## 0.2977432 0.2700216 0.2559004 0.3229359 0.4248890 0.3028052
## FreqMedia
## 0.3601995
##
## KMO-Criterion: 0.3225787

2.3 Test de Sphéricité de Bartlett

bart_spher(correlmatrix)

## Bartlett's Test of Sphericity


##
## Call: bart_spher(x = correlmatrix)
##
## X2 = 124.148
## df = 21
## p-value < 2.22e-16

2
2.4 Les valeurs propres

library(FactoMineR)
res.pca = PCA(data, scale.unit=TRUE, ncp=7, graph=F)
res.pca$eig

## eigenvalue percentage of variance cumulative percentage of variance


## comp 1 2.62324284 37.4748977 37.47490
## comp 2 2.13316432 30.4737760 67.94867
## comp 3 0.82930309 11.8471870 79.79586
## comp 4 0.72683159 10.3833084 90.17917
## comp 5 0.36080574 5.1543677 95.33354
## comp 6 0.27821008 3.9744297 99.30797
## comp 7 0.04844234 0.6920335 100.00000

2.5 Le diagramme de Cattel - critère de Coude - Scree plot

library(factoextra)

## Loading required package: ggplot2


## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_eig(res.pca, addlabels = TRUE)

Scree plot
37.5%

30.5%
Percentage of explained variances

30

20

11.8%
10.4%
10

5.2%
4%
0.7%
0

1 2 3 4 5 6 7
Dimensions

2.6 Projection des variables

plot.PCA(res.pca, axes=c(1, 2), choix="var", new.plot=TRUE,


title="Cercle de corrélation")

3
Cercle de corrélation

Dim 2 (30.47%)
1.0

deplacement

exterieur
0.5

loisirs repos

FreqMedia
0.0

−0.5 domicile

travail

−1.0

−1.0 −0.5 0.0 0.5 1.0


Dim 1 (37.47%)

2.7 Projection des individus

plot.PCA(res.pca, axes=c(1, 2), choix="ind",


new.plot=TRUE, title="Graphe des individus")

Graphe des individus


Dim 2 (30.47%)

1123
1124
1122
2 1133

1134 3137
2133 3122
2112
1115
1136 2122 3123
0
1121 2117
2134 2123 1111 3117
2131 3136
2121
2124
−2 2132 3121 2111
3116

−2 0 2 4
Dim 1 (37.47%)

4
2.8 Les individus et variables : cos2, contribution, et coordonnées

summary(res.pca, ncp=2, nb.dec=2, nbelements=Inf)

##
## Call:
## PCA(X = data, scale.unit = TRUE, ncp = 7, graph = F)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 2.62 2.13 0.83 0.73 0.36 0.28 0.05
## % of var. 37.47 30.47 11.85 10.38 5.15 3.97 0.69
## Cumulative % of var. 37.47 67.95 79.80 90.18 95.33 99.31 100.00
##
## Individuals
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2
## 1111 | 2.12 | 0.34 0.16 0.03 | -0.91 1.43 0.18 |
## 1115 | 5.06 | 4.33 26.45 0.73 | 0.65 0.73 0.02 |
## 1121 | 1.60 | -0.82 0.96 0.26 | -0.09 0.01 0.00 |
## 1122 | 2.67 | -0.48 0.33 0.03 | 2.42 10.19 0.82 |
## 1123 | 3.02 | 0.51 0.36 0.03 | 2.92 14.76 0.93 |
## 1124 | 2.60 | -0.47 0.31 0.03 | 2.46 10.54 0.89 |
## 1136 | 2.17 | -1.61 3.67 0.55 | -0.04 0.00 0.00 |
## 1133 | 2.98 | -1.98 5.52 0.44 | 1.84 5.89 0.38 |
## 1134 | 3.30 | -2.47 8.64 0.56 | 1.54 4.10 0.22 |
## 2111 | 2.08 | 0.59 0.49 0.08 | -1.72 5.14 0.69 |
## 2112 | 2.69 | 1.61 3.64 0.36 | 0.61 0.65 0.05 |
## 2117 | 2.52 | 1.86 4.87 0.54 | 0.04 0.00 0.00 |
## 2121 | 1.76 | -0.19 0.05 0.01 | -1.63 4.60 0.86 |
## 2122 | 1.79 | 0.30 0.13 0.03 | 0.32 0.18 0.03 |
## 2123 | 1.64 | -0.14 0.03 0.01 | -0.48 0.41 0.09 |
## 2124 | 2.95 | -1.48 3.08 0.25 | -1.77 5.46 0.36 |
## 2131 | 1.40 | -0.62 0.55 0.20 | -0.98 1.68 0.50 |
## 2132 | 3.01 | -1.76 4.36 0.34 | -1.78 5.49 0.35 |
## 2133 | 1.19 | -0.31 0.13 0.07 | 1.11 2.13 0.87 |
## 2134 | 3.03 | -2.68 10.14 0.78 | -0.91 1.44 0.09 |
## 3116 | 2.90 | 0.48 0.32 0.03 | -2.27 8.93 0.61 |
## 3117 | 2.88 | 2.69 10.24 0.87 | -0.39 0.26 0.02 |
## 3121 | 2.68 | -0.04 0.00 0.00 | -2.12 7.83 0.63 |
## 3122 | 3.17 | 2.55 9.20 0.65 | 0.79 1.08 0.06 |
## 3123 | 1.57 | 0.87 1.07 0.30 | 0.33 0.19 0.04 |
## 3136 | 2.20 | 0.73 0.76 0.11 | -1.37 3.28 0.39 |
## 3137 | 3.21 | -1.79 4.55 0.31 | 1.44 3.60 0.20 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2
## domicile | 0.60 13.91 0.36 | -0.44 8.98 0.19 |
## deplacement | -0.09 0.28 0.01 | 0.79 29.15 0.62 |
## exterieur | -0.21 1.76 0.05 | 0.68 21.63 0.46 |
## repos | 0.74 20.88 0.55 | 0.24 2.64 0.06 |
## loisirs | -0.81 24.95 0.65 | 0.38 6.64 0.14 |
## travail | -0.56 12.12 0.32 | -0.79 29.15 0.62 |
## FreqMedia | 0.83 26.09 0.68 | 0.20 1.81 0.04 |

5
3. Analysez les résultats ci-hauts et répondez aux questions suivantes :

3.1 Les données sont elles homogènes ? Fallait il diagonaliser la matrice de variance
P
covariance ou la matrice de corrélation Ω ? Quels risques aurions nous couru si nous
avons opté pour l’autre choix ?

3.2 Justifier, a posteriori et d’après le tableau des valeurs propres, le choix de la matrice
de variance covariance ou la matrice de corrélation Ω ?

3.3 Considérant le nuage de points à traiter, quelle est la coordonnée du groupe 1115
sur l’axe « travail »?

3.4 Quelle est la valeur numérique de l’inertie du nuage des points traité ?

3.5 Les données sont-elles factorisables ?

3.6 Combien de CP retiendrez-vous (critère de valeur propre moyenne, critère de Kaiser,


critère de Cattel) ? justifiez votre réponse

3.7 Donner un sens au premier axe factoriel ?

3.8 Donner un sens au deuxième axe factoriel ?

3.9 Quel est le pourcentage de variance expliqué par la 1ère CP ? par la 2ème CP ? par
le plan dirigé par les deux premiers axes (O,U1,U2)?

3.10 Sur le plan (O,U1,U2), y a-t-il des variables mal représentées ? des individus mal
représentés ?

3.11 Selon le cercle de corrélation (O,U1,U2), que peut on dire de la corrélation entre :

a. deplacement et repos ?
b. travail et FreqMedia ?
c. loisirs et domicile ?
d. FreqMedia et loisirs ?
e. repos et exterieur ?

Vérifier vos résultats sur la matrice de corrélation

3.12 Analyser la projection des individus et répondre aux questions suivantes :

a. Que peut-on dire des groupes des jeunes à part le groupe 1115 qui est atypique ?
b. Citez 1 individu dont les activités sont dominées par les activités professionnelles ?
c. Citez 1 individu dont les activités sont dominées par les activités plus intérieures ?
d. Citez 1 individu dont les activités sont dominées par les activités de temps disponibles
ou libres ?
e. Citez 1 individu dont les activités sont dominées par les activités plus à l'extérieur
et divertissement ?

Vous aimerez peut-être aussi