TDR 602

Fiche TD avec le logiciel : tdr602
—————
ACP d’un jeu de données très simple
PrJean R. Lobry
—————
Table des matières

1 Analyse univariée 1
1.1 l’objet result . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 l’objet tab et l’objet cent . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Analyse univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Analyse bivariée . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Une première ACP 5
3 Une deuxième ACP 8
4 Exercice 11
Références 11
1 Analyse univariée
On ne se lance jamais dans une analyse multivariée avant d’avoir soigneuse-
ment épuisé le point de vue univarié. Les données utilisées ici sont disponibles
dans le paquet ade4 de :
library(ade4)
data(deug)
Lire la documentation du jeu de données avec ?deug. Pour information,

DEUG était l’acronyme pour « Diplôme d’Études Universitaires Générales » et
correspondait aux deux premières années de la licence avant la réforme dite
LMD, encore un acronyme pour « Licence Master Doctorat ». Cet objet deug
est donc une liste à trois composantes :
class(deug)
[1] "list"
names(deug)
[1] "tab" "result" "cent"
1
PrJean R. Lobry
1.1 l’objet result

Cet objet contient ce qui intéresse le plus les étudiants : le résultat final
global à l’examen. Voyons en quoi il consiste.
class(deug$result)
[1] "factor"
deug$result
[1] C- B B A B C- B B D A B B A C- B B A D B A+ A B B B B B
[27] C- B B B B B B B B C- D D D B B B A B C- B B B B B B D
[53] A+ A A C- B A C- A B B B C- C- D B- C- C- A B D A B B C- C- C-
[79] A C- C- C- B B B A B A A D D B- C- C- D A B B B B B B B B
Levels: D A A+ C- B- B
C’est donc une variable qualitative non ordonnée. On décide de la tranformer

en une variable qualitative ordonnée pour mettre un peu d’ordre.
deug$result <- ordered(deug$result, levels = c("D","C-","B-","B","A","A+"))
deug$result
[1] C- B B A B C- B B D A B B A C- B B A D B A+ A B B B B B
[27] C- B B B B B B B B C- D D D B B B A B C- B B B B B B D
[53] A+ A A C- B A C- A B B B C- C- D B- C- C- A B D A B B C- C- C-
[79] A C- C- C- B B B A B A A D D B- C- C- D A B B B B B B B B
Levels: D < C- < B- < B < A < A+
C’est bien plus clair ainsi, les plus mauvais résultats correspondent à la
modalité D et les meilleurs à la modalité A+. Regardons comment se répartissent
nos 104 étudiants.
table(deug$result)
D C- B- B A A+
11 20 2 52 17 2
plot(table(deug$result), lwd = 10, lend = "butt", las = 1,
main = "Résultat final à l'examen", ylab = "Nombre d'étudiants",
xlab = "Résultat")
Résultat final à l'examen
50
Nombre d'étudiants
40
30
20
10
D C− B− B A A+
Résultat
Commentez cette distribution. Nous utiliserons plus tard cette variable qua-
litative comme variable illustrative pour aider à l’interprétation des plans fac-
toriels.
version 3.5.1 (2018-07-02) – Page 2/11 – Compilé le 2018-09-17

URL : https://pbil.univ-lyon1.fr/R/pdf/tdr602.pdf
PrJean R. Lobry
1.2 l’objet tab et l’objet cent

C’est ici que l’on trouve les résultats des 104 étudiants aux 9 matières :
class(deug$tab)
[1] "data.frame"
dim(deug$tab)
[1] 104 9
head(deug$tab)
Algebra Analysis Proba Informatic Economy Option1 Option2 English Sport
1 40 26.0 26 26.0 51.9 17 24 19.0 11.5
2 37 34.5 37 32.0 72.0 24 22 26.0 11.5
3 37 41.0 29 34.5 72.0 24 27 19.6 11.5
4 63 37.5 57 35.5 77.4 23 23 21.0 14.0
5 55 31.5 34 36.0 57.9 19 24 24.0 11.5
6 50 38.0 32 20.0 66.9 20 15 22.2 0.0
Une valeur faible correspond à une mauvaise note, une valeur élevée cor-
respond à une bonne note. Mais c’est noté sur combien m’sieur ? Très bonne
question, c’est l’objet cent qui nous dit combien de points il faut pour avoir la
moyenne.
deug$cent
Algebra Analysis Proba Informatic Economy Option1 Option2
50 30 40 30 60 20 20
English Sport
20 0
Notez le cas particulier du sport : à votre avis à quoi correspond la valeur 0

ici ? Représenter le poids des disciplines.
coefs <- 2*deug$cent[1:8]
par(mar = c(5,5,4,2)+0.1)
barplot(sort(coefs), horiz=T, las = 1, xlab = "Nombre de points", main = "Le poids des disciplines")
Le poids des disciplines
Economy
Algebra
Proba
Informatic
Analysis
English
Option2
Option1
0 20 40 60 80 100 120
Nombre de points
À votre avis dans quel type de fillière universitaire étaient inscrits ces étu-
diants ?

URL: https://pbil.univ-lyon1.fr/R/pdf/tdr602.pdf
PrJean R. Lobry
1.3 Analyse univarié

Nous nous intéressons donc ici à la distribution des notes pour chaque dis-
cipline.
par(mfrow = c(2,4), mar = c(2,0,2,0)+0.1)
for(i in 1:8){
plot(density(deug$tab[,i]), xlim = c(0,2*deug$cent[i]),
main = colnames(deug$tab)[i], yaxt = "n", bty = "n")
rug(deug$tab[,i], col = "blue")
abline(v = deug$cent[i], col = "red")
}
Algebra Analysis Proba Informatic

Density
Density
Density
0 20 40 60 80 100 0 10 20 30 40 50 60 0 20 40 60 80 0 10 20 30 40 50 60
N = 104Economy
Bandwidth = 3.449 N = 104 Option1
Bandwidth = 2.918 N = 104 Option2
Bandwidth = 4.757 N = 104 English
Bandwidth = 2.587
Density
Density
Density
0 20 40 60 80 100 120 0 10 20 30 40 0 10 20 30 40 0 10 20 30 40
Quel est la signification de la ligne verticale rouge ? Quelles sont les matières
difficiles ? Si vous n’aviez qu’une discipline à réviser, laquelle choisiriez-vous ?
Le sport est un peu à part ici, commentez la distribution des notes de sport :
x <- deug$tab[,"Sport"]
plot(density(x), xlab = "Note", bty = "n", yaxt = "n",
ylab = "", main = "Sport")
rug(x, col = "blue")
Sport
0 5 10 15
Note
1.4 Analyse bivariée

On croise toutes les notes deux à deux pour se faire une première idée des
correlations entre disciplines.
plot(deug$tab[,1:8], pch = 19, col=rgb(0,0,0,0.3))

PrJean R. Lobry
20 50 10 40 10 25 10 25
50
Algebra
10
50
Analysis
20
30
Proba
0
40
Informatic
10
70
Economy
40
25
Option1
10
20
Option2
5
25
English
10
10 50 0 30 40 70 5 20
Les corrélations sont elles plutôt positives ou négatives ? À votre avis pour-
quoi ?
2 Une première ACP

Nous allons commencer par faire une ACP centrée-réduite. Dans ce cas le
tableau analysé est centré et réduit par colonne, ce qui correspond à la trans-
formation suivante :
par(mfrow=c(1,2), mar = c(5,5,4,2)+0.1)
boxplot(deug$tab, horizontal=T, las = 1, main ="Avant centrage et réduction",
xlab = "Note", col = "lightblue")
boxplot(as.data.frame(scale(deug$tab)), horizontal=T, las = 1,
main = "Après centrage et réduction",
xlab = "Note centrée-réduite", col = "lightblue")

PrJean R. Lobry
Avant centrage et réduction Après centrage et réduction
Sport Sport
English English
Option2 Option2
Option1 Option1
Economy Economy
Informatic Informatic
Proba Proba
Analysis Analysis
Algebra Algebra
0 20 40 60 80 −3 −2 −1 0 1 2 3
Note Note centrée−réduite
Examinez l’allure du graphe des valeurs propres :

acp1 <- dudi.pca(deug$tab, scan =F)
barplot(acp1$eig)
3.0
2.5
2.0
1.5
1.0
0.5
0.0
Représentez les individus dans le premier plan factoriel :

s.label(acp1$li)
d=2
29
84
80
31
67
58
95
13 98 103 51 77 9245
20 88 104 50 2740
44 81 68 66 52
9946 74 155678 14
86 1025 85
70 2623516 69 76 18
17 8 36 37 39
42
5734 64 65 91
30
61 123 7
71 5 33 93
96794 21
6073 97 19 62 101
43 41
2283
75 1
53 89 87 6
54 59 94
28
23 49 100 32 82 38 9
47102 24
63
48
11
90
55
72

PrJean R. Lobry
Ce n’est pas évident à interpréter parce que l’on ne connait pas personnelle-
ment les individus. Examinons les résultats de ceux qui ressortent sur le premier
axe :
deug$result[c(72,90)]
[1] D D
Levels: D < C- < B- < B < A < A+
deug$result[c(20,53,54)]
[1] A+ A+ A
Levels: D < C- < B- < B < A < A+
Le premier axe oppose donc les individus qui ont eu un très bon résultat à
ceux qui ont eu un très mauvais résultat. On peut généraliser cette approche en
utilisant le résulat comme variable illustrative sur le premier plan factoriel :
s.label(acp1$li)
s.class(acp1$li,deug$result, add.plot = TRUE, col =rainbow(6))
d=2
29
84
80
31
67
58
B− 95
13 98 103
51 77 9245
20 88 104 50 27 40
44 81 68 66 52
1025 85 46 74 1556
992 78 14
86 70 263516 69 76 37 1839
17 34 42 8 C−
A+ 57
B 65 36
64 91
A21 61 3
96794 6073 973019
12
71 337 93
625 101 D
43 41
2283
75 1
53 89 87 6
54 59 94
28
23 49 100 32 82 38 9
47102 24
63
48
11
90
55
72
L’interprétation du premier facteur devient alors assez évidente. Une autre

aide à l’interprétation consiste à comparer les coordonnées des individus sur le
premier axe avec les données originelles :
score(acp1)
Algebra Analysis Proba

10 20 30 40 50 60 70
10 20 30 40 50 60
50
40
y
y
30
20
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3
score score score

35
90
Informatic Economy Option1

50
30
80
40
25
70
y
20
60
30
50
15
20
40
10
10
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3
score score score

30
15
Option2 English Sport

30
25
25
10
20
20
y
y
15
5
15
10
10
5
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3

PrJean R. Lobry
Enfin, le plan des variables donne souvent une aide précieuse à l’interpréta-
tion :
s.corcircle(acp1$co)
English
Economy
Option2
Sport
Option1
Algebra
Proba
Informatic
Analysis
Une vue de synthèse est donnée par la fonction scatter :

scatter(acp1)
Eigenvalues d=2
English
Economy
29
Option2 84
80
31
67
58
95
103
13 9851
Sport 27 77 9245
20 88 50 68 66
104 99246 74 4044 78 81 52
86 1025 85
70 15 56 1476 18
26 3516 69
17 8
42 37 39
34 65
64 36 91
57
Option1 21 73 61 713 5 337 93
30 19
12
96 794 60
43 97 62 101 41
2283 1
Algebra 53 75 6
89 87
54 59 94
23 28 100 32 82 38 9
49
102 24
47
63
Proba 48
Informatic
11
90
55
72
Analysis
3 Une deuxième ACP

L’ACP centrée-réduite nous a donc montré qu’il y avait un gradient entre les
très bons étudiants qui ont de bonnes notes dans toutes les matières et les très
mauvais étudiants qui ont de mauvaises notes dans toutes les matières. C’est
une parfaite trivialité qui ne nous aide en rien pour préparer l’examen de façon
astucieuse. Tout ce que l’ACP centrée-réduite nous apprend ici c’est qu’il y a
intérêt à bosser pour avoir ses examens, si c’est pour apprendre ça, on ne voit
pas trop l’intérêt de la méthode.

PrJean R. Lobry
Le gros problème de l’ACP centrée-réduite est qu’elle a complètement gommé

un point essentiel qui est celui d’avoir la moyenne ou pas dans une matière. Nous
avons centré les notes par rapport à la moyenne des étudiants dans une matière,
et ce n’est pas très pertinent :
par(mfrow = c(1,2), mar = c(2,0,2,0)+0.1)
for(i in c(3,5)){
plot(density(deug$tab[,i]), xlim = c(0,2*deug$cent[i]),
main = colnames(deug$tab)[i], yaxt = "n", bty = "n")
rug(deug$tab[,i], col = "blue")
abline(v = deug$cent[i], col = "red")
}
Proba Economy
Density
0 20 40 60 80 0 20 40 60 80 100 120
Que préférez vous ? Avoir 39/80 en Probabilité ?

(ncr <- (39 - mean(deug$tab$Proba))/sd(deug$tab$Proba))
[1] 0.5798552
vous êtes à +0.6 écart-types au dessus de la moyenne de la promo, super,

sauf que vous avez planté votre examen puisque vous n’avez pas la moyenne.
Ou bien préférez-vous avoir 61/120 en écononomie ?
(ncr <- (61 - mean(deug$tab$Economy))/sd(deug$tab$Economy))
[1] -0.889822
vous êtes à -0.9 éacrt-type au dessous de la moyenne de la promo, ce n’est

pas terrible, il n’empêche que vous avez la moyenne à votre examen. Le centrage
fait autour de la moyenne de la promotion dans l’ACP centrée-réduite n’est pas
du tout ce que l’on a envie de faire. Mais il y a bien pire, c’est l’opération de
réduction :
apply(deug$tab,2,sd)
Algebra Analysis Proba Informatic Economy Option1 Option2
10.489722 8.811802 13.381987 8.247383 9.609744 5.204087 4.759564
English Sport
4.261956 4.944313
Un écart-type en probabilités vaut 13.3 points au final contre 4.2 points en

anglais. Mais ce qui nous intéresse ce sont les points au dessus de la moyenne
dans l’absolu, surtout s’il existe un mécanisme de compensation entre les ma-
tières. Voici donc la transformation que l’on veut faire :
par(mfrow=c(1,2), mar = c(5,5,4,2)+0.1)
boxplot(deug$tab, horizontal=T, las = 1, main ="Avant centrage et réduction",
xlab = "Note", col = "lightblue")
boxplot(as.data.frame(scale(deug$tab, center = deug$cent, scale = FALSE)), horizontal=T, las = 1,
main = "Après centrage sur 10/20",
xlab = "Note centrée-réduite", col = "lightblue")
abline(v=0,col="red")

PrJean R. Lobry
Avant centrage et réduction Après centrage sur 10/20
Sport Sport
English English
Option2 Option2
Option1 Option1
Economy Economy
Informatic Informatic
Proba Proba
Analysis Analysis
Algebra Algebra
0 20 40 60 80 −40 −20 0 10 20 30
Note Note centrée−réduite
Le graphique de droite est très intéressant, c’est lui qui nous permet d’opti-
miser l’investissement à effectuer. Supposons que je sois un étudiant très moyen,
en travaillant normalement je peux espérer avoir la note médiane dans chaque
matière. En anglais et dans les deux options je peux espérer grapiller quelques
points, mettons +8 en tout, en économie +10, en analyse +3 donc je peux ex-
pérer +21 de ce coté. En informatique je vais perdre 4 points, en probabilité 10
points et en algèbre 4, donc -18 points. Je pense que si je travaille une matière à
fond, je peux passer de la médiane au premier quartile, quelle matière choisir ?
Les probabilités sans hésiter, je peux espérer gagner ainsi 12 points, bien plus
qu’ailleurs.
Commenter le graphe des valeurs propres :
acp2 <- dudi.pca(deug$tab, center = deug$cent, scale = FALSE,scann=F)
barplot(acp2$eig)
400
300
200
100
0
Représenter les individus dans le premier plan factoriel en utilisant le résultat

comme variable illustrative :
s.label(acp2$li)
s.class(acp2$li,deug$result,add.plot=T,col=rainbow(6))

PrJean R. Lobry
d = 20
20
A+
53
96 54 86
4
5588 79 73
43 A10 89
60 58
21
1325 47
23 871749 70 61
102 2412 29
104 85
97 2630 62103
71 28 B2 335 98
50
51
22
41 57
34 99
11 19 5 10040
101
75 8 46 74
63 6 83 16 15
48 31
5933 42 67
732 84 27
44
81
77
65
64 36
69
B−
56
C−
94 45 78 93 76 80
6814
82 92
1 91 52
38
66 18
37
39
9
D 95
72
90
On retrouve sur le deuxième axe le gradient de résultat final, mais que signifie
le premier axe ? La vue de synthèse devrait aider :
par(mfrow=c(1,2))
scatter(acp2, posieig = "none", clab.col = 0.5, clab.row=0)
NULL
boxplot(as.data.frame(scale(deug$tab, center = deug$cent, scale = FALSE)), horizontal=T, las = 1,
main = "Après centrage sur 10/20",
xlab = "Note centrée-non-réduite", col = "lightblue", cex.axis = 0.8)
abline(v=0,col="red")
d = 20
Après centrage sur 10/20
Economy
Sport
Analysis
Proba Algebra English
Sport
Option1
Option2
Option2
Informatic English Option1
Economy
Informatic
Proba
Analysis
Algebra
−40 −30 −20 −10 0 10 20 30
Note centrée−non−réduite
4 Exercice
Le jeu de données seconde contient des variables de nature très similaires.
Analysez ce jeu de données.
data(seconde)
names(seconde)
[1] "HGEO" "FRAN" "PHYS" "MATH" "BIOL" "ECON" "ANGL" "ESPA"


TDR 602

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TDR 602

Transféré par

Droits d'auteur :

Formats disponibles

Fiche TD avec le logiciel : tdr602

Table des matières

2 Une première ACP 5

3 Une deuxième ACP 8

Lire la documentation du jeu de données avec ?deug. Pour information,

1.1 l’objet result

C’est donc une variable qualitative non ordonnée. On décide de la tranformer

Résultat final à l'examen

version 3.5.1 (2018-07-02) – Page 2/11 – Compilé le 2018-09-17

1.2 l’objet tab et l’objet cent

Notez le cas particulier du sport : à votre avis à quoi correspond la valeur 0

Le poids des disciplines

version 3.5.1 (2018-07-02) – Page 3/11 – Compilé le 2018-09-17

1.3 Analyse univarié

Algebra Analysis Proba Informatic

1.4 Analyse bivariée

version 3.5.1 (2018-07-02) – Page 4/11 – Compilé le 2018-09-17

2 Une première ACP

version 3.5.1 (2018-07-02) – Page 5/11 – Compilé le 2018-09-17

Avant centrage et réduction Après centrage et réduction

Note Note centrée−réduite

Examinez l’allure du graphe des valeurs propres :

Représentez les individus dans le premier plan factoriel :

version 3.5.1 (2018-07-02) – Page 6/11 – Compilé le 2018-09-17

L’interprétation du premier facteur devient alors assez évidente. Une autre

Algebra Analysis Proba

score score score

Informatic Economy Option1

score score score

Option2 English Sport

version 3.5.1 (2018-07-02) – Page 7/11 – Compilé le 2018-09-17

Une vue de synthèse est donnée par la fonction scatter :

3 Une deuxième ACP

version 3.5.1 (2018-07-02) – Page 8/11 – Compilé le 2018-09-17

Le gros problème de l’ACP centrée-réduite est qu’elle a complètement gommé

Que préférez vous ? Avoir 39/80 en Probabilité ?

vous êtes à +0.6 écart-types au dessus de la moyenne de la promo, super,

vous êtes à -0.9 éacrt-type au dessous de la moyenne de la promo, ce n’est

Un écart-type en probabilités vaut 13.3 points au final contre 4.2 points en

version 3.5.1 (2018-07-02) – Page 9/11 – Compilé le 2018-09-17

Avant centrage et réduction Après centrage sur 10/20

Note Note centrée−réduite

Représenter les individus dans le premier plan factoriel en utilisant le résultat

version 3.5.1 (2018-07-02) – Page 10/11 – Compilé le 2018-09-17

−40 −30 −20 −10 0 10 20 30

version 3.5.1 (2018-07-02) – Page 11/11 – Compilé le 2018-09-17

Vous aimerez peut-être aussi