Vous êtes sur la page 1sur 8

L1 Psycho Statistiques descriptives

STATISTIQUES DESCRIPTIVES
BIVARIÉES

Exercice 1. Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le
navigateur internet utilisé et Y le système d’exploitation utilisé.

X\Y Windows Mac Linux


Chrome 14103 1186 427
Firefox 30853 4392 3234
Internet Explorer 47389 23 0
Safari 668 6416 0
Autres 2974 40 1752

(a) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
(b) Quelle est la proportion de visiteurs sous Windows ?
(c) Quelle proportion de visiteurs utilisent le navigateur Safari ?
(d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?
(e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
( f ) Représenter graphiquement la distribution des proportions par Navigateur pour chaque
système d’exploitation. Les variables X et Y sont-elles indépendantes ?

Corrigé de l’exercice 1.
(a) Population : visiteurs du site internet étudié.
Individu : un visiteur du site internet.
Taille : 113 457.
Variables étudiées : on étudie deux variables, à savoir X et Y. La variable X est le navi-
gateur utilisé par le visiteur ; c’est une variable qualitative nominale. La variable Y est le
système d’exploitation utilisé par le visiteur ; c’est une variable qualitatif nominale.

1
(b) On recherche la proportion marginale P(Y = Windows). Pour cela, on détermine les effec-
teurs marginaux dans le tableau de contingence :
X\Y Windows Mac Linux TOTAL
Chrome 14103 1186 427 15716
Firefox 30853 4392 3234 38479
Internet Explorer 47389 23 0 47412
Safari 668 6416 0 7084
Autres 2974 40 1752 4766
TOTAL 95987 12057 5413 113457
L’effectif marginal de la modalité « Windows » pour Y est donc 95 987. On a donc :
95 987
P(Y = Windows) = = 84,60 %.
113 457
(c) L’effectif marginal de la modalité Safari pour X est 7084 donc
7084
P(X = Safari) = = 6,24 %.
113 457
(d) On est sous la condition Y = Mac donc on extrait du tableau de contingence la colonne
Mac et on calcule les proportions correspondantes :
X | Y = Mac Effectif Proportion (%)
Chrome 1186 9,84
Firefox 4392 36,43
Internet Explorer 23 0,19
Safari 6416 53,21
Autres 40 0,33
TOTAL 12057 100
On a donc :

P(X = Chrome | Y = Mac) = 9,84 %.

(e) On est sous la condition X = Safari, donc on extrait du tableau de contingence la ligne
correspondant à Safari :
Y | X = Safari Windows Mac Linux TOTAL
Effectif 668 6416 0 7084
Proportion (%) 9,43 90,57 0 100
On a donc :

P(Y = Windows | X = Safari) = 9,43 %.

( f ) Puisque l’on demande la répartition des proportions, on met les proportions en ordonnée.
Puisque l’on demande la répartition par Navigateur, on met la variable X en abscisse. Fina-
lement, puisque l’on demande la répartition pour chaque système d’exploitation, on doit

2
déterminer les proportions conditionnelles de X sachant les modalités de Y, c’est-à-dire
X | Y = Windows, X | Y = Mac et X | Y = Linux.
À la question (d), on a déjà déterminer X | Y = Mac donc il nous reste X | Y = Windows
et X | Y = Linux :
X | Y = Windows Effectif Proportion (%)
Chrome 14103 14,69
Firefox 30853 32,14
Internet Explorer 47389 49,37
Safari 668 0,7
Autres 2974 3,1
TOTAL 95987 100

X | Y = Linux Effectif Proportion (%)


Chrome 427 7,89
Firefox 3234 59,75
Internet Explorer 0 0
Safari 0 0
Autres 1752 32,37
TOTAL 5413 100,01
On est maintenant en mesure de tracer le diagramme en tuyaux d’orgues :
Proportion (%)

Windows
60 Mac
Linux
50

40

30

20

10

Navigateur
Chrome Firefox IE Safari Autres

Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; cela
signifie que le système d’exploitation influe fortement sur le navigateur utilisé. Autrement
dit, il n’y a pas indépendance entre système d’exploitation et navigateur utilisé.

Exercice 2. En 1885, Francis Galton publie un tableau de données comparant la taille Y des
enfants avec la taille X de leurs parents (la taille des parents est égale à la moyenne de la taille

3
du père et de la mère). Pour compenser les différences de tailles entre sexes, toutes les tailles
des personnes de sexe féminin ont été multiplié par 1,08. Les tailles sont exprimées en pouces
(1 pouce = 2,54 cm).

X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]
]62 ; 64] 1 2 5 4 2 0 0 0
]64 ; 66] 2 14 17 32 16 7 1 0
]66 ; 68] 0 14 36 108 93 34 4 0
]68 ; 70] 1 8 47 100 135 84 22 5
]70 ; 72] 1 1 2 11 38 35 18 5
]72 ; 74] 0 0 0 0 3 3 13 4

Les bornes des classes extrêmes ont été fixées arbitrairement pour les besoins de l’exercice.
(a) Préciser la population, les individus, la taille de la population ainsi que les variables
étudiées.
(b) Quelle est la proportion d’enfants dont la taille est comprise entre 65,7 et 67,7 ?
(c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des
parents dont la taille est entre 70 et 72 ?
(d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68
et 70 ? Convertir le résultat en centimètres.
(e) Même question pour la taille médiane.
( f ) Même question pour l’écart-type.

Corrigé de l’exercice 2.
(a) Population : les enfants étudiés par Galton (en notant qu’à chaque enfant, on associe ses
deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (c’est la somme de tous les éléments du tableau).
Variables étudiées : la variable X « taille de l’enfant » (quantitative continue) et la variable
Y « taille des parents » (quantitative continue).
(b) On cherche la proportion marginale P(65,7 ≤ X ≤ 67,7) :
4 + 32 + 108 + 100 + 11 255
P(65,7 ≤ X ≤ 67,7) = = = 27,19 %.
938 938
(c) On cherche la proportion conditionnelle P(X ∈ ]70 ; 72] | Y ∈ ]71,7 ; 73,7]). Pour la
calculer, on extrait la colonne Y ∈ ]71,7 ; 73,7] du tableau et on calcule les proportions :
X | Y ∈ ]71,7 ; 73,7] Effectifs Proportions (%)
]62 ; 64] 0 0
]64 ; 66] 1 1,72
]66 ; 68] 4 6,9
]68 ; 70] 22 37,93
]70 ; 72] 18 31,03
]72 ; 74] 13 22,41
TOTAL 58

4
On a donc

P(X ∈ ]70 ; 72] | Y ∈ ]71,7 ; 73,7]) = 31,03 %.

(d) On regarde la distribution conditionnelle de Y sachant que X ∈ ]68 ; 70]. On extrait donc
du tableau la ligne correspondante (on met les proportions cumulées pour les questions
suivantes) :

Y | X ∈ ]68 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTAL
Effectifs 1 8 47 100 135 84 22 5 402
Proportions (%) 0,25 1,99 11,69 24,88 33,58 20,9 5,47 1,24
Prop. cumul. (%) 0,25 2,24 13,93 38,81 72,39 93,29 98,76 100
Centre 60,85 62,7 64,7 66,7 68,7 70,7 72,7 74,35

La moyenne est donc :

1 × 60,85 + 8 × 62,7 + 47 × 64,7 + 100 × 66,7 + 135 × 68,7


+ 84 × 70,7 + 22 × 72,7 + 5 × 74,35
µY|X∈]68;70] =
402
27 457,80
= = 68,30.
402

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

µY|X∈]68;70] = 68,30 × 2,54 = 173,48.

(e) La médiane de Y | X ∈ ]68 ; 70] se calcule à partir des proportions cumulées données dans
le tableau précédent. La classe correspondant à la proportion cumulée 50 % est ]a ; b] =
]67,7 ; 69,7] donc la médiane est donnée par la formule
 
50 − P(X ≤ a)
médiane = a + (b − a) ×
P(X ≤ b) − P(X ≤ a)
 
50 − 38,81
= 67,7 + (69,7 − 67,7) ×
72,39 − 38,81
 
11,19
= 67,7 + 2 ×
33,58
= 67,7 + [2 × 0,3332]
= 67,7 + 0,67
= 68,37.

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

médiane = 68,37 × 2,54 = 173,66.

5
( f ) Calculons l’écart-type :
v
t 1 × 60,852 + 8 × 62,72 + 47 × 64,72 + 100 × 66,72
u
u
u
u
+ 135 × 68,72 + 84 × 70,72 + 22 × 72,72 + 5 × 74,352
σY|X∈]68;70] = − µ2Y|X∈]68;70]
402
r
1 877 735,57
= − 4664,89
402
p
= 4670,98 − 4664,89
p
= 6,09
= 2,47.

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

σY|X∈]68;70] = 2,47 × 2,54 = 6,27.

Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie à
Paris tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant.

année 1960 1965 1970 1975 1980 1985 1990 1995


X 198 196 199 164 170 163 149 162
Y 739 880 631 658 690 501 501 670
(a) Représenter graphiquement le nuage de points.
(b) Calculer le coefficient de corrélation.
(c) Y a-t-il une relation de liaison entre les variables X et Y ?

Corrigé de l’exercice 3.
(a) Pour tracer un nuage de points, on place chaque donnée individuelle sur un graphique avec
X en abscisse et Y en ordonnée :
Y (hauteur de pluie)

900

800

700

600

500

400 X (jours de pluie)


100 150 200

6
(b) Pour calculer le coefficient de corrélation, on doit calculer la covariance et les deux écart-
types. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les diffé-
rentes formules lorsqu’on dispose des données individuelles :
P rP P
x(i) x(i)2 x(i)y(i)
µX = , σX = − µX , Cov(X, Y) = − µX µY
N N N

Moyenne de X. On a

x(i) 198 + 196 + 199 + 164 + 170 + 163 + 149 + 162 1401
P
µX = = =
N 8 8
= 175,125.

Moyenne de Y. On a

y(i) 739 + 880 + 631 + 658 + 690 + 501 + 501 + 670 5270
P
µY = = =
N 8 8
= 658,750.

Écart-type de X. On a
rP
x(i)2
σX = − µ2X
r N
1982 + 1962 + 1992 + 1642 + 1702 + 1632 + 1492 + 1622
= − 175,1252
r 8
248031
= − 30 668,766
8
p
= 31 003,875 − 30 668,766
p
= 335,109
= 18,306.

Écart-type de Y. On a
rP
y(i)2
σY = − µ2Y
r N
7392 + 8802 + 6312 + 6582 + 6902 + 5012 + 5012 + 6702
= − 658,7502
r 8
3578648
= − 433 951,562
8
p
= 447 331,000 − 433 951,562
p
= 13 379,438
= 115,670.

7
Covariance de X et Y. On a
P
x(i)y(i)
Cov(X, Y) = − µX µY
N
198 × 739 + 196 × 880 + · · · + 162 × 670
= − 175,125 × 658,750
8
934435
= − 115 363,594
8
= 116 804,375 − 115 363,594
= 1440,781.

Coefficient de corrélation de X et Y. On a
Cov(X, Y)
r(X, Y) =
σ X σY
1440,781
=
18,306 × 115,670
1440,781
=
2117,455
= 0,680.

(c) Le coefficient de corrélation est proche de 0,7 donc on peut considérer que les variables
sont assez fortement liées. On peut représenter la droite de régression qui illustre cette
dépendance :
Y (hauteur de pluie)

900

800

700

600

500

400 X (jours de pluie)


100 150 200

Le fait que les points sont relativement proches de la droite illustre la corrélation relative-
ment forte.

Vous aimerez peut-être aussi