Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES DESCRIPTIVES
BIVARIÉES
Exercice 1. Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le
navigateur internet utilisé et Y le système d’exploitation utilisé.
(a) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
(b) Quelle est la proportion de visiteurs sous Windows ?
(c) Quelle proportion de visiteurs utilisent le navigateur Safari ?
(d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?
(e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
( f ) Représenter graphiquement la distribution des proportions par Navigateur pour chaque
système d’exploitation. Les variables X et Y sont-elles indépendantes ?
Corrigé de l’exercice 1.
(a) Population : visiteurs du site internet étudié.
Individu : un visiteur du site internet.
Taille : 113 457.
Variables étudiées : on étudie deux variables, à savoir X et Y. La variable X est le navi-
gateur utilisé par le visiteur ; c’est une variable qualitative nominale. La variable Y est le
système d’exploitation utilisé par le visiteur ; c’est une variable qualitatif nominale.
1
(b) On recherche la proportion marginale P(Y = Windows). Pour cela, on détermine les effec-
teurs marginaux dans le tableau de contingence :
X\Y Windows Mac Linux TOTAL
Chrome 14103 1186 427 15716
Firefox 30853 4392 3234 38479
Internet Explorer 47389 23 0 47412
Safari 668 6416 0 7084
Autres 2974 40 1752 4766
TOTAL 95987 12057 5413 113457
L’effectif marginal de la modalité « Windows » pour Y est donc 95 987. On a donc :
95 987
P(Y = Windows) = = 84,60 %.
113 457
(c) L’effectif marginal de la modalité Safari pour X est 7084 donc
7084
P(X = Safari) = = 6,24 %.
113 457
(d) On est sous la condition Y = Mac donc on extrait du tableau de contingence la colonne
Mac et on calcule les proportions correspondantes :
X | Y = Mac Effectif Proportion (%)
Chrome 1186 9,84
Firefox 4392 36,43
Internet Explorer 23 0,19
Safari 6416 53,21
Autres 40 0,33
TOTAL 12057 100
On a donc :
(e) On est sous la condition X = Safari, donc on extrait du tableau de contingence la ligne
correspondant à Safari :
Y | X = Safari Windows Mac Linux TOTAL
Effectif 668 6416 0 7084
Proportion (%) 9,43 90,57 0 100
On a donc :
( f ) Puisque l’on demande la répartition des proportions, on met les proportions en ordonnée.
Puisque l’on demande la répartition par Navigateur, on met la variable X en abscisse. Fina-
lement, puisque l’on demande la répartition pour chaque système d’exploitation, on doit
2
déterminer les proportions conditionnelles de X sachant les modalités de Y, c’est-à-dire
X | Y = Windows, X | Y = Mac et X | Y = Linux.
À la question (d), on a déjà déterminer X | Y = Mac donc il nous reste X | Y = Windows
et X | Y = Linux :
X | Y = Windows Effectif Proportion (%)
Chrome 14103 14,69
Firefox 30853 32,14
Internet Explorer 47389 49,37
Safari 668 0,7
Autres 2974 3,1
TOTAL 95987 100
Windows
60 Mac
Linux
50
40
30
20
10
Navigateur
Chrome Firefox IE Safari Autres
Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; cela
signifie que le système d’exploitation influe fortement sur le navigateur utilisé. Autrement
dit, il n’y a pas indépendance entre système d’exploitation et navigateur utilisé.
Exercice 2. En 1885, Francis Galton publie un tableau de données comparant la taille Y des
enfants avec la taille X de leurs parents (la taille des parents est égale à la moyenne de la taille
3
du père et de la mère). Pour compenser les différences de tailles entre sexes, toutes les tailles
des personnes de sexe féminin ont été multiplié par 1,08. Les tailles sont exprimées en pouces
(1 pouce = 2,54 cm).
X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]
]62 ; 64] 1 2 5 4 2 0 0 0
]64 ; 66] 2 14 17 32 16 7 1 0
]66 ; 68] 0 14 36 108 93 34 4 0
]68 ; 70] 1 8 47 100 135 84 22 5
]70 ; 72] 1 1 2 11 38 35 18 5
]72 ; 74] 0 0 0 0 3 3 13 4
Les bornes des classes extrêmes ont été fixées arbitrairement pour les besoins de l’exercice.
(a) Préciser la population, les individus, la taille de la population ainsi que les variables
étudiées.
(b) Quelle est la proportion d’enfants dont la taille est comprise entre 65,7 et 67,7 ?
(c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des
parents dont la taille est entre 70 et 72 ?
(d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68
et 70 ? Convertir le résultat en centimètres.
(e) Même question pour la taille médiane.
( f ) Même question pour l’écart-type.
Corrigé de l’exercice 2.
(a) Population : les enfants étudiés par Galton (en notant qu’à chaque enfant, on associe ses
deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (c’est la somme de tous les éléments du tableau).
Variables étudiées : la variable X « taille de l’enfant » (quantitative continue) et la variable
Y « taille des parents » (quantitative continue).
(b) On cherche la proportion marginale P(65,7 ≤ X ≤ 67,7) :
4 + 32 + 108 + 100 + 11 255
P(65,7 ≤ X ≤ 67,7) = = = 27,19 %.
938 938
(c) On cherche la proportion conditionnelle P(X ∈ ]70 ; 72] | Y ∈ ]71,7 ; 73,7]). Pour la
calculer, on extrait la colonne Y ∈ ]71,7 ; 73,7] du tableau et on calcule les proportions :
X | Y ∈ ]71,7 ; 73,7] Effectifs Proportions (%)
]62 ; 64] 0 0
]64 ; 66] 1 1,72
]66 ; 68] 4 6,9
]68 ; 70] 22 37,93
]70 ; 72] 18 31,03
]72 ; 74] 13 22,41
TOTAL 58
4
On a donc
(d) On regarde la distribution conditionnelle de Y sachant que X ∈ ]68 ; 70]. On extrait donc
du tableau la ligne correspondante (on met les proportions cumulées pour les questions
suivantes) :
Y | X ∈ ]68 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTAL
Effectifs 1 8 47 100 135 84 22 5 402
Proportions (%) 0,25 1,99 11,69 24,88 33,58 20,9 5,47 1,24
Prop. cumul. (%) 0,25 2,24 13,93 38,81 72,39 93,29 98,76 100
Centre 60,85 62,7 64,7 66,7 68,7 70,7 72,7 74,35
(e) La médiane de Y | X ∈ ]68 ; 70] se calcule à partir des proportions cumulées données dans
le tableau précédent. La classe correspondant à la proportion cumulée 50 % est ]a ; b] =
]67,7 ; 69,7] donc la médiane est donnée par la formule
50 − P(X ≤ a)
médiane = a + (b − a) ×
P(X ≤ b) − P(X ≤ a)
50 − 38,81
= 67,7 + (69,7 − 67,7) ×
72,39 − 38,81
11,19
= 67,7 + 2 ×
33,58
= 67,7 + [2 × 0,3332]
= 67,7 + 0,67
= 68,37.
5
( f ) Calculons l’écart-type :
v
t 1 × 60,852 + 8 × 62,72 + 47 × 64,72 + 100 × 66,72
u
u
u
u
+ 135 × 68,72 + 84 × 70,72 + 22 × 72,72 + 5 × 74,352
σY|X∈]68;70] = − µ2Y|X∈]68;70]
402
r
1 877 735,57
= − 4664,89
402
p
= 4670,98 − 4664,89
p
= 6,09
= 2,47.
Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie à
Paris tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant.
Corrigé de l’exercice 3.
(a) Pour tracer un nuage de points, on place chaque donnée individuelle sur un graphique avec
X en abscisse et Y en ordonnée :
Y (hauteur de pluie)
900
800
700
600
500
6
(b) Pour calculer le coefficient de corrélation, on doit calculer la covariance et les deux écart-
types. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les diffé-
rentes formules lorsqu’on dispose des données individuelles :
P rP P
x(i) x(i)2 x(i)y(i)
µX = , σX = − µX , Cov(X, Y) = − µX µY
N N N
Moyenne de X. On a
x(i) 198 + 196 + 199 + 164 + 170 + 163 + 149 + 162 1401
P
µX = = =
N 8 8
= 175,125.
Moyenne de Y. On a
y(i) 739 + 880 + 631 + 658 + 690 + 501 + 501 + 670 5270
P
µY = = =
N 8 8
= 658,750.
Écart-type de X. On a
rP
x(i)2
σX = − µ2X
r N
1982 + 1962 + 1992 + 1642 + 1702 + 1632 + 1492 + 1622
= − 175,1252
r 8
248031
= − 30 668,766
8
p
= 31 003,875 − 30 668,766
p
= 335,109
= 18,306.
Écart-type de Y. On a
rP
y(i)2
σY = − µ2Y
r N
7392 + 8802 + 6312 + 6582 + 6902 + 5012 + 5012 + 6702
= − 658,7502
r 8
3578648
= − 433 951,562
8
p
= 447 331,000 − 433 951,562
p
= 13 379,438
= 115,670.
7
Covariance de X et Y. On a
P
x(i)y(i)
Cov(X, Y) = − µX µY
N
198 × 739 + 196 × 880 + · · · + 162 × 670
= − 175,125 × 658,750
8
934435
= − 115 363,594
8
= 116 804,375 − 115 363,594
= 1440,781.
Coefficient de corrélation de X et Y. On a
Cov(X, Y)
r(X, Y) =
σ X σY
1440,781
=
18,306 × 115,670
1440,781
=
2117,455
= 0,680.
(c) Le coefficient de corrélation est proche de 0,7 donc on peut considérer que les variables
sont assez fortement liées. On peut représenter la droite de régression qui illustre cette
dépendance :
Y (hauteur de pluie)
900
800
700
600
500
Le fait que les points sont relativement proches de la droite illustre la corrélation relative-
ment forte.