Académique Documents
Professionnel Documents
Culture Documents
TD CHAPITRE 2 :
Séries statistiques à 2 variables
I. Tableaux statistiques à deux dimensions et représentations
graphiques
Exercice 1 :
Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le navigateur internet utilisé
et Y le système d’exploitation utilisé.
X\Y Windows Mac Linux
Chrome 14 103 1 186 427
Firefox 30 853 4 392 3 234
Internet Explorer 47 389 23 0
Safari 668 6 416 0
Autres 2 974 40 1 752
1) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
Population : Visiteurs du site internet étudié.
Individu : un visiteur du site internet.
Taille : 113 457 visiteurs au total
Variables étudiées : on étudie deux variables à savoir X et Y :
• La variable X est le navigateur internet utilisé par le visiteur ; c’est une variable qualitative
nominale ;
• La variable Y est le système d’exploitation utilisé par le visiteur ; c’est une variable qualitative
nominale également.
2) Quelle est la proportion de visiteurs sous Windows ?
On recherche la proportion marginale P(Y=Windows). Pour cela, on détermine les effectifs
marginaux dans le tableau de contingence :
X\Y Windows Mac Linux TOTAL
Chrome 14 103 1 186 427 15 716
Firefox 30 853 4 392 3 234 38 479
Internet Explorer 47 389 23 0 47 412
Safari 668 6 416 0 7 084
Autres 2 974 40 1 752 4 766
TOTAL 95 987 12 057 5 413 113 457
L’effectif marginal de la modalité « Windows » pour Y est donc de 95 987. On a donc :
𝟗𝟗𝟗𝟗 𝟗𝟗𝟗𝟗𝟗𝟗
P(Y=Windows) = = 𝟖𝟖𝟖𝟖, 𝟔𝟔𝟔𝟔 %
𝟏𝟏𝟏𝟏𝟏𝟏 𝟒𝟒𝟒𝟒𝟒𝟒
3) Quelle proportion de visiteurs utilisent le navigateur Safari ?
L’effectif marginal de la modalité « Safari » pour X est de 7 084 donc :
𝟕𝟕 𝟎𝟎𝟎𝟎𝟎𝟎
P(X=Safari) = = 𝟔𝟔, 𝟐𝟐𝟐𝟐 %
𝟏𝟏𝟏𝟏𝟏𝟏 𝟒𝟒𝟒𝟒𝟒𝟒
70,00%
60,00%
50,00%
Proportion
40,00%
30,00%
20,00%
10,00%
0,00%
Chrome Firefox Internet Explorer Safari Autres
Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; cela signifie que le
système d’exploitation influe fortement sur le navigateur utilisé. Autrement dit, il n’y a pas
indépendance entre système d’exploitation et navigateur utilisé.
Exercice 2 :
En 1885, Francis Galton publie un tableau de données comparant la taille Y des enfants avec la taille
X de leurs parents (la taille des parents est égale à la moyenne de la taille du père et de la mère).
Pour compenser les différences de tailles entre sexes, toutes les tailles des personnes de sexe
féminin ont été multipliées par 1,08. Les tailles sont exprimées en pouces (1 pouce = 2,54 cm).
X\Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]
]62 ; 64] 1 2 5 4 2 0 0 0
]64 ; 66] 2 14 17 32 16 7 1 0
]66 ; 68] 0 14 36 108 93 34 4 0
]68 ; 70] 1 8 47 100 135 84 22 5
]70 ; 72] 1 1 2 11 38 35 18 5
]72 ; 74] 0 0 0 0 3 3 13 4
1) Préciser la population, les individus, l’effectif total ainsi que les variables étudiées.
Population : les enfants étudiés par Galton (à chaque enfant, on associe ses deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (effectif global de l’ensemble du tableau).
Variables étudiées :
• La variable Y correspond à la taille de l’enfant (variable quantitative continue)
• La variable X correspond à la taille des parents : moyenne de la taille du père et de la mère
(variable quantitative continue).
2) Quelle est la proportion d’enfants dont la taille est comprise entre 65,7 et 67,7 ?
On cherche la proportion marginale P(65,7 ≤ Y ≤ 67,7) :
𝟒𝟒+𝟑𝟑𝟑𝟑+𝟏𝟏𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐
P(65,7 ≤ Y ≤ 67,7) = = = 𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏 %
𝟗𝟗𝟗𝟗𝟗𝟗 𝟗𝟗𝟗𝟗𝟗𝟗
3) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des parents
dont la taille est entre 70 et 72 ?
On cherche la proportion conditionnelle P(X ∈ ]𝟕𝟕𝟕𝟕; 𝟕𝟕𝟕𝟕] | 𝒀𝒀 ∈ ]𝟕𝟕𝟕𝟕, 𝟕𝟕; 𝟕𝟕𝟕𝟕, 𝟕𝟕]). Pour la calculer, on
extrait la colonne Y ∈ ]71,7 ;73,7] du tableau et on calcule les proportions :
X | Y ∈ ]71,7 ;73,7] Effectif Proportion (%)
]62 ;64] 0 0
]64 ;66] 1 1,72
]66 ;68] 4 6,90
]68 ;70] 22 37,93
]70 ;72] 18 31,03
]72 ;74] 13 22,41
TOTAL 58 ~100
On a donc :
𝟏𝟏𝟏𝟏
P(X ∈ ]70 ;72] | Y ∈ ]71,7 ;73,7]) = = 31,03 %
𝟓𝟓𝟓𝟓
4) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68 et 70 ?
Convertir le résultat en centimètres.
On regarde la distribution conditionnelle de Y sachant que X ∈ ]68 ;70]. On extrait donc du tableau
la ligne correspondante :
Y|X∈ ]61,7 ; ]63,7 ; ]65,7 ; ]67,7 ; ]69,7 ; ]71,7 ; ]73,7 ;
]60 ; 61,7] TOTAL
]68 ;70] 63,7] 65,7] 67,7] 69,7] 71,7] 73,7] 75]
Exercice 3 :
Le tableau de contingence suivant présente le salaire mensuel X (en milliers d’euros) et l’ancienneté Y
(en années) des ouvriers d’une entreprise :
X\Y [0 ; 8[ [8 ; 16[ [16 ; 24[ [24 ; 32[
[1 ; 2[ 5 6 1 0
[2 ; 3[ 2 4 3 3
[3 ; 4[ 0 2 4 10
1) Calculer les effectifs marginaux, les fréquences marginales, les moyennes marginales, les
variances et les écarts-types marginaux.
Centre
𝒚𝒚𝒋𝒋 4 12 20 28
classes
𝒙𝒙𝒊𝒊 X\Y [0 ; 8[ [8 ; 16[ [16 ; 24[ [24 ; 32[ 𝒏𝒏𝒊𝒊• 𝒇𝒇𝒊𝒊•
1,5 [1 ; 2[ 5 6 1 0 12 0,3
2,5 [2 ; 3[ 2 4 3 3 12 0,3
3,5 [3 ; 4[ 0 2 4 10 16 0,4
𝒏𝒏•𝒋𝒋 7 12 8 13 40 1
𝒇𝒇•𝒋𝒋 0,175 0,3 0,2 0,325 1
(𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟐𝟐, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) 𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝒙𝒙 = = 𝟐𝟐, 𝟔𝟔
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
(𝟒𝟒𝟒𝟒𝟒𝟒) + (𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) + (𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) + (𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) 𝟔𝟔𝟔𝟔𝟔𝟔
�=
𝒚𝒚 = = 𝟏𝟏𝟏𝟏, 𝟒𝟒
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟐𝟐, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟑𝟑, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)² 𝟐𝟐𝟐𝟐, 𝟔𝟔
𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿) = = = 𝟎𝟎, 𝟔𝟔𝟔𝟔
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
𝝈𝝈(𝑿𝑿) = �𝟎𝟎, 𝟔𝟔𝟔𝟔 = 𝟎𝟎, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝟕𝟕(𝟒𝟒 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟖𝟖(𝟐𝟐𝟐𝟐 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟐𝟐𝟐𝟐 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)² 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑, 𝟔𝟔
𝑽𝑽𝑽𝑽𝑽𝑽(𝒀𝒀) = =
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
= 𝟕𝟕𝟕𝟕, 𝟎𝟎𝟎𝟎
𝝈𝝈(𝒀𝒀) = �𝟕𝟕𝟕𝟕, 𝟎𝟎𝟎𝟎 = 𝟖𝟖, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
2) Déterminer si les variables X et Y sont indépendantes.
Si on choisit 𝒊𝒊 = 𝟑𝟑 𝒆𝒆𝒆𝒆 𝒋𝒋 = 𝟏𝟏, nous obtenons :
N X 𝒏𝒏𝟑𝟑𝟑𝟑 = 40 X 0 = 0
Et
𝒏𝒏𝟑𝟑• X 𝒏𝒏•𝟏𝟏 = 16 X 7 = 112
Par conséquent, il existe i et j tel que :
N X 𝒏𝒏𝒊𝒊𝒊𝒊 ≠ 𝒏𝒏𝒊𝒊• X 𝒏𝒏•𝒋𝒋
Donc X et Y ne sont pas indépendants.
800
700
600
500
400
300
200
100
0
100 120 140 160 180 200 220
Nombre de jours de pluie (X)
Exercice 2 :
On considère la série double suivante :
𝒙𝒙𝒊𝒊 2 5 6 10 12
𝒚𝒚𝒊𝒊 83 70 70 54 49
1) Calculer la covariance.
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = �(𝒙𝒙𝒊𝒊 − �)(𝒚𝒚 �) = � 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 − 𝒙𝒙
𝒙𝒙 𝒊𝒊 − 𝒚𝒚 � 𝒚𝒚
�
𝑵𝑵 𝑵𝑵
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
𝟐𝟐+𝟓𝟓+𝟔𝟔+𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏
Avec 𝒙𝒙
�= =7
𝟓𝟓
𝟖𝟖𝟖𝟖+𝟕𝟕𝟕𝟕+𝟕𝟕𝟕𝟕+𝟓𝟓𝟓𝟓+𝟒𝟒𝟒𝟒
Et 𝒚𝒚
�= = 65,2
𝟓𝟓
𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = [(2X83) + (5X70) + (6X70) + (10X54) + (12X49)] – (7X65,2)
𝟓𝟓
𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = X 2064 – 456,4
𝟓𝟓
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = -43,6
2) Déterminer l’équation de la droite de régression Y = aX + b
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) −𝟒𝟒𝟒𝟒, 𝟔𝟔
𝒂𝒂 = = = −𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝑽𝑽(𝒙𝒙) 𝟏𝟏𝟏𝟏, 𝟖𝟖
Avec
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏 𝟏𝟏
�)𝟐𝟐 =
𝑽𝑽(𝒙𝒙) = �(𝒙𝒙𝒊𝒊 − 𝒙𝒙 � 𝒙𝒙𝟐𝟐𝒊𝒊 − 𝒙𝒙
�𝟐𝟐 = 𝑿𝑿 𝟑𝟑𝟑𝟑𝟑𝟑 − 𝟒𝟒𝟒𝟒 = 𝟏𝟏𝟏𝟏, 𝟖𝟖
𝑵𝑵 𝑵𝑵 𝟓𝟓
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
𝒃𝒃 = 𝒚𝒚 � − 𝒂𝒂𝒙𝒙� = 𝟔𝟔𝟔𝟔, 𝟐𝟐 − (−𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒) = 𝟔𝟔𝟔𝟔, 𝟐𝟐 + 𝟐𝟐𝟐𝟐, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 = 𝟖𝟖𝟖𝟖, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
Donc l’équation de la droite de régression correspond à : Y = -3,40625 X + 89,04375
3) Déterminer le coefficient de corrélation linéaire.
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
Avec :
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏 𝟏𝟏
�)𝟐𝟐 =
𝑽𝑽(𝒚𝒚) = �(𝒚𝒚𝒊𝒊 − 𝒚𝒚 � 𝒚𝒚𝟐𝟐𝒊𝒊 − 𝒚𝒚
�𝟐𝟐 = 𝑿𝑿 𝟐𝟐𝟐𝟐 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒, 𝟎𝟎𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏
𝑵𝑵 𝑵𝑵 𝟓𝟓
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
𝝈𝝈(𝒚𝒚) = �𝑽𝑽(𝒚𝒚) = �𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏 = 𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝝈𝝈(𝒙𝒙) = �𝑽𝑽(𝒙𝒙) = �𝟏𝟏𝟏𝟏, 𝟖𝟖 = 𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
D’où
−𝟒𝟒𝟒𝟒, 𝟔𝟔 −𝟒𝟒𝟒𝟒, 𝟔𝟔
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = −𝟎𝟎, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
(𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐 𝑿𝑿 𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) 𝟒𝟒𝟒𝟒, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
Ce coefficient de corrélation est très proche de 1 donc on peut qu’il y a une corrélation très forte
entre X et Y.
Exercice 3 :
Une expérience a été réalisée sur 250 personnes pour étudier la relation qui existe entre l’âge X et le
temps de sommeil Y. Le tableau suivant a été obtenu :
X\Y [5 ; 7[ [7 ; 9[ [9 ; 11[ [11 ;15[
[1 ; 3[ 0 0 2 36
[3 ; 11[ 0 3 12 26
[11 ; 19[ 2 8 35 16
[19 ; 31[ 0 26 22 3
[31 ; 59[ 22 15 6 0
Centre
6 8 10 13
classes
X\Y [5 ; 7[ [7 ; 9[ [9 ; 11[ [11 ;15[ � 𝒏𝒏 � 𝒏𝒏𝒊𝒊𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒋𝒋
𝒊𝒊•
𝒋𝒋
2 [1 ; 3[ 0 0 2 36 38 976
7 [3 ; 11[ 0 3 12 26 41 3374
15 [11 ; 19[ 2 8 35 16 61 9510
25 [19 ; 31[ 0 26 22 3 51 11675
45 [31 ; 59[ 22 15 6 0 43 14040
∑ 𝒏𝒏• j 24 52 77 81 234
� 𝒏𝒏𝒊𝒊𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒋𝒋 6120 11728 14330 7397 39575
𝒊𝒊
Exercice 4 :
Le tableau suivant indique les notes données lors d’un examen par deux examinateurs pour 10 copies
corrigées :
1 2 3 4 5 6 7 8 9 10
Examinateur 1 2 5 3 2 6 8 3 9 5 7
Examinateur 2 3 7 5 4 5 9 4 10 7 6
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
𝟒𝟒𝟒𝟒
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = 𝟏𝟏𝟏𝟏
�𝟓𝟓𝟓𝟓 𝑿𝑿�𝟒𝟒𝟒𝟒
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏
𝟒𝟒, 𝟓𝟓 𝟒𝟒, 𝟓𝟓
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = 𝟎𝟎, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑 𝑿𝑿 𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟓𝟓, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
Le résultat obtenu indique une corrélation très forte entre les notes de l’examinateur 1 et les notes
de l’examinateur 2.
2) Le résultat obtenu vous paraît-il « surprenant » ?
Le contraire aurait été très inquiétant puisqu’il aurait signifié que les notes des 2 examinateurs
n’étaient pas liées.
Exercice 5 :
Une étude de psychosociobiologie cherche à examiner s’il existe une relation entre la taille des pieds
des enfants et leur intelligence. Partant d’un échantillon de 10 enfants, il faut examiner s’il existe une
corrélation entre la pointure de leurs chaussures 𝑥𝑥𝑖𝑖 et leur quotient intellectuel 𝑦𝑦𝑖𝑖 .
Les données de l’analyse sont rassemblées dans le tableau suivant :
𝒙𝒙𝒊𝒊 31 31 32 33 34 34 35 36 37 38
𝒚𝒚𝒊𝒊 50 55 52 56 63 65 69 90 110 150
Exercice 6 :
On fait une étude statistique sur 10 sites de commerce électronique, ayant pour but de sonder sur une
semaine le nombre de visiteurs et le nombre de commandes. On obtient le tableau suivant :
Le numéro du site (i) 1 2 3 4 5 6 7 8 9 10
Le nombre de connexions (xi) 80 110 115 110 70 125 105 90 110 95
Le nombre de commandes (yi) 32 50 62 56 8 80 62 50 62 38