Vous êtes sur la page 1sur 12

UE 104 – Statistique descriptive

Licence LEA 1ère année

TD CHAPITRE 2 :
Séries statistiques à 2 variables
I. Tableaux statistiques à deux dimensions et représentations
graphiques
Exercice 1 :
Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le navigateur internet utilisé
et Y le système d’exploitation utilisé.
X\Y Windows Mac Linux
Chrome 14 103 1 186 427
Firefox 30 853 4 392 3 234
Internet Explorer 47 389 23 0
Safari 668 6 416 0
Autres 2 974 40 1 752
1) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
Population : Visiteurs du site internet étudié.
Individu : un visiteur du site internet.
Taille : 113 457 visiteurs au total
Variables étudiées : on étudie deux variables à savoir X et Y :
• La variable X est le navigateur internet utilisé par le visiteur ; c’est une variable qualitative
nominale ;
• La variable Y est le système d’exploitation utilisé par le visiteur ; c’est une variable qualitative
nominale également.
2) Quelle est la proportion de visiteurs sous Windows ?
On recherche la proportion marginale P(Y=Windows). Pour cela, on détermine les effectifs
marginaux dans le tableau de contingence :
X\Y Windows Mac Linux TOTAL
Chrome 14 103 1 186 427 15 716
Firefox 30 853 4 392 3 234 38 479
Internet Explorer 47 389 23 0 47 412
Safari 668 6 416 0 7 084
Autres 2 974 40 1 752 4 766
TOTAL 95 987 12 057 5 413 113 457
L’effectif marginal de la modalité « Windows » pour Y est donc de 95 987. On a donc :
𝟗𝟗𝟗𝟗 𝟗𝟗𝟗𝟗𝟗𝟗
P(Y=Windows) = = 𝟖𝟖𝟖𝟖, 𝟔𝟔𝟔𝟔 %
𝟏𝟏𝟏𝟏𝟏𝟏 𝟒𝟒𝟒𝟒𝟒𝟒
3) Quelle proportion de visiteurs utilisent le navigateur Safari ?
L’effectif marginal de la modalité « Safari » pour X est de 7 084 donc :
𝟕𝟕 𝟎𝟎𝟎𝟎𝟎𝟎
P(X=Safari) = = 𝟔𝟔, 𝟐𝟐𝟐𝟐 %
𝟏𝟏𝟏𝟏𝟏𝟏 𝟒𝟒𝟒𝟒𝟒𝟒

CHAP 2 : Stats 2 variables Page 1 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

4) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?


On est sous la condition Y=Mac donc on extrait du tableau de contingence la colonne Mac et on
calcule les proportions correspondantes :
X | Y = Mac Effectif Proportion (%)
Chrome 1 186 9,84
Firefox 4 392 36,43
Internet Explorer 23 0,19
Safari 6 416 53,21
Autres 40 0,33
TOTAL 12 057 100
On a donc :
𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏
P(X=Chrome | Y=Mac) = = 𝟗𝟗, 𝟖𝟖𝟖𝟖 %
𝟏𝟏𝟏𝟏 𝟎𝟎𝟎𝟎𝟎𝟎
5) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
On est sous la condition X=Safari, donc on extrait du tableau de contingence la ligne correspondant
à Safari :
Y | X = Safari Windows Mac Linux TOTAL
Effectif 668 6 416 0 7 084
Proportion (%) 9,43 90,57 0 100
On a donc :
𝟔𝟔𝟔𝟔𝟔𝟔
P(Y=Windows | X=Safari) = = 𝟗𝟗, 𝟒𝟒𝟒𝟒 %
𝟕𝟕 𝟎𝟎𝟎𝟎𝟎𝟎
6) Représenter graphiquement la distribution des proportions par Navigateur pour chaque système
d’exploitation. Les variables X et Y sont-elles indépendantes ?
Puisque l’on demande la répartition pour chaque système d’exploitation, on doit déterminer les
proportions conditionnelles de X sachant les modalités de Y, c’est-à-dire :
X | Y=Windows, X | Y=Mac et X | Y=Linux.
A la question 4, on a déjà déterminé X | Y = Mac donc il nous reste X | Y=Windows et X | Y=Linux :
X | Y = Windows Effectif Proportion (%)
Chrome 14 103 14,69
Firefox 30 853 32,14
Internet Explorer 47 389 49,37
Safari 668 0,7
Autres 2 974 3,1
TOTAL 95 987 100

X | Y = Linux Effectif Proportion (%)


Chrome 427 7,89
Firefox 3 234 59,75
Internet Explorer 0 0
Safari 0 0
Autres 1 752 32,37
TOTAL 5 413 100

CHAP 2 : Stats 2 variables Page 2 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Distribution des proportions par navigateur


pour chaque système d'exploitation
MAC WINDOWS LINUX

70,00%

60,00%

50,00%
Proportion

40,00%

30,00%

20,00%

10,00%

0,00%
Chrome Firefox Internet Explorer Safari Autres

Navigateur Internet utilisé

Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; cela signifie que le
système d’exploitation influe fortement sur le navigateur utilisé. Autrement dit, il n’y a pas
indépendance entre système d’exploitation et navigateur utilisé.

Exercice 2 :
En 1885, Francis Galton publie un tableau de données comparant la taille Y des enfants avec la taille
X de leurs parents (la taille des parents est égale à la moyenne de la taille du père et de la mère).
Pour compenser les différences de tailles entre sexes, toutes les tailles des personnes de sexe
féminin ont été multipliées par 1,08. Les tailles sont exprimées en pouces (1 pouce = 2,54 cm).
X\Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]

]62 ; 64] 1 2 5 4 2 0 0 0
]64 ; 66] 2 14 17 32 16 7 1 0
]66 ; 68] 0 14 36 108 93 34 4 0
]68 ; 70] 1 8 47 100 135 84 22 5
]70 ; 72] 1 1 2 11 38 35 18 5
]72 ; 74] 0 0 0 0 3 3 13 4

1) Préciser la population, les individus, l’effectif total ainsi que les variables étudiées.
Population : les enfants étudiés par Galton (à chaque enfant, on associe ses deux parents).
Individu : un enfant (et ses parents).
Taille de la population : 938 (effectif global de l’ensemble du tableau).
Variables étudiées :
• La variable Y correspond à la taille de l’enfant (variable quantitative continue)
• La variable X correspond à la taille des parents : moyenne de la taille du père et de la mère
(variable quantitative continue).
2) Quelle est la proportion d’enfants dont la taille est comprise entre 65,7 et 67,7 ?
On cherche la proportion marginale P(65,7 ≤ Y ≤ 67,7) :
𝟒𝟒+𝟑𝟑𝟑𝟑+𝟏𝟏𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐
P(65,7 ≤ Y ≤ 67,7) = = = 𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏 %
𝟗𝟗𝟗𝟗𝟗𝟗 𝟗𝟗𝟗𝟗𝟗𝟗

CHAP 2 : Stats 2 variables Page 3 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

3) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a des parents
dont la taille est entre 70 et 72 ?
On cherche la proportion conditionnelle P(X ∈ ]𝟕𝟕𝟕𝟕; 𝟕𝟕𝟕𝟕] | 𝒀𝒀 ∈ ]𝟕𝟕𝟕𝟕, 𝟕𝟕; 𝟕𝟕𝟕𝟕, 𝟕𝟕]). Pour la calculer, on
extrait la colonne Y ∈ ]71,7 ;73,7] du tableau et on calcule les proportions :
X | Y ∈ ]71,7 ;73,7] Effectif Proportion (%)
]62 ;64] 0 0
]64 ;66] 1 1,72
]66 ;68] 4 6,90
]68 ;70] 22 37,93
]70 ;72] 18 31,03
]72 ;74] 13 22,41
TOTAL 58 ~100
On a donc :
𝟏𝟏𝟏𝟏
P(X ∈ ]70 ;72] | Y ∈ ]71,7 ;73,7]) = = 31,03 %
𝟓𝟓𝟓𝟓
4) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68 et 70 ?
Convertir le résultat en centimètres.
On regarde la distribution conditionnelle de Y sachant que X ∈ ]68 ;70]. On extrait donc du tableau
la ligne correspondante :
Y|X∈ ]61,7 ; ]63,7 ; ]65,7 ; ]67,7 ; ]69,7 ; ]71,7 ; ]73,7 ;
]60 ; 61,7] TOTAL
]68 ;70] 63,7] 65,7] 67,7] 69,7] 71,7] 73,7] 75]

Effectifs 1 8 47 100 135 84 22 5 402


Fréquences 0,25 1,99 11,69 24,88 33,58 20,9 5,47 1,24
FCC 0,25 2,24 13,93 38,81 72,39 93,29 98,76 100
Centre 60,85 62,7 64,7 66,7 68,7 70,7 72,7 74,35
La moyenne correspond donc à :
(𝟏𝟏𝟏𝟏𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖) + (𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖, 𝟕𝟕) + (𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒, 𝟕𝟕) + ⋯ + (𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓, 𝟑𝟑𝟑𝟑) 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐, 𝟖𝟖
� =
𝒎𝒎 = = 68,30298507
𝟒𝟒𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒𝟒𝟒
Sachant que 1 pouce = 2,54 cm :
68,30298507 X 2,54 = 173,49 cm
5) Même question pour la taille médiane.
La médiane de Y | X ∈ ]68 ;70] se calcule à partir des fréquences cumulées croissantes données dans
le tableau précédent. La classe correspondant à la proportion cumulée 50 % est ]67,7 ;69,7] donc la
médiane est donnée par la formule :
𝒂𝒂𝒊𝒊
𝑴𝑴 = 𝒆𝒆𝒊𝒊−𝟏𝟏 + 𝑿𝑿 [𝟎𝟎, 𝟓𝟓 − 𝑭𝑭𝒊𝒊−𝟏𝟏 ]
𝒇𝒇𝒊𝒊
𝟐𝟐
𝑴𝑴 = 𝟔𝟔𝟔𝟔, 𝟕𝟕 + 𝑿𝑿[𝟎𝟎, 𝟓𝟓 − 𝟎𝟎, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑] = 𝟔𝟔𝟔𝟔, 𝟕𝟕 + 𝟎𝟎, 𝟔𝟔𝟔𝟔𝟔𝟔 = 𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑𝟑𝟑 𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑
𝟎𝟎,𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
Soit 68,366 X 2,54 = 173,65 cm
6) Même question pour l’écart-type.
𝟏𝟏(𝟔𝟔𝟔𝟔, 𝟖𝟖𝟖𝟖 − 𝟔𝟔𝟔𝟔, 𝟑𝟑)𝟐𝟐 + 𝟖𝟖(𝟔𝟔𝟔𝟔, 𝟕𝟕 − 𝟔𝟔𝟔𝟔, 𝟑𝟑)𝟐𝟐 + ⋯ + 𝟓𝟓(𝟕𝟕𝟕𝟕, 𝟑𝟑𝟑𝟑 − 𝟔𝟔𝟔𝟔, 𝟑𝟑𝟑𝟑)²
𝝈𝝈 = � = �5,68624731 = 2,3846

Soit 2,3846 X 2,54 = 6,0568 cm

CHAP 2 : Stats 2 variables Page 4 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Exercice 3 :
Le tableau de contingence suivant présente le salaire mensuel X (en milliers d’euros) et l’ancienneté Y
(en années) des ouvriers d’une entreprise :
X\Y [0 ; 8[ [8 ; 16[ [16 ; 24[ [24 ; 32[
[1 ; 2[ 5 6 1 0
[2 ; 3[ 2 4 3 3
[3 ; 4[ 0 2 4 10
1) Calculer les effectifs marginaux, les fréquences marginales, les moyennes marginales, les
variances et les écarts-types marginaux.
Centre
𝒚𝒚𝒋𝒋 4 12 20 28
classes
𝒙𝒙𝒊𝒊 X\Y [0 ; 8[ [8 ; 16[ [16 ; 24[ [24 ; 32[ 𝒏𝒏𝒊𝒊• 𝒇𝒇𝒊𝒊•
1,5 [1 ; 2[ 5 6 1 0 12 0,3
2,5 [2 ; 3[ 2 4 3 3 12 0,3
3,5 [3 ; 4[ 0 2 4 10 16 0,4
𝒏𝒏•𝒋𝒋 7 12 8 13 40 1
𝒇𝒇•𝒋𝒋 0,175 0,3 0,2 0,325 1
(𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟐𝟐, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) + (𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) 𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝒙𝒙 = = 𝟐𝟐, 𝟔𝟔
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
(𝟒𝟒𝟒𝟒𝟒𝟒) + (𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) + (𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) + (𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) 𝟔𝟔𝟔𝟔𝟔𝟔
�=
𝒚𝒚 = = 𝟏𝟏𝟏𝟏, 𝟒𝟒
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
𝟏𝟏𝟏𝟏(𝟏𝟏, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟐𝟐, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟑𝟑, 𝟓𝟓 − 𝟐𝟐, 𝟔𝟔)² 𝟐𝟐𝟐𝟐, 𝟔𝟔
𝑽𝑽𝑽𝑽𝑽𝑽(𝑿𝑿) = = = 𝟎𝟎, 𝟔𝟔𝟔𝟔
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
𝝈𝝈(𝑿𝑿) = �𝟎𝟎, 𝟔𝟔𝟔𝟔 = 𝟎𝟎, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝟕𝟕(𝟒𝟒 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟖𝟖(𝟐𝟐𝟐𝟐 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)𝟐𝟐 + 𝟏𝟏𝟏𝟏(𝟐𝟐𝟐𝟐 − 𝟏𝟏𝟏𝟏, 𝟒𝟒)² 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑, 𝟔𝟔
𝑽𝑽𝑽𝑽𝑽𝑽(𝒀𝒀) = =
𝟒𝟒𝟒𝟒 𝟒𝟒𝟒𝟒
= 𝟕𝟕𝟕𝟕, 𝟎𝟎𝟎𝟎
𝝈𝝈(𝒀𝒀) = �𝟕𝟕𝟕𝟕, 𝟎𝟎𝟎𝟎 = 𝟖𝟖, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
2) Déterminer si les variables X et Y sont indépendantes.
Si on choisit 𝒊𝒊 = 𝟑𝟑 𝒆𝒆𝒆𝒆 𝒋𝒋 = 𝟏𝟏, nous obtenons :
N X 𝒏𝒏𝟑𝟑𝟑𝟑 = 40 X 0 = 0
Et
𝒏𝒏𝟑𝟑• X 𝒏𝒏•𝟏𝟏 = 16 X 7 = 112
Par conséquent, il existe i et j tel que :
N X 𝒏𝒏𝒊𝒊𝒊𝒊 ≠ 𝒏𝒏𝒊𝒊• X 𝒏𝒏•𝒋𝒋
Donc X et Y ne sont pas indépendants.

CHAP 2 : Stats 2 variables Page 5 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

II. Nuage de points, régression et corrélation


Exercice 1 :
Les mesures du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie à Paris tous les 5 ans
entre 1980 et 2015 sont récapitulées dans le tableau suivant :
Année 1980 1985 1990 1995 2000 2005 2010 2015
X 198 196 199 164 170 163 149 162
Y 739 880 631 658 690 501 501 670

1) Représenter graphiquement le nuage de points.

Hauteur de pluie exprimée en mm


en fonction du nombre de jours de pluie sur Paris
1000
900
Hauteur de pluie (en mm) (Y)

800
700
600
500
400
300
200
100
0
100 120 140 160 180 200 220
Nombre de jours de pluie (X)

2) Calculer le coefficient de corrélation.


Cf. fichier excel
3) Y a-t-il une relation de liaison entre les variables X et Y ?
Cf. fichier excel

CHAP 2 : Stats 2 variables Page 6 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Exercice 2 :
On considère la série double suivante :
𝒙𝒙𝒊𝒊 2 5 6 10 12
𝒚𝒚𝒊𝒊 83 70 70 54 49
1) Calculer la covariance.
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = �(𝒙𝒙𝒊𝒊 − �)(𝒚𝒚 �) = � 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 − 𝒙𝒙
𝒙𝒙 𝒊𝒊 − 𝒚𝒚 � 𝒚𝒚

𝑵𝑵 𝑵𝑵
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏

𝟐𝟐+𝟓𝟓+𝟔𝟔+𝟏𝟏𝟏𝟏+𝟏𝟏𝟏𝟏
Avec 𝒙𝒙
�= =7
𝟓𝟓
𝟖𝟖𝟖𝟖+𝟕𝟕𝟕𝟕+𝟕𝟕𝟕𝟕+𝟓𝟓𝟓𝟓+𝟒𝟒𝟒𝟒
Et 𝒚𝒚
�= = 65,2
𝟓𝟓

𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = [(2X83) + (5X70) + (6X70) + (10X54) + (12X49)] – (7X65,2)
𝟓𝟓
𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = X 2064 – 456,4
𝟓𝟓
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = -43,6
2) Déterminer l’équation de la droite de régression Y = aX + b
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) −𝟒𝟒𝟒𝟒, 𝟔𝟔
𝒂𝒂 = = = −𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒
𝑽𝑽(𝒙𝒙) 𝟏𝟏𝟏𝟏, 𝟖𝟖
Avec
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏 𝟏𝟏
�)𝟐𝟐 =
𝑽𝑽(𝒙𝒙) = �(𝒙𝒙𝒊𝒊 − 𝒙𝒙 � 𝒙𝒙𝟐𝟐𝒊𝒊 − 𝒙𝒙
�𝟐𝟐 = 𝑿𝑿 𝟑𝟑𝟑𝟑𝟑𝟑 − 𝟒𝟒𝟒𝟒 = 𝟏𝟏𝟏𝟏, 𝟖𝟖
𝑵𝑵 𝑵𝑵 𝟓𝟓
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
𝒃𝒃 = 𝒚𝒚 � − 𝒂𝒂𝒙𝒙� = 𝟔𝟔𝟔𝟔, 𝟐𝟐 − (−𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒) = 𝟔𝟔𝟔𝟔, 𝟐𝟐 + 𝟐𝟐𝟐𝟐, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 = 𝟖𝟖𝟖𝟖, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
Donc l’équation de la droite de régression correspond à : Y = -3,40625 X + 89,04375
3) Déterminer le coefficient de corrélation linéaire.
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
Avec :
𝑵𝑵 𝑵𝑵
𝟏𝟏 𝟏𝟏 𝟏𝟏
�)𝟐𝟐 =
𝑽𝑽(𝒚𝒚) = �(𝒚𝒚𝒊𝒊 − 𝒚𝒚 � 𝒚𝒚𝟐𝟐𝒊𝒊 − 𝒚𝒚
�𝟐𝟐 = 𝑿𝑿 𝟐𝟐𝟐𝟐 𝟎𝟎𝟎𝟎𝟎𝟎 − 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒, 𝟎𝟎𝟎𝟎 = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏
𝑵𝑵 𝑵𝑵 𝟓𝟓
𝒊𝒊=𝟏𝟏 𝒊𝒊=𝟏𝟏
𝝈𝝈(𝒚𝒚) = �𝑽𝑽(𝒚𝒚) = �𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏 = 𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝝈𝝈(𝒙𝒙) = �𝑽𝑽(𝒙𝒙) = �𝟏𝟏𝟏𝟏, 𝟖𝟖 = 𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓
D’où
−𝟒𝟒𝟒𝟒, 𝟔𝟔 −𝟒𝟒𝟒𝟒, 𝟔𝟔
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = −𝟎𝟎, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
(𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐 𝑿𝑿 𝟑𝟑, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓) 𝟒𝟒𝟒𝟒, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
Ce coefficient de corrélation est très proche de 1 donc on peut qu’il y a une corrélation très forte
entre X et Y.

CHAP 2 : Stats 2 variables Page 7 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Exercice 3 :
Une expérience a été réalisée sur 250 personnes pour étudier la relation qui existe entre l’âge X et le
temps de sommeil Y. Le tableau suivant a été obtenu :
X\Y [5 ; 7[ [7 ; 9[ [9 ; 11[ [11 ;15[
[1 ; 3[ 0 0 2 36
[3 ; 11[ 0 3 12 26
[11 ; 19[ 2 8 35 16
[19 ; 31[ 0 26 22 3
[31 ; 59[ 22 15 6 0

1) Calculer les moyennes marginales et les écarts-types marginaux de X et Y.


Centre
6 8 10 13
classes
X\Y [5 ; 7[ [7 ; 9[ [9 ; 11[ [11 ;15[ � 𝒏𝒏
𝒊𝒊•
2 [1 ; 3[ 0 0 2 36 38
7 [3 ; 11[ 0 3 12 26 41
15 [11 ; 19[ 2 8 35 16 61
25 [19 ; 31[ 0 26 22 3 51
45 [31 ; 59[ 22 15 6 0 43
� 𝒏𝒏•𝒋𝒋 24 52 77 81 234

(𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) + (𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕) + (𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) + (𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐) + (𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒) 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒


�=
𝒙𝒙 = = 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐
(𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔) + (𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖) + (𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) + (𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
�=
𝒚𝒚 = = 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐
𝟑𝟑𝟑𝟑(𝟐𝟐 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + 𝟒𝟒𝟒𝟒(𝟕𝟕 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + ⋯ + 𝟒𝟒𝟒𝟒(𝟒𝟒𝟒𝟒 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)²
𝝈𝝈(𝒙𝒙) = �𝑽𝑽(𝒙𝒙) = � = �𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝟐𝟐𝟐𝟐𝟐𝟐
𝝈𝝈(𝒙𝒙) = 𝟏𝟏𝟏𝟏, 𝟒𝟒𝟒𝟒𝟒𝟒

𝟐𝟐𝟐𝟐(𝟔𝟔 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + 𝟓𝟓𝟓𝟓(𝟖𝟖 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + ⋯ + 𝟖𝟖𝟖𝟖(𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏)²


𝝈𝝈(𝒚𝒚) = �𝑽𝑽(𝒚𝒚) = � = �𝟓𝟓, 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔
𝟐𝟐𝟐𝟐𝟐𝟐
𝝈𝝈(𝒚𝒚) = 𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑

CHAP 2 : Stats 2 variables Page 8 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

2) Déterminer la covariance et le coefficient de corrélation linéaire.


• Détermination de la covariance :
𝟓𝟓 𝟒𝟒 𝟓𝟓 𝟒𝟒
𝟏𝟏 𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = � � 𝒏𝒏𝒊𝒊𝒊𝒊 (𝒙𝒙𝒊𝒊 − �)�𝒚𝒚 �� = � � 𝒏𝒏𝒊𝒊𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒋𝒋 − 𝒙𝒙� 𝒚𝒚
𝒙𝒙 𝒋𝒋 − 𝒚𝒚 �
𝑵𝑵 𝑵𝑵
𝒊𝒊=𝟏𝟏 𝒋𝒋=𝟏𝟏 𝒊𝒊=𝟏𝟏 𝒋𝒋=𝟏𝟏
𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = [(2X2X10)+(36X2X13)+(3X7X8)+(12X7X10)+(26X7X13)+(2X15X6)+…+(6X45X10)]-
𝟐𝟐𝟐𝟐𝟐𝟐
(19,1795X10,1838)
𝟏𝟏
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = X39 575 – 195,3202
𝟐𝟐𝟐𝟐𝟐𝟐
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = −𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏

Centre
6 8 10 13
classes
X\Y [5 ; 7[ [7 ; 9[ [9 ; 11[ [11 ;15[ � 𝒏𝒏 � 𝒏𝒏𝒊𝒊𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒋𝒋
𝒊𝒊•
𝒋𝒋
2 [1 ; 3[ 0 0 2 36 38 976
7 [3 ; 11[ 0 3 12 26 41 3374
15 [11 ; 19[ 2 8 35 16 61 9510
25 [19 ; 31[ 0 26 22 3 51 11675
45 [31 ; 59[ 22 15 6 0 43 14040
∑ 𝒏𝒏• j 24 52 77 81 234
� 𝒏𝒏𝒊𝒊𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒋𝒋 6120 11728 14330 7397 39575
𝒊𝒊

• Détermination du coefficient de corrélation linéaire :


𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
−𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 −𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = −𝟎𝟎, 𝟕𝟕𝟕𝟕𝟕𝟕
(𝟏𝟏𝟏𝟏, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑) 𝟑𝟑𝟑𝟑, 𝟏𝟏𝟏𝟏𝟏𝟏
Il y a donc une corrélation assez forte entre X et Y (entre l’âge et le temps de sommeil).
3) Déterminer la droite de régression de Y en fonction de X.
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) −𝟐𝟐𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝒂𝒂 = = = −𝟎𝟎, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑽𝑽(𝒙𝒙) 𝟐𝟐𝟐𝟐𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
𝒃𝒃 = 𝒚𝒚 � − 𝒂𝒂𝒙𝒙� = 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 − (−𝟎𝟎, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏) = 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟐𝟐, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒 = 𝟏𝟏𝟏𝟏, 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓

Donc l’équation de la droite de régression de Y en fonction de X correspond à :


Y = -0,12572 X + 12,5951

4) Estimer le temps de sommeil d’une personne de 66 ans (extrapolation linéaire).


Âge de la personne = 66 donc il suffit de remplacer X par 66 dans l’équation de la droite de régression.
Y = (-0,12572 X 66) + 12,5951 = 4,29758 heures de sommeil

CHAP 2 : Stats 2 variables Page 9 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Exercice 4 :
Le tableau suivant indique les notes données lors d’un examen par deux examinateurs pour 10 copies
corrigées :
1 2 3 4 5 6 7 8 9 10
Examinateur 1 2 5 3 2 6 8 3 9 5 7
Examinateur 2 3 7 5 4 5 9 4 10 7 6

1) Déterminer le coefficient de corrélation des notes.


𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 �
𝒙𝒙𝒊𝒊 − 𝒙𝒙 �
𝒚𝒚𝒊𝒊 − 𝒚𝒚 �)(𝒚𝒚𝒊𝒊 − 𝒚𝒚
�)² (𝒙𝒙𝒊𝒊 − 𝒙𝒙
�)² (𝒚𝒚𝒊𝒊 − 𝒚𝒚
(𝒙𝒙𝒊𝒊 − 𝒙𝒙 �)
2 3 -3 -3 9 9 9
5 7 0 1 0 1 0
3 5 -2 -1 4 1 2
2 4 -3 -2 9 4 6
6 5 1 -1 1 1 -1
8 9 3 3 9 9 9
3 4 -2 -2 4 4 4
9 10 4 4 16 16 16
5 7 0 1 0 1 0
7 6 2 0 4 0 0
� = 𝟓𝟓 𝒚𝒚
𝒙𝒙 � = 𝟔𝟔 Sommes : 56 46 45

𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
𝟒𝟒𝟒𝟒
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = 𝟏𝟏𝟏𝟏
�𝟓𝟓𝟓𝟓 𝑿𝑿�𝟒𝟒𝟒𝟒
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏
𝟒𝟒, 𝟓𝟓 𝟒𝟒, 𝟓𝟓
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = 𝟎𝟎, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝟐𝟐, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑 𝑿𝑿 𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟓𝟓, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
Le résultat obtenu indique une corrélation très forte entre les notes de l’examinateur 1 et les notes
de l’examinateur 2.
2) Le résultat obtenu vous paraît-il « surprenant » ?
Le contraire aurait été très inquiétant puisqu’il aurait signifié que les notes des 2 examinateurs
n’étaient pas liées.

CHAP 2 : Stats 2 variables Page 10 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

Exercice 5 :
Une étude de psychosociobiologie cherche à examiner s’il existe une relation entre la taille des pieds
des enfants et leur intelligence. Partant d’un échantillon de 10 enfants, il faut examiner s’il existe une
corrélation entre la pointure de leurs chaussures 𝑥𝑥𝑖𝑖 et leur quotient intellectuel 𝑦𝑦𝑖𝑖 .
Les données de l’analyse sont rassemblées dans le tableau suivant :
𝒙𝒙𝒊𝒊 31 31 32 33 34 34 35 36 37 38
𝒚𝒚𝒊𝒊 50 55 52 56 63 65 69 90 110 150

1) Représenter le graphe du nuage de points.


𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 �
𝒙𝒙𝒊𝒊 − 𝒙𝒙 �
𝒚𝒚𝒊𝒊 − 𝒚𝒚 �)(𝒚𝒚𝒊𝒊 − 𝒚𝒚
�)² (𝒙𝒙𝒊𝒊 − 𝒙𝒙
�)² (𝒚𝒚𝒊𝒊 − 𝒚𝒚
(𝒙𝒙𝒊𝒊 − 𝒙𝒙 �)
31 50 -3,1 -26 9,61 676 80,6
31 55 -3,1 -21 9,61 441 65,1
32 52 -2,1 -24 4,41 576 50,4
33 56 -1,1 -20 1,21 400 22
34 63 -0,1 -13 0,01 169 1,3
34 65 -0,1 -11 0,01 121 1,1
35 69 0,9 -7 0,81 49 -6,3
36 90 1,9 14 3,61 196 26,6
37 110 2,9 34 8,41 1156 98,6
38 150 3,9 74 15,21 5476 288,6
� = 𝟑𝟑𝟑𝟑, 𝟏𝟏 𝒚𝒚
𝒙𝒙 � = 𝟕𝟕𝟕𝟕 Sommes : 52,9 9260 628

Quotient intellectuel (Y) en fonction de


la pointure de chaussures (X)
160
140
QUOTIENT INTELLECTUEL

120 Y = 11,871X - 328,82


100
80
60
40
20
0
30 31 32 33 34 35 36 37 38 39
POINTURE CHAUSSURES

2) Déterminer la droite de régression et la représenter sur le graphe.


𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) 𝟔𝟔𝟔𝟔, 𝟖𝟖
𝒂𝒂 = = = 𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝑽𝑽(𝒙𝒙) 𝟓𝟓, 𝟐𝟐𝟐𝟐
� − 𝒂𝒂𝒙𝒙� = 𝟕𝟕𝟕𝟕 − (𝟏𝟏𝟏𝟏, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 𝑿𝑿 𝟑𝟑𝟑𝟑, 𝟏𝟏) = 𝟕𝟕𝟕𝟕 − 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖 = −𝟑𝟑𝟑𝟑𝟑𝟑, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
𝒃𝒃 = 𝒚𝒚
Donc l’équation de la droite de régression de Y en fonction de X correspond à :
Y = 11,8715 X – 328,8166

CHAP 2 : Stats 2 variables Page 11 sur 12 M. EICHSTETTER


UE 104 – Statistique descriptive
Licence LEA 1ère année

3) Calculer le coefficient de corrélation.


𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
𝟔𝟔𝟔𝟔, 𝟖𝟖 𝟔𝟔𝟔𝟔, 𝟖𝟖
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = 𝟎𝟎, 𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖𝟖
(𝟐𝟐, 𝟑𝟑 𝑿𝑿 𝟑𝟑𝟑𝟑, 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒) 𝟔𝟔𝟔𝟔, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
Il s’agit donc d’une corrélation positive très forte.
4) Que pensez-vous de l’affirmation suivante : « on peut clairement constater que plus les enfants
ont de grands pieds, plus ils sont intelligents ».
Il ne faut pas confondre corrélation et relation de cause à effet !! L’affirmation proposée est
évidemment fantaisiste.

Exercice 6 :
On fait une étude statistique sur 10 sites de commerce électronique, ayant pour but de sonder sur une
semaine le nombre de visiteurs et le nombre de commandes. On obtient le tableau suivant :
Le numéro du site (i) 1 2 3 4 5 6 7 8 9 10
Le nombre de connexions (xi) 80 110 115 110 70 125 105 90 110 95
Le nombre de commandes (yi) 32 50 62 56 8 80 62 50 62 38

1) Calculer les moyennes arithmétiques de la variable statistique X et de la variable statistique Y.


𝟖𝟖𝟖𝟖 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟕𝟕𝟕𝟕 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟗𝟗𝟗𝟗 + 𝟏𝟏𝟏𝟏𝟏𝟏 + 𝟗𝟗𝟗𝟗 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
�=
𝒙𝒙 = = 𝟏𝟏𝟏𝟏𝟏𝟏
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏
𝟑𝟑𝟑𝟑 + 𝟓𝟓𝟓𝟓 + 𝟔𝟔𝟔𝟔 + 𝟓𝟓𝟓𝟓 + 𝟖𝟖 + 𝟖𝟖𝟖𝟖 + 𝟔𝟔𝟔𝟔 + 𝟓𝟓𝟓𝟓 + 𝟔𝟔𝟔𝟔 + 𝟑𝟑𝟑𝟑 𝟓𝟓𝟓𝟓𝟓𝟓
�=
𝒚𝒚 = = 𝟓𝟓𝟓𝟓
𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏
2) Calculer les écarts-types de la variable statistique X et de la variable statistique Y.
(𝟖𝟖𝟖𝟖 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + (𝟏𝟏𝟏𝟏𝟏𝟏 − 𝟏𝟏𝟏𝟏𝟏𝟏)𝟐𝟐 + ⋯ + (𝟗𝟗𝟗𝟗 − 𝟏𝟏𝟏𝟏𝟏𝟏)²
𝝈𝝈(𝒙𝒙) = �𝑽𝑽(𝒙𝒙) = � = √𝟐𝟐𝟐𝟐𝟐𝟐 = 𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
𝟏𝟏𝟏𝟏

(𝟑𝟑𝟑𝟑 − 𝟓𝟓𝟓𝟓)𝟐𝟐 + (𝟓𝟓𝟓𝟓 − 𝟓𝟓𝟓𝟓)𝟐𝟐 + ⋯ + (𝟑𝟑𝟑𝟑 − 𝟓𝟓𝟓𝟓)²


𝝈𝝈(𝒚𝒚) = �𝑽𝑽(𝒚𝒚) = � = √𝟑𝟑𝟑𝟑𝟑𝟑 = 𝟏𝟏𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
𝟏𝟏𝟏𝟏
3) Calculer la covariance entre X et Y.
𝑵𝑵
𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) = �(𝒙𝒙𝒊𝒊 − �)(𝒚𝒚 �) =
𝒙𝒙 𝒊𝒊 − 𝒚𝒚 = 𝟐𝟐𝟐𝟐𝟐𝟐
𝑵𝑵 𝟏𝟏𝟏𝟏
𝒊𝒊=𝟏𝟏
4) Calculer le coefficient de corrélation linéaire entre X et Y. Commenter.
𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚)
𝒓𝒓(𝒙𝒙, 𝒚𝒚) =
𝝈𝝈𝒙𝒙 𝝈𝝈𝒚𝒚
𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐
𝒓𝒓(𝒙𝒙, 𝒚𝒚) = = = 𝟎𝟎, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗
(𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎 𝑿𝑿 𝟏𝟏𝟏𝟏, 𝟗𝟗𝟗𝟗𝟗𝟗𝟗𝟗) 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑
Il y a une excellente corrélation entre le nombre de connexions sur le site et le nombre de
commandes réalisées par les visiteurs.

5) Déterminer la droite de régression Y = aX + b.


𝑪𝑪𝑪𝑪𝑪𝑪(𝒙𝒙, 𝒚𝒚) 𝟐𝟐𝟐𝟐𝟐𝟐
𝒂𝒂 = = = 𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
𝑽𝑽(𝒙𝒙) 𝟐𝟐𝟐𝟐𝟐𝟐
� − 𝒂𝒂𝒙𝒙� = 𝟓𝟓𝟓𝟓 − (𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝑿𝑿 𝟏𝟏𝟏𝟏𝟏𝟏) = 𝟓𝟓𝟓𝟓 − 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 = −𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏
𝒃𝒃 = 𝒚𝒚
Donc l’équation de la droite de régression de Y en fonction de X correspond à :
Y = 1,1003861 X – 61,139

CHAP 2 : Stats 2 variables Page 12 sur 12 M. EICHSTETTER

Vous aimerez peut-être aussi