Vous êtes sur la page 1sur 6

Mme Nemri Fatma Bayoudh 𝟒è𝐦𝐞 Sc-Exp

Statistique
I) Distributions marginales :
Définition :
Soit (𝑿, 𝒀) une série statistique double sur un échantillon de taille 𝒏 et soit (𝒙𝒊 , 𝒚𝒊 )𝟏≤𝒊≤𝒏 les valeurs
numériques prises respectivement par les variables 𝑿 𝒆𝒕 𝒀.
La distribution marginale de la variable 𝑿 est la distribution des valeurs (𝒙𝒊 )𝟏≤𝒊≤𝒏 prises par la variable 𝑿.
La distribution marginale de la variable 𝒀 est la distribution des valeurs (𝒚𝒊 )𝟏≤𝒊≤𝒏 prises par la variable 𝒀.

Définition :
Soit 𝑿 une série statistique sur un échantillon de taille 𝒏.
𝟏
̅=
la moyenne 𝑿 ∑𝒑𝒊=𝟏 𝒏𝒊 𝒙𝒊
𝒏
𝟏
la variance 𝑽(𝑿) = ̅ )𝟐 = ̅̅̅̅
∑𝒑𝒊=𝟏 𝒏𝒊 (𝒙𝒊 − 𝑿 ̅ )𝟐
𝑿 𝟐 − (𝑿
𝒏

l’écart –type , 𝝈𝑿 = √𝑽(𝑿)

Les valeurs 𝒙𝟏 , 𝒙𝟐 , … … , 𝒙𝒑 désignent les valeurs distinctes prises par la variable 𝑿 si elle est discrète, ou les centres
des classes si la variable 𝑿 est continue. L’entier 𝒏𝒊 désigne l’effectif de la valeur 𝒙𝒊 .

Exercice :
Un relevé statistique des tailles 𝑿 (en cm) et des poids 𝒀 (en kg) d’un échantillon de 100 élèves a permis de
construire le tableau suivant :

Y [40 , 45[ [45, 50[ [50 , 55 [ [55 , 60[ 1) Donner la distribution marginale de
X
X et la distribution marginale de Y.
[150,155[ 18 10 2 0
[155,160[ 3 16 5 1 2) Calculer
[160,165[ 0 5 13 5 ̅; 𝒀
𝑿 ̅ ; 𝑽(𝑿) ; 𝑽(𝒀) ; 𝝈(𝑿) et 𝝈 (𝒀)
[165,170[ 0 2 6 14

Distribution marginale de X :

Classes [150 , 155 [ [155 , 160 [ [160 , 165 [ [165 , 170 [ Total
Effectifs 100

Distribution marginale de Y :

Classes [40 , 45 [ [45 , 50 [ [50 , 55 [ [55 , 60 [ Total


Effectifs 100

𝟏 𝟏
̅=
𝑿 ∑𝟒𝒊=𝟏 𝒄𝒊 𝒏𝒊 = ……………… 𝑽(𝑿) = ̅̅̅̅ ̅ )𝟐 =
𝑿𝟐 − (𝑿 𝑵
̅ )𝟐 = ……………
∑𝟒𝒊=𝟏 𝒄𝟐𝒊 𝒏𝒊 − (𝑿
𝑵

𝟏 𝟏
̅=
𝒀 ∑𝟒𝒊=𝟏 𝒄𝒊 𝒏𝒊 = ………………. 𝑽(𝒀) = ̅𝒀̅̅𝟐̅ − (𝒀
̅ )𝟐 =
𝑵
̅ )𝟐 = ……………….
∑𝟒𝒊=𝟏 𝒄𝟐𝒊 𝒏𝒊 − (𝒀
𝑵

𝝈(𝑿) = √𝑽(𝑿) = ………… 𝝈(𝒀) = √𝑽(𝒀) = ……………

LPB 2018 – 2019 statistique Page 1


II) Covariance - Coefficient de corrélation linéaire :
1) Covariance
 Cas d’un échantillon simple : 𝑪𝒐𝒗 (𝑿, 𝒀) = 𝑿𝒀̅̅̅̅ − 𝑿 ̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝑿
̅. 𝒀 ̅. 𝒀
̅
𝒏
̅ 𝒆𝒕 𝒀
où 𝑿 ̅ sont les moyennes arithmétiques respectives des distributions (𝒙𝒊 )𝟏≤𝒊≤𝒏 et (𝒚𝒊 )𝟏≥𝒊≥𝒏
𝟏
 Cas d’un échantillon groupé : 𝑪𝒐𝒗 (𝑿, 𝒀) = ̅̅̅̅ ̅. 𝒀
𝑿𝒀 − 𝑿 ̅= ∑𝒒𝒋=𝟏 ∑𝒑𝒊=𝟏 𝒙𝒊 𝒚𝒋 𝒏𝒊𝒋 − 𝑿
̅. 𝒀
̅
𝒏
𝒏𝒊𝒋 le nombre de fois qu’apparait le couple (𝒙𝒊 , 𝒙𝒋 )

2) Coefficient de corrélation linéaire


Cov(X, Y)
On appelle coefficient de corrélation linéaire le réel r défini par : r ; r  [1,1]
(X)  (Y)
Interprétation :
La covariance est positive si 𝑿 et 𝒀 ont tendance à varier dans le même sens.
La covariance est négative si 𝑿 et 𝒀 ont tendance à varier dans des sens contraires.

Exercice :
Le tableau ci –dessous donne le poids 𝒀 (en kg) de 63 nouveaux- nés ainsi que le poids maternel 𝑿.
X ]𝟒𝟎, 𝟓𝟎] ]𝟓𝟎, 𝟔𝟎] ]𝟔𝟎, 𝟕𝟎] ]𝟕𝟎, 𝟖𝟎] Total
Y
]𝟏. 𝟓 , 𝟐. 𝟓] 1 0 1 0 2
]𝟐. 𝟓 , 𝟑. 𝟓] 11 17 131 2 43
]𝟑. 𝟓 , 𝟒. 𝟓] 4 4 8 2 18
Total 16 21 22 4 63

̅ 𝒆𝒕 𝝈𝑿 , ainsi que 𝒀
1. Calculer 𝑿 ̅ 𝒆𝒕 𝝈𝒀
2. Déterminer la covariance de 𝑿 𝒆𝒕 𝒀. Interpréter.
3. Déterminer le coefficient de corrélation linéaire

Exercice :
Calculer le coefficient de corrélation linéaire r pour la série statistique suivante :

xi 1 2 3 4 5 6 7 8 9 10
yi 200 205 211 216 220 225 240 260 280 300

III- Ajustement affine d’une série statistique double :

Lorsque le nuage des points, représentant graphiquement une série statistique à deux caractères X et Y,
a une forme allongée, on peut approcher la relation entre les deux variables X et Y par une relation affine
définie par : Y  aX  b ou X  a 'Y  b' .
On appelle ajustement affine toute méthode permettant la détermination d’une telle relation.

1) Méthode de Mayer :
La méthode de Mayer consiste à :
 Partager le nuage de points en deux parties P1 et P2 situées de part et d’autre par rapport à une droite
parallèle à l’axe des ordonnées et contenant à peu prés le même nombre de points.
 Déterminer les points moyens respectifs G 1 et G 2 des parties P1 et P2 .

LPB 2018 – 2019 Statistique Page 2


 La droite (𝑮𝟏 𝑮𝟐 ) est alors la droite d’ajustement affine du nuage de points représentant la série ,
appelée droite de Mayer et elle passe par le point moyen G du nuage global.

Exercice
Le tableau ci-dessous présente la consommation de fuel d’une habitation en fonction de la température.

Température x i en °C -5 -3 -1 2 5 7 10 13
Consommation y i de fuel /24h en L 38 36 30 29 25 20 15 12

1) Compléter le nuage de points M( x i , y i ) dans le repère ci-dessus.


2) Fractionner le nuage de points en deux parties égales.
3) Calculer les coordonnées du point moyen G 1 de la première partie du nuage.
5  3  1  2 38  36  30  29
G1 ( ; ) alors G 1 (.................................... ; ......................................... )
4 4
4) Calculer les coordonnées du point moyen G 2 de la deuxième partie du nuage.
G 2 (.................................... ; ......................................... )
5) Tracer la droite (G 1 G 2 ) .
6) Calculer les coordonnées du point moyen G du nuage. G (.................................... ; ......................................... )
7) Déterminer l’équation réduite de la droite (G 1 G 2 ) . ( y  ax  b ).
y G1  y G 2
a  ...........................................................................................................  1, 45
x G1  x G 2

b  y G1  a  x G1  .................................................................................................................  30,71 donc (G 1 G 2 ) : y  ..........................................

8) A partir de l’équation de la droite, donner une estimation de la consommation de fuel pour une
température de –10°C.

LPB 2018 – 2019 Statistique Page 3


9) Déterminer graphiquement, à l’aide de la droite d’ajustement, la température pour une consommation de
22L.

10) Retrouver le résultat précédent par le calcul à partir de l’équation de (G 1 G 2 ) .

2) Méthode des Moindres carrés :


On peut reconnaître la relation affine éventuelle entre les deux variables X et Y à l’aide d’un moyen non
graphique et en faisant intervenir la covariance Cov(X, Y) et le coefficient de corrélation linéaire r.

Théorème : X et Y deux variables statistiques observées sur une population d’effectif N.


√𝟑
 Si |𝒓| ≥ alors il y a une relation affine entre X et Y ; (Y  a X  b ; X  a ' Y  b ')
𝟐

représentées graphiquement par deux droites 𝑫𝟏 𝒆𝒕 𝑫𝟐 passant par G(X , Y) .


𝒄𝒐𝒗 (𝑿,𝒀)
𝑫𝟏 droite de régression de 𝒀 𝐞𝐧 𝑿 𝑫𝟏 ∶ 𝒚 = 𝒂𝒙 + 𝒃 𝒂𝒗𝒆𝒄 𝒂 = ̅ − 𝒂𝑿
𝒆𝒕 𝒃 = 𝒀 ̅
𝑽(𝑿)
𝒄𝒐𝒗(𝑿,𝒀)
𝑫𝟐 droite de régression de 𝑿 𝐞𝐧 𝒀 :𝑫𝟐 : 𝒙 = 𝒂′𝒙 + 𝒃′ 𝒂𝒗𝒆𝒄 𝒂′ = ̅ − 𝒂′𝒀
𝒆𝒕 𝒃′ = 𝑿 ̅
𝑽(𝒀)

Exercice :
Le tableau suivant donne l’âge 𝑿 et la tension artérielle 𝒀 de 10 personnes.
X 58 40 74 34 65 49 53 51 36 40
Y 16,7 13,1 17,2 11,6 15,5 15,1 14,2 14,4 13,0 14,2

1) Construire le nuage de points de cette série statistique. On placera l’intersection des axes au point de
coordonnées (30,13).
2) Déterminer la moyenne et la variance de chacune des variables 𝑿 𝒆𝒕 𝒀 .
3) a) Déterminer le coefficient de corrélation linéaire r .
Un ajustement affine entre 𝑿 𝒆𝒕 𝒀 est il justifié ?
b) Déterminer une équation de la droite de régression de 𝒀 en 𝑿.
c) Estimer la tension artérielle d’une personne âgée de 45 ans.

1)

LPB 2018 – 2019 Statistique Page 4


𝟏𝟎 𝒏 𝟏𝟎
𝟏 𝟏 𝟏
̅=
𝟐) 𝑿 ∑ 𝒙𝒊 = … ; ̅ )𝟐 =
𝑽(𝑿) = ∑ 𝒙𝟐𝒊 − (𝑿 ̅ )𝟐 = ⋯
∑ 𝒙𝟐𝒊 − (𝑿
𝟏𝟎 𝒏 𝟏𝟎
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
𝟏𝟎 𝒏 𝟏𝟎
𝟏 𝟏 𝟏
̅=
𝒀 ∑ 𝒚𝒊 = … ; 𝑽(𝒀) = ̅ )𝟐 =
∑ 𝒚𝟐𝒊 − (𝒀 ̅ )𝟐 = ⋯
∑ 𝒚𝟐𝒊 − (𝒀
𝟏𝟎 𝒏 𝟏𝟎
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
𝟏𝟎
𝟏 𝑪𝒐𝒗(𝑿, 𝒀) ……………
𝟑) 𝐚) 𝑪𝒐𝒗 (𝑿, 𝒀) = ̅. 𝒀
∑ 𝒙𝒊 𝒚𝒊 − 𝑿 ̅= … ; 𝒓= = =⋯
𝟏𝟎 ( ) (
𝝈 𝑿 𝝈 𝒀 ) √… … … √… … …
𝒊=𝟏

𝑪𝒐𝒗(𝑿,𝒀)
𝐛) 𝒂= = ; ̅ − 𝒂𝑿
𝒃= 𝒀 ̅=
𝑽(𝑿)
La droite de régression de 𝒀 en 𝑿 admet pour équation : 𝒀 =

c) La tension artérielle d’une personne âgée de 45 ans est : ………………………………………

Cas d’un échantillon groupé (Tableau à double entrée) : X 2 3 4


Activité : Y
On donne la série double suivant, relative aux voitures selon 20 0 8 30 38
Leur puissance 𝒀 et la durée des pneumatiques 𝑿 (en milliers de Km). 25 5 20 7 32
1) Calculer le coefficient de corrélation linéaire. 30 25 3 2 30
2) Un ajustement par la méthode des moindres carrée est-il justifié ? 30 31 39 100

1) Distribution marginale de X : 𝟑
𝟏 + +
̅=
𝑿 ∑ 𝒙𝒊 𝒏𝒊 = =
𝟏𝟎𝟎 𝟏𝟎𝟎
X 2 3 4 𝒊=𝟏
𝟑
𝒏𝒊 30 31 39 𝟏
𝑽(𝑿) = ∑ 𝒙𝟐𝒊 𝒏𝒊 − ̅̅̅̅
𝑿𝟐 = , 𝝈 (𝑿 ) =
𝟏𝟎𝟎
𝒊=𝟏

2) Distribution marginale de Y : 𝟑
𝟏
̅=
𝒀 ∑ 𝒚𝒊 𝒏𝒊 =
𝟏𝟎𝟎
𝒋=𝟏
X 20 25 30 𝟑
𝒏𝒊 𝟏
38 32 30 𝑽 (𝒀) = ∑ 𝒚𝟐𝒊 𝒏𝒊 − ̅𝒀̅̅𝟐̅ =
𝟏𝟎𝟎
𝒋=𝟏

3) Covariance de (𝑿, 𝒀) et coefficient de corrélation :


X 2 3 4
𝒏𝒊𝒋 𝟑 𝟑
Y ∑ ∑ 𝒙𝒊 𝒚𝒊 𝒏𝒊𝒋 = 𝟕𝟑𝟒𝟎
𝒙𝒊 𝒚𝒊 𝒏𝒊𝒋
0 8 30 𝒊=𝟏 𝒋=𝟏

20 0 480 2880 ̅. 𝒀
𝑿 ̅= × = 𝟕𝟔, 𝟎𝟏𝟒
5 20 7
𝑪𝒐𝒗 (𝑿, 𝒀) = − = −𝟐, 𝟔𝟏𝟒
25 700
25 3 2 Le coefficient de corrélation :
30 1500 2010 𝑪𝒐𝒗 (𝑿, 𝒀) −𝟐, 𝟔𝟏𝟒
𝒓= = ≃
2250 3340 7340 √𝑽(𝑿)√𝑽(𝒀) 𝟎, 𝟗𝟎𝟖𝟕 × 𝟒, 𝟏𝟎𝟑𝟔

LPB 2018 – 2019 Statistique Page 5


…………………………………………………………………………………………………………………
…………………………………………………………………………………

IV) Exemples d’ajustement non affine : Année Paramédicaux


Exercice : 2000 23743
Le tableau ci – contre indique l’évolution du personnel paramédical 2001 24555
tunisien dans le secteur public (techniciens supérieurs, infirmiers,
2002 25070
auxiliaires de santé…) de 2000 à 2015.
2003 25291
1) En numérotant les années de 0 à 15, déterminer les valeurs de la
série double (𝐗, 𝐈𝐧𝐘), où 𝑿 est le rang de l’année et Y est le 2004 25466
nombre de paramédicaux de l’année correspondante. 2005 25874
2) On pose 𝒁 = 𝐈𝐧 𝐘. 2006 26130
a) Calculer le coefficient de corrélation de la série (𝑿, 𝒁).et justifier
2007 26369
que l’on peut procéder à un ajustement affine par les moindres
carrés de la série (𝑿, 𝒁). 2008 26676
b) Donner la droite de régression de Z en X. 2009 27050
3) Quel sera le nombre de paramédicaux en 2020 ? 2010 27392
2011 30292
2012 28629
2013 29976
2014 29584
2015 29607

X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
lnY

A faire exercices 10 – 11 - 12 -13 pages 117 -118


Sujet BAC 2013-SP(Ex3) - Sujet BAC 2014-SP (Ex2)- Sujet bac 2016- SP (Ex 4)

Fin du chapitre.
LPB 2018 – 2019 Statistique Page 6

Vous aimerez peut-être aussi