Académique Documents
Professionnel Documents
Culture Documents
En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un
langage à se remémorer : étude d’un échantillon d’une population, mode, moyenne et médiane
puis réaliser une classification, ensuite sur la série étudiée, calculer la variance et l’écart type
pour savoir si la série est dispersée ou peu dispersée, enfin trouver les quartiles et faire un
diagramme en boîte avec positionnement de la médiane dans la boîte etc…. En terminale, nous
allons faire des statistiques sur deux variables en essayant de les relier entre elles par une relation
simple. Soit donc deux séries statistiques (xi) et (yi) i variant de 1 à n (n entier quelconque,
généralement, 5 ou 6 jusqu’à 10 quelquefois). Nous représenterons ces données dans un repère du plan
(P) par des points Mi(xi ;yi) afin de constituer ce que nous appelons un nuage de points.
Définition :
On appelle point moyen d’un nuage, le point G( x ; y ) x et y moyennes calculées dans chaque série.
Nous regardons ensuite si nous pouvons tracer une droite d’équation y = ax+b passant le plus prés
possible des points. Si cela est possible, nous dirons que nous avons réalisé un ajustement affine du
nuage de points et donc trouver une relation simple de la forme y = ax + b entre les deux variables.
Montrons un exemple :
Dans un avion, en pleine ascension nous notons la température extérieure en degrés avec l’altitude
correspondante en mètres, nous avons le tableau suivant :
Au programme, il est demandé d’utiliser la méthode dite « des moindres carrés » qui s’est
imposée à la place de la méthode de Mayer. Les coefficients sont donnés par la calculette
après avoir rentré les données concernant les deux séries statistiques.
Cela donne ici : a ≈ − 9,8 10-3 soit −0,0098 et b ≈ 23,65.
Au programme, il y a les formules donnant a et b :
Explications :
y
6
B4 (D)
5 A3 A4
4
B2 B3
3 A1
A2
2 B1
0 1 2 3 4 5 6 7 8 9 x
Il existe une droite associée au nuage Ai i variant de 1 à n (Ici 4) telle que la somme
n
S = ∑ A i Bi soit minimale. Cette droite passe par le point moyen G( x ; y ) et elle a pour
2
équation y = ax + b
C xy
a= et b = y − ax
V( x )
1 n 1 n
C xy = ∑ i
n 1
( x − x ) ( y i − y ) = ∑ x i yi − x y la covariance de x et de y et V(x) variance de x.
n 1
Faisons les calculs :
1 n 1 1 194600
C xy = ∑ ( x i − x )( y i − y) = ∑ x i y i − x y = −
n 1 n 1 6
1 n 2 19900000
V( x ) = ∑
n 1
xi − x2 =
6
Donc :
194600
C xy −
6 194600 1946
a= = =− =− ≈ −9.8 10 − 3
V( x ) 19900000 19900000 199000
6
1946
b = y − ax = 8 − − (1600) ≈ 23.65
199000
Nous retrouvons les résultats de la calculette.
Cette droite s’appelle la droite d’ajustement linéaire ou droite de régression de y par
rapport à x.
Remarque ; la calculette parle d’un coefficient r, coefficient de corrélation qui indique si
l’alignement est valable ou pas.
Règle : si |r|≈1, alors l’alignement est de bonne qualité. Ici, r ≈ −0,999.
Calcul de r :
C xy
r= ( σ l' écart type calculé sur x et y)
σx σy
La droite trouvée, tracée en rouge sur le graphique, a donc pour équation :
(D) y≈ − 0,0098x + 23,65 .
Les deux droites sont proches l’une de l’autre.
Elles passent par le point moyen G(1600 ; 8°). Nous pouvons le vérifier facilement pour
(G1G2) :
8 = 1600(−0,01)+24
Si la calculette donne un coefficient de corrélation r dont la valeur absolue est éloigné de 1,
cela veut dire qu’un ajustement affine ne se justifie pas car soit, les points ne sont pas assez
alignés soit, il y a une grande dispersion des données et un autre type d’ajustement s’impose.
En résumé :
Lorsque nous avons deux séries statistiques, nous pouvons représenter ces données dans un
repère du plan (P), cela donne un nuage de points et souvent les points sont alignés dans une
certaines direction. Il est possible alors à la machine de trouver les coefficients a et b (ou de
les calculer) de la droite d’ajustement (« Méthode des moindres carrés ») . Cette droite (D)
passe par le point moyen G(x ;y) du nuage.
Utilité : Cette droite va permettre des prévisions à court terme par le calcul.
Pour la température, nous pouvons la prédire pour 6000m par exemple :
y ≈ (−0,01)6000 + 24 = −36°
y
A2
4
2 G A3
(D)
1 A1
A4
0 1 2 3 4 5 6 7 8 x
La calculette donne G(3.25 ;1.75) et (D) y = − 0.2x+2.4 mais r ≈ − 0.2 très loin de 1 en
valeur absolue.
Nous voyons bien que la droite (D) des moindres carrés n’apporte rien dans ce cas. Les quatre
points par leur situation font penser à une parabole d’équation y = ax2 + bx + c. Il faut
déterminer a, b et c. Nous prenons A1(1 ; 1), A2(3 ; 4) et A4(5 ; 0). Ceci donne le système
suivant : (bonne révision pour la résolution de systèmes)
a + b + c = 1 (L1) a+b+c=1 (L’1) a+b+c=1
9a + 3b + c = 4 (L2) ⇔ 8a + 2b = 3 (L2 – L1)(L’2) ⇔ 8a + 2b = 3
25a + 5b + c = 0 (L3) 24a + 4b = − 1 (L3 – L1)(L’3) 2b = 10 (3L’2 – L’3)
Nous obtenons :
b=5
8a = 3 – 10 soit a = − 0.875
c = 1 – 5 + 0.875 = − 3.125
La parabole (P) a donc pour équation : y = − 0 .875x2 + 5x – 3.125
Reprenons le nuage :
y
A2
4
3 (P)
2 G A3
1 A1
A4
0 1 2 3 4 5 x
y
A4
3
A3
A2 G
2 (D)
A1
1
0 1 2 3 4 5 6 7 8 9 10 x
La calculette donne (D) y ≈ 0.20x +1.16 avec r ≈ 0.92 donc un ajustement linéaire est
possible car il faut |r| voisin de 1. Mais, un ajustement logarithmique est peut-être plus
judicieux. Nous allons chercher une fonction de la forme y = a ln x + b en prenant le premier
et le dernier point. Nous avons encore un petit système :
a ln 1 + b = 1 b=1
a ln 10 + b = 3 ⇔ a ln 10 = 2
2
a= et b = 1
ln 10
La fonction cherchée est donc :
2 ln x
y= ln x + 1 = 2 + 1 = 2 log x + 1 (Voir la leçon sur les logarithmes, nous utilisons
ln 10 ln 10
le logarithme décimal)
y
A4
3
A3
A2 G
2 (Cf)
A1
1
0 1 2 3 4 5 6 7 8 9 10 11 x
-1
y
44
A5
40
36
32 (D)
28
24
A4
20
G
16
A3
12
8 A2
4
A1
0 1 2 3 4 5 6 7 x
e 6b ln 42
42 = =e 5b
et donc 5b = ln 42 et b = ≈ 0.75
eb 5
Nous pouvons calculer a :
= a (e ln 42 )5 = a ( 42) 5 et donc a =
ln 42 1 1
1
1= a e 5
1
≈ 0.47
5
( 42)
La fonction serait donc : y ≈ 0.47 e0.75x.
Voyons le graphique :
44y
A5
40
36
32 (Cf)
28
24
A4
20
G
16
A3
12
8 A2
4
A1
0 1 2 3 4 5 6 7 x
Voilà, nous avons fait le tour des possibilités d’ajustement d’un nuage.
Passons à la fiche d’exercices.
TERMINALE ES Les statistiques
Exercice 1
Un nuage de points associés à une série statistique contient 10 points. Nous connaissons le
point moyen G1 ( x1 ; y1 ) des 5 premiers points et le point moyen G2 ( x 2 ; y 2 ) des 5 derniers
points. Peut-on trouver les coordonnées du point moyen G du nuage complet ?
Exercice 2 – Covariance
Que se passe-t-il pour la covariance si on effectue un changement d'inconnue x'i = xi – 2000 ?
Application – vérification
Si on a une série chronologique, où les xi représentent par exemples des années :
Exercice 3
Nous voulons étudier l’évolution de la population d’une commune.
Un relevé a été fait et donne le tableau suivant :
Exercice 4
On veut étudier une population animale en voie de disparition :
Année xi 1940 1950 1960 1970 1980 1990
Rang x’i 0 10 20 30 40 50
Population
en milliers yi 14000 4400 1200 200 100 30
1. Représenter graphiquement le nuage formé par les points A de coordonnées x'i et yi.
Un ajustement affine est-il adapté ? Pourquoi ?
2. Nous prenons zi = ln yi ; représenter le nuage formé par les points B de coordonnées x'i
et zi. Que constate-t-on ?
Donner une équation de la droite d'ajustement avec la méthode des moindres carrés.
3. Montrer que l'on peut exprimer y en fonction de x’ par une fonction de la forme :
y = a bx’ . Déterminer a et b.
En quelle année peut-on prévoir qu'il restera 1 seul animal de cette population ?
Faire un graphique.
L’allure de ce graphique suggère un modèle d’ajustement sous la forme f(t) = AeBt où t
désigne le rang de l’année avec comme origine 1950 et f(t) la population en milliard
d’habitants.
1) Déterminer A et B en utilisant le premier et le dernier point du nuage (Donner A et B à 10−4
prés). Dans la suite du problème, nous prendrons f(t) = 2.5 e0.018t.
2) Représenter graphiquement cette fonction.
3) A l’aide du modèle proposé, donner une estimation de l’année au cours de laquelle la
population dépassera 10 milliards d’habitants.
f ( t + 1) − f ( t )
4) Calculer
f (t)
Donner une valeur exacte puis une valeur approchée. Interpréter ce résultat.
(Faire une représentation graphique dans un repère semi logarithmique)
Exercice 6
Nous avons le tableau suivant : Entrer ces données dans une feuille de
calcul Excel.
A B C
En utilisant les commandes :
1 xi yi axi+b
=droitereg(B2 :B11 ;A2 :A11) et
2 20 50 ?
3 30 68 ? =ordonnee.origine(B2 :B11 ;A2 :A11)
4 50 108 ? déterminer a te b les coefficients de la
5 70 150 ? droite (D) d’ajustement par la méthode des
moindres carrés.
6 80 175 ?
Calculer alors axi + b
7 100 220 ?
Faire un graphique dans la feuille pour
8 120 250 ? illustrer ceci.
(En sélectionnant la colonne xi et axi + b,
nous pouvons tracer (D))
Correction
Exercice 1
La définition du point moyen d’un nuage formé par dix points est : G( x ; y)
Ici nous connaissons G1 point moyen des 5 premiers points avec :
5 5
∑xi ∑y i 5 5
x1 = 1
et y1 = 1
nous en déduisons : 5x1 = ∑ x i et 5y1 = ∑ y i
5 5 1 1
∑xi ∑y i 10 10
x2 = et y 2 =
6
nous en déduisons : 5x 2 = ∑ x i et 5y 2 = ∑ y i
6
5 5 6 6
Nous pouvons donc trouver les coordonnées de G le point moyen de tout le nuage, en effet :
10 5 10 10 5 10
∑x i ∑x + ∑x
i i ∑y ∑y + ∑y i i i
x= =
1
et y =1
= 6 1 1 6
10 10 10 10
5x + 5x 2 5y + 5y 2
x= 1 et y = 1
10 10
Exercice 2
Nous effectuons un changement d'inconnue x'i = xi – 2000. Calculons la nouvelle covariance
1 n 1 n
Cx’y : C x ' y = ∑ ( x ' i − x )( y i − y) = ∑ x 'i y i − x ' y
n 1 n 1
n n n n n
Donc si on enlève 2000 à chaque valeur, il est normal que la moyenne soit diminuée de 2000.
1 n 1 n
C x ' y = ∑ x ' i y i − x ' y = ∑ ( x i − 2000) y i − ( x − 2000)y
n 1 n 1
1 n 1 n
= ∑
n 1
x i y i − ∑ 2000 y i − xy + 2000 y
n 1
1 n 1 n
= ∑ i i
n 1
x y − x y − 2000 ∑ y i + 2000 y
n 1
1 n
= ∑ x i y i − xy − 2000y + 2000y
n 1
1 n
= ∑ x i y i − xy
n 1
Conclusion : La covariance ne change pas si on effectue un changement de variable de la
forme x’i = xi + b b étant un réel quelconque.
Remarque : Nous avons vu aussi en 1°ES, que la variance ne change pas si on effectue un
changement de variable de la forme x’i = xi + b b étant un réel quelconque. Il est donc bon
de remarque que le coefficient a de la droite d’ajustement est inchangé mais b change si on
effectue un tel changement de variable (Même chose pour les yi si cela facilite les calculs).
Conclusion : si les xi et/ou les yi sont des nombres trop grands alors on peut effectuer des
changements de variable pour rendre les calculs plus simples. La droite d’ajustement par la
méthode des moindres carrés garde le même coefficient directeur et seul b l’ordonnée à
l’origine change.
Application vérification :
xi 2001 2002 2003 2004 2005 2006 2007
x i’ 1 2 3 4 5 6 7
1 n 1 98 31 1 n 1
C xy = ∑
n 1
x i y i − x y = (196423) − ( 2004) =
7 7 7
x = ∑ x i = (14028) = 2004
n 1 7
1 n 1 98
y = ∑ y i = (98) =
n 1 7 7
1 n 1 98 31 1 n 1
Cx'y = ∑
n 1
x ' i y i − x ' y = ( 423) − (4) =
7 7 7
x ' = ∑ x i ' = (28) = 4
n 1 7
Remarque : si nous poursuivons le calcul pour avoir la droite d’ajustement dans les deux cas,
nous trouvons : V(x)=4
31
C xy 31 98 31 98 15531 15433
a= = 7 = ; b = y − ax = − (2004) = − =−
V( X ) 4 28 7 28 7 7 7
31
C xy 31 98 31 98 31 67
a= = 7 = ; b = y − ax = − ( 4 ) = − =
V( X) 4 28 7 28 7 7 7
et donc (D’) y ≈ 1.1x + 9.6
Exercice 3
xi représente le nombre d’années à partir de 1980 et yi donne le nombre d’habitants de la
commune. x = 16,4 et y = 2826. Le point moyen G aura pour coordonnées (16,4 ; 2826).
Représentons le nuage de points :
4000 M
3500 (D)
3000 G
2500
2000
1500
1000
500
-5 0 5 10 15 20 25 30 35 40 45 50 55 60 x
Le point G est bien au centre du nuage. Les points sont relativement alignés et la calculette
donne :
a ≈ 47,6 soit a ≈ 48 et b ≈ 2045,3 soit b ≈ 2045. Le coefficient de corrélation r entre x et y est
de 0,992 donc l’ajustement affine est valable.
(Pour la calculette CASIO, nous entrons les données dans le module STAT puis on choisit
REG et enfin F1). Vérifions que G appartient à la droite (D) : 48(16,4) + 2045 = 2832, il y a
une différence de 6 habitants car nous avons pris une valeur approchée pour a et b. en fait, si
nous prenons 47,603 pour a et 2045,296 pour b alors 47,603(16,4) + 2045,296 = 2825,985
donc en fait 2826.
Nous pouvons alors effectuer une prévision pour 2020 c’est-à-dire x = 40 (2020 – 1980), cela
donne une idée du nombre d’habitants pour l’avenir. y ≈ 48(40) + 2045 ≈ 3965 personnes.
Exercice 4
14000
12000
10000
8000
6000
4000
2000
-10 0 10 20 30 40 50 60 70 80 x
Nous sommes en présence d’une décroissance exponentielle et nous voyons que les points ne
sont pas assez alignés pour permettre un ajustement affine. Si nous entrons les données dans
la calculette, nous voyons que r ≈ − 0.82 donc l’ajustement affine n’est pas adapté à ce nuage.
2)
Rangs xi’ 0 10 20 30 40 50
zi = ln yi ln14000 ≈9.55 ln4400≈8.39 ln1200≈7.09 ln200≈5.30 ln100≈4.61 ln303.40
Représentons à nouveau le nuage formé par les points B de coordonnées xi’ et zi = ln yi :
0 10 20 30 40 50 60 70 80 x
2) représentation graphique :
Pour déterminer graphiquement en quelle année, nous aurons 10 milliard d’habitants sur la
terre, il suffit de tracer y = 10 et de voir le t correspondant.
Cherchons par le calcul :
2.5 e 0.018t > 10 (nous utilisons ln car si a > b > 0 alors ln a > ln b)
ln 2.5 e 0.018t > ln 10 ⇔ ln 2.5 + ln e 0.018t > ln 10 (ln e a = a)
10
ln
ln 4
Soit : 0.018t > ln 10 – ln 2.5 ou t > 2.5 donc t > et si on prend t entier t > 78.
0.018 0.018
La population mondiale d’après le modèle utilisé dépassera 10 milliards d’habitants en :
1950 + 78 soit environ en 2028.
(Nous sommes environ 7 milliards en 2011)
f ( t + 1) − f ( t ) 2.5e 0.018( t +1) − 2.5e 0.018t e 0.018( t +1) − e 0.018t e 0.018t e 0.018 − e 0.018t
4) = = =
f (t) 2.5e 0.018t e 0.018t e 0.018t
f ( t + 1) − f ( t ) e 0.018t (e 0.018 − 1)
= 0.018 t
= e 0.018 − 1
f (t) e
Ce rapport a donc pour valeur exacte e0.018 – 1 et comme valeur approchée 0.018.
Il ne dépend pas de t et donne le taux d’évolution en % soit environ 1.8% par an.
10
7
6
5
4
3
1
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 x
En fait, sur l’axe des ordonnées, nous avons ln 1, ln 2, ln 3 etc et nous écrivons 1,2 ou 3 etc..
Les points apparaissent alors bien alignés et si nous tapons la fonction f, elle apparaît comme
une droite.
Exercice 6
A B C
x y axi + b a = 2,0631295
20 50 48,6 b = 7,33273381
30 68 69,2
50 108 110,5 (Calculs par Excel des coefficients a et b de (D))
70 150 151,8
80 175 172,4 a est calculé avec :" =droitereg (B2:B8;A2:A8)"
100 220 213,6 entré dans la cellule suivant a=
b est calculé avec
120 250 254,9 : "=ordonnee.origine (B2:B8;A2:A8)"
entré dans la cellule suivant b=
(série 1) (série 2)
Dans la dernière colonne, nous avons calculé avec
x, a et b,
La droite d'ajustement a donc pour équation ;
y ≈ 2,1 x + 7,3 (approximation au dixième)
dixi (tracé rouge sur le graphique)
300
250
200
150
100
50
0
0 50 100 150
Série1 Série2
Nous avons ici un nuage ascendant et l’ajustement par une droite est valable.
valable