Vous êtes sur la page 1sur 8

1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Statistiques deux variables

Table des matires


I Position du problme. Vocabulaire 2
I.1 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
I.2 Le problme de lajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.3 Point moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

II Ajustements 4
II.1 Ajustement la rgle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.2 Mthode de Mayer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.3 Mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II.4 Ajustement exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
II.5 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

III Coefficient de corrlation linaire 8

http://nathalie.daval.free.fr -1-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Le problme qui se pose dans les sries statistiques deux variables est principalement celui du lien qui
existe ou non entre chacune des variables.

Le texte en bleu concerne les calculatrices (TI et Casio)

I Position du problme. Vocabulaire

Par soucis de clart, ce cours est labor partir de lexemple suivant :

Exemple
Le tableau suivant donne lvolution du nombre dadhrents dun club de rugby de 2001 2006.

Anne 2001 2002 2003 2004 2005 2006


Rang xi 1 2 3 4 5 6
Nombre dadhrents yi 70 90 115 140 170 220

Le but est dtudier cette srie statistique deux variables (le rang et le nombre dadhrents) afin de prvoir lvolution du
nombre dadhrents pour les annes suivantes.

I.1 Nuage de points

La premire tape consiste raliser un graphique qui traduise les deux sries statistiques ci-dessus.

Dfinition 1
Soit X et Y deux variables statistiques numriques observes sur n individus.


Dans un repre orthogonal (O; i ; j ), lensemble des n points de coordonnes (xi , yi ) forme le
nuage de points associ cette srie statistique.

Dans notre exemple, si on place le rang en abscisses, et le nombre dadhrents en ordonnes, on peut
reprsenter par un point chaque valeur. On obtient ainsi une succession de points, dont les coordonnes sont
(1; 70), (2; 90), ... (6; 220), forment un nuage de points.

Question 1
Dans le plan muni dun repre orthogonal dunits graphiques : 2 cm pour une anne sur laxe des abscisses et 1 cm pour
20 adhrents sur laxe des ordonnes, reprsenter le nuage de points associ la srie (xi ; yi ).

T.I. Casio
Touche STAT Menu STAT
Menu EDIT Entrer les valeurs xi dans List1
Entrer les valeurs xi dans L1 Entrer les valeurs yi dans List2
Entrer les valeurs yi dans L2
Choisir GRPH
Rgler les valeurs du repre avec la touche
WINDOWS Rgler les paramtres avec SET
Appuyer sur la touche TRACE Choisir GPH1

http://nathalie.daval.free.fr -2-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Nombre dadhrents

+
260 Cf D2

240
D1
220 b

200
G2
180
b

160

140 G b

120 b

100 G1
b

80
b

60

40
+

20

0
0 1 2 3 4 5 6 7 8 Rang

I.2 Le problme de lajustement

Le nuage de points associ une srie statistique deux variables donne donc immdiatement des informa-
tions de nature qualitatives.
Pour en tirer des informations plus quantitatives, il nous faut poser le problme de lajustement.

Le trac met en vidence la possibilit de "reconnatre" graphiquement la possibilit dune relation fonction-
nelle entre les deux grandeurs observes (ici rang et nombre dadhrent).
Le problme de ltablissement dune relation fonctionnelle entre les deux sries est le problme de lajustement.

I.3 Point moyen

Dfinition 2
Soit une srie statistique deux variables, X et Y , dont les valeurs sont des couples (xi ; yi ).
On appelle point moyen de la srie le point G de coordonnes
x1 + x2 + + xn
xG = .
n
y1 + y2 + + yn
yG = .
n

http://nathalie.daval.free.fr -3-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Question 2
Dterminer les coordonnes des points moyens suivants :
G1 des annes allant de 2001 2003,
G2 des annes allant de 2004 2006,
G, point moyen du nuage de points tout entier.

(
1+2+3
xG1 = 3 = 2
Calcul des coordonnes de G1 : 70+90+115
donc, G1 ( 2 ; 91, 7 ) .
y G1 = 3 = 91, 7
(
4+5+6
xG2 = 3 = 5
Calcul des coordonnes de G2 : 140+170+220
donc, G2 ( 5 ; 176, 7 ) .
y G2 = 3 = 176, 7
(
1+2+3+4+5+6
xG = 6 = 3, 5
Calcul des coordonnes de G : 70+90+115+140+170+220
donc, G( 3, 5 ; 134, 2 ) .
yG = 3 = 134, 2

II Ajustements

II.1 Ajustement la rgle

On se propose, partir des rsultats obtenus, de faire des prvisions pour les annes venir.
Un poyen dy parvenir est de tracer au juger une droite D passant le plus prs possible des points du nuage
et den trouver lquation du type y = ax + b.

II.2 Mthode de Mayer

Cet ajustement consiste dterminer la droite passant par deux points moyens du nuage de point.

Question 3
Dterminer lquation de la droite D1 qui passe par les points moyens G1 et G2 et la tracer sur le graphique prcdent.

La droite D1 nest pas parallle laxe des ordonnes, elle a donc pour quation y = ax + b avec :
y G2 y G1
a= = 176,791,7
52 = 28, 3.
xG2 xG2
De plus, elle passe par le point G1 ( 2 ; 91, 7 ) do :
yG1 = axG1 + b 91, 7 = 28, 3 2 + b b = 35, 1.

Conclusion : D1 : y = 28, 3x + 35, 1 .

Pour tracer D1 , il suffit de placer G1 et G2 puis de tracer la droite qui les relie.

II.3 Mthode des moindres carrs

Il sagit dobtenir une droite quidistante des points situs de part et dautre delle-mme.
Pour raliser ceci, on cherche minimiser la somme des distances des points la droite au carr.

On considre une srie statistique deux variables reprsente par un nuage justifiant un ajustement affine.

http://nathalie.daval.free.fr -4-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Dfinition 3
Dans le plan muni dun repre orthonormal, on considre un nuage de n points de coordonnes (xi ; yi ).
La droite D dquation y = ax + b est appele droite de rgression de y en x de la srie statistique ssi la
quantit suivante est minimale :
n
X n
X
2
(Mi Qi ) = [yi (axi + b)]2
i=1 i=1

Mi D
yi b

axi + b b

Qi

xi

Remarque 1 n
X
Il serait tout aussi judicieux de sintresser la droite D qui minimise la quantit [xi (ayi + b)]2 .
i=1
Cette droite est appele droite de rgression de x en y.

Dfinition 4
On appelle covariance de la srie statistique double de variables x et y le nombre rel
n
1X
cov(x, y) = xy = (xi x)(yi y).
n i=1

Pour les calculs, on pourra aussi utiliser :


n
1X
xy = xi yi xy.
n i=1
Remarque 2
On a : cov(x, x) = x2 = V (x) = [(x)]2 .

Proprit 1
La droite de rgression D de y en x a pour quation y = ax + b o
xy
a=
[(x)]2

b vrifie y = ax + b.

http://nathalie.daval.free.fr -5-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

Remarque 3
Les rels a et b sont donns par la calculatrice.

T.I. Casio
Touche STAT Menu STAT

Menu CALC Item CALC


Rgler les paramtres avec set
Item LinReg
Item REG
LinReg L1 , L2
Choisir X

Proprit 2
Le point moyen G du nuage appartient toujours la droite de rgression de y en x.

Question 4
Dterminer une quation de la droite dajustement D2 de y en x obtenue par la mthode des moindres carrs et la tracer
sur le graphique prcdent.

La calculatrice donne D2 : y = ax + b avec a = 29 et b = 32, 7.

Conclusion : D2 : y = 29x + 32, 7

Pour tracer la droite D2 , il faut choisir deux points (au moins) sur cette droite.
x 0 8
Par exemple : , les placer dans le repre puis tracer la droite.
y 32, 7 264, 7

II.4 Ajustement exponentiel

On remarque quun ajustement affine ne semble pas trs appropri pour ce nuage de points partir de 2006,
on se propose de dterminer un ajustement plus juste.

Question 5
On pose z = ln y. Recopier et complter le tableau suivant en arrondissant les valeurs de zi au millime.

xi 1 2 3 4 5 6
zi 4, 248

Il suffit de calculer ln yi pour chaque caleur de i :

xi 1 2 3 4 5 6
zi 4, 248 4, 500 4, 745 4, 942 5, 136 5, 394

On peut dterminer les lments de ce tableau grce la calculatrice :

http://nathalie.daval.free.fr -6-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

T.I. Casio
Touche STAT Touche STAT
Menu EDIT Menu EDIT
Se placer dans L3 Se placer dans List3
Entrer la formule "= ln L2 " Entrer la formule "= ln List2"

Question 6
Dterminer une quation de la droite dajustement D3 de z en x obtenue par la mthode des moindres carrs.

La manipulation la calculatrice est la mme que prcdemment, en oubliant pas de changer les paramtres.

La calculatrice donne D3 : z = ax + b avec a = 0, 224 et b = 4, 045.

Conclusion : D3 : z = 0, 224x + 4, 045 .

Question 7
Dans ce cas, en dduire la relation qui lie y x puis tracer la courbe reprsentative de la fonction y = f (x).

(
z = 0, 224x + 4, 045
On a donc : ln y = 0, 224x + 4, 045
z = ln y

On compose par la fonction exponentielle : eln y = e0,224x+4,045


= (e0,224 )x e4,045
= (1,251)x 57, 111

Conclusion : y = 57, 111 1, 251x .

Pour tracer la courbe, il suffit de placer des points, par exemple grce au tableau de valeurs de la calculatrice.

II.5 Comparaison

Grce aux trois derniers ajustements, on peut valuer ce qui se passera plus tard, comparons les :

Question 8
En supposant que les ajustements restent valables pour les annes suivantes, donner une estimation du nombre dadhrents
en 2007 suivant les trois mthodes.

Dans tous les cas, il faut calculer y lorsque x correspond lanne 2007, cest dire au rang 7.

Mthode de Mayer : y = 28, 3 7 + 35, 1 = 233, 2 soit environ 233 adhrents .


Ajustement affine : y = 29 7 + 32, 7 = 235, 7 soit environ 236 adhrents .
Ajustement exponentiel : y = 57, 112 1, 0247 = 273, 9 soit environ 274 adhrents .

Question 9
En 2007, il y a eu 280 adhrents. Lequel des trois ajustements semble le plus pertinent ?

Le troisime ajustement semble le plus pertinent puisquil se rapporche le plus de la ralit.

http://nathalie.daval.free.fr -7-
1re BT S DOM OT IQU E Statistiques deux variables 2008-2010

III Coefficient de corrlation linaire

Dfinition 5
Le coefficient de corrlation linaire dune srie statistique de variables x et y est le nombre r dfini par :
xy
r= .
(x) (y)

Ce coefficient sert mesurer la qualit dun ajustement affine.

Interprtation graphique :
Plus le coefficient de rgression linaire est proche de 1 en valeur absolue, meilleur est lajustement linaire.
Lorque r = 1, la droite de rgression passe par tous les points du nuage, qui sont donc aligns.

Question 10
Dterminer le coefficient de corrlation linaire dans le cas de lajustement affine (entre x et y), puis exponentiel (entre x
et z). Quel est lajustemet le plus juste ?

Grce la calculatrice, on trouve successivement r2 = 0, 987 puis r3 = 0, 999.


Ce qui est conforme ce que nous avions dduit prcdemment, savoir que lajustement exponentiel est
plus fiable pour ce cas.

Proprit 3
Le coefficient de corrlation linaire r vrifie 1 r 1.

http://nathalie.daval.free.fr -8-