Vous êtes sur la page 1sur 7

MR: LATRACH: STATISTIQUES 4ème MATH et 4ème SC

LYCEE PILOTE ARIANA Il y a trois sortes de mensonges : 2014/2015


les mensonges, les sacrés mensonges et les statistiques [Mark Twain]

I - Rappels : Série statistique simple

1 ) Vocabulaire :
• L'ensemble des éléments sur lesquels porte une étude statistique s'appelle ………………...
• Un élément de cette population s'appelle ……………..
• La propriété étudiée chez une population s'appelle ……………...
• Un caractère peut être traduit par des mots , dans ce cas on dit que ce caractère est ……………..
Par contre s'il se traduit par un nombre on dit qu'il est ………………...
Dans ce qui suit, on va s'intéresser à des caractères quantitatifs.
• Dans la suite un caractère est noté x, y ou z..
• Les valeurs prises par le caractère x seront en nombre fini, notés : x1, x2, …., xp.

2 ) Paramètre d'une série statistique


• Une série statistiques simple sera définie a l'aide d'un tableau.

Valeurs du caractère :xi x1 x2 … xp


Effectif :ni n1 n2 … np
1
• Moyenne d'une série statistique : x =
N
 n i x i , N = n1 +n2 + … + np , N désigne l'effectif total.
2
• Variance d'une série statistique : V(x) = x 2  x .
• Ecart type d'un série statistique : (x) = V( x )
Lorsqu'on a la moyenne x , les paramètre V(x) et (x) permettent de savoir si les xi sont proches de cette
moyenne ou éloignés. Plus V(x) et (x) sont « petits » plus les xi sont rapprochés de x .

II- Série statistique double


Cette année, dans une population on va étudier deux caractères, x et y, et on va chercher s'il existe une
relation entre ces deux caractères, si c'est le cas on dit qu'il y a corrélation entre ces deux caractères.
Ainsi, il s'agit donc de détecter d'abord si un caractère varie en fonction de l'autre , ensuite trouver un modèle
de dépendance , c'est-à-dire de trouver une fonction f telle que l'on puisse écrire y = f(x).
Connaissant alors f , et une valeur de x qu'on ne peut pas observer, on peut a l'aide de f trouver y, ainsi on
peut faire des estimations et des prédictions pour le future a moyen terme.
Cette année on va faire simple puis qu'on va essayer de trouver des fonctions affines, donc du type
f(x) = ax + b
1 ) Nuage de points
On définit une série statistique double (ou à deux variables), on observant deux critères (ou caractères) x et
y sur une même population de taille n.
Les valeurs prises par x sont noté x1, x2, … ,xn.
Les valeurs prises par y sont notés y1, y2, … , yn.
Cette série statistique double sera notée (x,y)
L'ensembles des points Mi (xi, yi), rapporté à un repère orthogonal est appelé nuage de points de la série
statistique (x,y).
Le point G( x , y ) est appelé point moyen de la série (x,y) .

2 ) Covariance d'un série double


La covariance de la série double (x,y) est le réel noté :
1
cov(x,y) =
n
 x i y i - x y = xy  x y ( Peut être obtenue par la calculatrice)

1Page La mathématique universelle... est une logique de l'imagination


Pour une série double (x,y), la covariance mesure la tendance qu'ont les deux variables x et y à varier
ensemble , c'est-à-dire à être dépendante l'une de l'autre ( du moins en apparence).
Si l'une des variable varie beaucoup tandis que l'autre varie peu, cela se traduira par une covariance faible :
les variables seront alors considérées comme relativement indépendantes.
Une covariance négative signifie que l'accroissement de l'une des variables coïncide avec une
décroissance de l'autre.

3 ) Coefficient de corrélation
cov(x, y)
Le réel noté XY= s'appelle cœfficient de corrélation (obtenu par la calculatrice) .
(x) (y)
On a: -1 ≤ XY ≤ 1
Lorsque on a une série statistique double on se demande toujours si X et Y sont liés par une relation affine
c’est a dire est il utile de faire un ajustement linéaire, bien sur si le nuage de points associé à cette série à
une forme allongée, on peut affirmer que X et Y sont liées par une relation affine , cependant si on n’a pas le
nuage de points , le réel r permet de décider si X et Y sont liés par une relation affine

3
On convient que Si XY> alors l’ajustement affine est justifié et les prédictions faites au moyen
2
de cet ajustement sont raisonnables.
Rque : Si le coefficient de corrélation est très proche de 1 , L’ajustement est donc justifié

4 ) Droite de régression
Faire un ajustement linéaire d'un nuage de points statistique, c'est choisir une droite et décider qu'elle donne
un bonne approximation du nuage. On utilise cette droite pour prédire.
La droite de régression de y en x est :
cov(x, y)
D1 : y = b x + a avec b = et a = y  b x ( a et b sont donnée par la calculatrice)
V(x)

La droite de régression de x en y :
cov(x, y)
D2 : x = b' y + a' avec b’ = et a’ = x  b' y ( a’ et b’ peuvent être obtenus par la calculatrice)
V(y)
Les droites D1 et D2 passent par le point moyen G.
Formules utiles :
²
bb' = ²XY (x,y) ainsi b' = XY (Ainsi b’ peut être obtenu a partir de XY et de b)
b
cov(x,y) = (x) (y) XY . (Ainsi cov(x,y) peut être obtenu a partir de (x), (y) et XY .

5 ) Droite de Meyer
On scinde le nuage de points en deux parties contenant a peu près le même nombre de points. On considère
alors les points moyen G1 et G2 des deux nuages obtenus.
La droite (G1G2) définit un ajustement affine du nuage du point représentant la série statistique double.
(G1G2) passe par le point moyen G.

6 ) La calculatrice :
Casio fx- 570 ES ou ES plus ou Casio fx- 991 ES plus
Pour entrer dans le mode statistique a deux variable :
MODE 3 2
Un tableau à trois colonnes apparait sur l’écran de la calculatrice : une colonne X pour les xi, une colonne Y pour
yi et une colonne Freq pour les nij ( frequency).
Si la colonne Freq n’apparait pas alors

2
MR: LATRACH: STATISTIQUES 4ème MATH et 4ème SC
LYCEE PILOTE ARIANA Il y a trois sortes de mensonges : 2014/2015
les mensonges, les sacrés mensonges et les statistiques [Mark Twain]

SHIFT MODE 4 (Stat) 1 (ON).


Pour introduire les données :

• Dans la colonne X introduire les xi , après chaque xi appuyer sur =


• Dans la colonne Y introduire les yi. après chaque yi appuyer sur =
• Dans la colonne FREQ introduire les nij s’ils sont différents de 1.
Une fois les données introduites appuyer sur ON pour sortir du tableau.
Pour revenir au tableau : SHIFT 1 (Stat) 2 (DATA)
Pour effacer toutes les données du tableau : SHIFT 1 (Stat) 3 (Del-A)
Pour afficher les paramètres
x : shift 1 (STAT) 5 (Var) 2 ( x ) =
y : shift 1 (STAT) 5 (Var) 5 ( y ) =
r : shift 1 (STAT) 7 (Reg) 3 =
b : shift 1 (STAT) 7 (Reg) 2 =
a : shift 1 (STAT) 7 (Reg) 1 =
(X) = shift 1 (STAT) 5 (Var) 3 (xn) =

(Y) = shift 1 (STAT) 5 (Var) 6 (yn) =


cov(X,Y) : shift 1 (STAT) 7 (Reg) 3  shift 1 (STAT) 5 (Var) 3 (xn)  shift 1 (STAT) 5
(Var) 6 (yn) = ( cov(x,y) = XY (x) (y) )

III- Population a effectif élevé

Considérons le tableau suivant indiquant la taille en cm et le poids en kg de 100 enfants nés dans une
maternité.

Poids(y) [2; 2,6[ [2,6; [3,2;3,8 [3,8;4,4[ [4,4; Total


Taille(x) 3,2[ [ 5[
[43,45[ 2 0 0 0 0 2 L1
[45, 48[ 3 16 4 0 0 23 L2
[48,51[ 1 13 34 7 0 55 L3
[51, 54[ 0 3 4 10 0 17 L4
[54,57[ 0 0 0 2 1 3 L5
Total 6 32 42 19 1 100 L6
C1 C2 C3 C4 C5 C6

 16 est l’effectif d’individus ayant poids compris entre 2,6 et 3,2 et une taille entre 45 et 48 cm
 La ligne L4 : est la distribution conditionnelle de y dans la classe [ 51,54 [
 La colonne C3 : est la distribution conditionnelle de x dans la classe [3,2 ; 3,8[
 la colonne C6( total) donne les effectifs des classes du caractère x elle s'appelle distribution marginale par
rapport à x.
 La ligne L6 ( total) donne les effectifs des classes du caractère y , elle s’appelle distribution marginale par
rapport à y.

3Page La mathématique universelle... est une logique de l'imagination


2 ) Compléter :

la ligne 2 est :
La ligne 3 est :
...
La colonne 2 est :
La colonne 3 est

3 ) a / Déterminer la distribution conditionnelle des bébés ayant une taille appartenant à la classe
[45, 48[. Quelle est la moyenne des poids des individus de cette class
b / Donner la moyenne et la variance et l’écart type de chaque distribution marginal

IV-Applications
EXERCICE 1
On donne le tableau suivant
J F M A M J J A S O N D
Précipitations 36 49 40 35 38 33 13 27 65 67 69 61
(en mm)
Température 5,5 6,6 10 13 16, 20, 23, 22, 19, 15 10, 6,9
(en ° C) 8 8 3 8 9 2

1 ) Quelle est la population étudiée ? Quels sont les caractères étudiés ? Sont ils quantitatifs ou
qualitatifs ?
Soit X le caractère « précipitations » dont les valeurs seront notées de x1 à x12 et Y le caractère
« température » de valeurs y1, ..., y12.
2 ) a / Déterminer X , Y puis le point moyen G.
b / On note chaque point Ai(xi ; yi),
Construire dans un plan rapporté à un repère orthogonal judicieusement choisi le nuage de points A i
associé à cette série.
d /D’après ce nuage de points est il utile de faire un ajustement linéaire ? Justifier par le calcul.

EXERCICE 2
Age x 36 42 48 54 60 66
Tension y 11,8 14 12,6 15 15,5 15,1
Le tableau ci-dessus donne l’âge x et la moyenne y des tensions maxima de tension artérielle en
fonction de l’âge de la population féminine :
1 ) Représenter graphiquement le nuage de points associé à la série (xi, yi ). Que suggère la forme de
ce nuage ?

2 ) a / Déterminer le coefficient de corrélation r de cette série. est il légitime de faire un ajustement


linéaire ? Justifier.
b / Donner une équation cartésienne de la droite de régression y en x
c / Déterminer graphiquement la tension maximale d’ une personne de 50 ans ?
EXERCICE 3
On s’intéresse à l’évolution du parc automobile dans une ville donnée.

4
Année 1970 1974 1980 1985 1990 1995 1996 1997
Rang de l’année xi 1 5 11 16 21 26 27 28
Nombre de voitures yi 11,8 14,6 18,4 24,7 26,7 27,7 27,8 25,5
( en milliers )
1 ) Représenter le nuage de points Mi(xi, yi ) associé à cette série statistique double dans un repère
orthogonal où 0,5 cm représente une année en abscisse et 1cm représente mille voitures en
ordonnées ( en commençant la graduation à 10 milles ).
2 ) a / Déterminer le point moyen G de cette série statistique double et le placer sur la figure. Calculer
la covariance cov(x, y).
b / Calculer le coefficient de corrélation linéaire r de cette série. Un ajustement affine de cette série
est il justifié ?
c / Déterminer une équation de la droite de régression de y en x et la tracer.
3 ) En supposant que ce modèle reste valable jusqu’ à l’an 2003 , faire une estimation du nombre de véhicules
dans cette ville.
EXERCICE 4
Pour dater les ossements d’animaux préhistoriques, on utilise couramment la méthode « carbone
14 » . On admet que tant que l’animal est vivant, la quantité de carbone 14 dans son organisme est
constante et qu’elle est égale à 100. Après la mort de l’animal, la quantité de carbone 14 s’amenuise
progressivement. On donne le tableau suivant
:
Age des ossements ti 6 10 12 15 18
(en milliers d’années )
Quantité de carbone restante yi 48 30 23 16 11
1) a / Représenter le nuage des points de la série ( ti , yi ). Un ajustement linéaire de cette série est
il justifié ? Vérifier par le calcul.
b / Déterminer t , y et cov (t,y).
c / Donner une équation de la droite de régression de y en t .
2 ) On pose xi = ln ti.
a / Présenter dans un tableau la série (xi , yi ), en prenant pour xi une valeur approchée à 0,01 par défaut.
b / Calculer le coefficient de corrélation r’ de cette série.
c / Donner une équation de la droite de régression de y en x de cette série par la méthode des moindres
carrés .
3 ) On a mis à jour des ossements dont la teneur en carbone 14 est 40.
Estimer de la manière la plus précise l’âge de ces ossements. Justifier votre choix.
CORRECTION
EXERCICE 1

1 )  La population étudiée est l’ensemble des mois de l’année.


 Les caractères étudiés sont précipitation et température.
 Ces deux caractères sont quantitatifs.
n
1
2) a/ X =
n
 xi = 44,417 ( On donne la formule puis avec la calculatrice on donne la
i=1
valeur numérique )
Y = 14,233 G(44,17 ; 14,33).
b/ Nuage des points

5
Le nuage de points obtenu n’a pas une tendance à l’alignement donc il n’est pas utile de faire un
ajustement linéaire.
cov(x,y)
Ce résultat est confirmé par le calcul de XY, en effet XY = = -0,4289 et XY < 0,75.
(x) (y)
EXERCICE 2
1 ) Nuage des points :
On constate que le nuage de point a une forme allongée donc les caractères x et y sont liés par
une relation affine.

cov(x,y)
2) a / On a : XY = = 0,8335 > 0,75, donc il est utile de faire un ajustement linéaire.
(x) (y)
b / Droite de régression de y en x :
cov(x,y)
On a : y = bx + a avec b = et a = y - a x
(x)2
Droite de régression y en x : y = 8,317142 + 0,1114286 x.

3 ) Pour déterminer graphiquement la tension maximale que devrait avoir une personne de 50, on
lit sur le graphique l’ordonnée du point de la droite de régression dont l’abscisse est 50
On lit la tension 13.6.
EXERCICE 3

1 ) Nuage du point :
2) a / On a : X = 16,875 , Y = 22,15 donc le point
moyen G(16,875 ,22,15).
Cov(x,y) = XY - X Y
=54,70625
b / Coefficient de corrélation :
cov(x,y)
XY = = 0,95306572
(x) (y)
Comme r XY  > 0,75 alors un ajustement linéaire par la méthode des moindres carrés est
justifié.
c / Droite de régression de y en x :

Stat(Correction) 6
Stat(Correction)

cov(x,y)
On a : y = bx + a avec b =
(x)2
et a = y - a x
En utilisant la calculatrice on obtient :
y = 0,5797648 x + 12,36647
3 ) Estimation pour l’an 2003 :
Le rang de l’an est : x = 2003 - 1970 + 1 = 34
ainsi pour x = 34 on a : y = 0,5797648*34 + 12,36647=32,0784732
Ainsi dans l’an 2003, le nombre de voiture dans cette ville est environ 32 000 voitures

EXERCICE 4
1 ) a / Nuage des points
Le nuage des points a une forme allongée donc un ajustement linéaire de cette serie est justifié.
On peut vérifier ceci par le calcul en calculant le coefficient de corrélation r.
cov(x,y)
On a : XY = =-0,9766 et par suite XY > 0,75.
(x) (y)
n
b / On a : t = 1  ti = 12,2 ,
n
i=1
n
y = 1  yi = 25,6 ,
n
i=1
cov (x,y) = ty - t y = -51,92
c / Droite de régression de y en t :
y = bt + a avec b = cov(x,y) et
s(x)2
a= y -b t .

y =-3,061321 t + 62,94811

2 ) On pose xi = ln (ti)
a/
ti 6 10 12 15 18
ln (ti ) =
xi 1,79 2,30 2,48 2,71 2,89
yi 18 30 23 16 11
b / Coefficient de corrélation r’ :
’XY = -0,9987 ,
c / Droite de régression de y en x :
 y = -33,99822 x + 108,3517
3 ) Comme ’XY est plus proche de -1 que r, donc la deuxième série a meilleur tendance
à l’alignement que la première , donc les estimation avec la deuxième série sont plus
précise que la première. ici on a :y = 40 ñ 40 = -33,99822x + 108,3517
ñ -33,99822x = 40 - 108,3517 ñ x = 2,010449371
ñ ln (t) = 2,010449371
ñ t = e 2,010449371 = 7,466671899 ainsi l’âge de ces ossements est de environ 7 500 ans

7 La mathématique universelle... est une logique de l'imagination

Vous aimerez peut-être aussi