Vous êtes sur la page 1sur 6

Statistiques

I) Distributions marginales
1) Définition :

X et Y désignent deux variables statistiques numériques observées sur n individus d’une même population.
Pour 1  i  n , x i et y i désignent les mesures relevées respectives de X et Y.
* La distribution marginale de la variable X est la distribution des valeurs ( x i )1 i  n prises parla variable X
*La distribution marginale de la variable Y est la distribution des valeurs ( yi )1 i  n prises parla variable Y
Activité1
On considère la série double ( X ,Y ) , relative aux voitures selon leur puissance Y et la durée des
pneumatiques X (en millier de km)

Y 2 3 4 Totale
X
20 0 8 30 38
25 5 20 7 32
30 25 3 2 30
Totale 30 31 39 100
Dans ce tableau on peut extraire deux séries statistiques à une variable.
X 20 25 30 Y 2 3 4
ni 38 32 30 nj 30 31 39

Chacun de ces deux tableaux définit une série statistique à une variable appelée distribution marginale
1 3
1) Calculer la moyenne X   n x de la série statistique ( x i )1 i 3
n i 1 i i
……………………………………………………………………………
1 3
2) Calculer la moyenne Y   n y de la série statistique ( y j )1 j 3
n j 1 j j
…………………………………………………………………………
1 3
3) Calculer la variance V ( X )  
n i 1
ni xi2  ( X )2 =……………………………………………………...
1 3
la variance de la variable Y : V (Y )   n j y j  (Y ) …………………………………………………
2 2

n j 1
4) En déduire la valeur de l’écart-type  ( X )  V ( x ) =………………
L’écart-type de la variable Y :  (Y )  V (Y ) ………………

Remarque :
Si l’une des variables est continue exemple la variable alors la moyenne

La variance

L’écart-type variance

Où est le centre de la classe.


2) Covariance d’une série statistique double
Définition : Soit une série statistique à double variables ( X ,Y ) sur un échantillon de taille n .
On appelle covariance du couple ( X ,Y ) ; le réel noté cov ( X ,Y ) défini par :
1 p q
cov ( X ,Y )   ni j xi y j  X Y
n i 1 j 1
1 p 1 q
où ni j le nombre de fois qu’apparaît le couple ( xi , y j ) , X   ni xi , Y   n j y j
n i 1 n j 1
x1 , x2 , ..., x p les valeurs du 1er caractère quantitatif X et y1 , y2 , ..., yq celles du 2ème caractère quantitatif Y
lorsque l’une des variable est continue on prend les centres des classes ( Voir exercice résolu p102)

Interprétation de la covariance de X et Y
La covariance mesure la tendance qu’ont les variables X et Y à varier ensemble.

* La covariance est positive si X et Y ont tendance a varier dans le même sens .

* La covariance est négative si X et Y ont tendance a varier en sens contraire.

5) Calculer la covariance de cette série de l’activité 1 : cov ( X ,Y ) =…………………………………………..

II) Nuage de points


Définition :
X et Y désignent deux variables statistiques numériques observées sur n individus d’une même population.
Pour 1  i  n , x i et y i désignent les mesures relevées respectives de X et Y.

* Les n couples ( x i , yi ) forment une série statistique à deux caractères.


* Dans un repère orthogonal, l’ensemble des n points M i ( x i , yi ) constitue le nuage de points associé à cette
série statistique double.
* Le point moyen G du nuage de points M i ( x i , yi ) , 1  i  n , dans un repère, est le point G( X ,Y ) .

Activité (cas d’un échantillon simple)


On considère la série double ( X ,Y ) xi 10 11 13 15 17 18
yi 105 107 110 111 112 115

1) Ecrire les 6 couples ( x i , yi ) où 1  i  6 …………………………………………………


………………………………………………………………………………………………
L’ensemble des 6 couples est une série statistique à deux caractères.
1 6
2) Calculer la moyenne arithmétique X   x i de la série statistique ( x i )1 i  6
n i 1
……………………………………………………………………………
1 6
3) Calculer la moyenne arithmétique Y   y i de la série statistique ( y i )1 i  6
n i 1
…………………………………………………………………………
4) Représenter le nuage des points associé a cette série dans un repère orthogonal d’origine O( 10 , 100 ) .

5) Placer en rouge le point moyen G( X ,Y ) .


6) Calculer
1 6 2
V ( X )   x i  ( X )2 =…………………
n i 1
1 6
V ( Y )   y i2  ( Y )2 …………………
n i 1
En déduire les valeurs de
 ( X ) =……………………..
 ( Y )  ………………………
1 n
Cov ( X ,Y )   x i yi  X Y
n i 1
1 n
1 n
où X   x i et Y   y i
n i 1 n i 1
7) Calculer la covariance de cette série
………………………………………………..

II) Ajustement
1) Introduction :
L’analyse d’un nuage de points M i ( x i , yi ) représentant une série statistique double ( x i , yi ) peut conduire à
la recherche d’une liaison entre les deux variables x et y .Une question s’impose alors peut-on trouver une
formule mathématique qui exprime le lien entre les deux variables ?.La réponse à cette question conduit à
étudier le type de la relation entre les deux variables (affine, parabolique, exponentielle,…………) on parle
d’ajustement.
1) Ajustement affine :

Définition :
Soient X et Y deux variables quantitatives, non constantes et observées dans une même population. On appelle
coefficient de corrélation linéaire du couple ( X ,Y ) le réel r ou  X Y défini par :
Cov( X ,Y )
r( X ,Y )   X Y 
 ( X )  (Y )
Propriétés
* 1  X Y  1
*  X Y est invariant par changement d’unité ou d’origine.
3
* Si  XY  alors la corrélation linéaire entre X et Y est faible. Il est inutile de chercher à exprimer Y
2
comme fonction affine de X .
3
* Si 1   XY  alors la corrélation linéaire entre X et Y est forte. On peut alors trouver une relation
2
affine entre X et Y définie par y  a x  b ou x  a' y  b' (ajustement affine est justifier)
Lorsque le nuage de points a une forme allongée, alors il est possible d’effectuer un ajustement affine du nuage
de points M i ( x i , yi )
Activité :
Le tableau suivant indique l’évolution de 2000 à 2006 du prix moyen en kilogramme, en DT d’une sorte de
poisson.
Année 2000 2001 2002 2003 2004 2005 2006
Rang de l’année x 1 2 3 4 5 6 7
Prix de y 1.2 1.7 1.8 2.6 2.7 3.2 3.3

1) Représenter le nuage des points M i ( x i , yi ) dans


un repère orthogonal. Placer le point moyen G( X ,Y ) .

2) Calculer cov ( X ,Y ) =

3) Calculer le coefficient de corrélation


entre X et Y .
X Y =
L’ajustement affine est-il plausible ?
..................................................................................

Méthode des moindres carrés

Théorème et définition :

* La droite de régression de Y en X dans un repère orthogonal associé a la série double ( x i , yi )


est la droite qui passe par le point moyen G( X ,Y ) et a pour équation :
Cov( X ,Y )
y  a( x  X )  Y Où a 
 ²( X )
** La droite de régression de X en Y dans un repère orthogonal associé a la série double ( x i , yi )
est la droite qui passe par le point moyen G( X ,Y ) et a pour équation :
Cov( X ,Y )
x  a' ( y  Y )  X Où a' 
 ²(Y )
 D : y  ax  b
* Les deux droites de régression :  passent par le point moyen G( X ,Y )
 D' : x  a' y  b'

* Les deux coefficients a et a' sont de même signe et le coefficient de corrélation  X Y vérifie  ² X Y  a a'
4) Déterminer la droite de régression de Y en X …………………………………………………
Puis tracer la droite D dans le même repère.

Méthode de Mayer

Cette méthode d’ajustement consiste à partager les données en deux groupes de mêmes effectifs (à un prés)
après un tri de fonction des valeurs de la première variable. On calcul ensuite les coordonnées des points moyen
G1 et G 2 de chaque groupe. On construit alors la droite ( G1 G 2 ) .
La droite ( G 1 G 2 ) est appelé droite de Mayer.
Activité :

Le tableau ci-dessous donne le relevé des valeurs d’une action en DT sur 15 jours consécutifs d’une bourse.
Jour 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi
Valeur 18.8 18.9 18.9 19.5 19.2 19 19.2 19.6 19.5 19.7 19.2 19.7 19.8 20 20.5
yi
On note N 1 le nuage de points associé la série ( x i , y i ) 1 i 8
et N 2 le nuage des points restants.

a) Déterminer le point moyen G 1 de la première série…………………………………………………..

b) Déterminer le point moyen G 2 de la deuxième série………………………………………………….

c) Déterminer l’équation de la droite ( G 1 G 2 ) ……………………………………………………


…………………………………………………………………………………………………………

d) La droite ( G 1 G 2 ) passe t- elle par le point moyen G( X ,Y ) de la série totale ?


…………………………………………………………………………………………………………..

2) Ajustement non affine

Activité : (ajustement exponentiel)

On a mesuré entre 1989 et 1994 l’effet de la pollution sur la population piscicole d’une rivière.
Les résultats présentés dans le tableau suivant donnent une estimation du nombre y i de poissons, exprimé en
milliers, correspondant à l’année dont le rang est x i

Année 1995 1996 1997 1998 1999 2000


xi 1 2 3 4 5 6
yi 951.3 106.7 96.5 63.2 21 9.4
ln( yi ) 6.85 4.67 4.56 4.14 3.04 2.24

1) On considère la série statistique double ( x i , yi ) .Calculer le coefficient de corrélation linéaire entre x


et y . Expliquer pourquoi un ajustement linéaire ne parait pas bien adapté.

…………………………………………………………………………………………………..
2) On pose z i  ln( yi )
2
a- Calculer les nombres z i (on donnera une valeur approchée a 10 prés par défaut).
b- Représenter le nuage de points de la série ( x i , z i ) dans un repère orthogonal
c- Calculer le coefficient de corrélation linéaire de cette série .Justifier l’utilisation d’un ajustement affine
pour la série ( x i , z i ) …………………………………………………
………………………………………………………………………………………………

d- Déterminer l’équation de la régression de z en x .Tracer cette droite sur le même repère


……………………………………………………………………………………………..
……………………………………………………………………………………………..
3) On suppose que l’évolution de cette population
se poursuit sur le même modèle.

a. A partir de quelle année cette


population sera-t-elle strictement
inférieure à 1000.

b. Donner une estimation de la population


de cette rivière en l’année 2006.

Vous aimerez peut-être aussi