Académique Documents
Professionnel Documents
Culture Documents
Stat Cours 4sc Final 2023
Stat Cours 4sc Final 2023
I) Distributions marginales
1) Définition :
X et Y désignent deux variables statistiques numériques observées sur n individus d’une même population.
Pour 1 i n , x i et y i désignent les mesures relevées respectives de X et Y.
* La distribution marginale de la variable X est la distribution des valeurs ( x i )1 i n prises parla variable X
*La distribution marginale de la variable Y est la distribution des valeurs ( yi )1 i n prises parla variable Y
Activité1
On considère la série double ( X ,Y ) , relative aux voitures selon leur puissance Y et la durée des
pneumatiques X (en millier de km)
Y 2 3 4 Totale
X
20 0 8 30 38
25 5 20 7 32
30 25 3 2 30
Totale 30 31 39 100
Dans ce tableau on peut extraire deux séries statistiques à une variable.
X 20 25 30 Y 2 3 4
ni 38 32 30 nj 30 31 39
Chacun de ces deux tableaux définit une série statistique à une variable appelée distribution marginale
1 3
1) Calculer la moyenne X n x de la série statistique ( x i )1 i 3
n i 1 i i
……………………………………………………………………………
1 3
2) Calculer la moyenne Y n y de la série statistique ( y j )1 j 3
n j 1 j j
…………………………………………………………………………
1 3
3) Calculer la variance V ( X )
n i 1
ni xi2 ( X )2 =……………………………………………………...
1 3
la variance de la variable Y : V (Y ) n j y j (Y ) …………………………………………………
2 2
n j 1
4) En déduire la valeur de l’écart-type ( X ) V ( x ) =………………
L’écart-type de la variable Y : (Y ) V (Y ) ………………
Remarque :
Si l’une des variables est continue exemple la variable alors la moyenne
La variance
L’écart-type variance
Interprétation de la covariance de X et Y
La covariance mesure la tendance qu’ont les variables X et Y à varier ensemble.
II) Ajustement
1) Introduction :
L’analyse d’un nuage de points M i ( x i , yi ) représentant une série statistique double ( x i , yi ) peut conduire à
la recherche d’une liaison entre les deux variables x et y .Une question s’impose alors peut-on trouver une
formule mathématique qui exprime le lien entre les deux variables ?.La réponse à cette question conduit à
étudier le type de la relation entre les deux variables (affine, parabolique, exponentielle,…………) on parle
d’ajustement.
1) Ajustement affine :
Définition :
Soient X et Y deux variables quantitatives, non constantes et observées dans une même population. On appelle
coefficient de corrélation linéaire du couple ( X ,Y ) le réel r ou X Y défini par :
Cov( X ,Y )
r( X ,Y ) X Y
( X ) (Y )
Propriétés
* 1 X Y 1
* X Y est invariant par changement d’unité ou d’origine.
3
* Si XY alors la corrélation linéaire entre X et Y est faible. Il est inutile de chercher à exprimer Y
2
comme fonction affine de X .
3
* Si 1 XY alors la corrélation linéaire entre X et Y est forte. On peut alors trouver une relation
2
affine entre X et Y définie par y a x b ou x a' y b' (ajustement affine est justifier)
Lorsque le nuage de points a une forme allongée, alors il est possible d’effectuer un ajustement affine du nuage
de points M i ( x i , yi )
Activité :
Le tableau suivant indique l’évolution de 2000 à 2006 du prix moyen en kilogramme, en DT d’une sorte de
poisson.
Année 2000 2001 2002 2003 2004 2005 2006
Rang de l’année x 1 2 3 4 5 6 7
Prix de y 1.2 1.7 1.8 2.6 2.7 3.2 3.3
2) Calculer cov ( X ,Y ) =
Théorème et définition :
* Les deux coefficients a et a' sont de même signe et le coefficient de corrélation X Y vérifie ² X Y a a'
4) Déterminer la droite de régression de Y en X …………………………………………………
Puis tracer la droite D dans le même repère.
Méthode de Mayer
Cette méthode d’ajustement consiste à partager les données en deux groupes de mêmes effectifs (à un prés)
après un tri de fonction des valeurs de la première variable. On calcul ensuite les coordonnées des points moyen
G1 et G 2 de chaque groupe. On construit alors la droite ( G1 G 2 ) .
La droite ( G 1 G 2 ) est appelé droite de Mayer.
Activité :
Le tableau ci-dessous donne le relevé des valeurs d’une action en DT sur 15 jours consécutifs d’une bourse.
Jour 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi
Valeur 18.8 18.9 18.9 19.5 19.2 19 19.2 19.6 19.5 19.7 19.2 19.7 19.8 20 20.5
yi
On note N 1 le nuage de points associé la série ( x i , y i ) 1 i 8
et N 2 le nuage des points restants.
On a mesuré entre 1989 et 1994 l’effet de la pollution sur la population piscicole d’une rivière.
Les résultats présentés dans le tableau suivant donnent une estimation du nombre y i de poissons, exprimé en
milliers, correspondant à l’année dont le rang est x i
…………………………………………………………………………………………………..
2) On pose z i ln( yi )
2
a- Calculer les nombres z i (on donnera une valeur approchée a 10 prés par défaut).
b- Représenter le nuage de points de la série ( x i , z i ) dans un repère orthogonal
c- Calculer le coefficient de corrélation linéaire de cette série .Justifier l’utilisation d’un ajustement affine
pour la série ( x i , z i ) …………………………………………………
………………………………………………………………………………………………