Vous êtes sur la page 1sur 4

Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.

fr
STATISTIQUES A DEUX VARIABLES
Lorsqu'une étude est faite sur un ensemble présentant deux caractères quantitatifs discrets, on obtient une série
statistique double (xi ; y i ) . L'économiste ou le gestionnaire cherchera s'il y a un lien de cause à effet entre ces
deux caractères, et le statisticien quantifiera ce lien.

1) Nuage de points, covariance


Définitions :
Dans un repère orthogonal bien choisi, l'ensemble des
points M i ( xi ; y i ) est appelé le nuage de points.

Si on note x la moyenne des valeurs xi et y la moyenne des


( )
valeurs y i , le point G x; y est appelé point moyen de la série
double.

Exercice sur le point moyen :

Pour mesurer la dispersion des points d'un nuage par rapport au point moyen, on utilise :
Définition :
Si ( xi ; y i ) est une série statistique double de n points, et si on note x la moyenne des valeurs xi et y la
moyenne des valeurs y i , on définit la Covariance des deux variables x et y par :

∑ (x )( )
i =n

i − x yi − y
Cov( x; y ) = i =1
(La covariance est la moyenne des produits des écarts)
n

Théorème de Koenig :
De manière analogue à la variance, il existe une formule permettant de calculer directement la covariance de
deux variables x et y :
1 i =n  1 i = n  1 i = n 
Cov( x; y ) = ∑ xi y i −  ∑ xi  ∑ y i  = xy − x × y
n i =1  n i =1  n i =1 
où xy représente la moyenne des produits xi y i

Démonstration :
1  i =n
( )(
 1  i =n
) 
i=n i =n i =n
Cov( x; y ) =  ∑ xi − x y i − y  =  ∑ xi y i − x ∑ y i − y ∑ xi + ∑ x y 
n  i =1  n  i =1 i =1 i =1 i =1 
1 i=n

=  ∑ xi y i − x × n y − y × n x + n x y 
n  i =1 
1 i =n 1 i =n
= ∑ i i
n i =1
x y − 2 x y + x y = ∑ xi y i − x y
n i =1
Autrement dit, la Covariance est égale à la moyenne du produit moins le produit des moyennes.

Page 1/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
2) AJUSTEMENTS
Suivant la forme du nuage de points M i ( xi ; y i ) , on peut essayer de trouver une fonction qui modélise le lien entre les
deux caractères x et y , de telle façon que la courbe d'équation y = f (x) passe le "plus près possible" du nuage de points

Forme « parabolique » Forme « racine » Forme « affine »


2-1) Ajustement par la droite des extrêmes
Cette méthode consiste à ajuster le nuage de points par la droite qui relie les deux points extrêmes du nuage (le
premier et le dernier)

2-2) Ajustement par la méthode de Mayer


Cette méthode consiste à diviser le nuage en deux sous-nuages, de points moyens respectifs G1 et G2 et
d’ajuster le nuage à l’aide de la droite ( G1G2 )

2-3) Ajustement affine par la méthode des moindres carrés


La méthode proposée définit ce que l'on entend par "passer le plus près possible".
On considère une série statistique double, représentée par le
nuage de points M i ( xi ; y i ) .
On cherche une droite D d'équation y = ax + b pour laquelle la
somme des carrés M i Pi 2 où les points Pi sont les projections des
points M i sur la droite soit minimale.
Autrement dit, on recherche les réels a et b tels que la somme
∑ ( yi − axi − b ) soit minimale.
2

Cette somme est appelée Somme des résidus en y.

Page 2/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
Théorème :
Cov( x; y )
La droite d'équation y = ax + b telle que a = , et qui passe par le point moyen G ( x; y ) est la droite
V ( x)
∑ (y − axi − b )
2
qui rend minimale la somme des résidus en y i

Démonstration :
i=n
Notons f (a, b) = ∑ ( y i − axi − b ) la somme des résidus en y
2

i =1
Alors :
i=n i=n i =n i=n
f (a, b) = ∑ ( y i − axi − b ) = ∑ b 2 − ∑ 2b( y i − axi ) + ∑ ( y i − axi )
2 2

i =1 i =1 i =1 i =1

( )
i =n
= nb 2 − 2nb y − a x + ∑ ( y i − axi )
2

i =1


( 1 i =n
)
= n b 2 − 2b y − a x + ∑ ( y i − axi ) 
n i =1
2

 

( ( )) ( ) 
i=n
1 1 i =n 1 i=n
= n  b − y − a x − y − a x + ∑ y i2 − ∑ 2axi y i + ∑ a 2 xi2 
2 2

 n i =1 n i =1 n i =1 

( ( )) 
i =n i=n
1 1 1 i=n
= n  b − y − a x − y + 2a x y − a 2 x + ∑ y i2 − ∑ 2axi y i + ∑ a 2 xi2 
2 2 2

 n i =1 n i =1 n i =1 

( ( ))  1 i =n 2  1 i=n  1 i =n
= n  b − y − a x + a 2  ∑ xi2 − x  − 2a ∑ xi y i − x y  + ∑ y i2 − y 
2 2

  n i =1   n i =1  n i =1 
[( ( )) + a V ( x) − 2aCov( x, y) + V ( y)]
= n b − y − ax
2 2

= n[(b − (y − a x )) + a σ ( x ) − 2aCov ( x, y ) + σ ( y ) ]
2 2 2 2

 2 2

( (
= n b − y − a x )) 2 
+  aσ ( x) −
Cov( x; y )   Cov( x; y ) 
 − 
σ ( x)   σ ( x) 
 + σ ( y )2 
  
 Cov( x; y )  σ ( x ) σ ( y ) − Cov( x; y ) 2 
2

( ( ))
2 2
2 
= n b − y − a x +  aσ ( x) −  + 
  σ ( x)  σ ( x )2 

Il est clair que f (a, b) est alors minimum si les deux premiers carrés de la somme sont nuls, à savoir si
Cov ( x; y ) Cov( x; y )
a= = et si y = a x + b
σ ( x) 2 V ( x)

Remarque :
On peut également réaliser un ajustement affine de la variable x en fonction de y.
Alors l'équation de la droite de régression de x en fonction de y est donnée par x = a ′y + b ′
Cov( x; y ) Cov( x; y )
Avec a ′ = =
σ ( y) 2 V ( y)

Page 3/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
3) Coefficient de corrélation linéaire
Définition :
Cov( x; y )
On appelle coefficient de corrélation linéaire entre les variables x et y le rapport r =
σ Xσ Y

Théorème :
1) Il a le même signe que les coefficients directeurs a et a' des droites de régression.
2) Son carré est le produit de ces coefficients : r 2 = aa ′ .
3) Le coefficient de corrélation linéaire r vérifie − 1 ≤ r ≤ 1
4) Les points M i ( xi ; y i ) sont alignés si et seulement si r = 1 ou r = −1

Démonstration :
Cov( x; y ) Cov( x; y ) σ X σ
1) On a r = = × = a× X
σ Xσ Y (σ X )
2
σY σY
Comme σ X ≥ 0 et σ Y ≥ 0 , a et r sont de même signe
Cov( x; y ) Cov( x; y )
2) Avec a = et a ′ = , on a :
V ( x) V ( y)
Cov( x; y ) Cov( x; y ) Cov( x; y ) 2 Cov( x; y ) 2
aa ′ = = = = r2
V ( x) V ( y) V ( x)V ( y ) σ ( x) σ ( y )
2 2

V ( x) Cov( x; y ) 2 V ( x) Cov( x; y ) 2
3) De plus a 2 × = 2
× = = r2
V ( y) V ( x) V ( y ) V ( x)V ( y )
La droite D de régression de y en x par moindres carrés admet une équation de la forme y = ax + b . Comme
G ∈ D , y = ax + b ⇔ b = y − ax
La somme des résidus est donnée par :
( ( ) ) = ∑ (y ( ))
i=n i =n i =n
f (a, b) = ∑ ( y i − axi − b ) = ∑ y i − a xi − x − y
2 2 2
i − y − a xi − x
i =1 i =1 i =1
i =n
[( ) (
= ∑ y i − y − 2a xi − x y i − y + a 2 x i − x
i =1
2
)( ) ( )]
2

( ) ( )( ) ( )
i =n i =n i =n
= ∑ y i − y − 2a ∑ x i − x y i − y + a 2 ∑ xi − x
2 2

i =1 i =1 i =1

= nV ( y ) − 2a × nCov( x; y ) + a × nV ( x) 2

[
= n V ( y ) − 2a × aV ( x) + a 2 × V ( x) car a = ] Cov( x; y )
V ( x)
⇒ Cov( x; y ) = aV ( x)

[ 
]
= n V ( y ) − a 2 × V ( x) = nV ( y ) 1 − a 2 ×
V ( x) 

V ( y) 
= nV ( y ) 1 − r 2 ( )

Cette somme étant positive, il en résulte que 1 − r 2 ≥ 0 ⇔ −1 ≤ r ≤ 1
Enfin Mi alignés ⇔ 1 − r 2 = 0 ⇔ r = ±1

Page 4/4

Vous aimerez peut-être aussi