Académique Documents
Professionnel Documents
Culture Documents
fr
STATISTIQUES A DEUX VARIABLES
Lorsqu'une étude est faite sur un ensemble présentant deux caractères quantitatifs discrets, on obtient une série
statistique double (xi ; y i ) . L'économiste ou le gestionnaire cherchera s'il y a un lien de cause à effet entre ces
deux caractères, et le statisticien quantifiera ce lien.
Pour mesurer la dispersion des points d'un nuage par rapport au point moyen, on utilise :
Définition :
Si ( xi ; y i ) est une série statistique double de n points, et si on note x la moyenne des valeurs xi et y la
moyenne des valeurs y i , on définit la Covariance des deux variables x et y par :
∑ (x )( )
i =n
i − x yi − y
Cov( x; y ) = i =1
(La covariance est la moyenne des produits des écarts)
n
Théorème de Koenig :
De manière analogue à la variance, il existe une formule permettant de calculer directement la covariance de
deux variables x et y :
1 i =n 1 i = n 1 i = n
Cov( x; y ) = ∑ xi y i − ∑ xi ∑ y i = xy − x × y
n i =1 n i =1 n i =1
où xy représente la moyenne des produits xi y i
Démonstration :
1 i =n
( )(
1 i =n
)
i=n i =n i =n
Cov( x; y ) = ∑ xi − x y i − y = ∑ xi y i − x ∑ y i − y ∑ xi + ∑ x y
n i =1 n i =1 i =1 i =1 i =1
1 i=n
= ∑ xi y i − x × n y − y × n x + n x y
n i =1
1 i =n 1 i =n
= ∑ i i
n i =1
x y − 2 x y + x y = ∑ xi y i − x y
n i =1
Autrement dit, la Covariance est égale à la moyenne du produit moins le produit des moyennes.
Page 1/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
2) AJUSTEMENTS
Suivant la forme du nuage de points M i ( xi ; y i ) , on peut essayer de trouver une fonction qui modélise le lien entre les
deux caractères x et y , de telle façon que la courbe d'équation y = f (x) passe le "plus près possible" du nuage de points
Page 2/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
Théorème :
Cov( x; y )
La droite d'équation y = ax + b telle que a = , et qui passe par le point moyen G ( x; y ) est la droite
V ( x)
∑ (y − axi − b )
2
qui rend minimale la somme des résidus en y i
Démonstration :
i=n
Notons f (a, b) = ∑ ( y i − axi − b ) la somme des résidus en y
2
i =1
Alors :
i=n i=n i =n i=n
f (a, b) = ∑ ( y i − axi − b ) = ∑ b 2 − ∑ 2b( y i − axi ) + ∑ ( y i − axi )
2 2
i =1 i =1 i =1 i =1
( )
i =n
= nb 2 − 2nb y − a x + ∑ ( y i − axi )
2
i =1
( 1 i =n
)
= n b 2 − 2b y − a x + ∑ ( y i − axi )
n i =1
2
( ( )) ( )
i=n
1 1 i =n 1 i=n
= n b − y − a x − y − a x + ∑ y i2 − ∑ 2axi y i + ∑ a 2 xi2
2 2
n i =1 n i =1 n i =1
( ( ))
i =n i=n
1 1 1 i=n
= n b − y − a x − y + 2a x y − a 2 x + ∑ y i2 − ∑ 2axi y i + ∑ a 2 xi2
2 2 2
n i =1 n i =1 n i =1
( ( )) 1 i =n 2 1 i=n 1 i =n
= n b − y − a x + a 2 ∑ xi2 − x − 2a ∑ xi y i − x y + ∑ y i2 − y
2 2
n i =1 n i =1 n i =1
[( ( )) + a V ( x) − 2aCov( x, y) + V ( y)]
= n b − y − ax
2 2
= n[(b − (y − a x )) + a σ ( x ) − 2aCov ( x, y ) + σ ( y ) ]
2 2 2 2
2 2
( (
= n b − y − a x )) 2
+ aσ ( x) −
Cov( x; y ) Cov( x; y )
−
σ ( x) σ ( x)
+ σ ( y )2
Cov( x; y ) σ ( x ) σ ( y ) − Cov( x; y ) 2
2
( ( ))
2 2
2
= n b − y − a x + aσ ( x) − +
σ ( x) σ ( x )2
Il est clair que f (a, b) est alors minimum si les deux premiers carrés de la somme sont nuls, à savoir si
Cov ( x; y ) Cov( x; y )
a= = et si y = a x + b
σ ( x) 2 V ( x)
Remarque :
On peut également réaliser un ajustement affine de la variable x en fonction de y.
Alors l'équation de la droite de régression de x en fonction de y est donnée par x = a ′y + b ′
Cov( x; y ) Cov( x; y )
Avec a ′ = =
σ ( y) 2 V ( y)
Page 3/4
Cours et exercices de mathématiques M.CUAZ , http://mathscyr.free.fr
3) Coefficient de corrélation linéaire
Définition :
Cov( x; y )
On appelle coefficient de corrélation linéaire entre les variables x et y le rapport r =
σ Xσ Y
Théorème :
1) Il a le même signe que les coefficients directeurs a et a' des droites de régression.
2) Son carré est le produit de ces coefficients : r 2 = aa ′ .
3) Le coefficient de corrélation linéaire r vérifie − 1 ≤ r ≤ 1
4) Les points M i ( xi ; y i ) sont alignés si et seulement si r = 1 ou r = −1
Démonstration :
Cov( x; y ) Cov( x; y ) σ X σ
1) On a r = = × = a× X
σ Xσ Y (σ X )
2
σY σY
Comme σ X ≥ 0 et σ Y ≥ 0 , a et r sont de même signe
Cov( x; y ) Cov( x; y )
2) Avec a = et a ′ = , on a :
V ( x) V ( y)
Cov( x; y ) Cov( x; y ) Cov( x; y ) 2 Cov( x; y ) 2
aa ′ = = = = r2
V ( x) V ( y) V ( x)V ( y ) σ ( x) σ ( y )
2 2
V ( x) Cov( x; y ) 2 V ( x) Cov( x; y ) 2
3) De plus a 2 × = 2
× = = r2
V ( y) V ( x) V ( y ) V ( x)V ( y )
La droite D de régression de y en x par moindres carrés admet une équation de la forme y = ax + b . Comme
G ∈ D , y = ax + b ⇔ b = y − ax
La somme des résidus est donnée par :
( ( ) ) = ∑ (y ( ))
i=n i =n i =n
f (a, b) = ∑ ( y i − axi − b ) = ∑ y i − a xi − x − y
2 2 2
i − y − a xi − x
i =1 i =1 i =1
i =n
[( ) (
= ∑ y i − y − 2a xi − x y i − y + a 2 x i − x
i =1
2
)( ) ( )]
2
( ) ( )( ) ( )
i =n i =n i =n
= ∑ y i − y − 2a ∑ x i − x y i − y + a 2 ∑ xi − x
2 2
i =1 i =1 i =1
= nV ( y ) − 2a × nCov( x; y ) + a × nV ( x) 2
[
= n V ( y ) − 2a × aV ( x) + a 2 × V ( x) car a = ] Cov( x; y )
V ( x)
⇒ Cov( x; y ) = aV ( x)
[
]
= n V ( y ) − a 2 × V ( x) = nV ( y ) 1 − a 2 ×
V ( x)
V ( y)
= nV ( y ) 1 − r 2 ( )
Cette somme étant positive, il en résulte que 1 − r 2 ≥ 0 ⇔ −1 ≤ r ≤ 1
Enfin Mi alignés ⇔ 1 − r 2 = 0 ⇔ r = ±1
Page 4/4