Vous êtes sur la page 1sur 2

Auteur : Sylvain Hanneton (26/09/08)

Corrélation
(covariance et coefficient de corrélation)
Définition proposée
La  covariance  et le coefficient de  corrélation  sont des mesures quantitatives du lien qui peut 
exister entre deux variables aléatoires X et Y. Le coefficient de corrélation donne une idée de l’intensité 
de la liaison entre X et Y indépendamment des variances de X et de Y. Il est compris entre 1 (corrélation) 
et ­1 (anticorrélation). Un coefficient de corrélation proche de 0 indique que les deux variables aléatoires 
sont faiblements liées (faiblement corrélées).

Définition de la covariance
Considérons   un   nuage   de   n   points   M i   ( i ∈[ 1..n ] )   de   coordonnées   x i   et   y i
correspondant à deux variables aléatoires X et Y. La covariance des variables X et Y est donnée par les 
formules suivantes :
Covariance d'une population Covariance d'un échantillon
n n
∑  x i−  X  y i – Y  ∑  xi − X  y i – Y 
i =1
cov  X , Y = cov  X , Y = i=1
n n−1
où   X  et  Y  sont les moyennes de X et de Y. où  X
  et  Y  sont les moyennes de X et de Y.

Coefficient de corrélation de Pearson
cov  X , Y 
Le coefficient de corrélation est donné par  r = où  s X  et  s Y  sont les écart types de X 
s x⋅s y
et Y.

Qualité d'une modélisation linéaire du nuage de points
Le   calcul   de   la   pente   a   d'une   droite   de   régression   (régression   simple)   se   fait   à   partir   de   la 
covariance des variables X et Y :
cov  X ,Y  sX
a= 2 et  r = a⋅ 
sX sY
n

∑ xi yi – n⋅X⋅
 Y
i=1
Un calcul plus rapide de la pente se fait en utilisant la formule   a= n

∑ xi ² – n⋅X ²
i=1

La qualité d'une régression linéaire, c'est à dire sa capacité à modéliser le nuage de points peut être 
quantifiée en utilisant le calcul du coefficient de détermination obtenu à partir du calcul du coefficient de 
corrélation  r  entre X et Y. Le coefficient de détermination donne une idée du pourcentage de variance 
expliquée (PVE) par le modèle.

 Sauf mention contraire, le contenu du site est placé sous la protection de cette licence Creative Commons.  1
Auteur : Sylvain Hanneton (26/09/08)

Coefficient de détermination  cd = r²
Pourcentage de variance expliquée PVE =100⋅r²
Par exemple un PVE de 10% (cd=0,1) indique que le modèle linéaire n'explique que 10% de la variance 
du nuage de points.

Tests statistiques associés : test de corrélation
Le test d’indépendance entre deux variables X et Y à partie d’un échantillon de n couples de 
valeurs est basé sur le calcul de r qui est la valeur de la pente en coordonnées réduites1.

Le risque    correspondant au coefficient de corrélation r peut être obtenu :
● soit par la table du coefficient de corrélation pour un nombre de degrés de liberté égal à n­2
r
● soit lorsque celle­ci est insuffisante en formant  t = ⋅  n − 2    et en cherchant le risque 
  1− r 2
correspondant dans la table du t de Student pour (n­2) degrés de liberté.

Si   0.05  alors la liaison n’est pas significative et si   ≤0.05   la liaison est significative.

Statut de la fiche : 
fiche provisoire à revoir 

1 Coordonnées réduites : chacune des données se voit retrancher sa moyenne et est divisée par son écart type...

 Sauf mention contraire, le contenu du site est placé sous la protection de cette licence Creative Commons.  2

Vous aimerez peut-être aussi