Académique Documents
Professionnel Documents
Culture Documents
Utile lorsque l’on cherche à déterminer dans quelle mesure les valeurs de deux variables sont
liées l’une à l’autre. Ces paramètres permettent d’établir des relations entre des variables. Il
leur faut donc au-moins 2 variables : X et Y mesurées pour chaque sujet. On peut alors
représenter notre échantillon bidimensionnel sous la forme d’un nuage de n points (n sujets).
La forme de la relation
Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b,
c'est à dire si le nuage de point peut s'ajuster correctement à une droite.
Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais
de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de point présente alors une
forme complexe avec des courbures.
Une relation non-linéaire est monotone si elle est strictement croissante ou strictement
décroissante, c'est-à-dire si elle ne comporte pas de minima ou de maxima. Toutes les
relations linéaires sont monotones.
1
Les outils statistiques : la covariance ou la corrélation.
La covariance
La covariance (COVxy ou σxy) permet d'étudier les variations simultanées de deux variables
quantitatives par rapport à leur moyenne respective.
La covariance est un nombre qui reflète le degré auquel deux variables varient ensemble et le
sens de cette variation. Permet de fait de qualifier l'indépendance ou dépendance de ces
variables.
Formule de la covariance.
∑ x y − ∑ N∑
x y i i
∑ (x − x)( yi − y ) i i
COV XY = i
=
N N
Sujet 1 20 57
Sujet 2 18 54
Sujet 3 17 52
Sujet 4 15 55
Sujet 5 14 50
Sujet 6 12 50
Somme
Moyenne
Covariance
2
Représentation de la relation entre rappel et reconnaissance.
Cas ou l’on s’attend à un lien important et positif entre rappel et reconnaissance :
Si le sujet a un taux de rappel important, il aura aussi une reconnaissance
importante. Donc pour un sujet ayant un rappel important, ( xi − x ) comme ( yi − y ) seront
positif et leur produit positif. Pour un sujet avec rappel faible, ( xi − x ) comme ( yi − y )
seront négatif mais leur produit sera positif. Donc la somme de leur produit sera importante et
positive ce qui donnera une covariance importante et positive.
Cas où l’on attend une relation inverse : Dans ce cas opposé, d’importantes valeurs
positives seront associées à d’importantes valeurs négatives et donnerons une somme des
produits importante mais négative.
Cas où l’on n’a pas de lien : on aura dans certain cas un produit négatif, dans d’autre cas
un produit positif. Au final, la somme de ces produits se rapprochera de zéro.
Le problème de cet indice est qu’il n’est pas normalisé (il n’est pas borné), ce qui rend
impossible les comparaisons avec d'autres mesures de covariance. Il n'y a pas de limite aux
valeurs du coefficient de covariance,
Il est donc peu intéressant en tant que tel. Pour résoudre ce problème, il suffit de diviser la
COVXY par la taille de l’écart-type : C’est la corrélation !
La covariance sera donc utilisée pour calculer d’autres indices : coefficients de corrélation et
de régression.
Encore appelé corrélation linéaire simple ou moments de Pearson. Assume que deux
variables soient mesurées sur une échelle d’intervalle. La valeur de la corrélation (coefficient
de r) ne dépend pas de l’unité de mesure. Ainsi, un coefficient sera le même si l’on fait une
corrélation entre le poids et la taille, que ces deux paramètres soient mesurés en métrique (cm,
kg) ou non (inches pounds) par exemple.
COV XY
Il se calcule à partir de la covariance et des écart-types : r =
σxσy
Il permet de mesurer l'intensité de la liaison entre deux caractères quantitatifs. C'est donc un
paramètre important dans l'analyse des régressions linéaires.
3
• une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation
linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens);
• une valeur proche de -1 montre également une forte liaison mais la relation linéaire
entre les deux caractères est décroissante (les variables varient dans le sens contraire);
• une valeur proche de 0 montre une absence de relation linéaire entre les deux
caractères.
Exemple :
Somme
Moyenne
Écart type
Covariance
Corrélation Pearson
L’idée est de savoir dans quelle mesure les variations observées sur un caractère peuvent
s’expliquer par les variations sur l’autre caractère. C’est ce que l’on appelle la variabilité ou
variance expliquée. Pour connaître cette variabilité expliquée, on prend la valeur de r que l’on
met au carré.
4
Dans notre exemple :
Corrélation entre rappel et reconnaissance : r= …..
0….2 = 0….. donc …% de la variabilité touchant le paramètre « rappel » est
directement imputable ou prédit à partir du paramètre « reconnaissance ».
Un r = 0.2 signifierait que le lien rappel –reconnaissance n’explique que 4 % de la variance !
D’un point de vue statistique, les « outliers » sont des données qui tombent au delà de ± 2
écart-types / moyenne de l’échantillon. Ces données sont atypiques par définition mais vous
en rencontrerez tout de même ! Origine multi-déterminée. Elles ont une profonde influence
sur les calculs de corrélation.
Le pb est lié au fait que le calcul de la corrélation de Pearson comme celui de la droite de
régression intègre les écarts des observations par rapport à la moyenne. Ainsi, une donnée
extrême (et donc un écart à la moyenne extrême) va très largement influer sur le résultat.
Prenons le cas d’un seul outlier sur notre précédent exemple. Rajoutons un sujet avec un
rappel de 12 et une reconnaissance à 70. Si l’on recalcule notre corrélation, nous obtiendrons
la corrélation suivante : r= !
Somme
Moyenne
Écart type
Covariance
Corrélation Pearson
outlier
5
On voit au travers de cet exemple qu’un seul outlier est capable de profondément modifier les
résultats et peut être entièrement responsable d’une forte ou faible corrélation (les deux cas
sont possibles) !
Ceci doit donc nous mettre en garde sur l’interprétation d’une corrélation, il faut
systématiquement regarder la distribution sur le diagramme de dispersion (nuage de point).
Cependant, il faut garder en mémoire qu’une donnée qui excède 2 écart types n’est pas
forcément anormale, il se peut qu’elle se trouve dans les extrêmes d’une distribution normale
gaussienne ! A nouveau, si le nombre de données est important le pb ne se posera pas puisque
les extrêmes seront normalement distribués. Ceci n’est plus vrai lorsque le nombre est faible !
Un manque d’homogénéité dans un échantillon à partir duquel est calculé une corrélation ou
droite de régression peut aussi être un facteur pouvant biaiser les valeurs observées. Prenons
le cas d’une corrélation de Pearson entre perf dans deux pratiques sportives (100m et tennis)
sur un échantillon constitué de deux groupes distincts (ignoré par la corrélation) tel que filles-
garçons (figure de gauche ci-dessous).
Dans ce cas de figure, on trouvera une corrélation forte (.90 par exemple) qui n’est en fait due
qu’au caractère genre non pris en compte dans la corrélation. Cette valeur ne représente pas
véritablement la relation entre les deux perfs. La vraie relation entre les deux perfs, lorsque
l’on annule le facteur genre apparaît dans la figure de droite ci-dessus. En effet, lorsque l’on
6
refait une corrélation ou régression dans chaque sous-groupe, fille & garçon alors la
corrélation devient proche de zéro (indépendance entre les deux mesures).
Ainsi, si vous soupçonnez dans vos données qu’il existe 2 sous échantillons, il est préférable
de refaire des corrélations séparées sur chaque sous-échantillon de manière à s’assurer du
maintien ou disparition de la corrélation.
Une autre source de problème avec la régression linéaire de type Pearson est la forme de la
relation. En effet, Pearson mesure une relation seulement dans la mesure où celle-ci est
linéaire. Une déviation / linéarité a pour effet d’augmenter la somme des distances au carré /
droite. Ainsi, une relation forte entre deux variables, mais qui n’est pas linéaire, comme c’est
le cas dans la figure ci-dessous, donnera un r très faible. Logique, et qui conforte dans l’idée
de bien regarder la forme de la relation avant de calculer le r.