Vous êtes sur la page 1sur 7

Fiche 4 : Statistiques descriptives bivariées

Les paramètres d’association

Utile lorsque l’on cherche à déterminer dans quelle mesure les valeurs de deux variables sont
liées l’une à l’autre. Ces paramètres permettent d’établir des relations entre des variables. Il
leur faut donc au-moins 2 variables : X et Y mesurées pour chaque sujet. On peut alors
représenter notre échantillon bidimensionnel sous la forme d’un nuage de n points (n sujets).

La forme de la relation

Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b,
c'est à dire si le nuage de point peut s'ajuster correctement à une droite.
Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais
de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de point présente alors une
forme complexe avec des courbures.

Une relation non-linéaire est monotone si elle est strictement croissante ou strictement
décroissante, c'est-à-dire si elle ne comporte pas de minima ou de maxima. Toutes les
relations linéaires sont monotones.

La direction et la force de la relation linéaire

1
Les outils statistiques : la covariance ou la corrélation.

Calculer la covariance ou corrélation entre deux variables aléatoires, c’est étudier


l’intensité de la liaison qui peut exister entre ces variables. La liaison recherchée est une
relation affine (linéaire).

La covariance

La covariance (COVxy ou σxy) permet d'étudier les variations simultanées de deux variables
quantitatives par rapport à leur moyenne respective.
La covariance est un nombre qui reflète le degré auquel deux variables varient ensemble et le
sens de cette variation. Permet de fait de qualifier l'indépendance ou dépendance de ces
variables.

Formule de la covariance.

∑ x y − ∑ N∑
x y i i
∑ (x − x)( yi − y ) i i
COV XY = i
=
N N

Prenons un exemple : Mesure du taux de rappel spontané et du taux de reconnaissance dans


un test mnésique.

Rappel (xi) Reconnaissance (yi) xy

Sujet 1 20 57
Sujet 2 18 54
Sujet 3 17 52
Sujet 4 15 55
Sujet 5 14 50
Sujet 6 12 50
Somme
Moyenne

Covariance

2
Représentation de la relation entre rappel et reconnaissance.
Cas ou l’on s’attend à un lien important et positif entre rappel et reconnaissance :
Si le sujet a un taux de rappel important, il aura aussi une reconnaissance
importante. Donc pour un sujet ayant un rappel important, ( xi − x ) comme ( yi − y ) seront
positif et leur produit positif. Pour un sujet avec rappel faible, ( xi − x ) comme ( yi − y )
seront négatif mais leur produit sera positif. Donc la somme de leur produit sera importante et
positive ce qui donnera une covariance importante et positive.
Cas où l’on attend une relation inverse : Dans ce cas opposé, d’importantes valeurs
positives seront associées à d’importantes valeurs négatives et donnerons une somme des
produits importante mais négative.
Cas où l’on n’a pas de lien : on aura dans certain cas un produit négatif, dans d’autre cas
un produit positif. Au final, la somme de ces produits se rapprochera de zéro.

On pourrait éventuellement se satisfaire de la covariance comme indicateur du degré de


relation entre deux variables. Toutefois, une difficulté apparaît dans la mesure où la valeur
absolue de COV XY est également fonction de la variabilité (écart-type de X et Y). Donc une
COVXY de 5 par exemple peut refléter une relation assez élevée lorsque les écart-types sont
petits mais une relation faible lorsque les écart-types sont grands.

Le problème de cet indice est qu’il n’est pas normalisé (il n’est pas borné), ce qui rend
impossible les comparaisons avec d'autres mesures de covariance. Il n'y a pas de limite aux
valeurs du coefficient de covariance,
Il est donc peu intéressant en tant que tel. Pour résoudre ce problème, il suffit de diviser la
COVXY par la taille de l’écart-type : C’est la corrélation !

La covariance sera donc utilisée pour calculer d’autres indices : coefficients de corrélation et
de régression.

Le coefficient de corrélation (de Bravais Pearson)

Encore appelé corrélation linéaire simple ou moments de Pearson. Assume que deux
variables soient mesurées sur une échelle d’intervalle. La valeur de la corrélation (coefficient
de r) ne dépend pas de l’unité de mesure. Ainsi, un coefficient sera le même si l’on fait une
corrélation entre le poids et la taille, que ces deux paramètres soient mesurés en métrique (cm,
kg) ou non (inches pounds) par exemple.
COV XY
Il se calcule à partir de la covariance et des écart-types : r =
σxσy
Il permet de mesurer l'intensité de la liaison entre deux caractères quantitatifs. C'est donc un
paramètre important dans l'analyse des régressions linéaires.

Les limites imposées à r sont entre -1 et +1

3
• une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation
linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens);
• une valeur proche de -1 montre également une forte liaison mais la relation linéaire
entre les deux caractères est décroissante (les variables varient dans le sens contraire);
• une valeur proche de 0 montre une absence de relation linéaire entre les deux
caractères.

Exemple :

Mesure du taux de rappel spontané et du taux de


reconnaissance dans un test mnésique.

Rappel (xi) Reconnaissance (yi) xy


Sujet 1 20 57
Sujet 2 18 54
Sujet 3 17 52
Sujet 4 15 55
Sujet 5 14 50
Sujet 6 12 50

Somme
Moyenne
Écart type

Covariance
Corrélation Pearson

Relation entre la valeur de « r » et la « variance expliquée »:

L’idée est de savoir dans quelle mesure les variations observées sur un caractère peuvent
s’expliquer par les variations sur l’autre caractère. C’est ce que l’on appelle la variabilité ou
variance expliquée. Pour connaître cette variabilité expliquée, on prend la valeur de r que l’on
met au carré.

4
Dans notre exemple :
Corrélation entre rappel et reconnaissance : r= …..
0….2 = 0….. donc …% de la variabilité touchant le paramètre « rappel » est
directement imputable ou prédit à partir du paramètre « reconnaissance ».
Un r = 0.2 signifierait que le lien rappel –reconnaissance n’explique que 4 % de la variance !

Problème des sujets déviants ou extrêmes (« outliers »)

D’un point de vue statistique, les « outliers » sont des données qui tombent au delà de ± 2
écart-types / moyenne de l’échantillon. Ces données sont atypiques par définition mais vous
en rencontrerez tout de même ! Origine multi-déterminée. Elles ont une profonde influence
sur les calculs de corrélation.

Le pb est lié au fait que le calcul de la corrélation de Pearson comme celui de la droite de
régression intègre les écarts des observations par rapport à la moyenne. Ainsi, une donnée
extrême (et donc un écart à la moyenne extrême) va très largement influer sur le résultat.

Prenons le cas d’un seul outlier sur notre précédent exemple. Rajoutons un sujet avec un
rappel de 12 et une reconnaissance à 70. Si l’on recalcule notre corrélation, nous obtiendrons
la corrélation suivante : r= !

Mesure du taux de rappel spontané et du taux de


reconnaissance dans un test mnésique.

Rappel (xi) Reconnaissance (yi) xy


Sujet 1 20 57
Sujet 2 18 54
Sujet 3 17 52
Sujet 4 15 55
Sujet 5 14 50
Sujet 6 12 50
Outlier 12 70

Somme
Moyenne
Écart type
Covariance
Corrélation Pearson

outlier

5
On voit au travers de cet exemple qu’un seul outlier est capable de profondément modifier les
résultats et peut être entièrement responsable d’une forte ou faible corrélation (les deux cas
sont possibles) !

Ceci doit donc nous mettre en garde sur l’interprétation d’une corrélation, il faut
systématiquement regarder la distribution sur le diagramme de dispersion (nuage de point).

Que faire dans un tel cas de figure :


Il est légitime d’écarter une donnée lorsque celle-ci se trouve au delà de +2 écart types par
rapport à la moyenne. La vigilance sera d’autant plus importante que le nombre de données ou
échantillon est faible.

Cependant, il faut garder en mémoire qu’une donnée qui excède 2 écart types n’est pas
forcément anormale, il se peut qu’elle se trouve dans les extrêmes d’une distribution normale
gaussienne ! A nouveau, si le nombre de données est important le pb ne se posera pas puisque
les extrêmes seront normalement distribués. Ceci n’est plus vrai lorsque le nombre est faible !

Problème des distributions non homogènes !

Un manque d’homogénéité dans un échantillon à partir duquel est calculé une corrélation ou
droite de régression peut aussi être un facteur pouvant biaiser les valeurs observées. Prenons
le cas d’une corrélation de Pearson entre perf dans deux pratiques sportives (100m et tennis)
sur un échantillon constitué de deux groupes distincts (ignoré par la corrélation) tel que filles-
garçons (figure de gauche ci-dessous).

Dans ce cas de figure, on trouvera une corrélation forte (.90 par exemple) qui n’est en fait due
qu’au caractère genre non pris en compte dans la corrélation. Cette valeur ne représente pas
véritablement la relation entre les deux perfs. La vraie relation entre les deux perfs, lorsque
l’on annule le facteur genre apparaît dans la figure de droite ci-dessus. En effet, lorsque l’on

6
refait une corrélation ou régression dans chaque sous-groupe, fille & garçon alors la
corrélation devient proche de zéro (indépendance entre les deux mesures).
Ainsi, si vous soupçonnez dans vos données qu’il existe 2 sous échantillons, il est préférable
de refaire des corrélations séparées sur chaque sous-échantillon de manière à s’assurer du
maintien ou disparition de la corrélation.

Problème des distributions non linéaires !

Une autre source de problème avec la régression linéaire de type Pearson est la forme de la
relation. En effet, Pearson mesure une relation seulement dans la mesure où celle-ci est
linéaire. Une déviation / linéarité a pour effet d’augmenter la somme des distances au carré /
droite. Ainsi, une relation forte entre deux variables, mais qui n’est pas linéaire, comme c’est
le cas dans la figure ci-dessous, donnera un r très faible. Logique, et qui conforte dans l’idée
de bien regarder la forme de la relation avant de calculer le r.

Vous aimerez peut-être aussi