Vous êtes sur la page 1sur 35

Introduction

Jusqu’{ présent, nous avons appris { décrire les variables, les distributions et les observations { l’intérieur des variables. Nous
abordons maintenant la relation qui existe entre les variables, et que l’on nomme la corrélation.
- Peut-être a-t-on aussi remarqué que les résultats aux examens s’améliorent lorsqu’on leur a consacré plus de temps d’étude ?
- Existe-t-il une corrélation entre la présence de nuages et la pluie, le rhume et la toux ainsi que l’assiduité { l’étude et les résultats
scolaires ?
- Y a-t-il plus de pauvreté dans les plus grandes villes ?
Le nombre de meurtres est-il plus grand dans les sociétés où les citoyens ont plus d’armes à feu ?
1. La Corrélation de Pearson

La corrélation de Pearson est une procédure statistique qui produit un coefficient de corrélation, un index du degré de relation linéaire qui
existe entre deux mesures. Il y a plusieurs types de corrélations, mais celle dont nous discutons ici, la corrélation de Pearson, est utilisée
lorsque nous désirons établir la relation qui existe entre des variables mesurées sur des échelles à intervalles ou des échelles de rapport.

La corrélation de Pearson prend des valeurs variant entre –1 et +1.

• La corrélation est parfaite lorsqu’elle atteint des valeurs numériques extrêmes (+1 ou –1)
• Elle est nulle quand le coefficient prend la valeur de 0.
• La relation peut être positive ou négative.
2. La logique qui sous-tend le calcul de la Corrélation

La corrélation quantifie le niveau de similarité entre deux variables. Définir mathématiquement la similarité : vérifier si les sujets produisent la
même réponse (numérique) pour deux variables.

Une solution au calcul de la corrélation serait alors de calculer la différence entre les valeurs de chaque variable. S’il n’existait pas de différence
entre les valeurs des deux variables pour chaque observation, nous pourrions dire que la corrélation est parfaite.
Par exemple, supposons que nous avons la note obtenue par un groupe d’étudiants { deux examens. Si les étudiants obtiennent
exactement la même note aux deux examens, il est facile de conclure que la relation (la corrélation) entre les deux examens est
parfaite. Supposons maintenant que nous désirons calculer la corrélation entre deux examens, mais qu’un examen est noté sur
100 et l’autre sur 20. Le Tableau 1 présente les données.
Tableau 1 :Notes obtenues à deux examens par les mêmes étudiants

Étudiant Note sur 100 Note sur 20

A 95 19,0

B 87 17,4

C 74 14,8

D 56 11,2

E 43 8,6

Si nous comparons les deux séries de résultats en les soustrayant, la différence entre les notes obtenues aux deux examens ne
sera jamais zéro. Par conséquent, nous devrions conclure qu’il n’existe pas de similitude (de « corrélation ») entre les notes aux

deux examens.
• La méthode la plus générale et la plus satisfaisante pour décrire la similitude entre deux variables est celle choisie par
Pearson. La corrélation entre deux variables est définie comme étant le degré avec lequel la position relative des
observations est la même sur deux variables.

• La position d’une observation sur une mesure se définit comme l’écart standardisé qui existe entre la valeur obtenue
sur une variable par une observation et la moyenne de cette variable.
La valeur étalon Z est justement une manière pratique de calculer cette position. Ainsi, la corrélation de Pearson mesure
le degré de coïncidence entre les valeurs étalons Z, obtenues sur deux mesures :

 la corrélation est forte lorsque les valeurs Z obtenues par chaque personne sur les deux variables sont similaires et,

 Lorsque les valeurs Z obtenues par un ensemble de personnes sur deux variables coïncident, la corrélation est parfaite
(rxy = +1,0) : les valeurs Z pour les deux variables sont simultanément positives, négatives ou nulles.

 Lorsque les valeurs Z des deux variables coïncident, mais qu’elles sont de signes inversés (l’une positive, l’autre
négative), la corrélation est parfaite, mais négative (rxy = –1,0).
2.1 Comment calculer la corrélation de Pearson entre deux variables ?

On se souvient que la corrélation se définit par le degré avec lequel la position des observations sur deux variables se maintient. La
formule suivante définit formellement la corrélation.

Les quatre étapes pour obtenir la corrélation de Pearson sont :


a.Convertir chaque valeur en valeur étalon Z.
b.Multiplier les paires de valeurs étalons Z de chaque sujet de l’échantillon.
c.Faire la somme de ces produits.
d.Diviser cette somme par le nombre d’observations moins un.
.
La corrélation est donc un indice de la similarité moyenne dans la position qu’occupent les observations sur les deux
variables.
a. La corrélation positive parfaite (rxy = + 1,00)

La corrélation positive parfaite indique que :


• les valeurs des deux variables augmentent ou diminuent ensemble pour toutes les observations.

• Puisque la corrélation indique le degré avec lequel les observations maintiennent la même position sur les deux variables,
cela implique que les valeurs étalons Z associées à chaque observation seront positives ou négatives sur les deux variables
et identiques lorsque la corrélation sera parfaite et positive.

• Lorsque les valeurs Zx et Zy ne sont pas identiques, mais que l’ordre des observations est identique sur les deux
variables, les corrélations seront très proches (mais pas nécessairement tout à fait) +1,00.
Exemple :

Le Tableau 2 reprend les données du Tableau 1 et inclut la valeur étalon Z de chaque observation afin de produire le coefficient de
corrélation de Pearson par l’entremise de la Formule 1.

La corrélation positive parfaite obtenue au Tableau 2 (r xy = +1,00) confirme que la position relative de chaque étudiant demeure
exactement la même aux deux examens. Remarquez que la note obtenue par les étudiants D et E est au-dessous de la moyenne pour
les deux examens. Mais, puisque le produit de deux quantités négatives est toujours positif, la somme finale sera elle aussi positive. De
manière similaire, les étudiants A et B obtiennent tous deux des valeurs Z positives aux deux examens, et le produit de ces deux valeurs
sera positif, lui aussi. Dans ce cas, le résultat final sera une corrélation parfaite (r xy = +1,00).
Tableau 2 Corrélation entre les notes obtenues à deux examens par les mêmes

Examen 1 Examen 2
Note sur 100 Note sur 20

Étudiant Score brut X ZX Score brut Y ZY ZXi * ZYi

A 95,0 1,12 19,0 1,12 1,25


B 87,0 0,74 17,4 0,74 0,55
C 74,0 0,14 14,8 0,14 0,02
D 56,0 –0,70 11,2 –0,70 0,49

E 43,0 –1,30 8,6 –1,30 1,70

Somme 355,0 71,0 4,00


N 5 5 5
Résultat 71,0 14,2 1,00
Nom de la
MX MY r
XY
statistique
rxy = Σ(ZXi × ZYi) / (N – 1) = 4 / (5 – 1) = 4 / 4 = 1,00
b . Le graphique de dispersion pour décrire la corrélation

Traçons un graphique qui représente la relation entre la variable X et la variable Y. Ce type de graphique se nomme graphique
de dispersion ou encore nuage de points. L’ordonnée du graphique représente la valeur produite par chacun des sujets sur la
variable Y et l’abscisse représente la valeur de ces mêmes sujets sur la variable X. En général, les coordonnées se définissent
par la valeur de la variable initiale, mais il est aussi possible de la représenter en valeur étalon Z. Dans le cas présent, les notes
{ l’examen X sont indiquées sur l’abscisse alors que les notes à l’examen Y sont placées le long de l’ordonnée. À
l’intersection de chaque valeur X et de sa valeur Y correspondante, nous plaçons une marque qui indique la position de cette
observation. Ce point se nomme la coordonnée pour cette observation.
Exemple :

Par exemple, la position de l’étudiant E est le point qui se trouve à la coordonnée {X, Y} = {43,0 ; 8,6}. La Figure 6.1 indique les
coordonnées pour chaque étudiant (habituellement, nous n’indiquons pas les coordonnées des points sur le graphique). Nous
répétons cette procédure et, à la fin du processus, la position de toutes les observations sera représentée par cet ensemble de
points.
On remarquera que les deux axes du graphique décrivant le nuage de points ne commencent pas à zéro, car personne n’a obtenu une telle
note. Les notes les plus basses étant 43,0 pour l’étudiant E à l’examen 1 (X) et 8,6 pour ce même étudiant à l’examen 2 (Y), le graphique
commence la numérotation des axes un peu au-dessous des valeurs minimales des données. Dans ce cas, l’abscisse part de la valeur « 40 »,
et l’ordonnée, de la valeur « 8 ». Cette stratégie produit un graphique plus lisible.

Le graphique de dispersion est utilisé pour représenter visuellement la relation qui existe entre les X et les Y. La Figure 6.1 montre que les
étudiants qui tendent à avoir des notes fortes à l’examen X tendent aussi à avoir des notes fortes à l’examen Y et que les performances qui
sont faibles sur X sont associées à des performances faibles sur Y. La relation est positive.
2.2 La corrélation négative parfaite (rxy = –1,00)

Prenons maintenant la série de données du Tableau 3 illustrée à la Figure 6.2. Cette fois, nous voulons calculer la corrélation
qui existe entre le nombre de couches de vêtements que cinq personnes portent et la température extérieure. On s’attend { ce
que ces cinq personnes portent progressivement plus de vêtements au fur et à mesure que la température baisse : une
température plus élevée devrait donc être associée à moins de couches de vêtements. Statistiquement, on s’attend { obtenir
une corrélation négative entre les deux variables (X est la température extérieure et Y est le nombre de couches de
vêtements).
Tableau 3
Corrélation entre la température et le nombre de couches de vêtements portées

Température en °C Nombre de couches


De vêtements portées

Personne Score brut X ZX Score brut Y ZY ZXi × ZYi

A 30 1,26 1 –1,26 –1,60

B 20 0,63 2 –0,63 –0,40

C 10 0,00 3 0,00 0,00


D 0 –0,63 4 +0,63 –0,40

E –10 –1,26 5 +1,26 –1,60

Somme 50   15 –4,00

N 5   5 5
Résultat 10   3 –1,00

Nom de la
statistique
MX MY rXY
rxy = Σ( ZXi × ZYi) / N – 1 = -4 / (5 – 1) = –4 / 4 = -1,00
 
Au Tableau 3, nous trouvons que lorsque les valeurs étalons Z X sont positives pour la température (il fait plus chaud que la

moyenne qui est de 10 °C pour nos données), les valeurs étalons (Z Y) pour le nombre de couches de vêtements sont négatives (les

personnes portent moins de couches de vêtements que la moyenne, qui est de 3). Les produits Z xi × Zyi sont tous négatifs, car nous

multiplions une valeur ZX, positive, avec une valeur ZY négative, ou vice-versa. La somme de toutes ces valeurs négatives est elle

aussi négative (–4). Par conséquent, lorsque nous divisons par N – 1, le calcul indique une corrélation négative (rxy = –1,00). La
corrélation négative indique qu’au fur et { mesure que la température augmente, le nombre de couches de vêtements que l’on porte
se réduit, ce qui est raisonnable.
2.3 La corrélation nulle (rxy = 0,00)

Les données du Tableau 4, illustrées à la Figure 6.3, indiquent le nombre de cigarettes que cinq personnes fument par jour (X) et le
nombre de nez (Y) que ces personnes ont !

Si on calcule la corrélation, on verra qu’elle est égale { zéro : il n’y a aucune relation entre le tabagisme et le nombre de nez. Ce résultat
n’est pas une grande surprise, mais on vient de le démontrer statistiquement.

On peut remarquer au Tableau 4 que la moyenne pour le nombre de nez est égale à 1 et que toutes les observations portant sur le
nombre de nez sont, elles aussi, égales à 1. Par conséquent, toutes les observations se situent exactement à la moyenne (1). La valeur
étalon Z pour une observation se trouvant à la moyenne étant 0, toutes les valeurs Z Y sont égales à 0. Le produit de n’importe quelle
valeur par 0 est égal { 0.

Donc, pour chaque observation, le numérateur de la Formule 1, la quantité Z Xi × ZYi , est égal { 0. Par conséquent, la somme ∑(ZXi × ZYi)

est, elle aussi, égale à 0, et en divisant par N − 1, on constate que la corrélation entre le tabagisme et le nombre de nez est r xy = 0.
Quiz rapide

Selon vous, existe-t-il une relation entre la taille d’une boule de quilles et son poids ? Cette relation est-elle
positive ou négative ? Répondez { la même question pour le prix d’un CD et l’argent qu’il vous reste après
l’avoir acheté.

Réponse

En présumant que les boules sont faites avec le même matériau, une boule plus grande devrait contenir plus de
ce matériau, impliquant que la relation entre la taille et le poids des boules sera positive. En présumant que
nous avons un montant limité d’argent dans nos poches, plus nous dépensons pour le disque, moins il nous
restera d’argent. La relation sera négative.
Tableau 5 : Relation entre salaire et scolarité

Années de scolarité Salaire ($) Années de scolarité Salaire ($)

8 21 900 15 27 900
8 28 350 15 27 750
12 21 450 15 35 100
12 21 900 15 46 000
12 24 000 15 24 000
12 27 300 15 21 150
12 40 800 15 31 050
12 42 300 15 32 550
12 26 250 15 31 200
12 21 750 16 40 200
12 16 950 16 30 300
15 57 000 16 103 750
15 45 000 16 38 850
15 32 100 19 60 375
15 36 000 19 135 000

rxy = +0, 56
Examinons les observations qui sont encerclées à la Figure 6.4. Deux personnes ayant le même niveau de scolarisation (19
années) n’ont pas le même salaire : le salaire de l’une est plus que le double du salaire de l’autre (135 000 et 60 375 $). Les
observations encadrées par un rectangle montrent un cas où plusieurs personnes ont le même salaire, bien qu’elles n’aient pas
un nombre égal d’années de scolarité.

Par exemple, les cinq personnes dont le salaire se situe entre 21 000 et 22 000 $ ont entre 8 et 12 années de scolarité. Nous
voyons maintenant ce que la corrélation imparfaite nous dit : il existe effectivement une certaine similarité entre les valeurs Z
obtenues entre les deux variables, mais il y a aussi des exceptions.
La corrélation est un indice de l’ampleur
de la relation entre deux variables. Par
conséquent, elle permet la comparaison
entre les relations
exemple
:
la corrélation entre la réussite
professionnelle (mesurée par le
salaire) et le QI pourrait se situer
autour de 0,20. La corrélation entre
les notes scolaires et le QI pourrait
être plus forte, se situant aux
alentours de 0,80.
Par conséquent, nous pourrions
conclure que le QI est plus lié aux
notes scolaires qu’{ la réussite
professionnelle. Ce type
d’information est très précieux en
recherche comme dans la pratique.
le coefficient C’est une statistique t r è s
simple à c a l c u l e r et t r è s utile

de p o u r l’interprétation d e s
co rr é la tion s. Il s e calcule en

d eter m ina tion


m e t t a n t le coefficient d e
c o r r é l a t i o n a u c a r r é puis en
pourcentage Les valeurs
m i n i m a l e et m a x i m a l e d u
coefficient d e d é t e r m i n a t i o n
sont 0 et 100 %. C’est une
statistique p r a t i q u e qui indique,
en p o u r c e n ta g e , le d e g r é d e
rela tio n e x i s t a n t e n t r e d e u x
va ri ab le s .
si rxy = ±1, alors le
Coefficient de coefficient de
détermination = 12
détermination = × 100 % = 100%
sir rxy = 0, alors
r x y 2× 100% le coefficient de

Variation détermination = 02
× 100 % = 0%

expliquée / si rxy = ±0,50, alors


le coefficient de
variation totale détermination =
0,52 × 100 % = 25%.
le coefficient Le coefficient de non-
détermination

d e non Prenons une


corrélation de 0,50. Le

d eter m ina tion coefficient de


détermination est de
25 %, ce qui veut dire
que la variable Y est
« expliquée » { 25 %
par l’autre variable
(X)
Coefficient
l r x y = ±1,00, le coefficient d e
de non- non - d é ter m ina tion = (1 –
12 ) ×
déter m ina tio 100 % = 0 %
r x y = 0,00, le coefficient d e
n = (1 – non - d é te r m ina tio n = (1 – 0 2 )
×
×
r x10
y 20) 100 % = 100%
r x y = ±0,50, le coefficient d e
% non - d é ter m ina tion = (1 –
0 ,5 2 )
× 10 0 % = 7 5 %.
Représentation
s c h é m a t i q u e d e la
c o r r é l a t i o n et d u
coefficient d e
détermination :

Le coefficient de détermination
est un indice de la quantité de
variances partagées par deux
variables. a.
Quand rxy = 0, rxy 2 = 0 %, nous
pouvons dire que X et Y n’ont
aucune variance en commun. b.
[ l’opposé, lorsque rxy = ±1,0 rxy
2 = 100 %, cela implique que ce
C o r r é l a t i o n d e P e a r s o n et v a r i a n c e
des variables
La corrélation entre deux variables sera
t o u j o u r s d e z é r o l o r s q u e la v a r i a n c e d e l’une ou
l’autre d e s v a r i a b l e s est égale { z é r o p a r
ex em p le L a v a r ia nc e d e la v a r ia b le « nom b r e
d e nez » es t ég a le à zér o. L a c or r éla tion s er a
zér o p a r c e qu e le n o m b r e d e nez ne p e r m e t
p a s d e s a v o i r si une p e r s o n n e f u m e peu ou
beaucoup
Corrélation et
observations loin de la
moyenne
L e s o b s e r v a t i o n s n’ont p a s toutes la
m ê m e influence s u r la c o rr é l a ti o n . L a
c o r r é l a t i o n est plus influencée p a r
les o b s e r v a t i o n s s e t r o u v a n t loin d e
la m o y e n n e q u e p a r celles qui lui
sont p r o c h e s .
Corrélation de Pearson et
relation linéaire
La corrélation de Pearson mesure le degré de linéarité
dans la relation entre deux variables. Une relation
linéaire implique que la taille de l’accroissement ou de
la décroissance des valeurs Y est la même pour chaque
accroissement ou décroissance de la variable X.
e x e m p l e : la distance entre
B et C est plus grande que
celle entre C et D, chaque
accroissement le long de
l'axe X est a c co m p a g né
d'un accroissement qui n'est
pas constant s u r l'axe y
donc la relation n'est pas
linéaire
. Une façon pratique de p r é s e n t e r une corrélation : le
tableau des attentes.
, le tableau des attentes ne s e r t qu’{ reproduire, en t e r m e s qu’il
est plus facile de c o m p r e n d r e et de m e t t r e en pratique,
l’information déjà établie p a r la corrélation : plus gra nd e est
l’aptitude d’une personne, plus élevée s e r a sa p e r f o r m a n c e au
travail.
M er c i
!

Vous aimerez peut-être aussi