Vous êtes sur la page 1sur 53

La Corrélation

1
Introduction
La corrélation statistique est une technique statistique qui s'utilise pour voir si
deux variables sont liées.

Par exemple, considérez le revenu et les dépenses d'une famille comme variables.
Il est bien connu que l'augmentation ou la diminution des revenus et des
dépenses, se passent au même temps. Ainsi, ils sont liés tous les deux dans le sens
où le changement dans une de ces deux variables est accompagné d'un
changement dans l'autre variable.

Encore une fois des prix et de la demande de produits sont des variables
connexes; lorsque la demande des hausses de prix ont tendance à diminue et vice
versa.

Source: https://explorable.com/fr/la-correlation-statistique 2
Introduction
Si le changement dans une variable est accompagnée d'un changement dans
l'autre, puis les variables sont dites d'être corrélées. Nous pouvons donc dire que
le revenu familial et les dépenses, - le prix et la demande- sont corrélés.

Relation entre les variables:

La corrélation peut vous dire quelque chose au sujet de la relation entre les
variables. Il est utilisé pour comprendre:

- si la relation est positive ou négative


- la force de la relation.

La corrélation est un outil puissant qui fournit ces éléments d'information


essentiels.
3
Introduction
Dans le cas de revenus et les dépenses de la famille, il est facile de voir qu'ils
évoluent en augmentant ou tombant ensemble dans la même direction. C'est ce
qu'on appelle une corrélation positive.

Dans le cas du prix et de la demande, le changement se produit dans la direction


opposée de façon que si une augmentation se produit dans une variable, elle est
accompagné par une diminution de l'autre. C'est ce qu'on appelle une corrélation
négative.

4
Introduction
Coefficient de Corrélation

La corrélation statistique est mesurée par ce qu'on appelle le Le coefficient de


corrélation (r). Sa valeur numérique varie de 1,0 à -1,0. Cela nous donne une
indication de la force de la relation.

En général, r> 0 indique une relation positive, r <0 indique une relation négative
tandis que r = 0 indique l'absence de relation (ou que les variables sont
indépendantes et non liées). Ici, r = +1,0 décrit une corrélation positive parfaite et
r = -1,0 décrit une corrélation négative parfaite.

Si les coefficients sont plus proche de +1,0 et -1,0, plus grande est la force de la
relation entre les variables.

5
Introduction
Coefficient de Corrélation

En règle générale, les lignes directrices suivantes sur la force de la relation sont
souvent utiles (bien que de nombreux experts sont plutôt en désaccord sur le
choix des limites).

Valeur de r Force de la relation


-1,0 À -0,5 ou 1,0 à 0,5 Fort
-0,5 À -0,3 ou 0,3 à 0,5 Modéré
-0,3 À -0,1 ou 0,1 à 0,3 Faible
-0,1 À 0,1 Absente ou très faible

6
Introduction
La corrélation est seulement approprié pour examiner la relation entre les
données significatives quantifiables (par exemple l'air sous pression, température)
plutôt que des données catégoriques tels que le sexe, la couleur préférée, etc.

7
Introduction
Inconvénients
Alors que 'r' (coefficient de corrélation) est un outil puissant, il doit être manipulé
avec soin.

- Les coefficients de corrélation les plus utilisés ne mesurent relation linéaire. Il est
donc parfaitement possible que s'il existe une forte relation non linéaire entre les
variables, r est proche de 0 ou même est 0. Dans un tel cas, un diagramme de
dispersion peut grossièrement indiquer l'existence ou non d'une relation non
linéaire.

- Il faut être prudent dans l'interprétation de la valeur de «r». Par exemple, on


pourrait calculer «r» entre la taille de la chaussure et de l'intelligence des
individus, des hauteurs et des revenus. Indépendamment de la valeur de «r», cela
n'a aucun sens et est donc appelée corrélation hasard ou sans-sens.
8
Introduction
Inconvénients
Alors que 'r' (coefficient de corrélation) est un outil puissant, il doit être manipulé
avec soin.

- «R» ne doit pas être utilisé pour dire quelque chose à propos de relation de
cause à effet. Autrement dit, en examinant la valeur de «r», on pourrait conclure
que les variables X et Y sont liées. Cependant, la même valeur de «r» ne nous dit
pas si X influences Y ou l'inverse. Corrélation statistique ne doit pas être le
principal outil utilisé pour étudier la causalité, à cause du problème avec des
tierces variables.

9
Corrélation et Causalité
Corrélation et causalité, étroitement liée à des facteurs de confusion, est
l'hypothèse erronée que parce quelques choses se corrélées, il ya une relation de
cause à effet.

La causalité est le domaine des statistiques qui est le plus souvent mal utilisé, et
mal interprété par des non-spécialistes. Des sources médiatiques, des politiciens
et des groupes de pression souvent sautent sur une corrélation perçue, et
l'utilisent pour «prouver» leurs propres croyances. Ils ne comprennent pas que,
simplement parce que les résultats montrent une corrélation, il n'existe aucune
preuve d'un lien de causalité sous-jacente.

Beaucoup de gens pensent que parce qu'un sondage ou une statistique, contient
beaucoup de nombres, il doit être scientifique, et donc correcte.

Source: https://explorable.com/fr/corr%C3%A9lation-et-causalit%C3%A9 10
Corrélation et Causalité
Les modèles de causalité dans l'esprit

Malheureusement, l'esprit humain est construit pour essayer inconsciemment


établir des liens entre de nombreuses pièces contrastées de l'information. Le
cerveau essaie souvent de construire des modèles qui viennent de l'hasard, et
donc il saute aux conclusions, et suppose qu'il existe une relation.

Surmonter cette tendance s'inscrit dans le cadre de la formation académique des


étudiants et des universitaires dans la plupart des domaines, de la physique à l'art.
La capacité d'évaluer objectivement les données, est absolument essentielle à la
réussite scolaire.

11
Corrélation et Causalité: un exemple
La meilleure façon de voir l'abus de corrélation et causalité est de regarder un
exemple précis:

Une enquête, tel que rapporté dans un journal britannique, consistait à interroger
un groupe d'adolescents sur leur comportement, et déterminer si leurs parents
fument. Le journal a rapporté, en effet, que les enfants dont les parents fument
sont plus susceptibles de manifester des comportements délinquants.

Les résultats semblent montrer une corrélation entre les deux variables, de sorte
que le papier imprimé le titre: «Le tabagisme parental entraîne les enfants à mal
se conduire." Le professeur chargé de l'enquête a déclaré que les paquets de
cigarettes doivent porter des alertes aux questions sociales, aux côtés des
avertissements de santé importants.

12
Corrélation et Causalité: un exemple
Cependant, il y a un certain nombre de problèmes avec cette hypothèse. La
première est que les corrélations peuvent souvent fonctionner en sens inverse.
Par exemple, il est parfaitement possible que les parents fument à cause du stress
de s'occuper d'enfants délinquants.

Une autre cause peut être que la classe sociale provoque la corrélation, les classes
inférieures sont généralement plus susceptibles de fumer, et sont plus
susceptibles d'avoir des enfants délinquants. Par conséquent, le tabagisme des
parents et de la délinquance sont à la fois les symptômes du problème de la
pauvreté, et pourrait bien avoir aucun lien direct entre eux.

13
Corrélation et Causalité: un exemple
Préjudgés Émotives Influences causalité

Cet exemple met en évidence une autre raison derrière les erreurs de corrélation
et causalité, parce que le professeur était fortement anti-tabac. Il a été l'espoir de
trouver un lien qui appuierait son propre jugement. Cela ne veut pas dire que ses
résultats étaient inutiles, car ils ont montré qu'il ya une cause profonde des
problèmes de délinquance et de la probabilité de fumer. Ceci, cependant, n'est
pas la même chose qu'une relation de cause à effet, et il a permis à ses émotions
obscurcir son jugement. Le tabagisme est un sujet très émotif, mais les
universitaires doivent rester à l'écart et sans biais si la validité interne est de rester
intact.

14
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Source: http://svt4vr.e-monsite.com/pages/6eme/colonisation-
plante/la-formation-des-graines.html

Source: https://fr.khanacademy.org/math/be-5eme-secondaire2h2/x741278364a599ec1:statistiques/x741278364a599ec1:nuage-de-points-et-correlation/a/constructing-
and-interpreting-a-scatterplot. 15
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 1) Représenter les données à l'aide d'un nuage de points.

16
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 1) Voici le nuage de points:

17
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 2) Que peut-on dire de la relation entre la longueur de la tige et la longueur des pétales de ses fleurs ?

18
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 2) Que peut-on dire de la relation entre la longueur de la tige et la longueur des pétales de ses fleurs ?

19
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 3) Quelle est la phrase vraie ?

20
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales

Question 3) Quelle est la phrase vraie ?

21
Exemple 2 : Âge d'un conducteur et nombre d'accidents

22
Exemple 2 : Âge d'un conducteur et nombre d'accidents

23
Exemple 2 : Âge d'un conducteur et nombre d'accidents

24
Exemple 2 : Âge d'un conducteur et nombre d'accidents

25
Exemple 2 : Âge d'un conducteur et nombre d'accidents

26
Exemple 3 : Pointure et note au contrôle de maths

Pointure: Nombre qui indique la dimension des chaussures, des chapeaux, des gants. 27
Exemple 3 : Pointure et note au contrôle de maths

28
Exemple 3 : Pointure et note au contrôle de maths

29
Exemple 3 : Pointure et note au contrôle de maths

30
Exemple 3 : Pointure et note au contrôle de maths

31
Exemple 4
Robin a noté pendant six jours la durée, en minutes, de sa méditation du soir
et son nombre d'heures de sommeil.

32
Exemple 4

33
Exemple 5

34
Exemple 5

35
Exemple 6

36
Exemple 6

37
Exemple 7

38
Exemple 7

39
Exemple 8
Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant
les dépenses de recherche X et les profits Y suivants (en millions de dollars)

Source: http://www.astro.ulg.ac.be/cours/magain/STAT/Stat_Main_Fr/Chapitre7.html 40
Exemple 8

Les moyennes arithmétiques:


𝑛
𝑛 1
1 𝑌ത = ෍ 𝑌𝑖
𝑋ത = ෍ 𝑋𝑖 𝑛
𝑛 𝑖=1
𝑖=1

50 + 60 + 40 + 50
40 + 40 + 30 + 50 𝑌ത =

𝑋= 4
4
200
160 𝑌ത =
𝑋ത = 4
4
𝑌ത = 50
𝑋ത = 40

41
Exemple 8

ഥ )(𝒀 − 𝒀
= σ(𝑿 − 𝑿 ഥ)
= 40 − 40 ∗ (50 − 50) + 40 − 40 ∗ (60 − 50) + 30 − 40 ∗ (40 − 50) + 50 − 40 ∗ (50 − 50)

= 0 + 0 + −10 ∗ (−10) + 0

= +100

ഥ )(𝒀 − 𝒀
෍(𝑿 − 𝑿 ഥ ) = 100

42
Exemple 8

Les Ecart-Types:

(40 − 40)2 +(40 − 40)2 +(30 − 40)2 +(50 − 40)2


𝑆𝑋 =
4−1

(0) + (0) + (100) + (100)


𝑆𝑋 =
3

200
𝑆𝑋 = = 66,7 = 8,167
3
43
Exemple 8

Les Ecart-Types:

(50 − 50)2 +(60 − 50)2 +(40 − 50)2 +(50 − 50)2


𝑆𝑌 =
4−1

(0) + (100) + (100) + (0)


𝑆𝑌 =
3

200
𝑆𝑌 = = 66,7 = 8,167
3
44
Exemple 8

1
∗(100)
4−1
r=
(8,167)∗(8,167) La corrélation est positive et de qualité moyenne.
1
∗(100)
3
r=
66,7

r= 0,499 = 0,50

45
Exemple 8

46
Exemple 8

𝑋ത = 40 𝑌ത = 50

47
Exemple 9
Pointure des chaussures (X) et quotient intellectuel (Y) de 10 enfants d'âge
scolaire

Pour illustrer l'usage de ces coefficients, on partira de l'exemple (fictif) d'une


étude de psychosociobiologie visant à examiner s'il existe une relation entre la
taille des pieds des enfants et leur intelligence. Partant d'un échantillon de 10
enfants (notés A, B, ...J) on examinera s'il existe une corrélation, linéaire ou non,
entre la pointure de leurs chaussures (X) et leur quotient intellectuel (Y). Les
données de l'analyse sont rassemblées dans le tableau, ci-dessous

Source: http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_6/stat98_6.htm 48
Exemple 9

49
Exemple 9

On se propose d'examiner s'il existe une relation entre la capacité à épeler et la taille
des pieds : il y a quatre réponses possibles :
- plus la taille des pieds est importante, plus la capacité à épeler est importante
(RELATION POSITIVE)
- plus la taille des pieds est importante, moins la capacité à épeler est important
(RELATION NEGATIVE)
- la taille des pieds est liée au quotient intellectuel par une relation complexe
comportant au moins un maximum et un minimum (RELATION NON MONOTONE)
- la taille des pieds n'est pas liée à la capacité à épeler (RELATION NULLE)

50
Exemple 9

51
Exemple 9

52
Exemple 9
La covariance de X et Y étant égal à 64.1, on obtient le coefficient de corrélation
de X et de Y en divisant la covariance par le produit de l'écart-type de X et de
l'écart-type de Y :
r(X,Y) = 64.1 / (2.4 * 32) = +0.83

Nous sommes en présence d'une corrélation positive forte, qui semble indiquer
qu'il existe une relation linéaire (de type Y=aX+b) reliant le quotient intellectuel
des enfants et la taille de leurs pieds.

Toutefois, le coefficient de corrélation ne nous indique pas (1) si la relation


observée est significative (fruit du hasard ou non) et (2) si elle correspond à
une relation de cause à effet entre les deux facteurs X et Y étudiés. De plus,
l'importance de la corrélation linéaire ne préjuge pas de l'existence d'un
meilleur ajustement, qui serait quant à lui de type non-linéaire.
53

Vous aimerez peut-être aussi