Académique Documents
Professionnel Documents
Culture Documents
1
Introduction
La corrélation statistique est une technique statistique qui s'utilise pour voir si
deux variables sont liées.
Par exemple, considérez le revenu et les dépenses d'une famille comme variables.
Il est bien connu que l'augmentation ou la diminution des revenus et des
dépenses, se passent au même temps. Ainsi, ils sont liés tous les deux dans le sens
où le changement dans une de ces deux variables est accompagné d'un
changement dans l'autre variable.
Encore une fois des prix et de la demande de produits sont des variables
connexes; lorsque la demande des hausses de prix ont tendance à diminue et vice
versa.
Source: https://explorable.com/fr/la-correlation-statistique 2
Introduction
Si le changement dans une variable est accompagnée d'un changement dans
l'autre, puis les variables sont dites d'être corrélées. Nous pouvons donc dire que
le revenu familial et les dépenses, - le prix et la demande- sont corrélés.
La corrélation peut vous dire quelque chose au sujet de la relation entre les
variables. Il est utilisé pour comprendre:
4
Introduction
Coefficient de Corrélation
En général, r> 0 indique une relation positive, r <0 indique une relation négative
tandis que r = 0 indique l'absence de relation (ou que les variables sont
indépendantes et non liées). Ici, r = +1,0 décrit une corrélation positive parfaite et
r = -1,0 décrit une corrélation négative parfaite.
Si les coefficients sont plus proche de +1,0 et -1,0, plus grande est la force de la
relation entre les variables.
5
Introduction
Coefficient de Corrélation
En règle générale, les lignes directrices suivantes sur la force de la relation sont
souvent utiles (bien que de nombreux experts sont plutôt en désaccord sur le
choix des limites).
6
Introduction
La corrélation est seulement approprié pour examiner la relation entre les
données significatives quantifiables (par exemple l'air sous pression, température)
plutôt que des données catégoriques tels que le sexe, la couleur préférée, etc.
7
Introduction
Inconvénients
Alors que 'r' (coefficient de corrélation) est un outil puissant, il doit être manipulé
avec soin.
- Les coefficients de corrélation les plus utilisés ne mesurent relation linéaire. Il est
donc parfaitement possible que s'il existe une forte relation non linéaire entre les
variables, r est proche de 0 ou même est 0. Dans un tel cas, un diagramme de
dispersion peut grossièrement indiquer l'existence ou non d'une relation non
linéaire.
- «R» ne doit pas être utilisé pour dire quelque chose à propos de relation de
cause à effet. Autrement dit, en examinant la valeur de «r», on pourrait conclure
que les variables X et Y sont liées. Cependant, la même valeur de «r» ne nous dit
pas si X influences Y ou l'inverse. Corrélation statistique ne doit pas être le
principal outil utilisé pour étudier la causalité, à cause du problème avec des
tierces variables.
9
Corrélation et Causalité
Corrélation et causalité, étroitement liée à des facteurs de confusion, est
l'hypothèse erronée que parce quelques choses se corrélées, il ya une relation de
cause à effet.
La causalité est le domaine des statistiques qui est le plus souvent mal utilisé, et
mal interprété par des non-spécialistes. Des sources médiatiques, des politiciens
et des groupes de pression souvent sautent sur une corrélation perçue, et
l'utilisent pour «prouver» leurs propres croyances. Ils ne comprennent pas que,
simplement parce que les résultats montrent une corrélation, il n'existe aucune
preuve d'un lien de causalité sous-jacente.
Beaucoup de gens pensent que parce qu'un sondage ou une statistique, contient
beaucoup de nombres, il doit être scientifique, et donc correcte.
Source: https://explorable.com/fr/corr%C3%A9lation-et-causalit%C3%A9 10
Corrélation et Causalité
Les modèles de causalité dans l'esprit
11
Corrélation et Causalité: un exemple
La meilleure façon de voir l'abus de corrélation et causalité est de regarder un
exemple précis:
Une enquête, tel que rapporté dans un journal britannique, consistait à interroger
un groupe d'adolescents sur leur comportement, et déterminer si leurs parents
fument. Le journal a rapporté, en effet, que les enfants dont les parents fument
sont plus susceptibles de manifester des comportements délinquants.
Les résultats semblent montrer une corrélation entre les deux variables, de sorte
que le papier imprimé le titre: «Le tabagisme parental entraîne les enfants à mal
se conduire." Le professeur chargé de l'enquête a déclaré que les paquets de
cigarettes doivent porter des alertes aux questions sociales, aux côtés des
avertissements de santé importants.
12
Corrélation et Causalité: un exemple
Cependant, il y a un certain nombre de problèmes avec cette hypothèse. La
première est que les corrélations peuvent souvent fonctionner en sens inverse.
Par exemple, il est parfaitement possible que les parents fument à cause du stress
de s'occuper d'enfants délinquants.
Une autre cause peut être que la classe sociale provoque la corrélation, les classes
inférieures sont généralement plus susceptibles de fumer, et sont plus
susceptibles d'avoir des enfants délinquants. Par conséquent, le tabagisme des
parents et de la délinquance sont à la fois les symptômes du problème de la
pauvreté, et pourrait bien avoir aucun lien direct entre eux.
13
Corrélation et Causalité: un exemple
Préjudgés Émotives Influences causalité
Cet exemple met en évidence une autre raison derrière les erreurs de corrélation
et causalité, parce que le professeur était fortement anti-tabac. Il a été l'espoir de
trouver un lien qui appuierait son propre jugement. Cela ne veut pas dire que ses
résultats étaient inutiles, car ils ont montré qu'il ya une cause profonde des
problèmes de délinquance et de la probabilité de fumer. Ceci, cependant, n'est
pas la même chose qu'une relation de cause à effet, et il a permis à ses émotions
obscurcir son jugement. Le tabagisme est un sujet très émotif, mais les
universitaires doivent rester à l'écart et sans biais si la validité interne est de rester
intact.
14
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
Source: http://svt4vr.e-monsite.com/pages/6eme/colonisation-
plante/la-formation-des-graines.html
Source: https://fr.khanacademy.org/math/be-5eme-secondaire2h2/x741278364a599ec1:statistiques/x741278364a599ec1:nuage-de-points-et-correlation/a/constructing-
and-interpreting-a-scatterplot. 15
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
16
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
17
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
Question 2) Que peut-on dire de la relation entre la longueur de la tige et la longueur des pétales de ses fleurs ?
18
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
Question 2) Que peut-on dire de la relation entre la longueur de la tige et la longueur des pétales de ses fleurs ?
19
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
20
Exemple 1 : Longueur de la tige d'une fleur et longueur de ses pétales
21
Exemple 2 : Âge d'un conducteur et nombre d'accidents
22
Exemple 2 : Âge d'un conducteur et nombre d'accidents
23
Exemple 2 : Âge d'un conducteur et nombre d'accidents
24
Exemple 2 : Âge d'un conducteur et nombre d'accidents
25
Exemple 2 : Âge d'un conducteur et nombre d'accidents
26
Exemple 3 : Pointure et note au contrôle de maths
Pointure: Nombre qui indique la dimension des chaussures, des chapeaux, des gants. 27
Exemple 3 : Pointure et note au contrôle de maths
28
Exemple 3 : Pointure et note au contrôle de maths
29
Exemple 3 : Pointure et note au contrôle de maths
30
Exemple 3 : Pointure et note au contrôle de maths
31
Exemple 4
Robin a noté pendant six jours la durée, en minutes, de sa méditation du soir
et son nombre d'heures de sommeil.
32
Exemple 4
33
Exemple 5
34
Exemple 5
35
Exemple 6
36
Exemple 6
37
Exemple 7
38
Exemple 7
39
Exemple 8
Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant
les dépenses de recherche X et les profits Y suivants (en millions de dollars)
Source: http://www.astro.ulg.ac.be/cours/magain/STAT/Stat_Main_Fr/Chapitre7.html 40
Exemple 8
50 + 60 + 40 + 50
40 + 40 + 30 + 50 𝑌ത =
ത
𝑋= 4
4
200
160 𝑌ത =
𝑋ത = 4
4
𝑌ത = 50
𝑋ത = 40
41
Exemple 8
ഥ )(𝒀 − 𝒀
= σ(𝑿 − 𝑿 ഥ)
= 40 − 40 ∗ (50 − 50) + 40 − 40 ∗ (60 − 50) + 30 − 40 ∗ (40 − 50) + 50 − 40 ∗ (50 − 50)
= 0 + 0 + −10 ∗ (−10) + 0
= +100
ഥ )(𝒀 − 𝒀
(𝑿 − 𝑿 ഥ ) = 100
42
Exemple 8
Les Ecart-Types:
200
𝑆𝑋 = = 66,7 = 8,167
3
43
Exemple 8
Les Ecart-Types:
200
𝑆𝑌 = = 66,7 = 8,167
3
44
Exemple 8
1
∗(100)
4−1
r=
(8,167)∗(8,167) La corrélation est positive et de qualité moyenne.
1
∗(100)
3
r=
66,7
r= 0,499 = 0,50
45
Exemple 8
46
Exemple 8
𝑋ത = 40 𝑌ത = 50
47
Exemple 9
Pointure des chaussures (X) et quotient intellectuel (Y) de 10 enfants d'âge
scolaire
Source: http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_6/stat98_6.htm 48
Exemple 9
49
Exemple 9
On se propose d'examiner s'il existe une relation entre la capacité à épeler et la taille
des pieds : il y a quatre réponses possibles :
- plus la taille des pieds est importante, plus la capacité à épeler est importante
(RELATION POSITIVE)
- plus la taille des pieds est importante, moins la capacité à épeler est important
(RELATION NEGATIVE)
- la taille des pieds est liée au quotient intellectuel par une relation complexe
comportant au moins un maximum et un minimum (RELATION NON MONOTONE)
- la taille des pieds n'est pas liée à la capacité à épeler (RELATION NULLE)
50
Exemple 9
51
Exemple 9
52
Exemple 9
La covariance de X et Y étant égal à 64.1, on obtient le coefficient de corrélation
de X et de Y en divisant la covariance par le produit de l'écart-type de X et de
l'écart-type de Y :
r(X,Y) = 64.1 / (2.4 * 32) = +0.83
Nous sommes en présence d'une corrélation positive forte, qui semble indiquer
qu'il existe une relation linéaire (de type Y=aX+b) reliant le quotient intellectuel
des enfants et la taille de leurs pieds.