Académique Documents
Professionnel Documents
Culture Documents
5. Corrélation et causalité
Il est fréquemment nécessaire d'étudier les liens qui peuvent exister entre les deux (ou
plus de deux) dimensions qui caractérisent une population statistique. Pour qualifier ces liens
on parle de liaison statistique, de corrélation.
La moyenne de X est :
1+3+4+6+7+8
x̅ = = 4,83
6
La moyenne de Y est :
3,5 + 3,6 + 4 + 5 + 6,6 + 6,8
y̅ = = 4,91
6
Si nous voulons que cette droite soit ajustée à un nuage de points dans le plan {X, Y}, il faut
calculer les coefficients a et b en appliquant les formules suivantes :
𝑐𝑜𝑣 (𝑥,𝑦)
𝑎= b = y̅ − 𝑎x̅
𝜎𝑥2
Calculons a :
1 𝑛 160,9 29 29,5
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − ×
𝑎= 𝑛 = 6 6 6 = 0,5258
1 𝑛 2 2 175 29 2
∑ 𝑥 − (𝑥̅ ) −( )
𝑛 𝑖=1 6 6
Exemple :
Soit la série S, déjà étudiée précédemment et supposons que l'on veuille connaître la valeur y qui
correspond à x = 12 que l'on se donne et qui ne figure pas dans S. Dans ce cas, il suffit de remplacer x par dans
l'équation de la droite pour obtenir y:
Plus r est proche de +1 ou de -1, plus les deux caractères sont dépendants. Plus il est proche
de 0, plus les deux caractères sont indépendants.
1 𝑛 160,9 29 29,5
𝑐𝑜𝑣 (𝑥, 𝑦) ∑ 𝑥 𝑦 − 𝑥̅ 𝑦̅ − ×
𝑟= = = 𝑛 𝑖=1 𝑖 𝑖 = 6 6 6 = 0,9371
𝜎𝑥 𝜎𝑦
√1 ∑𝑛𝑖=1 𝑥 2 − (𝑥̅ )2 √1 ∑𝑛𝑖=1 𝑦 2 − (𝑦̅)2 √175 − (29)2 √156 − (29,5)2
𝑛 𝑛 6 6 6 6
Fig. I.7 : Liens possibles entre les deux variables x et y, dont le coefficient de corrélation est identique.
Sur la figure I.7, les lignes en pointillés indiquent l'existence d'une corrélation entre les
variables x et y. Les lignes en trait plein indiquent l'existence d'une causalité et la flèche
indique le sens de la causalité.
Dans le cas (a), nous voyons que la causalité sous- jacente va de x vers y, c'est-à-dire que les
variations de x expliquent celles de y. La corrélation observée est donc bien le résultat d'une
causalité directe.
Cependant, comme la causalité n'est pas observable, on ne peut pas conclure à l'existence
d'une causalité de x vers y à la simple mise en évidence d'une corrélation. En effet, comme
l'illustrent les cas (b) et (c) de la figure I.7, la corrélation peut aussi s'expliquer différemment.
Dans le cas (b), c'est une variable z, qui peut être inconnue ou connue mais non prise en
compte, qui influence simultanément x et y. Dans ce cas, on observera effectivement une
corrélation entre x et y, mais cette corrélation n'impliquera pas de causalité de x vers y.
Dans le cas (c), c'est une variable z, qui peut être inconnue ou connue mais non prise en
compte, qui influence uniquement y. Dans ce cas, on observera effectivement une corrélation
entre x et y, mais cette corrélation n'impliquera pas de causalité de x vers y, puisque la
variation de x est autonome et celle de y causée par la variable z.
En conclusion, il faut retenir que corrélation n'est pas causalité.
6. Test statistique
Confronté à des phénomènes complexes et aléatoires, la prise de décision est difficile
et les outils adaptés de la théorie des tests ont pour objet de guider les choix entre différentes
alternatives. De façon générale, il s’agira de décider si des différences observées entre un
modèle posé a priori et des observations sont significatives ou peuvent être considérées
comme étant dues au simple effet du hasard consécutif aux aléas du tirage d’un échantillon.
La réponse à chaque question de type "oui / non" sera faite à l'issue d'un résultat aléatoire
(échantillon, expérimentation) et, par suite, "fatalement", cette réponse sera plus ou moins
risquée.
Nous proposons d'introduire les notions fondamentales associées à la construction et à
l'utilisation d'un test statistique classique à partir d'un exemple : comparaison des teneurs
moyennes en huile de deux variétés de tournesol.
Remarques :
L'hypothèse alternative (m1 ≠ m2) peut avoir deux interprétations soit m1 > m2 ou m1 < m2. Le test est
dit bilatéral. Dans certains cas, l'hypothèse alternative peut se limiter à une seule inégalité, par exemple m1 <
m2. La variété V2 est une nouvelle variété sensée avoir une meilleure teneur en huile que la variété courante V1.
Dans ce cas, le test est dit unilatéral.
Lorsque l’on effectue un test statistique, on pourra choisir la valeur de α, que l’on
appellera aussi le seuil du test. On dira que l’on rejette ou que l’on ne rejette pas une
hypothèse nulle au seuil α. Ce paramètre est en général fixé à α = 5 %.
La quantité 1- β est appelée la puissance du test, qui est donc une mesure de la
capacité du test à rejeter à raison une hypothèse nulle qui est fausse.
Le résultat d’un test statistique sera donc une valeur p qui nous permet de décider si on rejette
ou non l’hypothèse nulle selon le seuil α que l’on s’est préalablement choisi, avec la règle
suivante :
On rejette H0 au seuil α si p ≤ α.
Lorsque l’on rejette une hypothèse nulle au seuil α (p ≤ α), on parlera de résultat significatif
au seuil α. Dans le cas contraire (p > α), on parlera de résultat non significatif au seuil α.
▪ Tests d’adéquation
- Comparaison de deux distributions (chi-deux)
- Normalité d’une distribution (Kolmogorov, Shapiro Wilks)
▪ Liaisons entre variables D’autres questions, qui conduisent à tester l’influence d’une
variable quantitative (régression) ou qualitative (ANOVA et comparaison de plusieurs
moyennes) sur une variable quantitative.
6.2. Utilisation pratique des tests statistiques
6.2.1. Test khi-deux (χ2)
Les tests de χ2 servent à comparer des distributions. Ils peuvent être appliques sur tous
types de variables : qualitative nominale, ordinale, qualitative binaire, quantitative discrète ou
continue discrétisée.
▪ Formulations
0i : effectifs observes dans l’échantillon.
N : total de l’échantillon.
fi : fréquences de chaque classe de la variable dans la population ou dans la distribution théorique.
cj : effectifs théoriques = N x fi
r : nombre de lignes.
ddl : degré de liberté.
Distribution Echantillon
Variable
théorique (%) Effectifs observes Effectifs théoriques
A1 f1 O1 c1 = f 1 x N
… … … …
Ai fi Oi ci = fi x N
Total 100 % N N
▪ Conditions d'application
Tous les effectifs théoriques ci doivent être supérieurs ou égaux à 5.
Si cette condition n’est pas réalisée, il faut regrouper certaines classes de la variable.
▪ Principe du test
Dans ce type de test de χ2, les effectifs théoriques sont les effectifs attendus, que l’on
calcule en connaissant les fréquences des classes de la variable dans la population ou selon la
distribution théorique.
▪ Calculs intermédiaires
On calcule l’effectif attendu pour chaque classe de la variable en multipliant la taille
de l’échantillon par la fréquence de la classe dans la population ou par la fréquence donnée
par la loi de distribution théorique. ci = N x fi
H1 χ2 Rejet H0 Interprétation
2 On ne peut affirmer que la distribution étudiée est différente
< 𝜒5% Non
Bilatérale de la distribution théorique
2
≥ 𝜒5% Oui La distribution étudiée diffère significativement de la distribution théorique
Exemple :
Sur un échantillon de 284 sujets, on a observé la structure par âge ci-dessous (o). On veut vérifier si cet
échantillon diffère de la structure par âge de la population (% pop).
Sous H0, la distribution par âge de l'échantillon est identique à celle de la population.
Sous H1, la distribution observée diffère de celle de la population générale.
On calcule les effectifs théoriques (ci) en multipliant l'effectif total de l'échantillon 284 par la fréquence de
chaque classe dans la population générale.
(73 − 69,9)2 (82 − 79,8)2 (75 − 73,8)2 (36 − 38,6)2 (16 − 21,9)2
𝜒𝑂2 = + + + + = 1,09
69,9 79,8 73,8 38,6 21,9
Pour ddl = 5-1 = 4, la valeur lue dans la table de χ2 % est de 9,49. La valeur 1,09 observée est bien inferieure a
cette valeur. On ne rejette donc pas H0.
Le résultat du test montre qu'il n'existe aucun argument pour dire que l'échantillon est diffèrent de la structure par
âge de la population d'origine.
▪ Formulations
0i : effectifs observes.
ti : les totaux des lignes.
nj : totaux des colonnes.
N : total général.
cij : effectifs théoriques = nj t/N.
r : nombre de lignes.
k : nombre de colonnes.
ddl : degré de liberté.
Echantillons
Variable Total
E1 E2 … Ej
O11 O12 O1j
A1 … t1
c11 c12 c1j
… … … … … …
Oi1 Oi2 Oij
Ai … ti
ci1 ci2 cij
Total n1 n2 … nj N
▪ Conditions d'application
Tous les effectifs théoriques cij doivent être supérieurs ou égaux a 5. Si ces conditions
ne sont pas réalisées, il faut regrouper certaines classes de la variable.
▪ Principe du test
Sous H0, les différences entre les effectifs observés et les effectifs théoriques de
chaque case devraient être nulles. Le principe du test de χ2 consiste à regarder si l’ensemble
de ces différences est proche de zéro, ou si au contraire l’ensemble des différences est trop
éloigné d’une valeur seuil, auquel cas, on rejettera H0.
▪ Test du χ2 d'homogénéité
2
(0𝑖𝑗 − 𝑐𝑖𝑗 )
𝜒2 = ∑ ; ddl = (r – 1) x (k – 1)
𝑐𝑖𝑗
▪ Résultats
H1 χ2 Rejet H0 Interprétation
2
< 𝜒5% Non On ne peut affirmer que les distributions sont ≠
Bilatérale 2
≥ 𝜒5% Oui Les distributions diffèrent significativement
Exemple :
Le test de dépistage pour le virus VIH est proposé systématiquement lors d'une grossesse. On désire
savoir si la fréquence d'acceptation de ce test varie selon la région de la femme enceinte. Un échantillon de 3608
femmes est étudié.
Région A B C D Total
Test effectue 477 1746 248 135 2606
Test non fait 135 582 218 67 1002
Total tests 612 2328 466 202 3608
% tests effectues 77,9 75,0 53,2 66,8
ddl = (4 - 1) (2- 1) = 3
c11 = 2 606 x 612/3 608 = 442,0 c21 = 1 002 x 612/3 608 = 170,0
c12= 2 606 x 2 328/3 608 = 1681,5 c22 = 1 002 x 2 328/3 608 = 646,5
c13= 2 606 x 466/3 608 = 336,6 c23 = 1 002 x 466/3 608 = 129,4
c14 = 2 606 x 202/3 608 = 145,9 c24 = 1 002 x 202/3 608 = 56,1
(477 − 442,0)2 (135 − 170,0)2 (1746 − 1681,5)2 (582 − 646,5)2 (248 − 336,6)2
𝜒2 = + + + +
442,0 170,0 1681,5 646,5 336,6
(218 − 129,4)2 (135 − 145,9)2 (67 − 56,1)2
+ + +
129,4 145,9 56,1