Vous êtes sur la page 1sur 15

Fig. I.5 : Histogramme des âges des enfants du centre de vacances.

5. Corrélation et causalité
Il est fréquemment nécessaire d'étudier les liens qui peuvent exister entre les deux (ou
plus de deux) dimensions qui caractérisent une population statistique. Pour qualifier ces liens
on parle de liaison statistique, de corrélation.

5.1. La droite de régression linéaire


5.1.1. Définition
Le point moyen est le point qui a pour coordonnées la moyenne de X et la moyenne
de Y. On l'appelle aussi le centre de gravité.
La droite de régression est une droite qui passe par le point moyen. C'est aussi la
droite qui minimise la somme des carrés des écarts des observations. Une fois connue,
l'équation de cette droite permet de résumer la série et de faire des prévisions.

Exemple : Soit la série S :


S = {{1 ; 3,5} ; {3 ; 3,6} ; {4 ; 4} ; {6 ; 5} ; {7 ; 6,6} ; {8 ; 6,8}}

La moyenne de X est :
1+3+4+6+7+8
x̅ = = 4,83
6

La moyenne de Y est :
3,5 + 3,6 + 4 + 5 + 6,6 + 6,8
y̅ = = 4,91
6

Fig. I.6 : Courbe de corrélation.

5.1.2. Calcul des coefficients


L'équation de la droite de régression se calcule ainsi. Soit la droite d'équation
y = ax + b

Si nous voulons que cette droite soit ajustée à un nuage de points dans le plan {X, Y}, il faut
calculer les coefficients a et b en appliquant les formules suivantes :

𝑐𝑜𝑣 (𝑥,𝑦)
𝑎= b = y̅ − 𝑎x̅
𝜎𝑥2

Où cov(x,y) représente la covariance de (x,y) et se calcule ainsi :


1
cov (x,y) = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅

Par conséquent, la formule détaillée de a est :


1 𝑛
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑎= 𝑛
1 𝑛 2 2

𝑛 𝑖=1 𝑥 − (𝑥̅ )
Exemple : Calculons a et b dans le cas de la série S :
S = {{1 ; 3,5} , {3 ; 3,6} , {4 ; 4} , {6 ; 5} , {7 ; 6,6} , {8 ; 6,8}}

Calculons a :

1 𝑛 160,9 29 29,5
∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ − ×
𝑎= 𝑛 = 6 6 6 = 0,5258
1 𝑛 2 2 175 29 2
∑ 𝑥 − (𝑥̅ ) −( )
𝑛 𝑖=1 6 6

Une fois a connu, on en déduit b :


b = 𝑦̅ - a𝑥̅ = 2,37512

L'équation de la droite de régression est donc :


y = ax + b = 0,5258x + 2,37512

5.1.3. Utilité de la droite de régression


La droite de régression sert d'abord à vérifier l'existence d'une relation linéaire et la
nature de celle-ci. Ainsi, dans notre exemple, le coefficient directeur de la droite a=0,5258 est
positif ce qui dénote une relation positive : x et y varient dans le même sens.
La droite de régression sert ensuite à faire des prévisions. Ainsi, nous pouvons utiliser
l'équation de la droite de régression pour calculer des valeurs de y associées à une valeur de x
que l'on se donne.

Exemple :
Soit la série S, déjà étudiée précédemment et supposons que l'on veuille connaître la valeur y qui
correspond à x = 12 que l'on se donne et qui ne figure pas dans S. Dans ce cas, il suffit de remplacer x par dans
l'équation de la droite pour obtenir y:

y = 0,5258 x (12) + 2,37512 = 8,6847

5.2. Coefficient de corrélation


Le coefficient de corrélation mesure la plus ou moins grande dépendance entre les
deux caractères x et y. On le désigne par la lettre "r" et il varie entre -1 et +1.
𝑐𝑜𝑣 (𝑥, 𝑦)
𝑟=
𝜎𝑥 𝜎𝑦

Plus r est proche de +1 ou de -1, plus les deux caractères sont dépendants. Plus il est proche
de 0, plus les deux caractères sont indépendants.

Exemple : Calculons le coefficient de corrélation de la série S

1 𝑛 160,9 29 29,5
𝑐𝑜𝑣 (𝑥, 𝑦) ∑ 𝑥 𝑦 − 𝑥̅ 𝑦̅ − ×
𝑟= = = 𝑛 𝑖=1 𝑖 𝑖 = 6 6 6 = 0,9371
𝜎𝑥 𝜎𝑦
√1 ∑𝑛𝑖=1 𝑥 2 − (𝑥̅ )2 √1 ∑𝑛𝑖=1 𝑦 2 − (𝑦̅)2 √175 − (29)2 √156 − (29,5)2
𝑛 𝑛 6 6 6 6

5.3. Coefficient de détermination


Le coefficient de détermination (noté R²) est un indicateur qui permet de juger la
qualité d’une régression linéaire simple.
Pour calculer le R2, suffit en effet de calculer r et de l'élever au carré : R2 = r²
Contrairement ou coefficient de corrélation, qui varie entre -1 et +1, le coefficient de
corrélation varie entre 0 et 1.
Il sert aussi à mesurer la corrélation des deux variables, mais ne donne aucune
indication sur le sens (positif ou négatif) de la corrélation.
Plus il est proche de 0, plus la corrélation est faible. Plus il est proche de 1, plus la
corrélation est élevée.

Exemple : Calculons le coefficient de détermination de la série S.


R2 = r x r = 0,93712 = 0,8781

Les deux variables de la série S sont corrélées.

5.4. Corrélation et causalité


Le plus souvent, l'étude des relations entre deux variables a pour but d'apprécier dans
quelle mesure l'une des deux variables - dite variable explicative - exerce une influence
causale sur l'autre - dite variable expliquée. Par ailleurs, la corrélation n'implique pas la
causalité comme le montre la figure I.7.

Fig. I.7 : Liens possibles entre les deux variables x et y, dont le coefficient de corrélation est identique.

Sur la figure I.7, les lignes en pointillés indiquent l'existence d'une corrélation entre les
variables x et y. Les lignes en trait plein indiquent l'existence d'une causalité et la flèche
indique le sens de la causalité.
Dans le cas (a), nous voyons que la causalité sous- jacente va de x vers y, c'est-à-dire que les
variations de x expliquent celles de y. La corrélation observée est donc bien le résultat d'une
causalité directe.
Cependant, comme la causalité n'est pas observable, on ne peut pas conclure à l'existence
d'une causalité de x vers y à la simple mise en évidence d'une corrélation. En effet, comme
l'illustrent les cas (b) et (c) de la figure I.7, la corrélation peut aussi s'expliquer différemment.
Dans le cas (b), c'est une variable z, qui peut être inconnue ou connue mais non prise en
compte, qui influence simultanément x et y. Dans ce cas, on observera effectivement une
corrélation entre x et y, mais cette corrélation n'impliquera pas de causalité de x vers y.
Dans le cas (c), c'est une variable z, qui peut être inconnue ou connue mais non prise en
compte, qui influence uniquement y. Dans ce cas, on observera effectivement une corrélation
entre x et y, mais cette corrélation n'impliquera pas de causalité de x vers y, puisque la
variation de x est autonome et celle de y causée par la variable z.
En conclusion, il faut retenir que corrélation n'est pas causalité.
6. Test statistique
Confronté à des phénomènes complexes et aléatoires, la prise de décision est difficile
et les outils adaptés de la théorie des tests ont pour objet de guider les choix entre différentes
alternatives. De façon générale, il s’agira de décider si des différences observées entre un
modèle posé a priori et des observations sont significatives ou peuvent être considérées
comme étant dues au simple effet du hasard consécutif aux aléas du tirage d’un échantillon.

6.1. Principe des tests


6.1.1. Définition
Le test statistique étudie les relations entre population et échantillon, et conduit à une
prise de décision face à une question posée.
Exemples :
- Peut-on considérer comme correcte la qualité de remplissage des bouteilles d'huile dans une chaîne de
production d'un tel produit ?
- Peut-on considérer que la teneur en pesticide d'un lait bio est identique à celle d'un lait classique du commerce
?
- Est-ce qu'une certaine campagne publicitaire a permis l'augmentation du taux d'utilisation du produit présenté ?

La réponse à chaque question de type "oui / non" sera faite à l'issue d'un résultat aléatoire
(échantillon, expérimentation) et, par suite, "fatalement", cette réponse sera plus ou moins
risquée.
Nous proposons d'introduire les notions fondamentales associées à la construction et à
l'utilisation d'un test statistique classique à partir d'un exemple : comparaison des teneurs
moyennes en huile de deux variétés de tournesol.

6.1.2. Hypothèse nulle (H0) et hypothèse alternative (H1)


On veut comparer les teneurs moyennes en huile m1 et m2 de deux variétés V1 et V2 de
tournesol. m1 et m2 sont inconnues. On est en présence de deux hypothèses :

m1 = m2 ("Hypothèse nulle H0")


et
m1≠ m2 ("Hypothèse alternative H1")

Remarques :
L'hypothèse alternative (m1 ≠ m2) peut avoir deux interprétations soit m1 > m2 ou m1 < m2. Le test est
dit bilatéral. Dans certains cas, l'hypothèse alternative peut se limiter à une seule inégalité, par exemple m1 <
m2. La variété V2 est une nouvelle variété sensée avoir une meilleure teneur en huile que la variété courante V1.
Dans ce cas, le test est dit unilatéral.

6.1.3. Prise de décision


Dans la démarche adoptée, nous allons établir des règles de décision qui vont nous
conduire à l'acceptation ou au rejet de l'hypothèse nulle H0. Toutefois cette décision est
fondée sur une information partielle, les résultats d'un échantillon. Il est donc statistiquement
impossible de prendre la bonne décision à coup sûr. Donc ne pourra prendre une décision
qu'en ayant conscience qu'il y a un certain risque qu'elle soit erronée.

6.1.4. Niveau et puissance


Le résultat d’un test statistique est donc le rejet ou le non-rejet d’une hypothèse nulle
H0. Ceci peut nous mener à deux types d’erreur : rejeter H0 alors qu’elle est vraie ou ne pas
rejeter H0 alors qu’elle est fausse. On appelle ces erreurs respectivement l’erreur de première
espèce et l’erreur de seconde espèce. On peut résumer la situation dans le tableau suivant :
Rejeter H0 Ne pas rejeter H0
H0 vraie Erreur de première espèce Bonne décision
H0 fausse Bonne décision Erreur de seconde espèce

Si H0 est vraie, on note par α la probabilité de commettre une erreur de première


espèce. Si H0 est fausse, on note par β la probabilité de commettre une erreur de seconde
espèce. On peut résumer la situation dans le tableau suivant :

Probabilité de rejeter H0 Probabilité de ne pas rejeter H0


H0 vraie α 1−α
H0 fausse 1−β β

Lorsque l’on effectue un test statistique, on pourra choisir la valeur de α, que l’on
appellera aussi le seuil du test. On dira que l’on rejette ou que l’on ne rejette pas une
hypothèse nulle au seuil α. Ce paramètre est en général fixé à α = 5 %.
La quantité 1- β est appelée la puissance du test, qui est donc une mesure de la
capacité du test à rejeter à raison une hypothèse nulle qui est fausse.

6.1.5 Probabilité critique ou P-valeur


La valeur p peut être définie comme le seuil minimal au-delà duquel on rejette
l’hypothèse nulle.
Valeur p = seuil minimal au-delà duquel on rejette H0.

Le résultat d’un test statistique sera donc une valeur p qui nous permet de décider si on rejette
ou non l’hypothèse nulle selon le seuil α que l’on s’est préalablement choisi, avec la règle
suivante :

On rejette H0 au seuil α si p ≤ α.

Lorsque l’on rejette une hypothèse nulle au seuil α (p ≤ α), on parlera de résultat significatif
au seuil α. Dans le cas contraire (p > α), on parlera de résultat non significatif au seuil α.

6.1.6. Démarche d’un test


Après avoir clairement défini la question posée et le modèle statistique sous-jacent,
une démarche de test suit généralement les étapes suivantes.
1. Définir l’hypothèse nulle, notée H0, à contrôler ;
2. Choisir une statistique pour contrôler H0 ;
3. Définir la distribution de la statistique sous l’hypothèse « H0 est réalisée » ;
4. Définir le niveau de signification du test α et la région critique associée ;
5. Calculer, à partir des données fournies par l’échantillon, la valeur de la statistique ;
6. Prendre une décision concernant l’hypothèse posée.

6.1.7. Choix du test


Le choix du test et guidé par la question posée et la structure des données issues de
l’expérience. La littérature statistique est très abondante sur ce sujet, seuls sont référencés ici
les tests élémentaires les plus couramment utilisés et généralement proposés par les logiciels
statistiques ; en voici un guide sommaire.
▪ Tests paramétriques les observations sont supposées suivre un modèle gaussien ou
l’échantillon est de suffisamment grande taille pour accepter la normalité asymptotique
par le théorème de la limite centrale.
Un échantillon
- Comparaison de la moyenne de l’échantillon à une valeur théorique lorsque la
variance est supposée connue (Gauss)
- Comparaison de la moyenne de l’échantillon à une valeur théorique lorsque la
variance est inconnue et estimée (Student)
- Comparer une proportion à une valeur théorique
Deux échantillons indépendants
- Comparaison de deux moyennes (variances égales ou échantillon suffisamment
grand, Student)
- Comparaison de deux variances (Fisher)
- Comparaison de deux proportions
Deux échantillons appariés Le même échantillon est observé à deux instants
différents ou dans deux conditions différentes (Student apparié)
Plusieurs échantillons ANOVA à un facteur

▪ Tests d’adéquation
- Comparaison de deux distributions (chi-deux)
- Normalité d’une distribution (Kolmogorov, Shapiro Wilks)

▪ Tests non-paramétrique Dans le cas : petit échantillon et distribution non gaussienne.


Deux échantillons indépendants Comparaison de deux médianes (Mann-Whitney)
Deux échantillons appariés Test de Wilcoxon sur les différences
Plusieurs échantillons Kruskal-Wallis

▪ Liaisons entre variables D’autres questions, qui conduisent à tester l’influence d’une
variable quantitative (régression) ou qualitative (ANOVA et comparaison de plusieurs
moyennes) sur une variable quantitative.
6.2. Utilisation pratique des tests statistiques
6.2.1. Test khi-deux (χ2)
Les tests de χ2 servent à comparer des distributions. Ils peuvent être appliques sur tous
types de variables : qualitative nominale, ordinale, qualitative binaire, quantitative discrète ou
continue discrétisée.

6.2.1.1. Test de conformité ou d’ajustement


Le test de χ2 de conformité (ou d’ajustement). Il sert à comparer une distribution
observée sur un échantillon a une distribution connue dans une population ou à une
distribution théorique : binomiale, Poisson, normale, etc (fig. I.8).

Fig. I.8 : Test de χ2 de conformité


▪ Quand choisir ce test ?
Lorsqu’on désire comparer une distribution observée sur un échantillon :
▪ Soit à une distribution connue dans une population : test de conformité ;
▪ Soit à une distribution théorique (binomiale, normale… ) : test d’ajustement.

Variable Qualitative nominale


Paramètre étudié Effectifs observés et attendus
Taille des échantillons Effectifs attendus supérieurs ou égaux à 5
Hypothèse nulle Distribution de l'échantillon = distribution théorique
H1 bilatérale Distribution de l'échantillon ≠ distribution théorique

▪ Formulations
0i : effectifs observes dans l’échantillon.
N : total de l’échantillon.
fi : fréquences de chaque classe de la variable dans la population ou dans la distribution théorique.
cj : effectifs théoriques = N x fi
r : nombre de lignes.
ddl : degré de liberté.

Distribution Echantillon
Variable
théorique (%) Effectifs observes Effectifs théoriques
A1 f1 O1 c1 = f 1 x N
… … … …
Ai fi Oi ci = fi x N
Total 100 % N N

▪ Conditions d'application
Tous les effectifs théoriques ci doivent être supérieurs ou égaux à 5.
Si cette condition n’est pas réalisée, il faut regrouper certaines classes de la variable.
▪ Principe du test
Dans ce type de test de χ2, les effectifs théoriques sont les effectifs attendus, que l’on
calcule en connaissant les fréquences des classes de la variable dans la population ou selon la
distribution théorique.

▪ Calculs intermédiaires
On calcule l’effectif attendu pour chaque classe de la variable en multipliant la taille
de l’échantillon par la fréquence de la classe dans la population ou par la fréquence donnée
par la loi de distribution théorique. ci = N x fi

▪ Test du χ2 de conformité ou d'ajustement :


(0𝑖 − 𝑐𝑖 )2
𝜒2 = ∑ ; ddl = r - 1
𝑐𝑖
▪ Résultats

H1 χ2 Rejet H0 Interprétation
2 On ne peut affirmer que la distribution étudiée est différente
< 𝜒5% Non
Bilatérale de la distribution théorique
2
≥ 𝜒5% Oui La distribution étudiée diffère significativement de la distribution théorique

Exemple :
Sur un échantillon de 284 sujets, on a observé la structure par âge ci-dessous (o). On veut vérifier si cet
échantillon diffère de la structure par âge de la population (% pop).

Age Oi % pop. = fi ci = 284 x fi


0-19 73 24.6 69,9
20-39 82 28, 1 79,8
40-59 75 26,0 73,8
60-74 36 13.6 38,6
> 74 18 7.7 21,9
Total 284 100,0 284,0

Sous H0, la distribution par âge de l'échantillon est identique à celle de la population.
Sous H1, la distribution observée diffère de celle de la population générale.

On calcule les effectifs théoriques (ci) en multipliant l'effectif total de l'échantillon 284 par la fréquence de
chaque classe dans la population générale.
(73 − 69,9)2 (82 − 79,8)2 (75 − 73,8)2 (36 − 38,6)2 (16 − 21,9)2
𝜒𝑂2 = + + + + = 1,09
69,9 79,8 73,8 38,6 21,9

Pour ddl = 5-1 = 4, la valeur lue dans la table de χ2 % est de 9,49. La valeur 1,09 observée est bien inferieure a
cette valeur. On ne rejette donc pas H0.
Le résultat du test montre qu'il n'existe aucun argument pour dire que l'échantillon est diffèrent de la structure par
âge de la population d'origine.

6.2.1.2. Test d'homogénéité


Le test de χ2 d'homogénéité. Il sert à comparer deux ou plusieurs distributions
observées sur des échantillons (fig. I.9).
Fig. I.9 : Test de χ2 d'homogénéité

▪ Quand choisir ce test ?


Lorsqu’on désire comparer les distributions observées entre plusieurs échantillons
d’une variable qualitative nominale a plusieurs classes. Si la variable est binaire, le test
revient à comparer plusieurs pourcentages.

Variable Qualitative nominale ou binaires
Paramètre étudié Effectifs des classes et des échantillons
Taille des échantillons Effectifs théoriques supérieurs ou égaux à 5
Séries comparées Indépendantes
Hypothèse nulle Les distributions ou les pourcentages sont identiques
H1 bilatérale Les distributions ou les pourcentages sont différents

▪ Formulations
0i : effectifs observes.
ti : les totaux des lignes.
nj : totaux des colonnes.
N : total général.
cij : effectifs théoriques = nj t/N.
r : nombre de lignes.
k : nombre de colonnes.
ddl : degré de liberté.

Echantillons
Variable Total
E1 E2 … Ej
O11 O12 O1j
A1 … t1
c11 c12 c1j
… … … … … …
Oi1 Oi2 Oij
Ai … ti
ci1 ci2 cij
Total n1 n2 … nj N

▪ Conditions d'application
Tous les effectifs théoriques cij doivent être supérieurs ou égaux a 5. Si ces conditions
ne sont pas réalisées, il faut regrouper certaines classes de la variable.

▪ Principe du test
Sous H0, les différences entre les effectifs observés et les effectifs théoriques de
chaque case devraient être nulles. Le principe du test de χ2 consiste à regarder si l’ensemble
de ces différences est proche de zéro, ou si au contraire l’ensemble des différences est trop
éloigné d’une valeur seuil, auquel cas, on rejettera H0.
▪ Test du χ2 d'homogénéité
2
(0𝑖𝑗 − 𝑐𝑖𝑗 )
𝜒2 = ∑ ; ddl = (r – 1) x (k – 1)
𝑐𝑖𝑗

▪ Résultats
H1 χ2 Rejet H0 Interprétation
2
< 𝜒5% Non On ne peut affirmer que les distributions sont ≠
Bilatérale 2
≥ 𝜒5% Oui Les distributions diffèrent significativement

Exemple :
Le test de dépistage pour le virus VIH est proposé systématiquement lors d'une grossesse. On désire
savoir si la fréquence d'acceptation de ce test varie selon la région de la femme enceinte. Un échantillon de 3608
femmes est étudié.
Région A B C D Total
Test effectue 477 1746 248 135 2606
Test non fait 135 582 218 67 1002
Total tests 612 2328 466 202 3608
% tests effectues 77,9 75,0 53,2 66,8

H0 : la fréquence d'acceptation du test est identique quelle que soit la région.


H1 bilatérale : la fréquence d'acceptation du test est différente selon les régions.

ddl = (4 - 1) (2- 1) = 3
c11 = 2 606 x 612/3 608 = 442,0 c21 = 1 002 x 612/3 608 = 170,0
c12= 2 606 x 2 328/3 608 = 1681,5 c22 = 1 002 x 2 328/3 608 = 646,5
c13= 2 606 x 466/3 608 = 336,6 c23 = 1 002 x 466/3 608 = 129,4
c14 = 2 606 x 202/3 608 = 145,9 c24 = 1 002 x 202/3 608 = 56,1

(477 − 442,0)2 (135 − 170,0)2 (1746 − 1681,5)2 (582 − 646,5)2 (248 − 336,6)2
𝜒2 = + + + +
442,0 170,0 1681,5 646,5 336,6
(218 − 129,4)2 (135 − 145,9)2 (67 − 56,1)2
+ + +
129,4 145,9 56,1

χ2 = 2,77 + 7,21 + 2,47 + 6,44 + 23,3 + 60,7 + 0,81 + 2,12 = 105,8


2
Pour ddl = 3, la valeur seuil 𝜒5% est de 7,81. La valeur trouvée 105,8 est très supérieure. On rejette donc H0.
Annexe 1 : Table de la loi du χ2
Annexe 2 : Table de la loi de Student
Annexe 3 : Table de la loi de Fisher-Snedecor

Vous aimerez peut-être aussi