Vous êtes sur la page 1sur 28

Corrlation et causalit

La dpendance (corrlation)
Lorsquune distribution prsente 2 caractres, il est parfois lgitime de se demander sil existe un lien entre eux. On sinterroge alors sur la possible dpendance, dans un sens ou dans lautre de ces deux variables.

Lajustement linaire
Lajustement une courbe se fait gnralement en minimisant les carrs des distances des points du nuage la courbe. Lajustement une droite (ajustement linaire) est le plus frquemment utilis. Cependant, il faut garder lesprit quil nest pas toujours adapt.

Nuage de points et ajustements


Lorsque le nuage de points prsente une forme allonge, lajustement linaire (une droite permet de rsumer au mieux lallure gnrale du phnomne) est acceptable :

Nuage de points et ajustements


Mais la forme du nuage peut suggrer dautres types de courbes.

Droites de rgression (mthode des moindres carrs)


Il sagit de dterminer 2 droites D et D telles que, pour chacune delles, les distances prises entre chaque point du nuage et la droite soient les plus petites possibles. Les distances di et dj entre la droite et chaque point du nuage sont prises paralllement aux axes.

La dtermination de lquation des droites D et D


Si lon note y=ax+b lquation de D alors pour dterminer les valeurs de a et b, il faut minimiser lexpression :

On obtient ainsi la valeur de a (pente de la droite D) :

La dtermination de lquation des droites D et D


Or, on sait que les droites D et D passent par le point moyen de coordonnes ( ), ce qui permet de dterminer les valeurs de b et b une fois connues les valeurs de a et a.

Le coefficient de corrlation linaire


La plus ou moins grande dpendance entre les deux variables x et y peut tre apprhende par la valeur de langle que forment les droites de rgression D et D.

Plus cet angle ouvert, moins liaison est forte.

est la

Le coefficient de corrlation linaire


Pour traduire lintensit de la liaison par un nombre, on utilise le coefficient de corrlation linaire dont le carr est gal au produit des pentes des droites de rgression :
r = aa

Do

Avec

-1 r 1

Le coefficient de corrlation linaire


Il y a une forte corrlation linaire entre x et y quand r est voisin de + 1 ou 1.
Quand r est indpendance. nul, cela suggre une

Un lien de dpendance entre deux sries est jug significatif partir du moment o en valeur absolue r est suprieur 0,87 (r0,76).

Le coefficient de corrlation linaire

Le coefficient de corrlation linaire

La reprsentation graphique : le nuage de points


Le graphique en nuage de points permet de mettre en vidence la relation entre 2 variables. En abscisses, on porte la variable explicative X et en ordonne, la variable explique Y.

De la dpendance la causalit
La dtermination dune droite des moindres carrs ne signifie pas quun lien de causalit existe entre les 2 variables.

Exemple : Fautes dorthographe et pointure


Diagramme de dispersion du nombre d'orthographe en fonction de la pointure
Nombre de fautes dorthographe

de

fautes

Les lves ayant les plus grands pieds font moins de fautes. Ces deux grandeurs apparemment indpendantes s'avrent en fait lies ngativement
Source : Nicolas Gauvrit, Statistiques : mfiezvous, Ellipses, 2007.
Pointure

Les variables de confusion


Si deux grandeurs sont lies, il se peut qu'il n'y ait en fait aucune causalit entre elles. Il se peut qu'aucune relation logique ne puisse alors tre tablie entre les deux variables. Mais il se peut aussi qu'on trouve une causalit indirecte, passant par une autre variable (ou grandeur). Dans un tel cas, on appelle cette variable cache variable de confusion.

Exemple : Fautes dorthographe et pointure


Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion ge
Source : Nicolas Gauvrit, Statistiques : mfiez-vous, Ellipses, 2007.

L'exemple des fautes d'orthographe et de la taille des pieds est un cas o une telle variable de confusion intervient : il sagit de l'ge. Dans une cole, les plus grands pieds correspondent, en moyenne et globalement, aux lves les plus vieux, donc ceux de CM2, meilleurs que les CE1 ou les CP en orthographe...

Corrlation contraire au lien causal

Les variables de confusion peuvent faire apparatre des liens de corrlation entre des variables indpendantes. Mais, il existe des cas, o la corrlation est le contraire du lien causal.

Exemple : esprance de vie et consommation dalcool


Diagramme de dispersion de l'esprance de vie la naissance en fonction de la consommation d'alcool par pays
Esprance de vie

Le diagramme ci-contre montre une liaison positive entre les 2 variables. Cela voudrait donc dire que lorsque lon boit plus dalcool, on vit plus vieux.

Consommation dalcool

Source : Joseph Klatzman, Attention stisitiques !, La Dcouverte 1996.

Exemple : esprance de vie et consommation dalcool


Diagramme de dispersion de l'esprance de vie la naissance en fonction de la consommation d'alcool par pays
Esprance de vie

La figure ci-contre nous permet de mieux analyser la relation entre ces 2 variables.
On y dcouvre que : les pays les plus riches sont ceux o lon boit le plus Les pays les plus riches sont aussi ceux o lon vit le plus longtemps.

Consommation dalcool Source : Joseph Klatzman, Attention statistiques !, La Dcouverte 1996.

Exemple : esprance de vie et consommation dalcool


En fait, il faut considrer la variable de confusion "richesse du pays". Cette variable agit sur l'esprance de vie de manire inverse de la consommation d'alcool.
Autrement dit, si l'on considre un pays comme la France, on peut dire que dans ce pays : les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de rduire l'esprance de vie. Le diagramme causal de la figure ci dessous donne une reprsentation de la situation.

Mais d'un autre ct, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considrablement l'esprance de vie. Cette augmentation fait plus que compenser la rduction d'esprance de vie due la consommation d'alcool.

La corrlation partielle
La corrlation partielle est la corrlation observe quand les autres variables sont maintenues une valeur constante. La corrlation partielle est souvent plus significative que la corrlation totale

Exemple : Corrlation partielle


Supposons par exemple quune banque dcouvre que, dans la tranche dge 25-60 ans, les variables ge et portefeuille dactions sont fortement corrles positivement.

Doit-on conclure que le dsir dinvestir en bourse augmente avec lge ?

Exemple : corrlation partielle


Supposons quune troisime variable, le revenu , soit prise en compte. Le nuage de points dans lespace devient alors :

Exemple : corrlation partielle


Supposons maintenant que lon dcoupe la population en groupes de telle manire que tous les individus dun mme groupe aient approximativement le mme revenu.

Exemple : corrlation partielle


Ainsi, lintrieur de chaque groupe de revenu, la corrlation entre ge et portefeuille est beaucoup moins marque que sur lensemble de la population.

Ainsi, la corrlation observe entre ge et portefeuille nest quune consquence de la tendance laugmentation des revenus avec lge.

Corrlation partielle Corrlation totale


A linverse, il peut exister des cas o deux variables ont une corrlation totale nulle et une corrlation partielle forte.