Vous êtes sur la page 1sur 30

Corrélation - Régression

Corrélation
Mesure le degré de liaison entre deux variables quantitatives

Pour qu’il y ait série statistique, il faut qu’au moins l’une des deux
variables soit aléatoire.

• Cas 1 : Une variable aléatoire et une variable contrôlée


Exemple — intensité de l’assimilation chlorophyllienne (variable aléatoire) en fonction
de l’éclairement (contrôlé par l’expérimentateur).

• Cas 2 : Deux variables aléatoires


Exemple — Abondance de la récolte viticole (aléatoire) en fonction du nombre de jours
d’ensoleillement dans l’année (aléatoire).
Corrélation linéaire de Pearson

Mesure le degré de liaison linéaire entre deux variables quantitatives

Paramètres d’une série statistique double


Objectif : décrire la position et la forme de la distribution conjointe de deux variables

Paramètre de position : le point moyen (= centre de gravité, centroïde).

Paramètres de dispersion : Les variances estimées

La covariance sxy
La covariance nous renseigne sur l’inclinaison du nuage de points, mais elle ne
nous donne aucune idée de l’intensité de la liaison existant entre les variables x et y.
En effet, la covariance peut augmenter alors que la liaison entre x et y reste constante.

Les nuages de points A et B montrent la même


intensité de liaison mais des covariances très
différentes: covxy(A) < covxy(B).
Coefficient de corrélation linéaire de Pearson : mesure de la liaison linéaire
entre deux variables quantitatives x et y.

La corrélation linéaire (r de Pearson) est la covariance de deux


variables centrées réduites.

Propriétés :

• r = +1 ou r = –1 si les points forment une ligne droite dans
le diagramme de dispersion.
• Le signe de r est le même que le signe de la covariance. Il
indique si la relation est de pente positive (croissante) ou
négative (décroissante).
Test de signification du r de Pearson

Cependant, une corrélation significative ne démontre pas l’existence d’une


relation de causalité entre x et y — pas plus que l’absence de corrélation
significative dans une seule étude ne démontre l’absence de lien causal.
Diagramme de dispersion de la masse des
testicules (g) en fonction de la masse corporelle
(kg) pour 30 espèces de primates (d’après
Harcourt et al. 1981).
1. Question biologique

Est−ce que la masse des testicules augmente de façon linéaire en fonction de la masse
corporelle chez les primates?

2. Déclaration des hypothèses

H0 : Il n’y a pas de corrélation linéaire entre la masse des testicules et la masse


corporelle chez les primates

H1 : Il y a une corrélation linéaire positive entre la masse des testicules et la masse


corporelle chez les primates

3.Choix du test
Le test statistique utilisé est un test du r de Pearson
4. Conditions d’applications du test paramétrique
Les deux variables sont quantitatives (et forment une série statistique double).
Les deux variables se distribuent de façon binormale.
Les observations sont indépendantes.

5.Distribution de la variable auxiliaire


Sous H0 la variable auxiliaire rcalc suivra une distribution de r de Pearson à n= 30
Sous H0 la variable auxiliaire tcalc suivra une distribution de t à υ = n- 2= 28 d.d.l.

6.Règle de décision

7.Calcul du test
8. Décision statistique
On ne peut rejeter H0 au seuil α= 0.05 car :

9. Interprétation biologique

Les données ne montrent pas que la masse des testicules augmente de façon
linéaire en fonction de la masse corporelle chez les primates parce que les différentes
parties du corps n’ont pas le même taux de croissance (allométrie).
Régression linéaire (droites d'estimation)

Objectif de l’étude
La méthode de la régression a pour but de décrire la relation entre une variable
aléatoire dépendante (y) et un ensemble de variables indépendantes ou prédictives
x, en tentant d’estimer la valeur de y à l’aide des variables prédictives x1, x2, … , xm.

• Si les variables x sont contrôlées, on parle de régression de modèle I.


• Si les variables x sont aléatoires, on parle de régression de modèle II.

Lorsque l’estimation est fondée sur plusieurs variables prédictives, le


problème en est un de régression multiple.

On parle de régression linéaire lorsqu’on désire calculer une fonction du premier


degré liant les variables y et x.
= équation d’une ligne droite traversant le nuage de points et permettant de
calculer une valeur estimée pour chaque point et d’axe des x, correspondant à la
variable prédictive ŷ = droite d’estimation ou droite de régression de y en x.
La régression est une forme de modélisation. Elle peut avoir plusieurs
objectifs:

• Description : trouver le meilleur modèle fonctionnel liant la variable


dépendante y à la (aux) variable(s) indépendante(s) x. Estimer la valeur la plus
probable des paramètres du modèle, ainsi que leur intervalle de confiance.

• Inférence : tester des hypothèses précises se rapportant aux paramètres du


modèle dans la population statistique: ordonnée à l’origine, pente(s).

• Prédiction : prévoir ou prédire les valeurs de la variable dépendante pour de


nouvelles valeurs de la (des) variable(s) indépendante(s).
Principe des moindres carrés

Faire passer la droite d’estimation, à travers le nuage de points, de façon à ce que


les différences (y – ŷ) soient les plus faibles possible pour l’ensemble des points.

La différence εi = (yi – ŷi) porte le nom de résidu


pour l’observation i.
Test de signification du coefficient a (pente de la droite):

Intervalle de confiance de la pente


Il sert surtout à des fins d'inférence (p.ex. pour vérifier qu'une pente prédite par la
théorie biologique se trouve à l'intérieur de l'intervalle de confiance calculé pour un
seuil de signification donné). Il s'exprime comme suit:
Intervalle de confiance d'une "prédiction" ou "estimation"

définit les limites dans lesquelles se situe probablement une valeur individuelle lue
sur la droite de régression
L'intervalle de prédiction d'une "prédiction" (estimation)

définit les limites dans lesquelles tombera vraisemblablement une nouvelle observation
de y si elle fait partie de la même population statistique que l'échantillon; la formule pour
l'obtenir est la même que l'équation précédente, à ceci près que var(ŷi) doit être
remplacé par la quantité :

L'intervalle de confiance de l'estimation de la moyenne de y


pour une valeur particulière de la variable explicative lorsqu'on dispose d'une série de m
nouvelles valeurs de y pour une seule valeur de x; cet intervalle est constitué d'une
bande plus étroite que la précédente autour de la droite de régression. En effet, au lieu
de var(ŷi), on utilise la variance de la moyenne estimée de ces nouveaux éléments :
Coefficient de détermination ( R2 )

Mesure de la proportion de la variation de y expliquée par la variation de x.


La corrélation non-paramétrique

Le coefficient de corrélation linéaire r de Pearson, ainsi que son test de signification,


ne sont pas appropriés dans les circonstances suivantes:

• Si au moins l’une des variables est mesurée sur une échelle semi-quantitative
(rangs).

• Si on est intéressé à mettre en évidence toute relation monotone (croissante ou


décroissante) entre deux variables quantitatives, et non seulement une relation
linéaire. Dans ce cas, on a besoin d’une statistique basée sur les rangs.

• Si on désire tester la signification de la corrélation alors que l’une ou l’autre des


variables n’est pas distribuée normalement – ou encore, si on ne veut pas se donner
la peine de vérifier la normalité des distributions.

• Lorsque le nombre d’observations est très faible.


Le r, ou ρ (rhô) de Spearman

Si les données sont originellement de nature quantitative, on obtient le r de


Spearman de la façon suivante :
X Rang de X Y Rang de Y

• remplacer les valeurs numériques par des rangs; 10,2 1 7,6 3

10,5 3 7,4 2

11,1 4 7,2 1

11,7 5 10 5

12 6 11 6

• on calcule la différence di entre les rangs 10,3 2 7,9 4

X Rang de X Y Rang de Y di di2


10,2 1 7,6 3 -2 4

10,5 3 7,4 2 1 1

11,1 4 7,2 1 3 9

11,7 5 10 5 0 0

12 6 11 6 0 0

10,3 2 7,9 4 -2 4
• On calcule rs

6∑ d 2

rs = 1 − i

n −n
3

Ici Σdi2 = 18 et rs= 0,48

H0 : ρs =0
H1 : ρs ≠ 0

On compare rs à la valeur de la table de Spearman à rs(0,05,n) ici = 0,886

rs < rs(0,05,6) On accepte H0


La correction pour des rangs ex-aequo est la suivante

(n3 − n) / 6 − ∑ d i2 − ∑ t X − ∑ tY
rs =
( (n3 − n) / 6 − 2∑ t X )( (n3 − n) / 6 − 2∑ tY ) 
 

∑t =
∑ (t 3
i − ti )
XouY
12
Corrélation de rang de Kendall

Mesure le degré de liaison monotone entre deux variables semi−quantitatives


aléatoires. Utile lorsque :

• au moins une des deux variables est semi−quantitative


• la relation recherchée n’est pas nécessairement linéaire (mais cependant
monotone)
• les donnés ne se distribuent pas de façon bi−normale
• l’effectif de l’échantillon est faible

Principe :
• Remplacer chaque valeur de x et y par son rang
• Classer les n observations en ordre croissant selon la variable x
• Compter le nombre de paires de rangs qui sont également en ordre pour la variable y
• Il y a n(n-1) ⁄2 comparaisons à faire
Classons les valeurs selon la variable x et remplaçons les par leur rang :

Il s’agit maintenant de reporter les rangs de y en en−tête d’un tableau à double entrée et
d’assigner une valeur de +1 pour chaque intersection en ordre croissant et une valeur
de -1 pour chaque intersection en ordre décroissant.
Il suffit de traiter la matrice triangulaire supérieure sans la diagonale.
Corrections pour données ex−aequo :
• On assigne des rangs médians aux observations ex−aequo
• On assigne une valeur de 0 aux intersections d’observations ayant des rangs égaux en
x
• On assigne une valeur de 0 aux intersections ayant des rangs égaux en y

Classons les valeurs selon la variable x et remplaçons les par leur rang :

En x : les trois valeurs ex−aequo à 18 obtiennent le rang 5 (médiane de {4, 5, 6})


les deux valeurs ex−aequo à 41 obtiennent le rang 9.5 (médiane de {9, 10})
En y : les deux valeurs ex−aequo à 53 obtiennent le rang 8.5 (médiane de {8, 9})
Ainsi

Test de signification du Tau de Kendall

Hypothèses, variable auxiliaire et règles de décision :

Vous aimerez peut-être aussi