Vous êtes sur la page 1sur 17

Chap 9.

Chapitre 9
1.  La corrélation linéaire
Corrélation et régression linéaire 2.  La régression linéaire

1.  La corrélation linéaire

1.1) Définitions
L’étude statistique d'une population peut porter simultanément sur plusieurs variables
è nécessaire de mesurer la liaison éventuelle entre ces variables.
e.g.: l'une augmente, l'autre augmente également ou l'une augmente, l'autre diminue, etc.
è on va alors étudier les corrélations

Vocabulaire utilisé fonction de la nature et du nb de variables impliquées:


• Liaison linéaire entre 2 variables quantitatives gaussiennes:
on parlera de corrélation linéaire simple, ce qui sera développé ici;
• Intensité de la relation liant 1 variable à 1 ensemble de variables indépendantes quantitatives :
corrélation multiple
• Lien entre 2 ensembles de variables quantitatives: corrélation canonique;
• Relation entre 2 variables semi quantitatives: corrélation de rang;
• Relation entre 2 variables qualitatives: association

• Relation entre 2 variables qualitatives binaires: corrélation de point ou d'association

Les séries statistiques doubles (ou multiples) peuvent être obtenues


•  en considérant une variable aléatoire Y et une variable contrôlée X (on parle alors de modèle I),
•  en considérant deux variables aléatoires X et Y (modèle II).
1.2) Distribution binormale
On considère une variable aléatoire normale X de moyenne μx et la variance σx2
è densité de probabilité gaussienne, forme typique de cloche.
Loi binormale suivie par 2 variables aléatoires X et Y: caractérisée par 5 paramètres:
•  μx, σx2 pour la distribution de X,
•  μy, σy2 pour la distribution de Y,
•  ρ = coeff. de corrélation linéaire, pour caractériser la liaison entre les 2 variables.
Point μ de coordonnées (μx,μy) = point moyen théorique de la distribution de la bivariable (X,Y).
Les variances σx et σy sont appelées variances marginales de X et de Y envisagées indépendamment
l'une de l'autre.
S'il existe une corrélation entre les 2 variables, on définira pour Y, la valeur de X étant fixée (= X1,) une
distribution conditionnelle caractérisée par:
•  moyenne= E(Y|X1) ≠ μy
•  variance σ2(Y|X1) < σy2
•  distribution normale
De même : on définira la distribution conditionnelle de X,
Y étant fixée à Y1.
La distribution de chaque variable dépend donc de la
valeur prise par l'autre.

Si :
è  distributions marginales et les distributions conditionnelles sont toutes normales
è  variances conditionnelles sont constantes (c-a-d σ2(Y|Xi) est indépendante de Xi et σ2(X|Yi)
est indépendante de Yi)

la distribution conjointe de X et de Y est dite binormale.

Elle s’exprime par une fonction de densité de probabilité bivariable Z = f(X,Y), = généralisation 2D de la
loi normale univariable, se représente dans l'espace euclidien {X,Y,Z} par une surface en cloche.
La projection des courbes de niveau (pour une valeur donnée de Z) de la surface de la cloche
représente des courbes concentriques centrées sur μ, qui sont des ellipses (d'isodensité ou de
probabilité) si la distribution est binormale.

On peut déterminer des ellipses délimitant des


portions du plan {X,Y} contenant 95%, 99% ou 99,9%
des points de la bivariable (X,Y).
1.3) Le coefficient de corrélation linéaire

Corrélation de Pearson (ou de Bravais-Pearson): mesure la liaison linéaire existant entre deux variables
quantitatives aléatoires.
ρ = coefficient de corrélation linéaire, mesure le degré d'aplatissement des ellipses de distribution.

Cov(X , Y ) E[( X − E ( X ))(Y − E (Y ))] E[( X − µ X )(Y − µY )]


ρ XY = = =
2 2 2 2 2 2
σX σY σX σY σX σY

Estimation à partir d'un échantillon obtenue à partir des estimateurs non biaisés
(donc pondérés à n – 1) Sxy de la covariance et Sx et Sy des variances de X et de Y:

S XY
rXY = ∈ [-1, 1]
S X SY
Remarques:
1. La valeur de r mesure le degré de liaison linéaire entre 2 variables. Si la relation n'est pas linéaire, r
peut être nul ou très faible malgré une très forte dépendance curvilinéaire ou, au contraire, est très
élevé même si le modèle linéaire décrit visiblement mal la liaison entre ces variables.
2. Le coefficient de corrélation linéaire n'indique pas nécessairement une relation de cause à effet. En
particulier, il est fréquent que deux variables évoluant dans le temps de façon totalement
indépendante montrent une corrélation fortuite.
3. Le coefficient de corrélation linéaire est indépendant des échelles de mesure des 2 variables
considérées, ce qui facilite la comparaison de coefficients de corrélation.
1.4) Test de signification du r de Pearson

Comme toujours, l'estimation r à partir d'un échantillon subit la variabilité de celui-ci.


Test:
H0 : ρ = 0
H1 : ρ ≠ 0 test bilatéral
ou H1 : ρ > 0 ou ρ < 0 tests unilatéraux

La variable auxiliaire (ou statistique du test)


r
T= (n − 2) obéit à une loi de Student à n – 2 ddl
2
(1 − r ) si H0 vraie.

Si T >t α alors H0 est rejetée.


n − 2;1−
2
C’est-à-dire qu’il existe une corrélation significative entre les deux variables (ρ≠0).
Sinon, on peut conclure qu’on n’a pas de relation significative entre les deux variables.

Il revient au même d'estimer la variable r 2 ( n − 2) Suit une loi de Fisher-


Fα =
Snedecor si H0 vraie.
(1 − r 2 )
On compare cette valeur à Fα(1, n -2). Ce test revient à effectuer une analyse de
variance sur r2 (cf. § 9.2.2).
En pratique, on utilise couramment une table de signification du r de Pearson indiquant
la valeur critique en fonction de n ou du ddl n - 2.
è Corrélation significative au rang α si rcalc > rα/2.
1.5) Comparaison de 2 coefficients de corrélation linéaire

On considère deux échantillons aléatoires et indépendants d’effectifs n1, n2 et de coefficients de


corrélation r1 et r2.

Les transformations de Fisher de r1 et r2, variables zr1 et zr2 ~ lois normales


⇒  différence obéit également approximativement à une loi normale de moyenne 0 et de variance 1/
(n1 – 3) + 1/(n2 – 3),
⇒  permet de construire un test à part de l'écart réduit zdr :

zdr =
(zr1 − zr 2 )
(1 /(n1 − 3) + 1 /(n2 − 3))
La transformation de Fisher se lit dans une table ou se déduit de la formule :

1
z= [ln(1 + r ) − ln(1 − r )]
2

La comparaison des 2 coefficients de corrélation se fera donc selon un mode bilatéral (H1 : ρ1 ≠ ρ2)
ou unilatéral (H1 : ρ1 > ρ2 ou H1 : ρ1 < ρ2) en utilisant la table des probabilités de la courbe normale
centrée réduite.
Chap 9.
2.  La régression linéaire 1.  La corrélation linéaire
2.  La régression linéaire

Objectif: résumer la relation entre deux variables par une fonction simple (ici une droite)
de type Y = aX + b.

En réalité, on recherche un estimateur,

Yˆi = aX i + b
et
Yi = aX i + b + ε i
Faibles variations
= erreur du modèle

Deux démarches sont possibles:

è Prédire la valeur la plus probable de Y, notée Ŷ, pour une valeur donnée de X, on parle alors de
régression de Y en X, c'est la plus couramment utilisée (il existe symétriquement une régression de X en
Y), c'est la predictive regression des anglo-saxons;

è Décrire simplement sans souci de prédiction la tendance du nuage de point par une équation de
droite ; dans ce cas, on utilise généralement la méthode de l'axe majeur réduit, c'est la functionnal
regression des anglo-saxons ou droite de Teissier.
2.1) Régression de Y en X: méthode des moindres carrés
Méthode la plus adaptée pour prédire Y à partir de X (pour modèle I ou II).
Régression = déterminer, connaissant la valeur de X, la valeur de Y la
plus probable (si Y est discrète) ou de densité de probabilité maximale (si Y est continue) == mode de
la distribution (Y|Xi), Xi étant fixée.
Si cette distribution conditionnelle est normale, mode == espérance mathématique.
Symétriquement, on définit une fonction et une droite de régression de X en Y è il existe 2 régressions
différentes.

Note:
Régression de Y en X ≠ régression de X en Y!
E.g.: ce n'est pas parce que les sardines de 20 cm pèsent en moy 100 g que les sardines de 100 g
mesureront en moy 20 cm.
Moindres carrés:
On détermine les valeurs des coefficients a et b de la droite de régression Y=aX+b qui minimisent la
somme des carrés des écarts entre valeurs observées Yi et valeurs prévues Yˆi

2 2
S= ∑( Yi − Yˆi ) = ∑(Yi − (aXi + b))
On recherche les valeurs de a et b ∂S ∂S
satisfaisant simultanément : =0 et =0
∂a ∂b
∂S ∂ ⎛ 2 ⎞
En développant on trouve: = ∑ (Y − (aX + b)) ⎟⎟⎠ = −2∑ (Y − aX − b) = 0
⎜
∂b ∂b ⎜⎝
i i i i

⇒ ∑Y − a∑ X − nb = nY − anX − nb = 0
i i

⇒ b = Y − aX
∂S ∂ ⎛ 2 ⎞
= ⎜
∂a ∂a ⎜⎝ ∑ (Yi − (aXi + b)) ⎟ = −2
⎟
⎠
∑ X (Y − aX − b) = 0
i i i

⇒ ∑ ∑ ∑X =0
X iYi − a X i2 − b i

⇔ ∑ X Y − a∑ X − (Y − aX )nX = 0
i i i
2 Ou en utilisant les estimateurs:
∑ XY i i
cov XY = E ( XY ) − E ( X ) E (Y ) = − XY = 0 S
n ⇒ a = XY
2
Or 1 SX
σ X2 =
n
(∑ X i
2
− nX 2 )
On obtient donc: Yˆ = aX + b = aX + Y − aX ( )
ou
(
Yˆ − Y = a X − X )
La droite de régression passe par le point moyen de coordonnées m(X),m(Y),
a une pente égale à a et une ordonnée à l'origine égale à [m(Y) – a.m(X)].
Partant de l'expression de rxy = Sxy/(Sx.Sy), on peut en déduire

S
a=r Y
SX

résidu = Yi − Yˆi
2.2) Coefficient de détermination R2 et décomposition de la variance

Le coefficient de détermination mesure la proportion de la variation de Y expliquée par la variation de X.


Dans le cas de la régression linéaire:
R2 = r2
Décomposition de la variance:
Somme des carrés
des écarts totaux= dispersion due à la régression + autour de la régression
SCET = SCER + SCEE

2
( ˆ )2
∑( Yˆi − Y ) ∑i i
Y − Y

SCER
Par définition:
R2 =
SCET
SCET = SCER + SCEE = R2 ⋅ SCET + (1 − R2 )SCET

R2 représente donc la proportion de variation de Y


expliquée par la régression (donc la variation de
X) et (1 – R2) la proportion de variation de Y non
expliquée ou résiduelle ou encore la dispersion du
nuage de points autour de la régression.
Lorsqu'on analyse la liaison entre deux variables X et Y, il faut donc considérer deux aspects distincts:
•  d'une part, la valeur de r et l'indication de la signification de la corrélation en fonction de la taille de
l'échantillon
•  d'autre part, la proportion de la variance expliquée par la régression et celle de la variance résiduelle
2.2) Comparaison de la pente a à une pente théorique ath

Test: H0: a=ath


H1: a≠ath (test bilatéral) ou test unilatéral

Variable de décision:
a − ath
ta = Suit une loi de Student à
(S 2 2
e /( n − 1).S X ) n-2 ddl si H0 vraie

H0 refusée si ta > tα / 2, n − 2 pour un test bilatéral

ou ta > tα , n − 2 pour un test unilatéral

2.3) Comparaison de l’ordonnée à l’origine b à une valeur théorique bth

b − bth
Même principe avec: tb =
var(b)
et

∑ Se2 X i2
var(b) =
2
n∑ (X − X )
i
2.4) L’axe majeur réduit (régression non prédictive)

Une alternative au modèle de régression de Y en X (predictive regression) est d'utiliser une méthode
descriptive lorsque les deux variables sont aléatoires et qu'il n'y a pas de raison de choisir X ou Y
comme variable explicative (on parle alors de functional regression). Une des méthodes possibles est le
calculer l'axe majeur (ou principal) réduit encore appelée droite de Teissier (geometric mean
regression).
Il correspond à la bissectrice des régressions de Y en X et de X en Y. On dispose alors d'une équation
unique pour décrire (et non prévoir) une relation biunivoque et la pente est alors indépendante du
coefficient de corrélation linéaire :

a = Sy/Sx

Remarque : lorsque r tend vers 1, les deux régressions prédictives (Y en X et X en Y) tendent à se


"redresser" pour se confondre avec la bissectrice, l'angle formé par ces deux droites tend alors vers 0.
2.5) Régression forcée à l’origine

Il peut arriver que deux variables soient liées par une relation passant par définition par l'origine, c'est-
à-dire impliquant que, lorsque l'une est nulle, l'autre l'est aussi (par exemple, la relation entre la
longueur et la largeur d'un organisme).
Il est alors possible de forcer la régression à passer par l'origine après s'être assuré que l'ordonnée
estimée b n'est pas significativement différente de 0 (bien que dans ce cas, le risque de 2ème espèce
β ne soit pas connu).
On imposera alors la relation :
Ŷ = a.X, droite passant à la fois par l'origine et le point moyen [m(X),m(Y)], de pente égale à :

a = m(Y)/m(X) = ΣY/ΣX