Académique Documents
Professionnel Documents
Culture Documents
Chapitre 9
1. La corrélation linéaire
Corrélation et régression linéaire 2. La régression linéaire
1.1) Définitions
L’étude statistique d'une population peut porter simultanément sur plusieurs variables
è nécessaire de mesurer la liaison éventuelle entre ces variables.
e.g.: l'une augmente, l'autre augmente également ou l'une augmente, l'autre diminue, etc.
è on va alors étudier les corrélations
Si :
è distributions marginales et les distributions conditionnelles sont toutes normales
è variances conditionnelles sont constantes (c-a-d σ2(Y|Xi) est indépendante de Xi et σ2(X|Yi)
est indépendante de Yi)
Elle s’exprime par une fonction de densité de probabilité bivariable Z = f(X,Y), = généralisation 2D de la
loi normale univariable, se représente dans l'espace euclidien {X,Y,Z} par une surface en cloche.
La projection des courbes de niveau (pour une valeur donnée de Z) de la surface de la cloche
représente des courbes concentriques centrées sur μ, qui sont des ellipses (d'isodensité ou de
probabilité) si la distribution est binormale.
Corrélation de Pearson (ou de Bravais-Pearson): mesure la liaison linéaire existant entre deux variables
quantitatives aléatoires.
ρ = coefficient de corrélation linéaire, mesure le degré d'aplatissement des ellipses de distribution.
Estimation à partir d'un échantillon obtenue à partir des estimateurs non biaisés
(donc pondérés à n – 1) Sxy de la covariance et Sx et Sy des variances de X et de Y:
S XY
rXY = ∈ [-1, 1]
S X SY
Remarques:
1. La valeur de r mesure le degré de liaison linéaire entre 2 variables. Si la relation n'est pas linéaire, r
peut être nul ou très faible malgré une très forte dépendance curvilinéaire ou, au contraire, est très
élevé même si le modèle linéaire décrit visiblement mal la liaison entre ces variables.
2. Le coefficient de corrélation linéaire n'indique pas nécessairement une relation de cause à effet. En
particulier, il est fréquent que deux variables évoluant dans le temps de façon totalement
indépendante montrent une corrélation fortuite.
3. Le coefficient de corrélation linéaire est indépendant des échelles de mesure des 2 variables
considérées, ce qui facilite la comparaison de coefficients de corrélation.
1.4) Test de signification du r de Pearson
zdr =
(zr1 − zr 2 )
(1 /(n1 − 3) + 1 /(n2 − 3))
La transformation de Fisher se lit dans une table ou se déduit de la formule :
1
z= [ln(1 + r ) − ln(1 − r )]
2
La comparaison des 2 coefficients de corrélation se fera donc selon un mode bilatéral (H1 : ρ1 ≠ ρ2)
ou unilatéral (H1 : ρ1 > ρ2 ou H1 : ρ1 < ρ2) en utilisant la table des probabilités de la courbe normale
centrée réduite.
Chap 9.
2. La régression linéaire 1. La corrélation linéaire
2. La régression linéaire
Objectif: résumer la relation entre deux variables par une fonction simple (ici une droite)
de type Y = aX + b.
Yˆi = aX i + b
et
Yi = aX i + b + ε i
Faibles variations
= erreur du modèle
è Prédire la valeur la plus probable de Y, notée Ŷ, pour une valeur donnée de X, on parle alors de
régression de Y en X, c'est la plus couramment utilisée (il existe symétriquement une régression de X en
Y), c'est la predictive regression des anglo-saxons;
è Décrire simplement sans souci de prédiction la tendance du nuage de point par une équation de
droite ; dans ce cas, on utilise généralement la méthode de l'axe majeur réduit, c'est la functionnal
regression des anglo-saxons ou droite de Teissier.
2.1) Régression de Y en X: méthode des moindres carrés
Méthode la plus adaptée pour prédire Y à partir de X (pour modèle I ou II).
Régression = déterminer, connaissant la valeur de X, la valeur de Y la
plus probable (si Y est discrète) ou de densité de probabilité maximale (si Y est continue) == mode de
la distribution (Y|Xi), Xi étant fixée.
Si cette distribution conditionnelle est normale, mode == espérance mathématique.
Symétriquement, on définit une fonction et une droite de régression de X en Y è il existe 2 régressions
différentes.
Note:
Régression de Y en X ≠ régression de X en Y!
E.g.: ce n'est pas parce que les sardines de 20 cm pèsent en moy 100 g que les sardines de 100 g
mesureront en moy 20 cm.
Moindres carrés:
On détermine les valeurs des coefficients a et b de la droite de régression Y=aX+b qui minimisent la
somme des carrés des écarts entre valeurs observées Yi et valeurs prévues Yˆi
2 2
S= ∑( Yi − Yˆi ) = ∑(Yi − (aXi + b))
On recherche les valeurs de a et b ∂S ∂S
satisfaisant simultanément : =0 et =0
∂a ∂b
∂S ∂ ⎛ 2 ⎞
En développant on trouve: = ∑ (Y − (aX + b)) ⎟⎟⎠ = −2∑ (Y − aX − b) = 0
⎜
∂b ∂b ⎜⎝
i i i i
⇒ ∑Y − a∑ X − nb = nY − anX − nb = 0
i i
⇒ b = Y − aX
∂S ∂ ⎛ 2 ⎞
= ⎜
∂a ∂a ⎜⎝ ∑ (Yi − (aXi + b)) ⎟ = −2
⎟
⎠
∑ X (Y − aX − b) = 0
i i i
⇒ ∑ ∑ ∑X =0
X iYi − a X i2 − b i
⇔ ∑ X Y − a∑ X − (Y − aX )nX = 0
i i i
2 Ou en utilisant les estimateurs:
∑ XY i i
cov XY = E ( XY ) − E ( X ) E (Y ) = − XY = 0 S
n ⇒ a = XY
2
Or 1 SX
σ X2 =
n
(∑ X i
2
− nX 2 )
On obtient donc: Yˆ = aX + b = aX + Y − aX ( )
ou
(
Yˆ − Y = a X − X )
La droite de régression passe par le point moyen de coordonnées m(X),m(Y),
a une pente égale à a et une ordonnée à l'origine égale à [m(Y) – a.m(X)].
Partant de l'expression de rxy = Sxy/(Sx.Sy), on peut en déduire
S
a=r Y
SX
résidu = Yi − Yˆi
2.2) Coefficient de détermination R2 et décomposition de la variance
2
( ˆ )2
∑( Yˆi − Y ) ∑i i
Y − Y
SCER
Par définition:
R2 =
SCET
SCET = SCER + SCEE = R2 ⋅ SCET + (1 − R2 )SCET
Variable de décision:
a − ath
ta = Suit une loi de Student à
(S 2 2
e /( n − 1).S X ) n-2 ddl si H0 vraie
b − bth
Même principe avec: tb =
var(b)
et
∑ Se2 X i2
var(b) =
2
n∑ (X − X )
i
2.4) L’axe majeur réduit (régression non prédictive)
Une alternative au modèle de régression de Y en X (predictive regression) est d'utiliser une méthode
descriptive lorsque les deux variables sont aléatoires et qu'il n'y a pas de raison de choisir X ou Y
comme variable explicative (on parle alors de functional regression). Une des méthodes possibles est le
calculer l'axe majeur (ou principal) réduit encore appelée droite de Teissier (geometric mean
regression).
Il correspond à la bissectrice des régressions de Y en X et de X en Y. On dispose alors d'une équation
unique pour décrire (et non prévoir) une relation biunivoque et la pente est alors indépendante du
coefficient de corrélation linéaire :
a = Sy/Sx
Il peut arriver que deux variables soient liées par une relation passant par définition par l'origine, c'est-
à-dire impliquant que, lorsque l'une est nulle, l'autre l'est aussi (par exemple, la relation entre la
longueur et la largeur d'un organisme).
Il est alors possible de forcer la régression à passer par l'origine après s'être assuré que l'ordonnée
estimée b n'est pas significativement différente de 0 (bien que dans ce cas, le risque de 2ème espèce
β ne soit pas connu).
On imposera alors la relation :
Ŷ = a.X, droite passant à la fois par l'origine et le point moyen [m(X),m(Y)], de pente égale à :
a = m(Y)/m(X) = ΣY/ΣX