Cour L3 Stat Descriptives 2 Var

Corrélation et régression linéaire simple Introduction
Etude de la relation entre deux variables quantitatives:
Nuage de points: -description de

1. La corrélation l’association linéaire:
corrélation, régression
2. La régression linéaire simple
linéaire simple
Y
- explication /
prédiction d’une
variable à partir de
l’autre: modèle linéaire
X simple
La corrélation La corrélation
Statistique descriptive de la relation entre X et Y: variation Covariance et nuage de points
conjointe (x i − x ) > 0
1. La covariance <0 (y i − y ) > 0
Contribution > 0
y
1 n
cov( x, y ) = ∑ ( xi − x )( yi − y )
n i =1 >0
<0
x
1 n
cov( x, y ) = ∑ xi yi − xy
n i =1
2. Le coefficient de corrélation linéaire 2. Le coefficient de corrélation linéaire
« de Pearson » Indice de covariance absolu: -1 ≤ r ≤ 1
cov( x, y )
rxy =
s x2 s 2y X2 X2 X2
r = 0.9 r = 0.5 r=0
X2 X2 X2
r = -0.9 r = -0.5 r=0
X1
3. Conditions d’utilisation 3. Conditions d’utilisation
Normalité
Homoscédasticité
La loi de probabilité du couple (X,Y) Y
est une loi normale à deux dimensions:
Notamment, pour chaque valeur de X, les valeurs Homoscédasticité
de Y sont normalement distribuées et vice-versa. La variance de Y est
indépendante de X et vice-
r=0 versa.
r = 0.8
Hétéroscédasticité
X
La corrélation La régression linéaire simple
3. Conditions d’utilisation 1. Le modèle
Linéarité On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei
La relation est linéaire
X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
Y Y (dépendante ), aléatoire Y
Relation de causalité ≠
Linéarité Non-linéarité
interdépendance
X
X X
La régression linéaire simple La régression linéaire simple

2. L’estimation des paramètres 2. L’estimation des paramètres
a? b? Méthode des moindres carrés

Méthode d’estimation: les moindres carrés:
n
yi Mi
y = a+bx
On cherche le minimum de ∑( y i − ( a + bxi )) 2 = E ( a, b)
ei i =1
yˆ i ⎧ ∂E n
⎪ ∂a ∑
M’i
⎪ = 2(y i − (a + bx i ))(−1) = 0 (1)
ei = yi - (a + bxi)
Y ⎨ i=1
⎪ ∂E = 2(y − (a + bx ))(−x ) = 0 (2)

n
∑e ⎪⎩ ∂b ∑
2
i
minimale i i i
i=1
X xi
2. L’estimation des paramètres 3. Qualité de l’ajustement
Méthode des moindres carrés On a supposé: Yi = a + bXi + ei avec

pour X = xi, Yi : N(a+bxi, σ)
a = y − bx
cov( x, y ) - distribution normale des erreurs
b= - variance identique (homoscédasticité)
s x2
- indépendance: cov(ei ,e j ) = 0
- linéarité de la relation
On peut alors prédire y pour x compris dans l’intervalle des Test a posteriori : étude du nuage de points/ du
graphe des résidus
valeurs de l’échantillon: yˆ i = aˆ + bˆ x i

3. Qualité de l’ajustement 3. Qualité de l’ajustement
Normalité de l’erreur Homoscédasticité

Résidus
Résidus
Valeurs prédites Valeurs prédites
Questions à se poser: structure de l’erreur?

Valeurs extrêmes: ont-elles un sens biologique? Influencent- Possibilité de transformation: attention aux transformations ad hoc
elles l’estimation des paramètres?
3. Qualité de l’ajustement 4. Coefficient de détermination
Indépendance entre erreurs, linéarité Décomposition de la variation
Quelle part de la variabilité de Y est expliquée par la relation

Résidus
Structure de l’erreur? linéaire avec X?
Variabilité? Somme des Carrés des Ecarts SCE:

Résidus
n
Relation non linéaire? SCET = ∑ ( yi − y ) 2 = ns y2
i =1
4. Coefficient de détermination 4. Coefficient de détermination

La décomposition de la SCE permet d’estimer la part de SCE
Décomposition de la variation de Y expliquée par la régression:
SCE reg.lin. Coefficient de détermination
Y r2 =
SCE T
Y 0 ≤ r2 ≤ 1
= +
On peut démontrer que le coefficient de détermination=r²
SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur) (cov( x, y )) 2
N N N
r2 =
∑ (Yi − Y )2 = ∑ (Y$i − Y )2 + ∑ (Yi − Y$i )2 s x2 s y2
i =1 i =1 i =1

Cour L3 Stat Descriptives 2 Var

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cour L3 Stat Descriptives 2 Var

Transféré par

Droits d'auteur :

Formats disponibles

Corrélation et régression linéaire simple Introduction

Etude de la relation entre deux variables quantitatives:

Nuage de points: -description de

r = 0.9 r = 0.5 r=0

r = -0.9 r = -0.5 r=0

3. Conditions d’utilisation 1. Le modèle

Linéarité On suppose: y = f(x) = a + bx

La régression linéaire simple La régression linéaire simple

a? b? Méthode des moindres carrés

⎪ ∂E = 2(y − (a + bx ))(−x ) = 0 (2)

Méthode des moindres carrés On a supposé: Yi = a + bXi + ei avec

La régression linéaire simple La régression linéaire simple

Normalité de l’erreur Homoscédasticité

Valeurs prédites Valeurs prédites

Questions à se poser: structure de l’erreur?

Quelle part de la variabilité de Y est expliquée par la relation

Structure de l’erreur? linéaire avec X?

Variabilité? Somme des Carrés des Ecarts SCE:

La régression linéaire simple La régression linéaire simple

4. Coefficient de détermination 4. Coefficient de détermination

Vous aimerez peut-être aussi