Regression Simple

Partie 1 Régression simple
Modèle ?
Représentation des phénomènes
en réalité en vue de comprendre
le fonctionnement,
Marketing direct en ligne:
construire un modèle pour identifier les
clients les plus susceptibles d’acheter des
produits de leur prochain catalogue
Clients identifiés par le modèle comme

ayant peu de chance d’acheter seront
exclu de la prochaine liste d’envoi.
Modèles mathématiques et
statistiques
Modèles Modèles
déterministes probabilistes
statistiques
Déterministes
Random Error
(aléatoires)
statistiques
Exemple:
Ventes d’un produit = frais de
publicité + force de vente + prix +
,,,+ erreur de perturbation
Corrélation et régression linéaire simple
 La corrélation
 La régression linéaire
simple
Introduction
Etude de la relation entre deux variables quantitatives:
Nuage de points: -description de

l’association linéaire:
corrélation, régression
linéaire simple
Y
- explication /
prédiction d’une
variable à partir de
l’autre: modèle linéaire
X simple
La corrélation
Statistique descriptive de la relation entre X et Y: variation

conjointe
1. La covariance
Dans l’échantillon:
n
1
cov(x, y)   x i y i  xy
n i1
Estimation pour la population: n
1
cov(x, y)  
ˆ xy  
n 1 i1
(x i  x )(y i  y )
 n
1 n
cov( x, y)  
n 1 i1
x y
i i 
n 1
xy

La corrélation
Covariance et nuage de points
(xi  x)  0
<0 (yi  y)  0
Contribution > 0
y

>0
 <0
 x

La corrélation
2. Le coefficient de corrélation linéaire
« de Pearson »
sxy
rxy 
sx2 s 2y
La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1
X2 X2 X2
r = 0.9 r = 0.5 r=0
X2 X2 X2
r = -0.9 r = -0.5 r=0
X1
La corrélation
3. Conditions d’utilisation
Homoscédasticité
Y
Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.
Hétéroscédasticité
X
La corrélation
3. Conditions d’utilisation
Linéarité
La relation est linéaire
Y Y
Linéarité Non-linéarité
X X
La régression linéaire simple
1. Le modèle
On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei
avec, pour X = xi, Yi : N(a+bxi, )
X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire
2. L’estimation des paramètres
a? b?
Méthode d’estimation: les moindres carrés:
yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y
 i
e 2
minimale
X xi
Méthode des moindres carrés
n
On cherche le minimum de  i    E ( a , b)
2
( y ( a bxi ))
i 1
 E n
   2(y i  (a  bxi ))(1)  0 (1)

 a i1

 E
n
  2(y  (a  bx ))(x )  0 (2)
 
b i1
i i i
n n n
(1)   y i   (a  bxi )  na  b x i
i1 i1 i1
ny  na nbx
 a  y  bx

n(cov(x, y)  xy )  (y  bx )nx  bn(sx2  x 2 )  0
cov(x, y)  bs 2 cov(x, y)
x b 2
sx
 Si y = a+bx alors
ˆb  cov(x, y) et aˆ  y  bx
sx2
On 
peut alors prédire y pour x 
compris dans l’intervalle des
valeurs de l’échantillon: yˆ i  aˆ bˆxi

3. Qualité de l’ajustement
On a supposé: Yi = a + bXi + ei avec

pour X = xi, Yi : N(a+bxi, )
- distribution normale des erreurs

- variance identique (homoscédasticité)
- indépendance: cov(ei ,e j )  0
- linéarité de la relation
Test a posteriori : étude du nuage de points/ du

graphedes résidus
Normalité de l’erreur
Résidus
Valeurs prédites
Questions à se poser: structure de l’erreur?

Valeurs extrêmes: ont-elles un sens? Influencent-elles
l’estimation des paramètres?
Homoscédasticité
Résidus
Valeurs prédites
Indépendance entre erreurs, linéarité

Résidus
Structure de l’erreur?
Résidus
Relation non linéaire?

4. Coefficient de détermination
Décomposition de la variation
Quelle part de la variabilité de Y est expliquée par la relation

linéaire avec X?
Variabilité? Somme des Carrés des Ecarts SCE:

n
Variance SCET   (y i  y )  ns 2 2
y
totale i1
Décomposition de la variation
Y
= +
SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)

N N N
 (Yi  Y ) 2
=  (Yi  Y ) 2
+  (Yi  Yi )2
i 1 i 1 i 1
La décomposition de la SCE permet d’estimer la part de SCE

de Y expliquée par la régression:
Coefficient de détermination
SCE reg.lin.
r 
2
SCET
0 ≤ r2 ≤ 1

Relation avec r?
Relation entre r et r2
n n
SCE reg.lin.   ( yˆ i  y ) 2   ((a  bxi )  (a  bx ))2
i1 i1
n
 b 2  (x i  x ) 2  b 2 nsx2  b 2 SCE x
i1
 2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r 
2
2
x
( 2
) 2
2 x
2 2
 (r) 2
nsy sx sy sx sy

En particulier, r = 0 <=> r2 = 0
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : a=b = 0
 reg.lin.
2
SCE reg.lin. /1
 : F 1
 horsreg.lin. SCE horsreg.lin. /(n  2)

2 n2
Si F (obs) > Fc (tabulée refuser Ho

Si non accepter Ho
Test de significativité par variable:
Si T(obs)= coef/écart type estimé

> tc (tabulée) refuser H0
Si non accepter Ho
Ventes en function des frais de
publicité:
pub ventes (Units)
1 1
2 1
3 2
4 2
5 4
Ventes
Publicité
Paramètres Estimés
  n 
n
  x i   yi 
n
 i 1  i 1  15 10 
 x y
i i 
n
37 
ˆ1  i 1
 5  .70
15 
2 2
 
n
 x i  55 
 
n
5

i 1
xi
2

i 1 n
?0  y  1 x  2  .70  3  .10
yˆ  .1  .7 x
Résultats
Parameter Estimates
^0 Parameter Standard T for H0:

Variable DF Estimate Error Param=0 Prob>|T|
INTERCEP 1 -0.1000 0.6350 -0.157 0.8849
ADVERT 1 0.7000 0.1914 3.656 0.0354
^1
yˆ  .1  .7 x
Regression Line Fitted
(representation de Y estimée
ou ajustée)
Sales
4
3 yˆ  .1  .7 x
2
1
0
0 1 2 3 4 5
Advertising
Exercice
3
S
t
9
2. Analyse de regression – relation exponentielle
a
t
i
s
t
i
La fonction exponentielle est très courante en sciences
q
u
e
y  aebx
s
Par exemple la décroissance d’un bien ...
Si les constantes a et b sont inconnues, on espère pouvoir les

estimer à partir de x et y. Malheureusement l’approche directe
fournit des équations insolubles.
Alors… comment faire????

4
S
t
0
a
t
i
s
t Très facile! On transforme l’équation non linéaire en une équation
i linéaire. Linéarisation en prenant le logarithme:
q
u
e
s ln y  ln a  bx
ln y devient linéaire en x
4
S
t
1
a
t
i
s
t Une population de bactéries décroît exponentiellement:
i
q
N  N 0e  t /
u
e
s
t est le temps et  est la vie moyenne de la population. A rapprocher de

la demi-vie t1/2; en fait t1/2 = (ln2) .
Temps ti Population Ni Zi = ln Ni
(jours)
0 153000 11.94
1 137000 11.83
2 128000 11.76
4
S
t
2
a
t
i
s
t
Opération bactéries Opération bactéries
i
q 155000
11.95
u
e y = -0.089x + 11.933
150000
s 11.9
145000
Population
11.85
Population
140000
11.8
135000
11.75
130000
125000 11.7
0 0.5 1 1.5 2 2.5
0 0.5 1 1.5 2 2.5
Temps (jours)
Temps (jours)
ln N0 = 11,93 et (-1/ ) = -0.089 j-1

11,2jours
4
S
t
3
a
t
i
s
t
i Extrêmement facile mais attention quand même…!!!
q
u
e L’ajustement par moindres carrés de la droite y = ax+b suppose
s que toutes les mesure y1,…,yn soient également incertaines.
4
S
t
4
2. Analyse de regression – Les autres grands modèles
a
t
i
s
t
i
q
u
e
s
4
S
t
5
2. Analyse de regression – Et les résidus…?
a
t
i
s Attention
t • Les points isolés ont un effet indésirables sur la régression
i
q
Leur influence doit être testée en les éliminant et en
u répétant la régression.
e
s
• La différence en y entre un point et la droite de
régression est connue sous le nom de résidu.
La validité de la régression statistique dépend de la
distribution des résidus:
1. Les résidus doivent être normalement distribués

2. Il ne doit pas y avoir de tendance dans la distribution de
variance le long de x.
4
S
t
6
a
t
i
s
t
i
q
u ei
e
s
x
4
S
t
7
a
t Le fuseau: La variance des résidus n’est pas indépendante des valeurs
i de x. Des corrections doivent être apportées (courbe log. log p.e.)
s
t
i
q
u ei
e
s
x
4
S
t
8
a
t
i
s
t
i
ei
q
u
e
s
Bande oblique: Relation entre les résidus et la variable x. Si x

n’est pas dans le modèle, il faudrait l’introduire, ou erreur
importante.
4
S
t
9
a
t
i
s
t
ei
i
q
u
e
s
Bande horizontale: les conditions d’application sont suffisamment respectées

5
S
t
0
2. Analyse de regression – Le coefficient de détermination
a
t yi
i
s Variation
t y inexpliquée
i
q
ŷi Variation
u
e totale
s
Variation
expliquée
R2 = Variation expliquée / variation totale
x
5
S
t
1
2. Analyse de regression – Le coefficient de détermination
a
t
i
s
y  y    yi  yˆi    ( yi  y)
2 2
t
i i
ˆ 2
q
u
e
s Somme des carrés Somme des carrés Somme des carrés
totale (SCtot) des résidus (SCres) de la régression (SCreg)
Variation totale = variation inexpliquée + variation expliquée
R2 = Variation expliquée / variation totale
R2 est le coefficient de détermination, proportion de la variation

de y qui s’explique par la présence de x.
Plus R2 est grand, plus SCres est petit.

Regression Simple

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regression Simple

Transféré par

Droits d'auteur :

Formats disponibles

Partie 1 Régression simple

Clients identifiés par le modèle comme

Etude de la relation entre deux variables quantitatives:

Nuage de points: -description de

Statistique descriptive de la relation entre X et Y: variation

r = 0.9 r = 0.5 r=0

r = -0.9 r = -0.5 r=0

La relation est linéaire

Méthode des moindres carrés

   2(y i  (a  bxi ))(1)  0 (1)

Méthode des moindres carrés

Méthode des moindres carrés

n(cov(x, y)  xy )  (y  bx )nx  bn(sx2  x 2 )  0

On a supposé: Yi = a + bXi + ei avec

- distribution normale des erreurs

Test a posteriori : étude du nuage de points/ du

Questions à se poser: structure de l’erreur?

Indépendance entre erreurs, linéarité

Relation non linéaire?

Quelle part de la variabilité de Y est expliquée par la relation

Variabilité? Somme des Carrés des Ecarts SCE:

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)

La décomposition de la SCE permet d’estimer la part de SCE

 horsreg.lin. SCE horsreg.lin. /(n  2)

Si F (obs) > Fc (tabulée refuser Ho

Si T(obs)= coef/écart type estimé

?0  y  1 x  2  .70  3  .10

^0 Parameter Standard T for H0:

Si les constantes a et b sont inconnues, on espère pouvoir les

Alors… comment faire????

t est le temps et  est la vie moyenne de la population. A rapprocher de

ln N0 = 11,93 et (-1/ ) = -0.089 j-1

1. Les résidus doivent être normalement distribués

Bande oblique: Relation entre les résidus et la variable x. Si x

Bande horizontale: les conditions d’application sont suffisamment respectées

R2 = Variation expliquée / variation totale

Variation totale = variation inexpliquée + variation expliquée

R2 = Variation expliquée / variation totale

R2 est le coefficient de détermination, proportion de la variation

Vous aimerez peut-être aussi