Vous êtes sur la page 1sur 51

Partie 1 Régression simple

Modèle ?
Représentation des phénomènes
en réalité en vue de comprendre
le fonctionnement,
Marketing direct en ligne:
construire un modèle pour identifier les
clients les plus susceptibles d’acheter des
produits de leur prochain catalogue

Clients identifiés par le modèle comme


ayant peu de chance d’acheter seront
exclu de la prochaine liste d’envoi.
Modèles mathématiques et
statistiques

Modèles Modèles
déterministes probabilistes
Modèles mathématiques et
statistiques

Déterministes
Random Error
(aléatoires)
Modèles mathématiques et
statistiques

Exemple:
Ventes d’un produit = frais de
publicité + force de vente + prix +
,,,+ erreur de perturbation
Corrélation et régression linéaire simple

 La corrélation
 La régression linéaire
simple
Introduction

Etude de la relation entre deux variables quantitatives:

Nuage de points: -description de


l’association linéaire:
corrélation, régression
linéaire simple
Y
- explication /
prédiction d’une
variable à partir de
l’autre: modèle linéaire
X simple
La corrélation

Statistique descriptive de la relation entre X et Y: variation


conjointe
1. La covariance

Dans l’échantillon:
n
1
cov(x, y)   x i y i  xy
n i1
Estimation pour la population: n
1
cov(x, y)  
ˆ xy  
n 1 i1
(x i  x )(y i  y )
 n
1 n
cov( x, y)  
n 1 i1
x y
i i 
n 1
xy


La corrélation
Covariance et nuage de points
(xi  x)  0
<0 (yi  y)  0
Contribution > 0
y

>0
 <0

 x


La corrélation
2. Le coefficient de corrélation linéaire

« de Pearson »

sxy
rxy 
sx2 s 2y
La corrélation
2. Le coefficient de corrélation linéaire
Indice de covariance absolu: -1 ≤ r ≤ 1

X2 X2 X2

r = 0.9 r = 0.5 r=0

X2 X2 X2

r = -0.9 r = -0.5 r=0

X1
La corrélation
3. Conditions d’utilisation

Homoscédasticité
Y

Homoscédasticité
La variance de Y est
indépendante de X et vice-
versa.

Hétéroscédasticité

X
La corrélation

3. Conditions d’utilisation

Linéarité

La relation est linéaire

Y Y

Linéarité Non-linéarité

X X
La régression linéaire simple
1. Le modèle

On suppose: y = f(x) = a + bx

Modèle: Yi = a + bXi + ei
avec, pour X = xi, Yi : N(a+bxi, )

X = variable explicative
(« indépendante »), contrôlée
Y = variable expliquée
(dépendante ), aléatoire
La régression linéaire simple
2. L’estimation des paramètres

a? b?
Méthode d’estimation: les moindres carrés:

yi Mi
ei y = a+bx
yˆ i
M’i
ei = yi - (a + bxi)
Y

 i
e 2
minimale

X xi
La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n
On cherche le minimum de  i    E ( a , b)
2
( y ( a bxi ))
i 1

 E n

   2(y i  (a  bxi ))(1)  0 (1)


 a i1

 E
n
  2(y  (a  bx ))(x )  0 (2)
 
b i1
i i i
La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n n n
(1)   y i   (a  bxi )  na  b x i
i1 i1 i1

ny  na nbx
 a  y  bx

La régression linéaire simple
2. L’estimation des paramètres

Méthode des moindres carrés

n(cov(x, y)  xy )  (y  bx )nx  bn(sx2  x 2 )  0

cov(x, y)  bs 2 cov(x, y)
x b 2
sx
 Si y = a+bx alors
ˆb  cov(x, y) et aˆ  y  bx
sx2
On 
peut alors prédire y pour x 
compris dans l’intervalle des
valeurs de l’échantillon: yˆ i  aˆ bˆxi

La régression linéaire simple

3. Qualité de l’ajustement

On a supposé: Yi = a + bXi + ei avec


pour X = xi, Yi : N(a+bxi, )

- distribution normale des erreurs


- variance identique (homoscédasticité)
- indépendance: cov(ei ,e j )  0
- linéarité de la relation

Test a posteriori : étude du nuage de points/ du


graphedes résidus
La régression linéaire simple
3. Qualité de l’ajustement

Normalité de l’erreur
Résidus

Valeurs prédites

Questions à se poser: structure de l’erreur?


Valeurs extrêmes: ont-elles un sens? Influencent-elles
l’estimation des paramètres?
La régression linéaire simple
3. Qualité de l’ajustement

Homoscédasticité
Résidus

Valeurs prédites
La régression linéaire simple
3. Qualité de l’ajustement

Indépendance entre erreurs, linéarité


Résidus

Structure de l’erreur?
Résidus

Relation non linéaire?


La régression linéaire simple

4. Coefficient de détermination

Décomposition de la variation

Quelle part de la variabilité de Y est expliquée par la relation


linéaire avec X?

Variabilité? Somme des Carrés des Ecarts SCE:


n
Variance SCET   (y i  y )  ns 2 2
y
totale i1
La régression linéaire simple

4. Coefficient de détermination

Décomposition de la variation

Y
= +

SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)


N N N
 (Yi  Y ) 2
=  (Yi  Y ) 2
+  (Yi  Yi )2
i 1 i 1 i 1
La régression linéaire simple

4. Coefficient de détermination

La décomposition de la SCE permet d’estimer la part de SCE


de Y expliquée par la régression:
Coefficient de détermination

SCE reg.lin.
r 
2

SCET

0 ≤ r2 ≤ 1

Relation avec r?
La régression linéaire simple

4. Coefficient de détermination

Relation entre r et r2
n n
SCE reg.lin.   ( yˆ i  y ) 2   ((a  bxi )  (a  bx ))2
i1 i1
n
 b 2  (x i  x ) 2  b 2 nsx2  b 2 SCE x
i1

 2 2 2 2
b ns cov(x, y) s (cov(x, y))
Donc r 
2
2
x
( 2
) 2
2 x
2 2
 (r) 2

nsy sx sy sx sy

En particulier, r = 0 <=> r2 = 0
La régression linéaire simple
5. Tests
Test de la décomposition de la variation ou analyse de
variance (ANOVA): H0 : a=b = 0
 reg.lin.
2
SCE reg.lin. /1
 : F 1

 horsreg.lin. SCE horsreg.lin. /(n  2)


2 n2

Si F (obs) > Fc (tabulée refuser Ho


Si non accepter Ho
Test de significativité par variable:

Si T(obs)= coef/écart type estimé


> tc (tabulée) refuser H0
Si non accepter Ho
Ventes en function des frais de
publicité:
pub ventes (Units)
1 1
2 1
3 2
4 2
5 4
Ventes

Publicité
Paramètres Estimés

  n 
n

  x i   yi 
n
 i 1  i 1  15 10 
 x y
i i 
n
37 
ˆ1  i 1
 5  .70
15 
2 2
 
n

 x i  55 
 
n
5

i 1
xi
2

i 1 n

?0  y  1 x  2  .70  3  .10

yˆ  .1  .7 x
Résultats

Parameter Estimates

^0 Parameter Standard T for H0:


Variable DF Estimate Error Param=0 Prob>|T|
INTERCEP 1 -0.1000 0.6350 -0.157 0.8849
ADVERT 1 0.7000 0.1914 3.656 0.0354

^1

yˆ  .1  .7 x
Regression Line Fitted
(representation de Y estimée
ou ajustée)
Sales
4
3 yˆ  .1  .7 x
2
1
0
0 1 2 3 4 5
Advertising
Exercice
3
S
t
9
2. Analyse de regression – relation exponentielle
a
t
i
s
t
i
La fonction exponentielle est très courante en sciences
q
u
e
y  aebx
s
Par exemple la décroissance d’un bien ...

Si les constantes a et b sont inconnues, on espère pouvoir les


estimer à partir de x et y. Malheureusement l’approche directe
fournit des équations insolubles.

Alors… comment faire????


4
S
t
0
2. Analyse de regression – relation exponentielle
a
t
i
s
t Très facile! On transforme l’équation non linéaire en une équation
i linéaire. Linéarisation en prenant le logarithme:
q
u
e
s ln y  ln a  bx

ln y devient linéaire en x
4
S
t
1
2. Analyse de regression – relation exponentielle
a
t
i
s
t Une population de bactéries décroît exponentiellement:
i
q

N  N 0e  t /
u
e
s

t est le temps et  est la vie moyenne de la population. A rapprocher de


la demi-vie t1/2; en fait t1/2 = (ln2) .

Temps ti Population Ni Zi = ln Ni
(jours)
0 153000 11.94
1 137000 11.83
2 128000 11.76
4
S
t
2
2. Analyse de regression – relation exponentielle
a
t
i
s
t
Opération bactéries Opération bactéries
i
q 155000
11.95
u
e y = -0.089x + 11.933
150000
s 11.9

145000

Population
11.85
Population

140000

11.8
135000

11.75
130000

125000 11.7
0 0.5 1 1.5 2 2.5
0 0.5 1 1.5 2 2.5
Temps (jours)
Temps (jours)

ln N0 = 11,93 et (-1/ ) = -0.089 j-1


11,2jours
4
S
t
3
2. Analyse de regression – relation exponentielle
a
t
i
s
t
i Extrêmement facile mais attention quand même…!!!
q
u
e L’ajustement par moindres carrés de la droite y = ax+b suppose
s que toutes les mesure y1,…,yn soient également incertaines.
4
S
t
4
2. Analyse de regression – Les autres grands modèles
a
t
i
s
t
i
q
u
e
s
4
S
t
5
2. Analyse de regression – Et les résidus…?
a
t
i
s Attention
t • Les points isolés ont un effet indésirables sur la régression
i
q
Leur influence doit être testée en les éliminant et en
u répétant la régression.
e
s
• La différence en y entre un point et la droite de
régression est connue sous le nom de résidu.
La validité de la régression statistique dépend de la
distribution des résidus:

1. Les résidus doivent être normalement distribués


2. Il ne doit pas y avoir de tendance dans la distribution de
variance le long de x.
4
S
t
6
2. Analyse de regression – Et les résidus…?
a
t
i
s
t
i
q
u ei
e
s

x
4
S
t
7
2. Analyse de regression – Et les résidus…?
a
t Le fuseau: La variance des résidus n’est pas indépendante des valeurs
i de x. Des corrections doivent être apportées (courbe log. log p.e.)
s
t
i
q
u ei
e
s

x
4
S
t
8
2. Analyse de regression – Et les résidus…?
a
t
i
s
t
i
ei
q
u
e
s

Bande oblique: Relation entre les résidus et la variable x. Si x


n’est pas dans le modèle, il faudrait l’introduire, ou erreur
importante.
4
S
t
9
2. Analyse de regression – Et les résidus…?
a
t
i
s
t
ei
i
q
u
e
s

Bande horizontale: les conditions d’application sont suffisamment respectées


5
S
t
0
2. Analyse de regression – Le coefficient de détermination
a
t yi
i
s Variation
t y inexpliquée
i
q
ŷi Variation
u
e totale
s
Variation
expliquée

R2 = Variation expliquée / variation totale

x
5
S
t
1
2. Analyse de regression – Le coefficient de détermination
a
t
i
s

y  y    yi  yˆi    ( yi  y)
2 2
t
i i
ˆ 2
q
u
e
s Somme des carrés Somme des carrés Somme des carrés
totale (SCtot) des résidus (SCres) de la régression (SCreg)

Variation totale = variation inexpliquée + variation expliquée

R2 = Variation expliquée / variation totale

R2 est le coefficient de détermination, proportion de la variation


de y qui s’explique par la présence de x.
Plus R2 est grand, plus SCres est petit.

Vous aimerez peut-être aussi