Vous êtes sur la page 1sur 11

L'analyse de régression

"All models are wrong but some are useful" (Box).

1. Introduction

De nombreuses études consistent à essayer d'expliquer, à l'aide d'un modèle, les variations
d'une variable, par exemple le rendement d'une réaction chimique, en fonction d'un certain
nombre d'autres variables comme, la température et la quantité de catalyseur utilisées pour
effectuer la réaction. On écrira la relation recherchée sous la forme suivante :

Y = f ( X 1, X 2)

où Y représente le rendement, X1 , la température et X2 , la quantité de catalyseur. Y sera


appelé la variable expliquée ou réponse et X1 , X2 les variables explicatives ou facteurs.
f(X 1 ,X2 ) représente la fonction mathématique qui lie les facteurs à la réponse.

Comme exemples de fonctions f(X 1 ,X2 ) on peut citer :

Y = β 0 + β 1 X 1+ β 2 X 2
ou
Y = β 0 + β 1 X 1 + β 2 X 2 + β 11 X 21 + β 12 X 1 X 2 + β 22 X 22

Ces modèles sont de type polynomial. Le premier est un modèle polynomial d'ordre 1, le
second, un modèle polynomial d'ordre 2. Ils appartiennent tous deux à la classe des modèles
linéaires car ils sont linéaires par rapport à leurs paramètres ßi. Les modèles traités en
pratique appartiennent souvent à la classe des modèles linéaires.

Les p coefficients ßi (i=1...p) sont des paramètres inconnus dont il faut évaluer la valeur. Si la
relation (1) qui lie Y à X1 et X2 était parfaitement exacte, il suffirait de connaître les valeurs
deY et des facteurs X1 et X2 pour p observations et la résolution d'un système d'équation à p
inconnues nous livrerait les valeurs des paramètres ßi.

Cependant, une relation choisie pour expliquer un phénomène donné n'est que rarement
exacte. Tout d'abord, un modèle n'est en général qu'une approximation d'un phénomène
beaucoup plus complexe. De plus, toute expérience répétée deux fois dans des conditions que
l'on croit identiques, ne donne que rarement le même résultat. Les variations sont en général
dues à une multitude de facteurs extérieurs que l'on ne sait pas contrôler. Il est donc
raisonnable d'attacher à tout modèle, supposé refléter un phénomène complexe, un terme
aléatoire qui représente l'écart entre le modèle théorique choisi et l’observation. Ce terme
aléatoire appelé terme d'erreur, sera ajouté au modèle comme le montre la relation suivante :

La régression linéaire 28/11/01 - Page 1/11


Y = β 0 + β 1 X 1+ β 2 X 2 + ε

L'évaluation ou plus précisément l'estimation des paramètres de ce modèle nécessitera


l’utilisation de méthodes statistiques. La technique proposée s'appelle l' analyse de
régression et permet, à partir d'une série d'observations de la réponse et des facteurs
explicatifs, de calculer des estimateurs pour les paramètres.

Le but de ce chapitre est d'introduire l'analyse de régression par l'intermédiaire du modèle


linéaire simple :
Y = β 0 + β 1 X +ε

Les développements théoriques seront illustrés par l'exemple simple suivant : supposons qu'un
expérimentateur désire calibrer un chromatographe et étudier la relation entre la teneur en
éthanol d’une substance et la hauteur du pic mesuré par ce chromatographe. Il a effectué 10
essais pour 10 teneurs différentes et a obtenu les surfaces suivantes :

N ETHANOL SURFACE
1 0.2 2.88 16

2 0.2 1.72 14

3 0.6 4.70 12

4 0.6 5.28 10
SURFACE

8
5 1 10.92
6
6 1 7.70
4
7 1.4 12.35
2
8 1.4 11.40
0
9 1.8 13.47 0.0 0.4 0.8 1.2 1.6 2.0
ETHANOL
10 1.8 12.52
Figure 1 Exemple

Au vu de ces résultats, l'expérimentateur prend comme hypothèse que la relation qui lie la
température au rendement est approximativement linéaire et désire estimer les paramètres ß0
et ß1 de la droite correspondante.

En fin de chapitre, nous généraliserons brièvement les résultats obtenus au cas de la


régression linéaire multiple.

Notons que nous ne donnons ici qu' un brève introduction à l'analyse de régression. Des
informations complémentaires pourront être trouvées dans la littérature et par exemple, dans
l'ouvrage de Draper et Smith [1981] 1 .

1
Draper N. et Smith [1981], Applied regression analysis, Wiley, New York

La régression linéaire 28/11/01 - Page 2/11


2. Le modèle linéaire simple

Avant de proposer une méthode pour ajuster une droite à une série d'observations, il est
important de préciser les hypothèses sous-jacentes au modèle linéaire simple.

Le modèle linéaire simple peut être réécrit pour chaque observation de l'échantillon :

Yi = β 0 + β 1 X i + ε i où i = 1, 2, ..., n

où Yi est la réponse observée pour l'essai i,


Xi est la valeur du facteur explicatif pour l'essai i; on supposera que la valeur de cette
variable est parfaitement contrôlée,
ε i est le résidu ou le terme d'erreur supposé de moyenne nulle,
β0 est le terme constant du modèle c'est-à-dire la valeur moyenne de Y quand X vaut 0,
β1 est la pente de la droite,
n est la taille de l'échantillon.

Les hypothèses sur ε i sont les suivantes :


1. ε i est une variable aléatoire de moyenne nulle et de variance constante s2 : E(ε i)=0 et
V(ε i)=s2 .
2. ε i et ε j sont non corrélés, ∀ i ≠ j : cov(ε i,ε j)=0

Ces deux hypothèses impliquent que : E( Y i ) = β 0 + β 1 X i et V( Y i) = σ 2

Une troisième hypothèse sera nécessaire pour valider certains résultats donnés ci-dessous :
3. les ei sont indépendants de distribution normale : ei~N(0,s2 ).

Ces hypothèses sont représentées graphiquement dans la figure 2.

16

14

12

10
β0 + β1 X
8
Y

0
0.0 0.4 0.8 1.2 1.6 2.0
X

Figure 2 : Le modèle linéaire simple

Il est important de souligner que la validité de la plupart des résultats que nous exposons dans
la suite dépend directement des hypothèses citées ici. Il est donc primordial, avant le choix
d'un modèle, de réfléchir à chacune des hypothèses sous-jacentes et d'utiliser, après
l'estimation des paramètres du modèle, des méthodes adéquates pour les valider.

La régression linéaire 28/11/01 - Page 3/11


3. Estimation des paramètres

Face à un échantillon tel que présenté dans la figure 3, on peut se demander quelle est la
droite qui représente le mieux le phénomène ou plus précisément comment estimer les
paramètres ß0 et ß1 du modèle.

16 B

14
C
12

10
SURFACE

6
D
4

0
0.0 0.4 0.8 1.2 1.6 2.0
ETHANOL

Figure 3 Où mettre la droite ?

Il est clair que la droite B est celle qui convient le mieux car elle tend à minimiser les écarts
entre les observations et la droite. Cette méthode intuitive rejoint la méthode des moindres
carrés ordinaires qui propose de choisir comme estimateurs b0 et b1 de ß0 et ß1 , les valeurs
qui minimisent la somme des carrés des distances (verticales) des points à la droite :

Les estimateurs de β 0 et β1 peuvent être déterminés en dérivant cette expression par rapport à
b0 et b1 . On montre que la solution est donnée par :
n

∑(X i − X )(Yi − Y )
1 n 1 n
b0 = Y − b1 X , b1 = i =1
n
= S XY où X = ∑ i X et Y = ∑ Yi
∑(X S XX n i=1 n i=1
i − X )2
i =1

Ces formules appliquées à notre exemple donnent b0 =1.22 et b1 =7.07.

La valeur de b0 indique que la surface du pic, Y, vaut en moyenne 1.22 quand la teneur en
éthanol est nulle et la valeur de b1 indique que Y augmente en moyenne de 7 unités quand la
teneur augmente de 1 unité.

4. Décomposition de la variance et coefficient de détermination


Les estimateurs b0 et b1 des coefficients β 0 et β1 permettent de calculer pour chaque
observation la réponse estimée. Celle-ci sera comparée à la valeur observée Yi par
l'intermédiaire des résidus ei :
Yˆi = b0 + b1 X i et ei = Yi − Yˆi

Dans notre exemple, le tableau des valeurs observées et calculées est donné par :

La régression linéaire 28/11/01 - Page 4/11


N ETHANOL SURFACE Y-Prédit ei
1 0.2 2.88 2.638 0.242
2 0.2 1.72 2.638 -0.918
3 0.6 4.70 5.465 -0.770
4 0.6 5.28 5.465 -0.189
5 1 10.92 8.293 2.627
6 1 7.70 8.293 -0.592
7 1.4 12.35 11.121 1.232
8 1.4 11.40 11.121 0.277
9 1.8 13.47 13.949 -0.476
10 1.8 12.52 13.949 -1.433

Les résidus permettent de mesurer la qualité de l'ajustement et, plus précisément, d'analyser si
les réponses sont plus ou moins bien "expliquées par le modèle". Voyons comment...

Décomposons la quantité (Yi − Y ) , qui représente la déviation des Yi par rapport à leur
moyenne, en deux termes:
Yi − Y = (Yˆi − Y ) + (Yi − Yˆi ) = (Yˆi − Y ) + ei
où (Yˆi − Y ) représente la partie de cette déviation expliquée par le modèle et ei est partie due
au fait que l'observation n'est pas exactement sur la droite de régression.

Si on met au carré les deux membres de cette équation et que l'on somme sur les observations,
on obtient :
SST = ∑ (Yi − Y ) 2 = ∑ (Yˆi − Y ) 2 + ∑ (Yi − Yˆi ) 2 = SSR + SSE
où les termes croisés se simplifient à zéro. SST est la somme des carrés totale, SSR la somme
des carrés de la régression et SSE la somme des carrés des résidus (ou écarts).

Cette équation nous donne un moyen de mesurer la pertinence de la droite de régression


comme prédicteur de la réponse en calculant quelle proportion de la variabilité des Yi autour
de leur moyenne (SST) est expliquée par le modèle (SSR). Cette proportion est exprimée par
le coefficient de détermination R2 :
SSR ∑ (Yˆi − Y )
2
2 SSE
R = = =1 -
SST ∑ (Yi − Y ) 2
SST
Un bon ajustement correspondra à un R2 proche de l'unité.

Enfin, un estimateur de la variance résiduelle s2 peut être obtenu en divisant la somme des
carrés des résidus (SSE) par n-2 :
1 1 1
2
S =
n−2
SSE =
n−2
∑ (Yi − b0 − b1 X i ) 2 =
n−2
∑ (Yi − Yˆi ) 2
où n-2 est le nombre de degrés de liberté attaché à SSE. Il correspond au nombre de données
indépendantes disponibles pour calculer la variance après avoir estimé les (deux) paramètres
du modèle.

Dans notre exemple on vérifie que R2 vaut 0.927 et S2 vaut 1.58.

La régression linéaire 28/11/01 - Page 5/11


5. Propriétés statistiques des estimateurs

L'échantillon donné à la figure 1 nous a permis d'obtenir des estimations b0 et b1 pour les
paramètres inconnus β 0 et β1 du modèle. Il est clair que si l'expérimentateur reconduisait une
série de 10 essais il obtiendrait des valeurs de b0 et b1 différentes. Notons également qu'il y a
peu de chances que l'un de ces deux essais donne exactement les vraies valeurs (inconnues)
des paramètres β 0 et β1 . Il est donc important de se demander si une droite estimée est proche
ou éloignée de la vraie droite.

Pour visualiser les propriétés statistiques des estimateurs, nous allons nous aider de
simulations. Supposons que dans l'exemple cité plus haut nous connaissions exactement le
processus qui a généré les données et qu'il soit de la forme :

Y = 1 + 7 X + ε où ε est N ( 0,1)

Supposons ensuite que l'expérimentateur effectue 400 fois les 10 essais aux concentrations
données dans la figure 1, par exemple pendant 400 jours. Au terme de chacun des groupes de
10 essais, il calcule b0 et b1 et obtient ainsi 400 estimations des paramètres β 0 et β1 . Les 400
couples sont représentés dans la figure 4 :

134
67
0

9.5

9.0

8.5
Pente de la droite : b1

8.0
7.5

7.0

6.5

6.0

5.5
5.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 79 158
Terme constant : b0

Figure 4 Résultat de 400 simulations

Que peut-on remarquer en observant les résultats de cette simulation ?

1. Le nuage de point a une forme elliptique.


2. Le centre de l'ellipse est proche du point (1,7) le couple des vraies valeurs des paramètres.
Ceci montre que les estimateurs sont en moyenne exacts ou encore, qu'ils sont sans biais :
E(b0 )=ß0 et E(b1 )=ß1 .
3. Les estimations sont dispersées dans l'espace ce qui montre que chaque estimateur a une
certaine variance. Les formules des variances des estimateurs sont données par:
1 X 2  1
V (b0 ) = σ 2  +  V (b1 ) = σ 2
 n S XX  S XX
4. Les axes de l'ellipse ne sont pas parallèles aux axes b0 et b1 . Ceci montre que b0 et b1 sont
corrélés négativement : si le terme constant est surévalué, la pente de la droite sera sous-
évaluée. La formule de la covariance entre b0 et b1 est donnée par:

La régression linéaire 28/11/01 - Page 6/11


X
Cov( b0 , b1 ) = −σ 2
S XX
5. Si l'on projette les couples (b0 , b1 ) sur chacun des axes et que l'on effectue un histogramme
pour chacun des paramètres, on obtiendra une distribution symétrique proche d'une loi
Normale. On peut montrer que sous l'hypothèse de normalité des résidus, b0 et b1 suivent
une distribution normale.

Demandons-nous maintenant s'il y a moyen d'influencer la qualité de ces estimateurs en


essayant d'obtenir par exemple un nuage de point plus petit. Les propriétés d'un estimateur
dépendent de deux choses : de la méthode d'estimation et de la qualité de l'échantillon.

On peut montrer que le choix des moindres carrés ordinaires comme méthode d'estimation est
optimale pour le modèle décrit dans la section 2. Les estimateurs obtenus sont sans biais et de
variance minimum dans la classe des estimateurs linéaires (BLUE). De plus, si l'hypothèse de
normalité est vérifiée, on montre qu'ils sont efficaces c'est-à-dire de variance minimum parmi
tous les estimateurs possibles.

Il n'y a donc pas de soucis à se faire concernant la méthode d’estimation choisie. Une autre
manière d'influencer la qualité d'une estimation est d'agir sur l'échantillon. Les formules
données ci-dessus permettent d'indiquer de quelle façon :

1. Plus la variance du terme d'erreur du modèle s2 est faible, meilleur seront les estimateurs.
L'expérimentateur veillera donc à réduire autant que possible la variance expérimentale et
à choisir un modèle adéquat.
2. Les variances et covariances sont inversement proportionnelles à la taille de l'échantillon.
Un grand échantillon donnera donc, comme on peut s'y attendre, de meilleures
estimations
3. Les variances et covariances sont inversement proportionnelles à la dispersion des X
autour de leur moyenne. L'expérimentateur aura donc intérêt à balayer un large domaine
et à placer ses essais aux extrémités de ce domaine pour obtenir des estimations précises.
Ceci montre que le choix du plan expérimental a une influence directe sur la qualité des
estimations.
4. V(b0 ) et Cov(b0 ,b1 ) dépendent de la valeur moyenne de X. C'est pour cette raison et pour
faciliter l'interprétation des paramètres, qu'il est souvent suggéré de transformer les
facteurs explicatifs entre -1 et 1 avant d'effectuer une analyse de régression sur des essais
planifiés.

Pour notre exemple, les écart-types et covariance des estimateurs sont donnés par :
S (b0 ) = 0.81 S (b1 ) = 0.7 et Cov( b0 ,b1 ) = −0.49

6. Inférence sur les paramètres

A partir du modèle estimé, on peut tenter de répondre à des questions concernant le


phénomène étudié comme par exemple :

1. L'influence de la concentration en éthalol sur la surface du pic est-elle significative ?


ou
2. Peut-on considérer que pour une concentration nulle, la surface vaut en moyenne 0 ?

La régression linéaire 28/11/01 - Page 7/11


La réponse à ce type de question se fera par l'intermédiaire de tests d'hypothèses sur ß0 ou ß1 .

Si l'on veut par exemple tester l'hypothèse nulle H0 : β 1 =β10 contre l'alternative H1 : β 1 ≠β10 , on
calculera tout d'abord la statistique de test :
b − β10 b1 − β10
t= 1 =
s (b1 ) S / ∑(X i − X )
2 2

où s(b1 ) est un estimateur de l'écart-type de b1 . On peut montrer que, sous l'hypothèse nulle, t
a une distribution de Student à n-2 degrés de liberté.

|t| sera ensuite comparé au seuil critique t(n-2,1-a/2) que l'on trouvera dans une table de
Student. a représente le seuil de signification du test. Si |t|>t(n-2,1-a/2), on rejettera
l'hypothèse nulle, sinon on l'acceptera.

Si on désire faire un test sur ß0 , la statistique de test à utiliser est la suivante :


b − β 00 b0 − β 00
t= 0 =
s( b0 ) 2 1 X2
S ( + )
n ∑(X i − X )2

Pour notre exemple, testons si la droite passe par l’origine. Les hypothèses à tester sont :
H 0 ß 0=0 contre H1 ß 0 ≠ 0

La statistique de test prend alors la valeur :


1.224
t = b0 = = 1.51
s( b0 ) 0.81

Si l'on prend a=0.05, le seuil de rejet est donné par t(8,0.975)=2.31. Comme 1.51<2.31, on
accepte l'hypothèse nulle et on conclut que les données ne permettent pas de décider que la
droite ne passe pas par l’origine.

7. Prédiction

Un modèle linéaire peut également être utilisé pour faire de la prédiction, c'est-à-dire choisir
une valeur X0 pour le facteur explicatif et calculer, à l'aide du modèle, la valeur attendue de la
réponse Y.

7.1 Intervalle de confiance sur la moyenne


On peut tout d'abord vouloir calculer la moyenne de Y pour X=X0 . Celle-ci est donnée par
E(Y|X=X0 ) = ß0 + ß1 X0 = µY|X0 . Les paramètres étant inconnus, on estimera cette valeur
moyenne par :
Yˆ 0 = µˆ y|X 0 = b0 + b1 X 0

La variance de cet estimateur se déduit des formules des variances des paramètres :
1 (X 0 − X )2
V (Yˆ0 ) = σ 2 ( + )
n ∑ ( X i − X )2

La régression linéaire 28/11/01 - Page 8/11


Ces formules permettent de calculer un intervalle de confiance à (1-a)% sur la valeur
moyenne de Y au point X0 :

1 (X 0 − X )2
b0 + b1 X 0 ± t ( n − 2,1 − α / 2) S +
n ∑ ( X i − X )2

On l'interprète comme un intervalle dans lequel on a (1-a)% de chances de trouver la


moyenne d'un très grand nombre d'essais.

7.2 Intervalle de prédiction

On peut également vouloir prédire dans quel intervalle se trouvera le résultat d'un essai
individuel au point X=X0 . Comme toute observation individuelle Yi est entachée d'une
variance s2 , la valeur prédite pour cette observation aura pour variance :

1 ( X 0 − X )2
V p (Yˆ0 ) = σ 2 (1 + + )
n ∑(X i − X )2

L'intervalle de prédiction correspondant est donné par :

1 (X 0 − X )2
b0 + b1 X 0 ± t ( n − 2,1 − α / 2) S 1 + +
n ∑ ( X i − X )2

Il représente l'intervalle dans lequel on peut s'attendre à trouver 1-a% des observations si l'on
fait des essais en X=X0 .

Les formules permettent de remarquer que la précision des prédictions est d'autant meilleure
que X0 se trouve près de la moyenne des X. Ceci met en évidence le danger de vouloir
utiliser un modèle pour faire des prédictions loin du centre du domaine et plus spécialement,
extrapoler hors du domaine couvert. Les allures de l’intervalle de confiance sur la moyenne
et de l’intervalle de prédiction sont illustrés dans la figure 5.

20

16

12

Y0
8

0
0.0 0.4 0.8
X0
1.2 1.6 2.0

Figure 5 Intervalle de confiance sur la moyenne et intervalle de prédiction

La régression linéaire 28/11/01 - Page 9/11


8. Le modèle linéaire multiple

Les résultats donnés plus haut pour le modèle linéaire simple peuvent se généraliser au
modèle linéaire multiple défini par :

Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik + ε i où i = 1,..., n

Un modèle linéaire multiple peut représenter différents types de phénomènes. Il peut


exprimer une relation linéaire entre plusieurs facteurs et la réponse, on parlera alors d'un
modèle d'ordre 1. Le modèle peut également être de type polynomial et renfermer des termes
d'ordre plus élevés. Il peut également représenter l'effet d'un ou plusieurs facteurs qualitatifs,
comme le type de catalyseur, sur la réponse.

Pour montrer comment les résultats obtenus pour la régression simple se généralisent à la
régression multiple, nous allons réécrire l'équation du modèle sous forme matricielle en
regroupant :

1. dans un même vecteur noté Y la série des réponses observées,


2. dans une matrice X, appelée matrice des effets, les valeurs des facteurs et de leurs éventuelles
transformations (Xi2 , XiXj...)
3. dans un vecteur noté ß, la liste des paramètres à estimer et
4. dans un vecteur e, la liste des termes d'erreur :

 Y 1 1 X 11 X 21 K X 1k   β 0   ε 1 
     
 Y 2  1 X 21 X 22 K X 2 k   β1   ε 2 
      
 Y 3 = 1 X 31 M M X 3k   β 2  +  ε 3  ou Y = X β + ε
      
 M  M M M M M  M  M 
      
 Y n  1 X n1 K K X nk   β k   ε n 

Les hypothèses sur les propriétés des résidus s'écrivent :


ε ~ N ( 0, σ 2 I n )
où s2 I, la matrice de variance-covariance des résidus, est de la forme :
σ 2 0 K 0
 
 0 σ 2 K 0
σ In =  
2

 M M M M
 
 0 2
 0 K σ 

Les paramètres du modèle linéaire multiple peuvent être estimés en utilisant la même
méthode que pour la régression simple, c'est-à-dire en minimisant la somme des carrés des
résidus :
Min ∑ ei2 = Min ∑ (Y − β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik ) 2
= Min (Y − Xβ )'(Y − Xβ )

La régression linéaire 28/11/01 - Page 10/11


Par dérivation matricielle, on obtient le vecteur b des estimateurs de ß d'où l'on peut déduire
la matrice de variance-covariance des estimateurs :

b = ( X ' X ) −1 X 'Y et V (b) = σ 2 ( X ' X ) −1

Comme pour la régression simple, ces estimateurs sont sans biais et de variance minimum.
L'expérimentateur peut influencer leur qualité par un choix adéquat du modèle et du plan
expérimental.

Les statistiques R2 et S2 se calculeront par les mêmes formules que pour la régression simple
en adaptant les degrés de liberté de n-2 à n-k-1. Les tests d'hypothèses sur les paramètres
seront également identiques.

Enfin, on peut montrer que la variance de l'estimateur de la valeur moyenne de la réponse en


un point X0 = (1, X01 , X02 , … X0k ) est donnée par :
V (Yˆ0 ) = σ 2 X 0 ' ( X ' X ) −1 X 0

et la variance de prédiction d'une observation par :


V p (Yˆ0 ) = σ 2 (1 + X 0 ' ( X ' X ) −1 X 0 )

La régression linéaire 28/11/01 - Page 11/11