Académique Documents
Professionnel Documents
Culture Documents
1. Introduction
De nombreuses études consistent à essayer d'expliquer, à l'aide d'un modèle, les variations
d'une variable, par exemple le rendement d'une réaction chimique, en fonction d'un certain
nombre d'autres variables comme, la température et la quantité de catalyseur utilisées pour
effectuer la réaction. On écrira la relation recherchée sous la forme suivante :
Y = f ( X 1, X 2)
Y = β 0 + β 1 X 1+ β 2 X 2
ou
Y = β 0 + β 1 X 1 + β 2 X 2 + β 11 X 21 + β 12 X 1 X 2 + β 22 X 22
Ces modèles sont de type polynomial. Le premier est un modèle polynomial d'ordre 1, le
second, un modèle polynomial d'ordre 2. Ils appartiennent tous deux à la classe des modèles
linéaires car ils sont linéaires par rapport à leurs paramètres ßi. Les modèles traités en
pratique appartiennent souvent à la classe des modèles linéaires.
Les p coefficients ßi (i=1...p) sont des paramètres inconnus dont il faut évaluer la valeur. Si la
relation (1) qui lie Y à X1 et X2 était parfaitement exacte, il suffirait de connaître les valeurs
deY et des facteurs X1 et X2 pour p observations et la résolution d'un système d'équation à p
inconnues nous livrerait les valeurs des paramètres ßi.
Cependant, une relation choisie pour expliquer un phénomène donné n'est que rarement
exacte. Tout d'abord, un modèle n'est en général qu'une approximation d'un phénomène
beaucoup plus complexe. De plus, toute expérience répétée deux fois dans des conditions que
l'on croit identiques, ne donne que rarement le même résultat. Les variations sont en général
dues à une multitude de facteurs extérieurs que l'on ne sait pas contrôler. Il est donc
raisonnable d'attacher à tout modèle, supposé refléter un phénomène complexe, un terme
aléatoire qui représente l'écart entre le modèle théorique choisi et l’observation. Ce terme
aléatoire appelé terme d'erreur, sera ajouté au modèle comme le montre la relation suivante :
Les développements théoriques seront illustrés par l'exemple simple suivant : supposons qu'un
expérimentateur désire calibrer un chromatographe et étudier la relation entre la teneur en
éthanol d’une substance et la hauteur du pic mesuré par ce chromatographe. Il a effectué 10
essais pour 10 teneurs différentes et a obtenu les surfaces suivantes :
N ETHANOL SURFACE
1 0.2 2.88 16
2 0.2 1.72 14
3 0.6 4.70 12
4 0.6 5.28 10
SURFACE
8
5 1 10.92
6
6 1 7.70
4
7 1.4 12.35
2
8 1.4 11.40
0
9 1.8 13.47 0.0 0.4 0.8 1.2 1.6 2.0
ETHANOL
10 1.8 12.52
Figure 1 Exemple
Au vu de ces résultats, l'expérimentateur prend comme hypothèse que la relation qui lie la
température au rendement est approximativement linéaire et désire estimer les paramètres ß0
et ß1 de la droite correspondante.
Notons que nous ne donnons ici qu' un brève introduction à l'analyse de régression. Des
informations complémentaires pourront être trouvées dans la littérature et par exemple, dans
l'ouvrage de Draper et Smith [1981] 1 .
1
Draper N. et Smith [1981], Applied regression analysis, Wiley, New York
Avant de proposer une méthode pour ajuster une droite à une série d'observations, il est
important de préciser les hypothèses sous-jacentes au modèle linéaire simple.
Le modèle linéaire simple peut être réécrit pour chaque observation de l'échantillon :
Yi = β 0 + β 1 X i + ε i où i = 1, 2, ..., n
Une troisième hypothèse sera nécessaire pour valider certains résultats donnés ci-dessous :
3. les ei sont indépendants de distribution normale : ei~N(0,s2 ).
16
14
12
10
β0 + β1 X
8
Y
0
0.0 0.4 0.8 1.2 1.6 2.0
X
Il est important de souligner que la validité de la plupart des résultats que nous exposons dans
la suite dépend directement des hypothèses citées ici. Il est donc primordial, avant le choix
d'un modèle, de réfléchir à chacune des hypothèses sous-jacentes et d'utiliser, après
l'estimation des paramètres du modèle, des méthodes adéquates pour les valider.
Face à un échantillon tel que présenté dans la figure 3, on peut se demander quelle est la
droite qui représente le mieux le phénomène ou plus précisément comment estimer les
paramètres ß0 et ß1 du modèle.
16 B
14
C
12
10
SURFACE
6
D
4
0
0.0 0.4 0.8 1.2 1.6 2.0
ETHANOL
Il est clair que la droite B est celle qui convient le mieux car elle tend à minimiser les écarts
entre les observations et la droite. Cette méthode intuitive rejoint la méthode des moindres
carrés ordinaires qui propose de choisir comme estimateurs b0 et b1 de ß0 et ß1 , les valeurs
qui minimisent la somme des carrés des distances (verticales) des points à la droite :
Les estimateurs de β 0 et β1 peuvent être déterminés en dérivant cette expression par rapport à
b0 et b1 . On montre que la solution est donnée par :
n
∑(X i − X )(Yi − Y )
1 n 1 n
b0 = Y − b1 X , b1 = i =1
n
= S XY où X = ∑ i X et Y = ∑ Yi
∑(X S XX n i=1 n i=1
i − X )2
i =1
La valeur de b0 indique que la surface du pic, Y, vaut en moyenne 1.22 quand la teneur en
éthanol est nulle et la valeur de b1 indique que Y augmente en moyenne de 7 unités quand la
teneur augmente de 1 unité.
Dans notre exemple, le tableau des valeurs observées et calculées est donné par :
Les résidus permettent de mesurer la qualité de l'ajustement et, plus précisément, d'analyser si
les réponses sont plus ou moins bien "expliquées par le modèle". Voyons comment...
Décomposons la quantité (Yi − Y ) , qui représente la déviation des Yi par rapport à leur
moyenne, en deux termes:
Yi − Y = (Yˆi − Y ) + (Yi − Yˆi ) = (Yˆi − Y ) + ei
où (Yˆi − Y ) représente la partie de cette déviation expliquée par le modèle et ei est partie due
au fait que l'observation n'est pas exactement sur la droite de régression.
Si on met au carré les deux membres de cette équation et que l'on somme sur les observations,
on obtient :
SST = ∑ (Yi − Y ) 2 = ∑ (Yˆi − Y ) 2 + ∑ (Yi − Yˆi ) 2 = SSR + SSE
où les termes croisés se simplifient à zéro. SST est la somme des carrés totale, SSR la somme
des carrés de la régression et SSE la somme des carrés des résidus (ou écarts).
Enfin, un estimateur de la variance résiduelle s2 peut être obtenu en divisant la somme des
carrés des résidus (SSE) par n-2 :
1 1 1
2
S =
n−2
SSE =
n−2
∑ (Yi − b0 − b1 X i ) 2 =
n−2
∑ (Yi − Yˆi ) 2
où n-2 est le nombre de degrés de liberté attaché à SSE. Il correspond au nombre de données
indépendantes disponibles pour calculer la variance après avoir estimé les (deux) paramètres
du modèle.
L'échantillon donné à la figure 1 nous a permis d'obtenir des estimations b0 et b1 pour les
paramètres inconnus β 0 et β1 du modèle. Il est clair que si l'expérimentateur reconduisait une
série de 10 essais il obtiendrait des valeurs de b0 et b1 différentes. Notons également qu'il y a
peu de chances que l'un de ces deux essais donne exactement les vraies valeurs (inconnues)
des paramètres β 0 et β1 . Il est donc important de se demander si une droite estimée est proche
ou éloignée de la vraie droite.
Pour visualiser les propriétés statistiques des estimateurs, nous allons nous aider de
simulations. Supposons que dans l'exemple cité plus haut nous connaissions exactement le
processus qui a généré les données et qu'il soit de la forme :
Y = 1 + 7 X + ε où ε est N ( 0,1)
Supposons ensuite que l'expérimentateur effectue 400 fois les 10 essais aux concentrations
données dans la figure 1, par exemple pendant 400 jours. Au terme de chacun des groupes de
10 essais, il calcule b0 et b1 et obtient ainsi 400 estimations des paramètres β 0 et β1 . Les 400
couples sont représentés dans la figure 4 :
134
67
0
9.5
9.0
8.5
Pente de la droite : b1
8.0
7.5
7.0
6.5
6.0
5.5
5.0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 79 158
Terme constant : b0
On peut montrer que le choix des moindres carrés ordinaires comme méthode d'estimation est
optimale pour le modèle décrit dans la section 2. Les estimateurs obtenus sont sans biais et de
variance minimum dans la classe des estimateurs linéaires (BLUE). De plus, si l'hypothèse de
normalité est vérifiée, on montre qu'ils sont efficaces c'est-à-dire de variance minimum parmi
tous les estimateurs possibles.
Il n'y a donc pas de soucis à se faire concernant la méthode d’estimation choisie. Une autre
manière d'influencer la qualité d'une estimation est d'agir sur l'échantillon. Les formules
données ci-dessus permettent d'indiquer de quelle façon :
1. Plus la variance du terme d'erreur du modèle s2 est faible, meilleur seront les estimateurs.
L'expérimentateur veillera donc à réduire autant que possible la variance expérimentale et
à choisir un modèle adéquat.
2. Les variances et covariances sont inversement proportionnelles à la taille de l'échantillon.
Un grand échantillon donnera donc, comme on peut s'y attendre, de meilleures
estimations
3. Les variances et covariances sont inversement proportionnelles à la dispersion des X
autour de leur moyenne. L'expérimentateur aura donc intérêt à balayer un large domaine
et à placer ses essais aux extrémités de ce domaine pour obtenir des estimations précises.
Ceci montre que le choix du plan expérimental a une influence directe sur la qualité des
estimations.
4. V(b0 ) et Cov(b0 ,b1 ) dépendent de la valeur moyenne de X. C'est pour cette raison et pour
faciliter l'interprétation des paramètres, qu'il est souvent suggéré de transformer les
facteurs explicatifs entre -1 et 1 avant d'effectuer une analyse de régression sur des essais
planifiés.
Pour notre exemple, les écart-types et covariance des estimateurs sont donnés par :
S (b0 ) = 0.81 S (b1 ) = 0.7 et Cov( b0 ,b1 ) = −0.49
Si l'on veut par exemple tester l'hypothèse nulle H0 : β 1 =β10 contre l'alternative H1 : β 1 ≠β10 , on
calculera tout d'abord la statistique de test :
b − β10 b1 − β10
t= 1 =
s (b1 ) S / ∑(X i − X )
2 2
où s(b1 ) est un estimateur de l'écart-type de b1 . On peut montrer que, sous l'hypothèse nulle, t
a une distribution de Student à n-2 degrés de liberté.
|t| sera ensuite comparé au seuil critique t(n-2,1-a/2) que l'on trouvera dans une table de
Student. a représente le seuil de signification du test. Si |t|>t(n-2,1-a/2), on rejettera
l'hypothèse nulle, sinon on l'acceptera.
Pour notre exemple, testons si la droite passe par l’origine. Les hypothèses à tester sont :
H 0 ß 0=0 contre H1 ß 0 ≠ 0
Si l'on prend a=0.05, le seuil de rejet est donné par t(8,0.975)=2.31. Comme 1.51<2.31, on
accepte l'hypothèse nulle et on conclut que les données ne permettent pas de décider que la
droite ne passe pas par l’origine.
7. Prédiction
Un modèle linéaire peut également être utilisé pour faire de la prédiction, c'est-à-dire choisir
une valeur X0 pour le facteur explicatif et calculer, à l'aide du modèle, la valeur attendue de la
réponse Y.
La variance de cet estimateur se déduit des formules des variances des paramètres :
1 (X 0 − X )2
V (Yˆ0 ) = σ 2 ( + )
n ∑ ( X i − X )2
1 (X 0 − X )2
b0 + b1 X 0 ± t ( n − 2,1 − α / 2) S +
n ∑ ( X i − X )2
On peut également vouloir prédire dans quel intervalle se trouvera le résultat d'un essai
individuel au point X=X0 . Comme toute observation individuelle Yi est entachée d'une
variance s2 , la valeur prédite pour cette observation aura pour variance :
1 ( X 0 − X )2
V p (Yˆ0 ) = σ 2 (1 + + )
n ∑(X i − X )2
1 (X 0 − X )2
b0 + b1 X 0 ± t ( n − 2,1 − α / 2) S 1 + +
n ∑ ( X i − X )2
Il représente l'intervalle dans lequel on peut s'attendre à trouver 1-a% des observations si l'on
fait des essais en X=X0 .
Les formules permettent de remarquer que la précision des prédictions est d'autant meilleure
que X0 se trouve près de la moyenne des X. Ceci met en évidence le danger de vouloir
utiliser un modèle pour faire des prédictions loin du centre du domaine et plus spécialement,
extrapoler hors du domaine couvert. Les allures de l’intervalle de confiance sur la moyenne
et de l’intervalle de prédiction sont illustrés dans la figure 5.
20
16
12
Y0
8
0
0.0 0.4 0.8
X0
1.2 1.6 2.0
Les résultats donnés plus haut pour le modèle linéaire simple peuvent se généraliser au
modèle linéaire multiple défini par :
Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik + ε i où i = 1,..., n
Pour montrer comment les résultats obtenus pour la régression simple se généralisent à la
régression multiple, nous allons réécrire l'équation du modèle sous forme matricielle en
regroupant :
Y 1 1 X 11 X 21 K X 1k β 0 ε 1
Y 2 1 X 21 X 22 K X 2 k β1 ε 2
Y 3 = 1 X 31 M M X 3k β 2 + ε 3 ou Y = X β + ε
M M M M M M M M
Y n 1 X n1 K K X nk β k ε n
M M M M
0 2
0 K σ
Les paramètres du modèle linéaire multiple peuvent être estimés en utilisant la même
méthode que pour la régression simple, c'est-à-dire en minimisant la somme des carrés des
résidus :
Min ∑ ei2 = Min ∑ (Y − β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik ) 2
= Min (Y − Xβ )'(Y − Xβ )
Comme pour la régression simple, ces estimateurs sont sans biais et de variance minimum.
L'expérimentateur peut influencer leur qualité par un choix adéquat du modèle et du plan
expérimental.
Les statistiques R2 et S2 se calculeront par les mêmes formules que pour la régression simple
en adaptant les degrés de liberté de n-2 à n-k-1. Les tests d'hypothèses sur les paramètres
seront également identiques.