Vous êtes sur la page 1sur 16

Grain 7 :

Régression Linéaire
Robert Sabatier, Christelle Reynès, Myrtille Vivien
Université de Montpellier - Institut de Génomique Fonctionnelle
2

Table des matières


1 Introduction 3

2 La régression simple 4
2.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Qualité de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 La régression multiple 9
3.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Estimation et interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Conclusion - Ce qu’il faut retenir 13

5 Pour en savoir plus 14


5.1 Test de signification des coefficients en régression simple . . . . . . . . . . . . . . . . 14
5.2 Test de signification des coefficients en régression multiple . . . . . . . . . . . . . . . 15
3

1 Introduction
L’objectif de ce grain est de montrer comment modéliser le lien entre deux variables quantitatives
(y et x) et entre une variable quantitative y et plusieurs autres.
Dans le grain 2, la notion de corrélation entre deux variables a été abordée. Celle-ci permet de mesurer
la force du lien linéaire entre deux variables x1 et x2 dont les rôles sont symétriques. Par exemple,
au cours d’une étude d’hydrolyse enzymatique de la cellulose, on souhaite étudier le lien entre la
concentration de la solution et l’activité enzymatique mesurée par la Densité Optique (DO) à l’aide
d’un spectrophomètre (Tableau 1). Si l’on représente les données du tableau 1 sur un graphique
(figure 1), c’est-à-dire la densité optique en fonction de la concentration, on constate que les points
sont pratiquement alignés, ce qui correspond à un coeeficient de corrélation entre les deux variables
de r = 0.991. Cette corrélation positive est très forte : cela signifie que les deux variables varient dans
le même sens. Mais, les deux variables ont un rôle symétrique, cela ne veut pas dire que l’une influe
sur l’autre.

x1 (concentration) 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
x2 (densité optique) 0.111 0.246 0.364 0.500 0.607 0.723 0.835 0.925 1.080

Table 1 – Exemple : étude de l’hydrolyse enzymatique de la cellulose.

Figure 1 – Hydrolyse enzymatique de la cellulose.

Dans ce grain, nous allons voir comment modéliser le lien entre deux variables (ou plus) ayant un
rôle asymétrique. Cela signifie que l’on suppose qu’une variable (ou plusieurs) influent sur une autre
variable et on cherche à modéliser ce lien. Ici, nous ne verrons que le cas où ce lien est linéaire. S’il
4

n’y a qu’une variable x qui influe sur la variable y, nous serons dans le cas de la régression linéaire
simple. S’il y en a plusieurs, nous serons dans le cas de la régression linéaire multiple (MLR).

2 La régression simple

2.1 Le modèle

La régression linéaire simple permet de modéliser une variable quantitative y en fonction d’une
autre variable quantitative x. Les deux variables n’ont pas le même rôle : la variable y est dite variable
à expliquer. Elle est aussi appelée variable réponse, ou encore variable dépendante. La variable x,
quant à elle, est appelée prédicteur ou variable explicative.
Le modèle étudié ici s’écrit yi = a + bxi + ei pour i = 1, . . . , n où (xi , yi ) sont n observations des
variables y et x. Dans ce modèle, la variable x est fixe : les valeurs de xi mesurées sont sans erreurs.
Par contre, la variable y est aléatoire : les valeurs mesurées yi dépendent linéairement de xi à une
erreur près ei . Ces erreurs ei sont des variables aléatoires, qui rendent y aléatoire.
En régression linéaire, on suppose que ces erreurs ei sont indépendantes, de moyenne nulle, de même
écart-type inconnu σe . De plus, lorsque l’on désire faire des tests statistiques sur les paramètres,
on doit supposer que les erreurs ei sont normalement et identiquement distribuées : on note alors
ei ∼ N (0, σe ).
Le paramètre a est l’ordonnée à l’origine du modèle, b est la pente.
Ainsi, les paramètres a, b et σe sont à estimer à partir des n couples de valeurs (xi , yi ).

2.2 Exemple

Une méthode de dosage de l’azote en chromatographie gazeuse a été mise au point. On désire
tester sa linéarité. Les données sont présentées dans le tableau 2.

x 0 12 29.5 43 53 62.5 75.5 85 93


y 8.98 8.14 6.67 6.08 5.90 5.83 4.68 4.20 3.72

Table 2 – Dosage de l’azote par chromatographie gazeuse.

On cherche à vérifier que l’aire des pics obtenue de la méthode de dosage est bien linéaire en
fonction de la concentration d’azote. L’aire des pics est donc la variable réponse y et la concentration
5

d’azote représente la variable explicative x.


Avant tout, il convient de réaliser le graphique du nuage des points (xi , yi ) (i = 1, . . . , n = 9) afin de
voir si une liaison linéaire semble exister entre les deux variables (Figure 2).

Figure 2 – Nuage de points de l’aire des pics en fonction de la concentration d’azote.

Sur cette figure, nous pouvons voir une tendance linéaire décroissante de l’aire des pics en fonction
de la concentration.

2.3 Estimation

Nous allons voir maintenant comment sont estimés les paramètres a et b du modèle linaire sous-
jacent.
La méthode utilisée est la méthode des moindres carrés : elle consiste à chercher les valeurs pour a
et b de telle sorte que la somme des carrés des erreurs ni=1 e2i soit la plus petite possible, c’est-à-dire
P

que la droite passe le plus près possible de l’ensemble des points.


D’autres méthodes existent, aboutissant à d’autres modèles [6, 1, 2, 4].
La résolution de ce problème de minimisation mène aux estimations â et b̂ des paramètres a et b
suivantes :

Pn Pn
x i y i − nx̄ȳ (x − x̄)(yi − ȳ)
i=1
bb = Pn
2 2
Pn i
= i=1 2
i=1 xi − nx̄ i=1 (xi − x̄)
6

a = ȳ − b̂x̄,
b

où x̄ et ȳ désignent respectivement les moyennes des n observations xi et yi .


On peut trouver une démonstration de ce résultat dans [2].
b̂ est l’estimation de la pente de la droite des moindres carrés. Cette estimation dépend de la covariance
estimée entre x et y et de la variance estimée de x. Ainsi, le signe de la pente bb est le même que le
signe de la corrélation entre les deux variables. Une pente positive reflète une corrélation positive et
une pente négative reflète une corrélation négative.
a est l’estimation de l’ordonnée à l’origine du modèle et se déduit de bb. Ainsi, le modèle de régression
b
linéaire passe toujours, par construction, par le point moyen de coordonnées (x̄, ȳ).
On peut montrer [6, 2] que le carré de la corrélation entre x et y, que l’on appelle coefficient de
détermination, peut s’écrire : Pn
2 2 yi − ȳ)2
(b
R = r = Pni=1 2
.
i=1 (yi − ȳ)

Le coefficient de détermination exprime la part de variance de y expliquée par x. Ce coefficient est


une mesure de la qualité d’ajustement du modèle. Plus les erreurs sont petites, plus le coefficient de
détermination se rapproche de 1, et plus les valeurs yi sont proches de la droite.
La figure 3 montre comment lire sur le graphique du nuage de point tous les termes utilisés dans les
formules précédentes.

Figure 3 – La régression simple

Graphiquement, les valeurs estimées ybi correspondent aux points sur la droite, les erreurs êi cor-
respondent aux écarts observés (parallèlement à l’axe des ordonnées) entre yi et son estimation ybi
sur la droite.
7

Revenons à l’exemple présenté en paragraphe 2.2. A l’aide de la méthode des moindres carrés,
a = 8.70 et bb = −0.05. Ainsi, on peut écrire le modèle ybi = 8.70 − 0.05xi . Ce modèle est
on obtient b
représenté sur la figure 4.

Figure 4 – La droite de régression de l’aire des pics en fonction de la concentration

2.4 Qualité de la régression

Une fois le modèle établi, il faut juger de sa qualité d’ajustement et de sa fiabilité pour une
utilisation future. Un indicateur de la qualité est le coefficient de détermination, R2 défini auparavant.
Mais ce seul critère n’est pas suffisant.
Il est indispensable d’étudier les résidus du modèle ebi = yi − ybi = yi − (b
a + bbxi ). En effet, ceux-ci
doivent vérifier les critères suivants [2, 6] :
— être de moyenne 0,
— être de distribution gaussienne,
— de variance comparable en fonction de la valeur de x (ou de ybi ),
— alternés entre positifs et négatifs en fonction de la valeur de x (ou de ybi ),
— linéairement indépendants.
Le premier critère est toujours vérifié, par construction du modèle.
Le second et le troisième, sont indispensables si l’on désire effectuer des tests statistiques sur les
paramètres a et b (voir paragraphe 5) et calculer des intervalles de confiance des paramètres et/ou
de prédiction [2, 6, 3].
8

Homogénéité des variances des résidus, alternance des signes et indépendance doivent absolument
être vérifiés pour que le modèle soit acceptable. Ces trois critères peuvent être vérifiés en représentant
les résidus êi en fonction des xi .
Comment visualise-t-on ces critères graphiquement ? Pour voir cela, cinq jeux de données (issus de
[6]) vont être utilisés. Leurs nuages de points sont représentés sur figure 5, sur la première ligne.
Ils ont la particularité d’avoir tous les cinq un modèle de régression simple commun (b
a = 0.81 et
bb = 0.52) ainsi que le même coefficient de détermination, R2 = 0.617.

Sur la seconde ligne de la figure 5, sont représentés les résidus en fonction des xi .

Figure 5 – Nuage de points de cinq jeux données ayant un modèle de régression identique, et
représentation des résidus associés en fonction des xi .

Le premier modèle vérifie tous les critères. Le second n’est pas adapté, on voit que la valeurs
des êi dépend de la valeur de xi . Ils ne sont donc pas indépendants. L’allure du nuage de point
montre que le modèle linéaire ne convient pas et que le bon modèle serait plutôt quadratique. Cela
implique qu’une tendance est visible dans les résidus et qu’ils ne vérifient pas le critère d’alternance
des signes. Pour le troisième cas, il y a un point suspect, qui influence grandement le modèle. Les
résidus associés ne vérifient pas le critère d’alternance des signes. Pour le quatrième cas, on remarque
que les erreurs sont de plus en plus importantes en fonction des xi . Cela signifie que les résidus ne
sont pas de variances homogènes. Enfin, le cinquième cas, nous montre à quel point il est important
de visualiser le nuage de point avant de valider un modèle !
Dans le cadre de notre exemple (tableau 2), le coefficient de détermination vaut R2 = 0.97, c’est-
à-dire que plus de 97% de la variance des aires des pics est expliquée par le modèle de régression
simple. Étudions maintenant le graphique des résidus en fonction de la concentration et le QQ-plot
9

des résidus avec la figure 6. Sur le QQ-plot des résidus, qui nous sert à vérifier la normalité de la
distribution des résidus, indispensable si l’on veut faire des tests, nous voyons qu’une bonne partie
des points sont alignés sur la droite en pointillés (sauf au début et à la fin, ce qui n’est pas très
grave) : ainsi la normalité est globalement satisfaisante. Sur le graphique des résidus en fonction de
la variable explicative, la concentration, nous pouvons voir que les résidus alternent à peu près autour
de leur moyenne, 0, on ne voit pas de tendance forte dans les résidus, même si on peut émettre un
petit doute, et on ne note pas de tendance d’hétéroscédasticité. On peut donc valider le modèle de
régression obtenu, permettant de modéliser l’aire des pics en fonction de la concentration.

Figure 6 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus.

3 La régression multiple
Dans bien des cas, la variable y que l’on souhaite modéliser ne dépend pas d’une mais de plu-
sieurs variables explicatives x1 , . . . , xp . Une solution consiste alors à utiliser le modèle de régression
linéaire multiple si l’on souhaite trouver la meilleure combinaison linéaire des variables explicatives
qui explique y. Les données sont alors de la forme de n ensembles d’observations (xi1 , . . . , xip , yi ).

3.1 Le modèle
Pp
Le modèle recherché s’écrit ici y = b0 + b1 x1 + b2 x2 +, . . . , +bp xp + e = b0 + j=1 bj xj + e où les ei
(coordonnées du vecteur e) sont aléatoires, de moyenne nulle, d’écart-type σe . Comme en régression
simple, si l’on désire faire des tests, et calculer des intervalles de confiance des paramètres et de
10

prédiction, il faut faire l’hypothèse supplémentaire que les ei suivent une loi normale. Les coefficient
bj sont les coefficients de régression du modèle. Ils sont aussi parfois notés βj comme cela a été fait
dans la vidéo de ce grain.
Ce modèle peut aussi s’écrire
 sous forme matricielle
 y= Xb + e avec : 
  1 x11 . . . x1p b e
y1    0   1 
     
 .. 
   1 x12 . . . x2p   b1   e2 
y =  . , X =  . . 
.. ..  , b =  ..  , e =  ..  .
    
  .
 . . . . .   .   . 
yn      
1 xn1 . . . xnp bp en
Ainsi, y est un vecteur de longueur n, le nombre d’observations, la matrice X est de taille n×(p+1),
b est un vecteur de longueur p + 1 et e un vecteur de longueur n.
Les paramètres {bj }j=0,...,p et σe sont inconnus et à estimer à partir des n observations de (xi1 , . . . , xip , yi ).

3.2 Exemple

L’exemple utilisé ici est issu de [5]. Il s’agit de prédire la densité de polyéthylène téréphtalate y par
spectrométrie. Il y a 21 spectres pour 268 longueurs d’ondes. p = 9 longueurs d’ondes ont été choisies
a priori pour établir un modèle de régression multiple. En effet, il est indispensable que le nombre de
prédicteurs p soit inférieur au nombre d’observations n, ici égal à 21, pour pouvoir estimer le modèle
en MCR. Les raisons en seront données dans la section suivante. Les 9 longueurs d’ondes choisies
ont une corrélation entre elles ne dépassant pas 0.6, tandis que toutes celles non retenues ont une
corrélation d’au moins 0.6 avec l’une des 9 choisies. Les 9 longueurs d’ondes retenues correspondent
aux colonnes 3, 219, 11, 35, 40, 244, 64, 79, 203 de la matrice de spectres. Ainsi, la matrice X a n = 21
lignes, le nombre de spectres ; et p + 1 = 10 colonnes (dont les 9 longueurs d’ondes retenues). La
variable à prédire est la densité de polyéthylène y.
11

Figure 7 – Spectres et variables retenues (traits verticaux) dans l’exemple.

3.3 Estimation et interprétation géométrique

L’ensemble des paramètres à estimer sont estimés, comme en régression simple, par la méthode
des moindres carrés. Il s’agit de trouver le « meilleur modèle » qui permet de prédire y à l’aide
d’une combinaison linéaire des variables de X. On cherche donc les coefficients bb0 , . . . , bbp tels que
y
b = Xbb = Pp bbj xj minimisant ky − Xbk2 .
j=0

On peut montrer [4, 6] que la solution matricielle est donnée par :

b = (X0 X)−1 X0 y.
b

Ceci correspond en fait à un simple problème de projection. En effet, l’estimation de y, ŷ = Xb


b=

X(X0 X)−1 X0 y = PX y est la projection de y sur l’espace engendré par les colonnes de X, c’est-à-dire
par l’ensemble des combinaisons linéaires possibles des colonnes de X. Ceci est illustré par la figure
8.
12

Figure 8 – Interprétation géométrique de la régression multiple.

Pour juger de la qualité du modèle, on utilise le coefficient de détermination (appelé aussi coeffi-
cient de corrélation multiple au carré) qui désigne le pourcentage de variance de y expliquée par le
modèle. Celui-ci s’exprime de la façon suivante :
Pn
2 yi − ȳ)2
(b kŷk2 kPX yk2
R = P i=1 2
= 2
= 2
= cos2 (θ),
i=1n (yi − ȳ) kyk kyk

et est illustré sur la figure 8. Le pourcentage de variance expliquée représente donc le cosinus carré
de l’angle entre la variable à expliquer et l’espace engendré par les variables explicatives.

S’il existe de fortes corrélations entre les variables explicatives xj , la matrice X0 X va présenter
des problèmes de conditionnement (déterminant proche de 0), ce qui va entraı̂ner de fortes valeurs
dans son inverse, et ainsi les coefficients de régressions estimés contiendront du bruit, même si le
coefficient de détermination est élevé.
De plus, si n < p , on ne peut pas estimer les paramètres car la matrice X0 X n’est alors plus inversible.
Cette situation est très courante en chimiométrie lorsqu’on étudie des spectres MIR ou NIR, car le
nombre de longueurs d’onde des spectres est nettement supérieur au nombre de spectres étudiés. Il
faut alors utiliser des procédures de sélection de variables [4, 2](cf. grains 14 et 15) afin de réduire le
nombre de variables explicatives (par exemple le nombre de longueurs d’ondes, comme cela a été fait
dans l’exemple utilisé dans ce grain), ou bien, utiliser une autre technique de modélisation, comme
par exemple la régression Partial Least Squares, qui est très utilisée en chimiométrie. Celle-ci sera
présentée dans les grains 8 et 9.
Revenons maintenant à l’exemple : les coefficients estimés b
b sont donnés dans le tableau 3.
13

constante NIR.3 NIR.219 NIR.11 NIR.35 NIR.40 NIR.244 NIR.64 NIR.79 NIR.203
bb0 bb1 bb2 bb3 bb4 bb5 bb6 bb7 bb8 bb9

83.75 -9.81 535.32 5.51 312.49 -507.29 -318.76 16.38 77.49 -120.74

Table 3 – Coefficients de régression de l’exemple.

Le coefficient de détermination obtenu ici vaut R2 = 99.97% ce qui montre un très bon ajustement
des données. Mais ce résultat doit être pris avec précaution. En effet, le coefficient de détermination
augmente avec le nombre de variables explicatives. Aussi, pour avoir un modèle pertinent, utilisable
pour faire de la prédiction, il est nécessaire de le valider définitivement à l’aide d’une validation
croisée et de jeux de validation et test. Ces types de validation seront explicitées dans le grain 11.

Figure 9 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus

Une étude des résidus du modèle obtenu, figure 9, nous montre que les conditions nécessaires
sont bien vérifiées. En effet, le QQ-plot des résidus semble valider la normalité de la distribution
des résidus. Pour vérifier l’indépendance des résidus et leur homoscédasticité, nous utilisons ici le
graphique des résidus en fonction des valeurs de ŷi : ici tout semble vérifié.

4 Conclusion - Ce qu’il faut retenir


La régression linéaire simple et la régression linéaire multiple (MLR) sont des méthodes simples et
usuelles pour établir un modèle linéaire entre une variable réponse quantitative, et une ou plusieurs
variables explicatives. Cependant, il faut être très vigilant à toujours observer le modèle et les résidus
14

pour trouver d’éventuels écarts aux hypothèses faites : hétéroscédasticité, non normalité des résidus,
dépendance des résidus...
Dans le cas de la régression multiple, s’il y a de fortes corrélations entre les prédicteurs et/ou si le
nombre de prédicteurs est supérieur au nombre d’échantillons, le modèle n’est pas adapté. On peut
alors utiliser une méthode de sélection de variables pour réduire le nombre de prédicteurs à prendre
en compte dans le modèle (cf. grains 14 et 15). La sélection de variables est un point important en
pratique pour rendre son modèle plus parcimonieux : plus facile à interpréter et plus stable.
En pratique, en chimiométrie, on a plus de variables explicatives que d’échantillons : il faut alors
utiliser une autre méthode, une régression PLS par exemple (cf. grains 8 et 9).
Dans tous les cas , il faut veiller à valider son modèle à l’aide de jeux tests et/ou d’une méthode de
validation croisée (cf. grain 11) afin de pouvoir réutiliser le modèle pour faire de la prédiction.

5 Pour en savoir plus

5.1 Test de signification des coefficients en régression simple

Un test peut être réalisé en régression simple pour tester la significativité de la régression. Il s’agit
du test de pente nulle. Ce test n’est réalisable que si les erreurs ei sont indépendantes, identiquement
distribuées suivant une loi normale de moyenne 0 et d’écart-type σe .
Les hypothèses que l’on teste sont : H0 : b = 0 contre l’hypothèse alternative H1 : b 6= 0.
Pn
be2 b2i
i=1 e
La statistique de ce test est donnée par t = √b−0 b , où var(bb) = Pn σ be2 =
avec σ .
b
2
var(b) i=1 i −x̄)
(x n−2

On peut montrer [2], que sous H0 , cette statistique suit une loi de Student à n − 2 degrés de
liberté. Ainsi, si |t| est plus grand que le quantile d’ordre 1 − α/2 (α étant le risque de première
espèce que l’on s’est fixé, en général égal à 0.05) d’une loi de Student à n − 2 degrés de liberté, alors
on rejette H0 : on dit alors que la pente est significativement non nulle (au risque α) et il existe un
lien entre les deux variables y et x. Cela ne signifie pas pour autant que le modèle linéaire estimé
soit le bon modèle à utiliser ni le seul.
Ce test de pente nulle est strictement équivalent au test statistique qui teste si la corrélation est
nulle.
De plus, il est aussi équivalent, au test réalisé dans la table d’ANOVA de la régression. En effet, la
régression est basée sur la décomposition de la variabilité totale de y en deux termes : une partie
modélisant la variabilité expliquée par le modèle et une seconde, représentant la variabilité résiduelle
(des erreurs) : ni=1 (yi − ȳ)2 =
Pn
yi − ȳ)2 + ni=1 (yi − ybi )2 . Ces variabilités ont chacune un
P P
i=1 (b

degré de liberté spécifique et permettent de définir la table d’ANOVA suivante :


15

Source de variation Degré de liberté Somme des carrés Carrés moyens F


Pn SCEb CM Eb
Régression (variation expliquée) 1 SCEb = i=1 (byi − ȳ)2 CM Eb = 1 F = CM ER
Pn SCER
Résidus (variation résiduelles) n−2 SCER = i=1 (yi − ybi )2 CM ER = (n−2)

Lorsque l’hypothèse H0 : b = 0 est vérifiée, ainsi que toutes les conditions sur les résidus, on peut
montrer que F suit une loi de Fisher à 1 et n − 2 degrés de liberté. Ainsi, on conclura que la pente
est significativement non nulle, au risque α si F est supérieur ou égal au quantile d’ordre 1 − α d’une
loi de Fisher à 1 et n − 2 degrés de liberté. On peut montrer [2] que cette statistique F est égale au
carré de la statistique t du test de pente nulle, et ainsi l’équivalence de ces deux tests.

5.2 Test de signification des coefficients en régression multiple

De la même façon qu’en régression simple, on peut tester la significativité de la régression à l’aide
d’un test portant sur l’ensemble des coefficients de régressions associés aux variables explicatives. Ce
test, comme en régression simple, n’est réalisable que si les erreurs ei sont indépendantes, identique-
ment distribuées suivant une loi normale de moyenne 0 et d’écart-type σe .
ky−Xbk2
be2 =
La variance résiduelle est alors estimée par σ n−p−1
et la variance de b
b est estimée par

var(b) be2 (X0 X)−1 .


b =σ

Il en découle le test global dont l’hypothèse nulle testée est H0 ; b1 = b2 = . . . = bp = 0 contre l’hypo-
thèse alternative H1 :Il existe au moins un coefficient bj différent de 0.
R2 n−p−1
La statistique de ce test est donnée par F = 1−R2 p
, laquelle suit une loi de Fisher à p et n − p − 1
degrés de liberté [2]. Ainsi, on dira que les coefficients du modèles sont significatifs conjointement, si
F est supérieur ou égal au quantile d’ordre 1 − α d’une loi de Fisher à p et n − p − 1 degrés de libertés.

Il est aussi possible de faire des tests permettant de tester les coefficients un par un ou par sous-
groupe, mais il ne faut pas oublier que les coefficients de régression ne sont pas indépendants entre
eux. Ces tests ne seront pas détaillés ici, mais on peut se référer aux ouvrages [6, 2].
16

Références
[1] D. Birkes and Y. Dodge. Alternative Methods of Regression. Wiley, 1993.

[2] Y. Dodge. Analyse de régression appliquée. Dunod, Paris, 1999.

[3] Y. Dodge. Premiers pas en statistique. Springer, 1999.

[4] G. Saporta. Probabilité, analyse des données et Statistique. Technip, 2006.

[5] H. Swierenga, A.P. De Weijer, R.J. Van Wijk, and L.M.C. Buydens. Strategy for construc-
ting robust multivariate calibration models. Chemometrics and Intelligent Laboratory Systems,
49(1) :1–17, 1999.

[6] R. Tomassone, S. Audrain, E. Lesquoy de Turckheim, and C. Millier. La Régression Nouveaux


regards sur une ancienne méthode statistique. Masson, 1992.

Vous aimerez peut-être aussi