Grain7 RegressionLineaire

Grain 7 :
Régression Linéaire
Robert Sabatier, Christelle Reynès, Myrtille Vivien
Université de Montpellier - Institut de Génomique Fonctionnelle
2
Table des matières

1 Introduction 3
2 La régression simple 4
2.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Qualité de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 La régression multiple 9
3.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Estimation et interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Conclusion - Ce qu’il faut retenir 13
5 Pour en savoir plus 14

5.1 Test de signification des coefficients en régression simple . . . . . . . . . . . . . . . . 14
5.2 Test de signification des coefficients en régression multiple . . . . . . . . . . . . . . . 15
3
1 Introduction
L’objectif de ce grain est de montrer comment modéliser le lien entre deux variables quantitatives
(y et x) et entre une variable quantitative y et plusieurs autres.
Dans le grain 2, la notion de corrélation entre deux variables a été abordée. Celle-ci permet de mesurer
la force du lien linéaire entre deux variables x1 et x2 dont les rôles sont symétriques. Par exemple,
au cours d’une étude d’hydrolyse enzymatique de la cellulose, on souhaite étudier le lien entre la
concentration de la solution et l’activité enzymatique mesurée par la Densité Optique (DO) à l’aide
d’un spectrophomètre (Tableau 1). Si l’on représente les données du tableau 1 sur un graphique
(figure 1), c’est-à-dire la densité optique en fonction de la concentration, on constate que les points
sont pratiquement alignés, ce qui correspond à un coeeficient de corrélation entre les deux variables
de r = 0.991. Cette corrélation positive est très forte : cela signifie que les deux variables varient dans
le même sens. Mais, les deux variables ont un rôle symétrique, cela ne veut pas dire que l’une influe
sur l’autre.
x1 (concentration) 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
x2 (densité optique) 0.111 0.246 0.364 0.500 0.607 0.723 0.835 0.925 1.080
Table 1 – Exemple : étude de l’hydrolyse enzymatique de la cellulose.
Figure 1 – Hydrolyse enzymatique de la cellulose.
Dans ce grain, nous allons voir comment modéliser le lien entre deux variables (ou plus) ayant un
rôle asymétrique. Cela signifie que l’on suppose qu’une variable (ou plusieurs) influent sur une autre
variable et on cherche à modéliser ce lien. Ici, nous ne verrons que le cas où ce lien est linéaire. S’il
4
n’y a qu’une variable x qui influe sur la variable y, nous serons dans le cas de la régression linéaire
simple. S’il y en a plusieurs, nous serons dans le cas de la régression linéaire multiple (MLR).
2 La régression simple
2.1 Le modèle
La régression linéaire simple permet de modéliser une variable quantitative y en fonction d’une
autre variable quantitative x. Les deux variables n’ont pas le même rôle : la variable y est dite variable
à expliquer. Elle est aussi appelée variable réponse, ou encore variable dépendante. La variable x,
quant à elle, est appelée prédicteur ou variable explicative.
Le modèle étudié ici s’écrit yi = a + bxi + ei pour i = 1, . . . , n où (xi , yi ) sont n observations des
variables y et x. Dans ce modèle, la variable x est fixe : les valeurs de xi mesurées sont sans erreurs.
Par contre, la variable y est aléatoire : les valeurs mesurées yi dépendent linéairement de xi à une
erreur près ei . Ces erreurs ei sont des variables aléatoires, qui rendent y aléatoire.
En régression linéaire, on suppose que ces erreurs ei sont indépendantes, de moyenne nulle, de même
écart-type inconnu σe . De plus, lorsque l’on désire faire des tests statistiques sur les paramètres,
on doit supposer que les erreurs ei sont normalement et identiquement distribuées : on note alors
ei ∼ N (0, σe ).
Le paramètre a est l’ordonnée à l’origine du modèle, b est la pente.
Ainsi, les paramètres a, b et σe sont à estimer à partir des n couples de valeurs (xi , yi ).
2.2 Exemple
Une méthode de dosage de l’azote en chromatographie gazeuse a été mise au point. On désire
tester sa linéarité. Les données sont présentées dans le tableau 2.
x 0 12 29.5 43 53 62.5 75.5 85 93

y 8.98 8.14 6.67 6.08 5.90 5.83 4.68 4.20 3.72
Table 2 – Dosage de l’azote par chromatographie gazeuse.
On cherche à vérifier que l’aire des pics obtenue de la méthode de dosage est bien linéaire en
fonction de la concentration d’azote. L’aire des pics est donc la variable réponse y et la concentration
5
d’azote représente la variable explicative x.

Avant tout, il convient de réaliser le graphique du nuage des points (xi , yi ) (i = 1, . . . , n = 9) afin de
voir si une liaison linéaire semble exister entre les deux variables (Figure 2).
Figure 2 – Nuage de points de l’aire des pics en fonction de la concentration d’azote.
Sur cette figure, nous pouvons voir une tendance linéaire décroissante de l’aire des pics en fonction
de la concentration.
2.3 Estimation
Nous allons voir maintenant comment sont estimés les paramètres a et b du modèle linaire sous-
jacent.
La méthode utilisée est la méthode des moindres carrés : elle consiste à chercher les valeurs pour a
et b de telle sorte que la somme des carrés des erreurs ni=1 e2i soit la plus petite possible, c’est-à-dire
P
que la droite passe le plus près possible de l’ensemble des points.

D’autres méthodes existent, aboutissant à d’autres modèles [6, 1, 2, 4].
La résolution de ce problème de minimisation mène aux estimations â et b̂ des paramètres a et b
suivantes :
Pn Pn
x i y i − nx̄ȳ (x − x̄)(yi − ȳ)
i=1
bb = Pn
2 2
Pn i
= i=1 2
i=1 xi − nx̄ i=1 (xi − x̄)
6
a = ȳ − b̂x̄,
b
où x̄ et ȳ désignent respectivement les moyennes des n observations xi et yi .

On peut trouver une démonstration de ce résultat dans [2].
b̂ est l’estimation de la pente de la droite des moindres carrés. Cette estimation dépend de la covariance
estimée entre x et y et de la variance estimée de x. Ainsi, le signe de la pente bb est le même que le
signe de la corrélation entre les deux variables. Une pente positive reflète une corrélation positive et
une pente négative reflète une corrélation négative.
a est l’estimation de l’ordonnée à l’origine du modèle et se déduit de bb. Ainsi, le modèle de régression
b
linéaire passe toujours, par construction, par le point moyen de coordonnées (x̄, ȳ).
On peut montrer [6, 2] que le carré de la corrélation entre x et y, que l’on appelle coefficient de
détermination, peut s’écrire : Pn
2 2 yi − ȳ)2
(b
R = r = Pni=1 2
.
i=1 (yi − ȳ)
Le coefficient de détermination exprime la part de variance de y expliquée par x. Ce coefficient est

une mesure de la qualité d’ajustement du modèle. Plus les erreurs sont petites, plus le coefficient de
détermination se rapproche de 1, et plus les valeurs yi sont proches de la droite.
La figure 3 montre comment lire sur le graphique du nuage de point tous les termes utilisés dans les
formules précédentes.
Figure 3 – La régression simple
Graphiquement, les valeurs estimées ybi correspondent aux points sur la droite, les erreurs êi cor-
respondent aux écarts observés (parallèlement à l’axe des ordonnées) entre yi et son estimation ybi
sur la droite.
7
Revenons à l’exemple présenté en paragraphe 2.2. A l’aide de la méthode des moindres carrés,
a = 8.70 et bb = −0.05. Ainsi, on peut écrire le modèle ybi = 8.70 − 0.05xi . Ce modèle est
on obtient b
représenté sur la figure 4.
Figure 4 – La droite de régression de l’aire des pics en fonction de la concentration
2.4 Qualité de la régression
Une fois le modèle établi, il faut juger de sa qualité d’ajustement et de sa fiabilité pour une
utilisation future. Un indicateur de la qualité est le coefficient de détermination, R2 défini auparavant.
Mais ce seul critère n’est pas suffisant.
Il est indispensable d’étudier les résidus du modèle ebi = yi − ybi = yi − (b
a + bbxi ). En effet, ceux-ci
doivent vérifier les critères suivants [2, 6] :
— être de moyenne 0,
— être de distribution gaussienne,
— de variance comparable en fonction de la valeur de x (ou de ybi ),
— alternés entre positifs et négatifs en fonction de la valeur de x (ou de ybi ),
— linéairement indépendants.
Le premier critère est toujours vérifié, par construction du modèle.
Le second et le troisième, sont indispensables si l’on désire effectuer des tests statistiques sur les
paramètres a et b (voir paragraphe 5) et calculer des intervalles de confiance des paramètres et/ou
de prédiction [2, 6, 3].
8
Homogénéité des variances des résidus, alternance des signes et indépendance doivent absolument
être vérifiés pour que le modèle soit acceptable. Ces trois critères peuvent être vérifiés en représentant
les résidus êi en fonction des xi .
Comment visualise-t-on ces critères graphiquement ? Pour voir cela, cinq jeux de données (issus de
[6]) vont être utilisés. Leurs nuages de points sont représentés sur figure 5, sur la première ligne.
Ils ont la particularité d’avoir tous les cinq un modèle de régression simple commun (b
a = 0.81 et
bb = 0.52) ainsi que le même coefficient de détermination, R2 = 0.617.
Sur la seconde ligne de la figure 5, sont représentés les résidus en fonction des xi .
Figure 5 – Nuage de points de cinq jeux données ayant un modèle de régression identique, et
représentation des résidus associés en fonction des xi .
Le premier modèle vérifie tous les critères. Le second n’est pas adapté, on voit que la valeurs
des êi dépend de la valeur de xi . Ils ne sont donc pas indépendants. L’allure du nuage de point
montre que le modèle linéaire ne convient pas et que le bon modèle serait plutôt quadratique. Cela
implique qu’une tendance est visible dans les résidus et qu’ils ne vérifient pas le critère d’alternance
des signes. Pour le troisième cas, il y a un point suspect, qui influence grandement le modèle. Les
résidus associés ne vérifient pas le critère d’alternance des signes. Pour le quatrième cas, on remarque
que les erreurs sont de plus en plus importantes en fonction des xi . Cela signifie que les résidus ne
sont pas de variances homogènes. Enfin, le cinquième cas, nous montre à quel point il est important
de visualiser le nuage de point avant de valider un modèle !
Dans le cadre de notre exemple (tableau 2), le coefficient de détermination vaut R2 = 0.97, c’est-
à-dire que plus de 97% de la variance des aires des pics est expliquée par le modèle de régression
simple. Étudions maintenant le graphique des résidus en fonction de la concentration et le QQ-plot
9
des résidus avec la figure 6. Sur le QQ-plot des résidus, qui nous sert à vérifier la normalité de la
distribution des résidus, indispensable si l’on veut faire des tests, nous voyons qu’une bonne partie
des points sont alignés sur la droite en pointillés (sauf au début et à la fin, ce qui n’est pas très
grave) : ainsi la normalité est globalement satisfaisante. Sur le graphique des résidus en fonction de
la variable explicative, la concentration, nous pouvons voir que les résidus alternent à peu près autour
de leur moyenne, 0, on ne voit pas de tendance forte dans les résidus, même si on peut émettre un
petit doute, et on ne note pas de tendance d’hétéroscédasticité. On peut donc valider le modèle de
régression obtenu, permettant de modéliser l’aire des pics en fonction de la concentration.
Figure 6 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus.
3 La régression multiple
Dans bien des cas, la variable y que l’on souhaite modéliser ne dépend pas d’une mais de plu-
sieurs variables explicatives x1 , . . . , xp . Une solution consiste alors à utiliser le modèle de régression
linéaire multiple si l’on souhaite trouver la meilleure combinaison linéaire des variables explicatives
qui explique y. Les données sont alors de la forme de n ensembles d’observations (xi1 , . . . , xip , yi ).
3.1 Le modèle
Pp
Le modèle recherché s’écrit ici y = b0 + b1 x1 + b2 x2 +, . . . , +bp xp + e = b0 + j=1 bj xj + e où les ei
(coordonnées du vecteur e) sont aléatoires, de moyenne nulle, d’écart-type σe . Comme en régression
simple, si l’on désire faire des tests, et calculer des intervalles de confiance des paramètres et de
10
prédiction, il faut faire l’hypothèse supplémentaire que les ei suivent une loi normale. Les coefficient
bj sont les coefficients de régression du modèle. Ils sont aussi parfois notés βj comme cela a été fait
dans la vidéo de ce grain.
Ce modèle peut aussi s’écrire
 sous forme matricielle
 y= Xb + e avec : 
  1 x11 . . . x1p b e
y1    0   1 
     
 .. 
   1 x12 . . . x2p   b1   e2 
y =  . , X =  . . 
.. ..  , b =  ..  , e =  ..  .
    
  .
 . . . . .   .   . 
yn      
1 xn1 . . . xnp bp en
Ainsi, y est un vecteur de longueur n, le nombre d’observations, la matrice X est de taille n×(p+1),
b est un vecteur de longueur p + 1 et e un vecteur de longueur n.
Les paramètres {bj }j=0,...,p et σe sont inconnus et à estimer à partir des n observations de (xi1 , . . . , xip , yi ).
3.2 Exemple
L’exemple utilisé ici est issu de [5]. Il s’agit de prédire la densité de polyéthylène téréphtalate y par
spectrométrie. Il y a 21 spectres pour 268 longueurs d’ondes. p = 9 longueurs d’ondes ont été choisies
a priori pour établir un modèle de régression multiple. En effet, il est indispensable que le nombre de
prédicteurs p soit inférieur au nombre d’observations n, ici égal à 21, pour pouvoir estimer le modèle
en MCR. Les raisons en seront données dans la section suivante. Les 9 longueurs d’ondes choisies
ont une corrélation entre elles ne dépassant pas 0.6, tandis que toutes celles non retenues ont une
corrélation d’au moins 0.6 avec l’une des 9 choisies. Les 9 longueurs d’ondes retenues correspondent
aux colonnes 3, 219, 11, 35, 40, 244, 64, 79, 203 de la matrice de spectres. Ainsi, la matrice X a n = 21
lignes, le nombre de spectres ; et p + 1 = 10 colonnes (dont les 9 longueurs d’ondes retenues). La
variable à prédire est la densité de polyéthylène y.
11
Figure 7 – Spectres et variables retenues (traits verticaux) dans l’exemple.
3.3 Estimation et interprétation géométrique
L’ensemble des paramètres à estimer sont estimés, comme en régression simple, par la méthode
des moindres carrés. Il s’agit de trouver le « meilleur modèle » qui permet de prédire y à l’aide
d’une combinaison linéaire des variables de X. On cherche donc les coefficients bb0 , . . . , bbp tels que
y
b = Xbb = Pp bbj xj minimisant ky − Xbk2 .
j=0
On peut montrer [4, 6] que la solution matricielle est donnée par :
b = (X0 X)−1 X0 y.
b
Ceci correspond en fait à un simple problème de projection. En effet, l’estimation de y, ŷ = Xb

b=
X(X0 X)−1 X0 y = PX y est la projection de y sur l’espace engendré par les colonnes de X, c’est-à-dire
par l’ensemble des combinaisons linéaires possibles des colonnes de X. Ceci est illustré par la figure
8.
12
Figure 8 – Interprétation géométrique de la régression multiple.
Pour juger de la qualité du modèle, on utilise le coefficient de détermination (appelé aussi coeffi-
cient de corrélation multiple au carré) qui désigne le pourcentage de variance de y expliquée par le
modèle. Celui-ci s’exprime de la façon suivante :
Pn
2 yi − ȳ)2
(b kŷk2 kPX yk2
R = P i=1 2
= 2
= 2
= cos2 (θ),
i=1n (yi − ȳ) kyk kyk
et est illustré sur la figure 8. Le pourcentage de variance expliquée représente donc le cosinus carré
de l’angle entre la variable à expliquer et l’espace engendré par les variables explicatives.
S’il existe de fortes corrélations entre les variables explicatives xj , la matrice X0 X va présenter
des problèmes de conditionnement (déterminant proche de 0), ce qui va entraı̂ner de fortes valeurs
dans son inverse, et ainsi les coefficients de régressions estimés contiendront du bruit, même si le
coefficient de détermination est élevé.
De plus, si n < p , on ne peut pas estimer les paramètres car la matrice X0 X n’est alors plus inversible.
Cette situation est très courante en chimiométrie lorsqu’on étudie des spectres MIR ou NIR, car le
nombre de longueurs d’onde des spectres est nettement supérieur au nombre de spectres étudiés. Il
faut alors utiliser des procédures de sélection de variables [4, 2](cf. grains 14 et 15) afin de réduire le
nombre de variables explicatives (par exemple le nombre de longueurs d’ondes, comme cela a été fait
dans l’exemple utilisé dans ce grain), ou bien, utiliser une autre technique de modélisation, comme
par exemple la régression Partial Least Squares, qui est très utilisée en chimiométrie. Celle-ci sera
présentée dans les grains 8 et 9.
Revenons maintenant à l’exemple : les coefficients estimés b
b sont donnés dans le tableau 3.
13
constante NIR.3 NIR.219 NIR.11 NIR.35 NIR.40 NIR.244 NIR.64 NIR.79 NIR.203
bb0 bb1 bb2 bb3 bb4 bb5 bb6 bb7 bb8 bb9
83.75 -9.81 535.32 5.51 312.49 -507.29 -318.76 16.38 77.49 -120.74
Table 3 – Coefficients de régression de l’exemple.
Le coefficient de détermination obtenu ici vaut R2 = 99.97% ce qui montre un très bon ajustement
des données. Mais ce résultat doit être pris avec précaution. En effet, le coefficient de détermination
augmente avec le nombre de variables explicatives. Aussi, pour avoir un modèle pertinent, utilisable
pour faire de la prédiction, il est nécessaire de le valider définitivement à l’aide d’une validation
croisée et de jeux de validation et test. Ces types de validation seront explicitées dans le grain 11.
Figure 9 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus
Une étude des résidus du modèle obtenu, figure 9, nous montre que les conditions nécessaires
sont bien vérifiées. En effet, le QQ-plot des résidus semble valider la normalité de la distribution
des résidus. Pour vérifier l’indépendance des résidus et leur homoscédasticité, nous utilisons ici le
graphique des résidus en fonction des valeurs de ŷi : ici tout semble vérifié.
4 Conclusion - Ce qu’il faut retenir

La régression linéaire simple et la régression linéaire multiple (MLR) sont des méthodes simples et
usuelles pour établir un modèle linéaire entre une variable réponse quantitative, et une ou plusieurs
variables explicatives. Cependant, il faut être très vigilant à toujours observer le modèle et les résidus
14
pour trouver d’éventuels écarts aux hypothèses faites : hétéroscédasticité, non normalité des résidus,
dépendance des résidus...
Dans le cas de la régression multiple, s’il y a de fortes corrélations entre les prédicteurs et/ou si le
nombre de prédicteurs est supérieur au nombre d’échantillons, le modèle n’est pas adapté. On peut
alors utiliser une méthode de sélection de variables pour réduire le nombre de prédicteurs à prendre
en compte dans le modèle (cf. grains 14 et 15). La sélection de variables est un point important en
pratique pour rendre son modèle plus parcimonieux : plus facile à interpréter et plus stable.
En pratique, en chimiométrie, on a plus de variables explicatives que d’échantillons : il faut alors
utiliser une autre méthode, une régression PLS par exemple (cf. grains 8 et 9).
Dans tous les cas , il faut veiller à valider son modèle à l’aide de jeux tests et/ou d’une méthode de
validation croisée (cf. grain 11) afin de pouvoir réutiliser le modèle pour faire de la prédiction.
5 Pour en savoir plus
5.1 Test de signification des coefficients en régression simple
Un test peut être réalisé en régression simple pour tester la significativité de la régression. Il s’agit
du test de pente nulle. Ce test n’est réalisable que si les erreurs ei sont indépendantes, identiquement
distribuées suivant une loi normale de moyenne 0 et d’écart-type σe .
Les hypothèses que l’on teste sont : H0 : b = 0 contre l’hypothèse alternative H1 : b 6= 0.
Pn
be2 b2i
i=1 e
La statistique de ce test est donnée par t = √b−0 b , où var(bb) = Pn σ be2 =
avec σ .
b
2
var(b) i=1 i −x̄)
(x n−2
On peut montrer [2], que sous H0 , cette statistique suit une loi de Student à n − 2 degrés de
liberté. Ainsi, si |t| est plus grand que le quantile d’ordre 1 − α/2 (α étant le risque de première
espèce que l’on s’est fixé, en général égal à 0.05) d’une loi de Student à n − 2 degrés de liberté, alors
on rejette H0 : on dit alors que la pente est significativement non nulle (au risque α) et il existe un
lien entre les deux variables y et x. Cela ne signifie pas pour autant que le modèle linéaire estimé
soit le bon modèle à utiliser ni le seul.
Ce test de pente nulle est strictement équivalent au test statistique qui teste si la corrélation est
nulle.
De plus, il est aussi équivalent, au test réalisé dans la table d’ANOVA de la régression. En effet, la
régression est basée sur la décomposition de la variabilité totale de y en deux termes : une partie
modélisant la variabilité expliquée par le modèle et une seconde, représentant la variabilité résiduelle
(des erreurs) : ni=1 (yi − ȳ)2 =
Pn
yi − ȳ)2 + ni=1 (yi − ybi )2 . Ces variabilités ont chacune un
P P
i=1 (b
degré de liberté spécifique et permettent de définir la table d’ANOVA suivante :

15
Source de variation Degré de liberté Somme des carrés Carrés moyens F

Pn SCEb CM Eb
Régression (variation expliquée) 1 SCEb = i=1 (byi − ȳ)2 CM Eb = 1 F = CM ER
Pn SCER
Résidus (variation résiduelles) n−2 SCER = i=1 (yi − ybi )2 CM ER = (n−2)
Lorsque l’hypothèse H0 : b = 0 est vérifiée, ainsi que toutes les conditions sur les résidus, on peut
montrer que F suit une loi de Fisher à 1 et n − 2 degrés de liberté. Ainsi, on conclura que la pente
est significativement non nulle, au risque α si F est supérieur ou égal au quantile d’ordre 1 − α d’une
loi de Fisher à 1 et n − 2 degrés de liberté. On peut montrer [2] que cette statistique F est égale au
carré de la statistique t du test de pente nulle, et ainsi l’équivalence de ces deux tests.
5.2 Test de signification des coefficients en régression multiple
De la même façon qu’en régression simple, on peut tester la significativité de la régression à l’aide
d’un test portant sur l’ensemble des coefficients de régressions associés aux variables explicatives. Ce
test, comme en régression simple, n’est réalisable que si les erreurs ei sont indépendantes, identique-
ment distribuées suivant une loi normale de moyenne 0 et d’écart-type σe .
ky−Xbk2
be2 =
La variance résiduelle est alors estimée par σ n−p−1
et la variance de b
b est estimée par
var(b) be2 (X0 X)−1 .

b =σ
Il en découle le test global dont l’hypothèse nulle testée est H0 ; b1 = b2 = . . . = bp = 0 contre l’hypo-
thèse alternative H1 :Il existe au moins un coefficient bj différent de 0.
R2 n−p−1
La statistique de ce test est donnée par F = 1−R2 p
, laquelle suit une loi de Fisher à p et n − p − 1
degrés de liberté [2]. Ainsi, on dira que les coefficients du modèles sont significatifs conjointement, si
F est supérieur ou égal au quantile d’ordre 1 − α d’une loi de Fisher à p et n − p − 1 degrés de libertés.
Il est aussi possible de faire des tests permettant de tester les coefficients un par un ou par sous-
groupe, mais il ne faut pas oublier que les coefficients de régression ne sont pas indépendants entre
eux. Ces tests ne seront pas détaillés ici, mais on peut se référer aux ouvrages [6, 2].
16
Références
[1] D. Birkes and Y. Dodge. Alternative Methods of Regression. Wiley, 1993.
[2] Y. Dodge. Analyse de régression appliquée. Dunod, Paris, 1999.
[3] Y. Dodge. Premiers pas en statistique. Springer, 1999.
[4] G. Saporta. Probabilité, analyse des données et Statistique. Technip, 2006.
[5] H. Swierenga, A.P. De Weijer, R.J. Van Wijk, and L.M.C. Buydens. Strategy for construc-
ting robust multivariate calibration models. Chemometrics and Intelligent Laboratory Systems,
49(1) :1–17, 1999.
[6] R. Tomassone, S. Audrain, E. Lesquoy de Turckheim, and C. Millier. La Régression Nouveaux

regards sur une ancienne méthode statistique. Masson, 1992.

Grain7 RegressionLineaire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Grain7 RegressionLineaire

Transféré par

Droits d'auteur :

Formats disponibles

Grain 7 :

Table des matières

4 Conclusion - Ce qu’il faut retenir 13

5 Pour en savoir plus 14

Table 1 – Exemple : étude de l’hydrolyse enzymatique de la cellulose.

Figure 1 – Hydrolyse enzymatique de la cellulose.

x 0 12 29.5 43 53 62.5 75.5 85 93

Table 2 – Dosage de l’azote par chromatographie gazeuse.

d’azote représente la variable explicative x.

Figure 2 – Nuage de points de l’aire des pics en fonction de la concentration d’azote.

que la droite passe le plus près possible de l’ensemble des points.

où x̄ et ȳ désignent respectivement les moyennes des n observations xi et yi .

Le coefficient de détermination exprime la part de variance de y expliquée par x. Ce coefficient est

Figure 3 – La régression simple

Figure 4 – La droite de régression de l’aire des pics en fonction de la concentration

2.4 Qualité de la régression

Figure 6 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus.

Figure 7 – Spectres et variables retenues (traits verticaux) dans l’exemple.

3.3 Estimation et interprétation géométrique

On peut montrer [4, 6] que la solution matricielle est donnée par :

Ceci correspond en fait à un simple problème de projection. En effet, l’estimation de y, ŷ = Xb

Figure 8 – Interprétation géométrique de la régression multiple.

Table 3 – Coefficients de régression de l’exemple.

Figure 9 – Graphique des résidus en fonction de la concentration et QQ-plot des résidus

4 Conclusion - Ce qu’il faut retenir

5 Pour en savoir plus

5.1 Test de signification des coefficients en régression simple

degré de liberté spécifique et permettent de définir la table d’ANOVA suivante :

Source de variation Degré de liberté Somme des carrés Carrés moyens F

5.2 Test de signification des coefficients en régression multiple

var(b) be2 (X0 X)−1 .

[2] Y. Dodge. Analyse de régression appliquée. Dunod, Paris, 1999.

[3] Y. Dodge. Premiers pas en statistique. Springer, 1999.

[4] G. Saporta. Probabilité, analyse des données et Statistique. Technip, 2006.

[6] R. Tomassone, S. Audrain, E. Lesquoy de Turckheim, and C. Millier. La Régression Nouveaux

Vous aimerez peut-être aussi