Vous êtes sur la page 1sur 48

Introduction la

Rgression Linaire

Olivier Martin
INRA Avignon, BioSP

(La rgression linaire)

1 / 48

Plan du cours
1

Cadre, rappels et objectifs

La rgression linaire simple

La rgression linaire multipe

Validation du modle, analyse des rsidus

Difficults en rgression multiple

(La rgression linaire)

2 / 48

Cadre et objectifs
On dispose de 2 caractres X et Y . On distingue deux objectifs :
1

On cherche savoir sil existe un lien entre X et Y

On cherche savoir si X a une influence sur Y et ventuellement


prdire Y partir de X .

Liaison entre X et Y . On dfinit un indice de liaison : coeff. de


corrlation, statistique du Khi-2,...
Estimation : mesure de lintensit de la liaison
Test : Existence du lien

Infulence de x sur Y. On modlise linfluence de x sur Y : rgression


logistique, analyse de la variance, rgression linaire,...
Estimation : description de linfluence et prdiction
Test : validation dhypothse particulire : absence dinfluence,
inlfuence linaire, quadratique,...
(La rgression linaire)

3 / 48

Cadre et objectifs
Dfinition : Pour deux variables X et Y , le coeff. de corrlation linaire
r = (X , Y ) vaut :
r = (X , Y ) =

cov (X , Y )
[1; 1]
X Y

est une mesure symtrique qui mesure le lien linaire entre X et Y :


= 1 : X et Y sont proportionnels et varient en sens oppos
= 1 : X et Y sont proportionnels et varient dans le mme sens
= 0 : X et Y ne sont pas corrls
La corrlation nindique aucune causalit.
Proprits :
1

Si X et Y sont indpendants, alors (X , Y ) = 0.

Si X et Y sont gaussiens, il y a quivalence entre indpendance et


corrlation nulle.
(La rgression linaire)

4 / 48

Cadre et objectifs
100

cor (x , y ) = 0.8

20

cor (x , y ) = 0.87

80

15

60

y
10

40

20

10

10

cor (x , y ) = 0.7

cor (x , y ) = 0.8

30

25

20

15

10

(La rgression linaire)

5 / 48

Cadre et objectifs

Rappels variance et covariance empirique :


cov (X , Y ) =
SX2 =

1
n

Pn

1
n

Pn

i=1 (xi

i=1 (xi

x )(yi y )

x )2
r = (X , Y ) =

(La rgression linaire)

cov (X , Y )
[1; 1]
SX SY

6 / 48

Cadre et objectifs
Test sur le coef. de corrlation :
Dans le cas o X et Y sont supposs gaussiens, on peut raliser un test sur
le coeff de corrlation H0 : r = 0 contre H1 : r 6= 0. On utlise la statistique

R
n 2 Tn2
H0
1 R2

(R 2 est le coeff. de dtermination, cf. plus loin dans le cours)


Corrlation partielle et multiple :
On dfinit aussi la corrlation multiple entre une variables Y et p
variables X1 , ..., Xp .
Dans le cas de plusieurs variables, on dfinit galement le coeff. de
corrlation partiel pour sassurer que la corrlation entre 2 variables
nest pas due en ralit aux variations dune troisime variable.
(La rgression linaire)

7 / 48

La rgression simple
Objectif : On souhaite expliquer les variations de la variable Y partir des
valeurs observes pour la variable x.
Le problme nest pas symtrique : les 2 variables nont pas le mme statut
Dfinition :
Y = variable expliquer ou rponse, suppose altaoire
x = variable explicative ou covariable ou rgresseur, suppose fixe
Modle :
Y = f (x ) + E
o E est un terme rsiduel altoire ou erreur.
(La rgression linaire)

8 / 48

La rgression simple
Donnes : On observe n individus (i = 1, ..., n).
Rgression linaire : On suppose que pour tout i :
Yi = a + bxi + Ei avec {Ei } i.i.d et N (0, 2 ).
Formulation quivalente : Les variables rponses {Yi } sont indpendantes
de lois respectives
Yi N (a + bxi , 2 )
Hypothses du modle statistique :
Lesprance de Yi dpend linairement de xi : E(Yi ) = a + bxi .
La variance des Yi est cste : V(Yi ) = V(Ei ) = 2 .
Les rponses et termes rsiduels sont gaussiens et indpendants
(La rgression linaire)

9 / 48

La rgression simple

Paramtres estimer : a, b, 2
Deux approches : maximum de vraisemblance ou moindres carrs
Lestimation par max. de vraisemblance ou moindres carrs sont deux
mthodes classiques pour lestimation. Ici, les estimations sont (quasi)
identiques.
Dans les 2 cas, on dfinit un critre qui mesure ladquation entre les
paramtres du modle et les donnes observes. On cherche alors les
paramtres qui maximisent ou minimisent ce critre.

(La rgression linaire)

10 / 48

La rgression simple
Le critre du maximum de vraisemblance
La densit pour la rponse Yi est :
"

1
(yi a bxi )2
f (yi ; a, b, ) = exp
2 2
2

Les donnes tant supposes indpendantes, la log-vraisemblance vaut :


n
1 X
n
L(a, b, 2 ) = log(2) log( 2 ) 2
(Yi a bxi )2
2
2
2 i
Les estimateurs du max. de vraisemblance de a, b, 2 sont les valeurs qui
maximisent L(a, b, 2 ). Les estimateurs sont obtenus partir des
ralisations yi : ce sont des variables altoires qui possdent une loi.
(La rgression linaire)

11 / 48

La rgression simple
Le critre du maximum des moindres carrs (SCR)
On cherche les valeurs de a et b qui minimisent la somme des carrs des
rsidus, i.e. les carts entre les observations (Yi ) et les prdictions
(a + bxi ) du modle.
SCR(a, b) =

(Yi (a + bxi ))2

On remarque que ce critre apparat dans la log-vraisemblance...


Proprit :
Les critres du max. de vraisemblance et des moindres carrs donnent les
mme estimateurs pour a et b. Le critre des moindres carrs nutilise pas
lhypothse de distribution gaussienne des erreurs.
(La rgression linaire)

12 / 48

La rgression simple
Les estimateurs A et B de a et b P
)(xi
(Yi Y
x)
A = Y B
x et B = i P (x x )2
i

Les estimations a et b de a et b P
(y
y )(xi
x)
i i
x et b = P
a = y b
=
(x
x )2
i

cov (x ,y )
x2

Lestimateur de la variance 2 est donn par :


2
Sn2
=

1 X
(Yi A Bxi )2
n2 i

Lestimation
2 de la variance 2 est :

2 =

(La rgression linaire)

X
1 X
i ))2 = 1
(yi (
a + bx
2
n2 i
n2 i i
13 / 48

La rgression simple
Temp.
O3

23.8
115.4

16.3
76.8

27.2
113.8

7.1
81.6

25.1
115.4

27.5
125.0

19.4
83.6

19.8
75.2

32.2
136.8

20.7
102.8

130

cor(x,y)=0.839

120

les donnes (xi , yi )


a et b les estimations

110

100

i
Prdiction : a + bx

Droite de rgression : a + bx
i
Erreurs : ei = yi a bx

90

80

y=O3

10

15

(La rgression linaire)

20

25

30

x=Temp
14 / 48

La rgression simple

2
Les estimateurs A, B et Sn2
sont des variables alatoires.

En utlisant lhypothse de loi gaussienne sur les erreurs Ei , on obtient les


lois de ces estimateurs.
On peut alors raliser des tests sur les paramtres, dfinir des intervalles de
confiance, des intervalles de prdiction, comparer des modles de
rgression,...

(La rgression linaire)

15 / 48

La rgression simple

Moments des estimateurs :


2
A, B et Sn2
sont des estimateurs sans biais : E(A) = a, E(B) = b et de
variance :
2
2
V(A) = 2 [ n1 + P (xx x )2 ] et V(B) = P (x x )2 .
i

Comme 2 est inconnu, on obtient des estimations de ces variances en


remplaant 2 par
2.
Loi des estimateurs :
A N (a, V(A))
B N (b, V(B))
2
(n2)Sn2
2

2n2

(La rgression linaire)

16 / 48

La rgression simple
Temp.
O3

23.8
115.4

16.3
76.8

27.2
113.8

7.1
81.6

25.1
115.4

27.5
125.0

19.4
83.6

19.8
75.2

32.2
136.8

20.7
102.8

130

120

a = 45 et

110

V(A)
= 13.805

b = 2.63 et V(B)
= 0.602

2
= 160.64 et
= 12.67

100

90

80

y=O3

10

15

(La rgression linaire)

20

25

30

x=Temp
17 / 48

La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403

(La rgression linaire)

18 / 48

La rgression simple
Tests sur les paramtres
On veut tester H0 : b = 0 contre H1 : b 6= 0
Loi de B
B N (b, V(B)) Bb N (0, 1) Bb
Tn2

V(B)

V(B)

Statistique de test sous H0


B
T =q
Tn2
H0

V(B)
Calcul de la p-valeur

p value = 2 P(Tn2 > | b

V(B)

(La rgression linaire)

|) = 2 P(Tn2 < | b

|)

V(B)

19 / 48

La rgression simple

Test H0 : bq= 0 contre H1 : b 6= 0

b = 2.63, V(B)
= 0.603 donc t =

2.63
0.603

= 4.36

p value = 2 P(Tn2 > |4.36|) = 0.0024


Test H0 : aq
= 0 contre H1 : a 6= 0

a = 45.00, V(A)
= 13.805 donc t =

45
13.805

= 3.260

p value = 2 P(Tn2 > |0.011|) = 0.0011

(La rgression linaire)

20 / 48

La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403

(La rgression linaire)

21 / 48

La rgression simple
1

Lajustement du modle calcul pour une covariable x0 est


T0 = A + Bx0 .
T0 est une variable gaussienne telle que :
x )2
0
E(T0 ) = a + bx0 et V(T0 ) = 2 [ n1 + P(x(x
]

x )2
i

Prdiction
On peut prdire la rponse Y0 pour une valeur x0 de la covariable :
Y0 = A + Bx0 + E0
Y0 est une variable gaussienne telle que :
E(Y0 ) = a + bx0 et
x )2
0
+ 1]
V(Y0 ) = V(T0 ) + 2 = 2 [ n1 + P(x(x

x )2
i

(La rgression linaire)

22 / 48

La rgression simple

130

0
Prdiction : t0 = a + bx

120

110

Intervalle de confiance
:
p
[t0 tn2,1/2 V(T0 )]

100

90

Intervalle de prdiction
:
q
[t0 tn2,1/2 V(Y0 )]

80

y=O3

10

15

20

25

30

35

x=Temp

(La rgression linaire)

23 / 48

La rgression simple
Le coefficient dajustement ou
R2
P de dtermination
2
Somme des carrs totale

SCT =

Somme des carrs due au modle

SCM =

Somme des carrs rsiduelle

SCR =

Pi (Yi Y) 2
P i (Ti Y )2
i

(Yi Ti )

variabilit totale expliquer


variabilit explique par le modle
variabilit non explique par le modle

Formule danalyse de variance : SCT = SCM + SCR


Coefficient dajustement R 2
Le R 2 mesure la part de variabilit explique par le modle :
R2 =

SCT SCR
SCR
SCM
=
=1
SCT
SCT
SCT

Remarque
Un bon ajustement linaire implique un R 2 proche de 1 (attention, la
rciproque est fausse). On montre la relation R 2 = 2 .
(La rgression linaire)

24 / 48

La rgression simple
P
SCT = i (Yi Y )2 = 4342.944
P
SCM = i (Ti Y )2 = 3057.806
P
SCR = i (Yi Ti )2 = 1285.138

R 2 = 3057.806/4342.944 0.704

On peut raliser un test H0 : b = 0 contre H0 : b 6= 0 en utilisant la


statistique
SCM
(n 2) F(1, n 2)
H0
SCR
2

R
En fait, SCM
SCR = 1R 2 . On retrouve donc le test sur le coeff. de corrlation
dfinie au dbut et le fait que (Tn2 )2 = F(1, n 2). Tester = 0 ou
b = 0 est en effet quivalent : pas de lien de linarit.

(La rgression linaire)

25 / 48

La rgression simple

Pour les donnes :


R2
(n
1R 2

2) =

0.704
10.704 (10

8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
On a galement 2 = 0.8392 = 0.704 = R 2 .

(La rgression linaire)

26 / 48

La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403

(La rgression linaire)

27 / 48

La rgression multiple

130

120

110

90

100

y=O3

80

10

15

20

25

30

35

x=Temp

(La rgression linaire)

28 / 48

La rgression multiple
Rgression quadratique
Le lien entre Y et la covariable est peut-tre une fonction plus complexe.
Exemples :
M1 : Yi = a + bxi + cxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M2 : Yi = a + bxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M3 : Yi = a + bxi + Ei avec {Ei } i.i.d. N (0, 2 )
Remarque :
Ces modles sont tous des modles linaires. Le modle M1 est un modle
de rgression multiple (plus de une covariable dans le modle).
Les modles M2 et M3 sont deux modles emboits (cas particuliers) de
M1 .
(La rgression linaire)

29 / 48

La rgression multiple

130

120

M1 : Yi = a + bxi + cxi2 + Ei

110

M2 : Yi = a + bxi2 + Ei

100

90

M3 : Yi = a + bxi + Ei

80

y=O3

10

15

20

25

30

35

x=Temp

(La rgression linaire)

30 / 48

La rgression multiple
Cas de plusieurs covariables x1 , ..., xp avec p < n
Dans le cas de plusieurs variables, la premire analyse consiste faire des
analyses descriptives des covariables. On peut utiliser par exemple les
commandes pairs() et boxplot() sous R.
Modle de rgression x1 , ..., xp
On pose le modle : Yi = a0 + a1 x1,i + ... + ap xp,i + Ei avec Ei N (0, 2 )
De mme que dans le cas du modle linaire simple :
On peut estimer les paramtres a0 , ..., ap et 2
Faire des tests sur les paramtres
Calculer le R 2
Faire un test sur le coef. de corrlation
...
(La rgression linaire)

31 / 48

La rgression multiple

Analyse de variance de la rgression multiple


On souhaite tester lhypothse de non-rgression, i.e.
H0 : a1 = ... = ap = 0 contre H1 : au moins un ai 6= 0
On a alors la proprit suivante :
R2 n p 1
F(p, n p 1)
H0
1 R2
p
Pour le cas p = 1, on retrouve bien le cas de la rgression simple.
(La rgression linaire)

32 / 48

La rgression multiple
Comparaison de modles de rgression
Attention, plus le nombre de variables sera grand et plus le R 2 sera grand.
On dfinit le R 2 ajust qui prend en compte le nombre de covariables.
Il existe galement des critres numriques tel que AIC (An information
criteria ou critre de Akaike) pour slectionner des modles. Ce critre est
adapt pour un nombre pas trop important de covariables (< 20)
Le R 2 et le R 2 ajust ne sont surtout pas les seuls critres regarder
pour comparer des modles. Lanalyse des rsidus, des points extrmes ou
aberrants est tout aussi importante.

(La rgression linaire)

33 / 48

La rgression multiple
Test pour la comparaison de modles de rgression
On souhaite comparer 2 modles emboits : Mq avec q covariables et
Mp avec p covariables (et la cste fait partie des 2 modles).
Pour effectuer cette comparaion, on pose le test :
H0 : le bon modle est Mq
H1 : le bon modle est Mp
avec la condition : q < p

(La rgression linaire)

34 / 48

La rgression multiple
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
8 1285.14
2
7 711.18 1
573.96 5.6494 0.04911 *

> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
Model 1:
Model 2:
Res.Df
1
7
2
6

O3[-4] ~ Tp[-4]
O3[-4] ~ Tp[-4] + I(Tp[-4]^2)
RSS Df Sum of Sq
F Pr(>F)
489.68
455.19 1
34.491 0.4546 0.5253

(La rgression linaire)

35 / 48

Validation du modle
Lanalyse des rsidus
On estime lerreur de lajustement par le rsidu Yi Ti . On reprsente en
abscisse xi et en ordonne Ei = Yi Ti . On peut galement placer yi en
abscisse et Ei = Yi Ti en ordonne. Le graphique ne doit montrer
aucune structure particulire.

10

10

Residus

10

10

15

20

Residus

10

15

20
Temp.

(La rgression linaire)

25

30

10

15

20

25

30

Temp

36 / 48

Validation du modle
Hypothses vrifies

Hyp. gaussienne fausse

60

80

40

20

Residus

Residus

20

40

Index

60

80

Index

Linarit fausse

Variance non-homogne

Residus

Residus

(La rgression linaire)

20

40

Index

60

80

20

40

Index

60

80

37 / 48

Validation du modle
Hypothse de variance homogne des rsidus
Lorsque une analyse des rsidus permet didentifier une variance
non-homogne, on peut raliser une transformation des variables Y ou xi .
Les transformations classiques sont la transformation
transformation log(.).

(La rgression linaire)

. ou la

38 / 48

Validation du modle
Normalit des rsidus
res=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)
res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)

Normal QQ Plot

Normal QQ Plot

10

10

Sample Quantiles

10

10

15

20

Sample Quantiles

1.5

1.0

0.5

0.0

0.5

Theoretical Quantiles

(La rgression linaire)

1.0

1.5

1.5

1.0

0.5

0.0

0.5

1.0

1.5

Theoretical Quantiles

39 / 48

Validation du modle
Influence de certains points

130

10

120

110

10

100

Residus

90

20

80

y=O3

10

15

20

x=Temp

(La rgression linaire)

25

30

10

15

20

25

30

Temp

40 / 48

Validation du modle

10

Influence de certains points

130

120

Residus

110

100

10

90

80

10

15

20

x=Temp

(La rgression linaire)

15

y=O3

25

30

35

20

25

30

Tp

41 / 48

Validation du modle
Influence de certains points
> summary(lm(O3~Tp))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044
13.8050
3.260
0.0115 *
Tp
2.6306
0.6029
4.363
0.0024 **
--Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403

> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
7.9669
14.2699
0.558 0.594039
Tp[-4]
4.1184
0.5941
6.932 0.000225 ***
--Residual standard error: 8.364 on 7 degrees of freedom
Multiple R-squared: 0.8728, Adjusted R-squared: 0.8547
F-statistic: 48.05 on 1 and 7 DF, p-value: 0.0002248

(La rgression linaire)

42 / 48

Difficult en rgression multiple


Deux points doivent tre abords avec attention :
1

Les chelles des covariales (vraie aussi en rgression simple)


Il est souvent judicieux de ramener toutes les variables une moyenne
nulle (centrage) et les variances empiriques de chacune des variables
1 (centrer et rduire) : utiliser la commande boxplot() pour analyser
ces diffrences dchelle.

La corrlation entre les variables explicatives


Les corrlations entre variables peuvent induire de mauvaises
interprtations. Pour cela, on utilise parfois les axes dune analyse en
composantes principales (ACP) comme variables explicatives.
Linconvnient de cette approche est quil est alors ncessaire de
donner le lien entre les co-variables de dpart et les axes de lACP.
On peut aussi utiliser la commande pairs() pour une premire analyse
et calculer les corrlations entre les covariables.
(La rgression linaire)

43 / 48

Difficult en rgression multiple


> summary(lm(O3~Tp+I(Tp^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.96445
21.50810
4.136 0.00437 **
Tp
-2.50001
2.21118 -1.131 0.29546
I(Tp^2)
0.13057
0.05493
2.377 0.04911 *
--Residual standard error: 10.08 on 7 degrees of freedom
Multiple R-squared: 0.8362, Adjusted R-squared: 0.7895
F-statistic: 17.87 on 2 and 7 DF, p-value: 0.001777

> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -39.94750
72.59881 -0.550
0.602
Tp[-4]
8.24747
6.15501
1.340
0.229
I(Tp[-4]^2) -0.08554
0.12687 -0.674
0.525
--Residual standard error: 8.71 on 6 degrees of freedom
Multiple R-squared: 0.8818, Adjusted R-squared: 0.8424
F-statistic: 22.38 on 2 and 6 DF, p-value: 0.001651
>cor(Tp,Tp^2)
[1] 0.9762049
>cor(Tp[-4],Tp[-4]^2)
[1] 0.9949348
(La rgression linaire)

44 / 48

Difficult en rgression multiple


La corrlation partielle
Le coefficient de corrlation partielle mesure la liaison entre 2 variables
lorsque linfluence dune troisime (ou de plusieurs autres) est garde
constante sur les 2 variables compares. Il a le mme sens que le
coefficient de corrlation classique.
y ,x1 |x2 = q

y ,x1 y ,x1 y ,x2


1 2y ,x1

1 2y ,x2

Lien entre corrlation partielle et corrlation multiple


y ,xp+1 |x1 ,...,xp =

2
Rp+1
Rp2
1 Rp2

Le carr de la corrlation partielle, donne donc laugmentation de R 2


relative la portion de la variation de y inexplique par les variables
x1 , ..., xp dj dans lquation.
(La rgression linaire)

45 / 48

Difficult en rgression multiple


La corrlation partielle
Pour le jeu de donnes, on obtient :
cor (O3, Tp|Tp 2 ) = 0.09 et cor (O3, Tp 2 |Tp) = 0.12

(La rgression linaire)

46 / 48

La rgression multiple
Les tests sur les paramtres dans le cadre de la rgression multiple doivent
tre utiliss avec prcaution en raison des possibles coorlations entre les
variables.
On pourrait liminer des variables du modle sur la base de ces tests (les
variables aux coefficients significativement nuls). Mais cette procdure est
incorrecte. Il ne faut pas oublier que le test dun coefficient est effectu
alors que les autres variables sont fixes. Donc si deux variables sont trs
corrles, le test dun des deux coefficients peut tre non significatif
puisque linformation apporte par la variable teste existe dans lautre. On
ne peut donc rien conclure sur lestimation de ces coefficients et de leurs
significativit.
La question de la slction des variables doit faire lobjet dune analyse
approfondie base par exemple sur lanalyse des coeff. de corrlation
partielle.
(La rgression linaire)

47 / 48

Pour conclure ...


La rgression multiple soulve encore dautres questions, comme la
slection des variables, la rgression polynomiale, les transformations des
co-variables, ...
Il existe dautres mthodes pour modliser des observations comme la
rgression sur variables dACP, la rgression PLS, la projetcion poursuite,...
Pour plus dinformations :
The R book, Michael J. Crawley
Applied regression analysis, Drapper & Smith
Probabilits, analyses des donnes et statistiques, Saporta.
Beaucoup de docs sur le web...

(La rgression linaire)

48 / 48