Vous êtes sur la page 1sur 13

Rgression multiple

C1 Bio-statistiques
F. KOHLER

SPI-EAO Facult de mdecine de Nancy

Rgression multiple

Conditions dapplication
Utilise chaque fois quune variable observe, dite variable
dpendante, doit tre exprime en fonction de 2 ou
plusieurs autres variables observes, dites indpendantes
ou mieux explicatives.
Le cas le plus simple est celui o les variables explicatives
sont des variables non alatoires, leurs valeurs tant toutes
choisies a priori de faon arbitraire (dose dun
mdicament).
On suppose que la relation est linaire et que les diffrentes
valeurs de la variable dpendante sont extraites de
distributions normales, indpendantes de mme variance
Modle thorique :
Yx= B0 +B1 x1a +B2X2a +.+ Bpxpa + da = B0+ Bx + dx
Les conditions peuvent tre exprimes en affirmant que les
rsidus alatoires da relatif aux diffrents individus a doivent
tous possder une mme distribution normale de moyenne nulle
et de variance constante et quils doivent tre indpendants les
uns des autres.

Dautre part les p variables explicatives peuvent tre des


variables alatoires dont les valeurs sont observes dans
des conditions analogues celle de la variable dpendante.
On suppose alors gnralement que les p+1 variables
possdent une distribution normale p+1 dimensions ou que
la relation est linaire et que toutes les distributions
conditionnelles de la variable dpendante sont normales une
dimension, indpendantes et de mme variance
On suppose que les chantillons sont alatoires simples.
SPI-EAO Facult de mdecine de Nancy

Cas particulier de 2 variables


explicatives
SPE, SCE
n
n
n
1
1
cov(x, y) [i1xi*yi (i11xi)(i11 yi)]
n
n
n
n
n
1
SPE[i1xi*yi (i1xi)(i1 yi)]
n

SPE = sum of products deviate = somme des


produits des carts aux moyennes
2

SCE [i1xi2 1 (i1xi) ]


n
n

SCE = somme des carrs des carts la moyenne

SPI-EAO Facult de mdecine de Nancy

Cas particulier de 2 variables explicatives


quation recherche

Y = b0 +b1x1 +b2x2

Estimation et intervalle de confiance des


paramtres
Coefficient de rgression partielle b1 et b2
Les indices 1 et 2 correspondent aux variables
explicatives x1 et x2 et y la variable explique.

^1b1 SPE1y SCE2SPE12SPE2y

2
SCE1SCE2SPE12

^ 2b2 SPE2y SCE1SPE12SPE1y

2
SCE1SCE2SPE12

Ordonne lorigine

0b0 y b1x1b2 x2

Les rsidus sont les diffrences entre la ralit et la


reprsentation
Variance rsiduelle
^2 y.12

SCE1SPE22y SCE2SPE12y 2SPE12SPE1y SPE2y

SCE
y.12
1

SCEy

n3 n3
SCE1SCE2SPE122

DDL = n-3= n-p-1


SPI-EAO Facult de mdecine de Nancy

Tests de conformit et de
signification des coefficients de
rgression partielle

Test de conformit
H0 1 = 1tho

tobs b11tho

SCE(1r122)

^
2
y.2

Test de signification :
1tho =0 DDL = n-3

Analyse de la variance
Strictement quivalent au test t
Permet de tester globalement la signification des 2
coefficients de rgression partielle
H0 1 =2 = 0

SPI-EAO Facult de mdecine de Nancy

Tableau de lanalyse de la variance


Principe :
Dcomposition de la somme des carrs des carts
totale SCEy, en une somme des carrs des carts
rsiduelles SCEy.1p ou SCEy.x et une somme des carts
factorielle :
SCEy(1..p) ou SCEyx- SCEy.x
qui possde p degrs de libert
Source de variation

DDL

Rgresseion multiple : x
Variation rsiduelle
Total

p
n-p-1
n-1

Somme des
carrs des Carr moyen
F
carts
SCEyx
CMyx
Fyx
SCEy.x
Cmy.x
SCEy

Coefficient de corrlation multiple

SCEy.x
R 1
SCEy
R2

Somme des carrs des carts rsiduelle


Somme des carrs des carts y

= Coefficient de dtermination multiple


= part de variance explique

n p1 R2

p1R

DDL p; n-p-1

SPI-EAO Facult de mdecine de Nancy

Coefficient de corrlation
partielle
Cas de 3 variables x, y, z
Le coefficient de corrlation partielle entre y
et z est le coefficient de corrlation entre les
rsidus y-y(x) et z-z(x) des rgressions
linaires deux dimensions

r
yz rxyrxz
ryz.x
1mme
rxy2 faon
1rxz2les coefficients
On dfinit de la

de corrlation partielle x et y et x et z.
Ils mesurent lintensit de la relation qui
existe entre deux variables indpendamment
de linfluence de la troisime.
Ces notions stendent p variables

SPI-EAO Facult de mdecine de Nancy

Exemple
Anne
1 921
1 922
1 923
1 924
1 925
1 926
1 927
1 928
1 929
1 930
1 931
Sommes
Sommes
des carrs
et des
produits

Prcipitation
Dcembre
87,9
89,9
153,0
132,1
88,8
220,9
117,7
109,0
156,1
181,5
181,4
1 518,3
229 299,79

Temprature
Juillet
19,6
15,2
19,7
17,0
18,3
17,8
17,8
18,3
17,8
16,8
17,0
195,3
26 907,52
3 483,830

Prcipitation
Juillet
1,0
90,1
56,6
91,0
93,7
106,9
65,5
41,8
57,4
140,6
74,3
818,9
121 026,17
14 246,41
74 431,970

Radiation
1 661
968
1 353
1 293
1 153
1 286
1 104
1 574
1 222
902
1 150
13 666,0
1 861 887,2
244 805,6
949 144,3
17 507 288,0

Rendement
28,37
23,77
26,04
25,74
26,68
24,29
28,00
28,37
24,96
21,66
24,37
282,3
38 386,0590
5 028,5670
20 391,4250
354 275,1700
7 287,2365

Exprimer le rendement en fonction des


prcipitations de dcembre et de la temprature
de juillet.

SPI-EAO Facult de mdecine de Nancy

Solution
SPE [i1xi*yi 1 (i1xi)(i11 yi)]
n
n

SCE [

n
x 1 (i1xi) ]
n

2
i
i 1

2y
1b1 SPE1y SCE2SPE12SPE
2

SCE1SCE2SPE12

SPE138386 1 *1518,3*282,2
11
= -572,139
b1

572,13916,3673 49,20617,3465
19732,9816,3679 49,206 2
= 0,02655

1y
2b2 SPE2y SCE1SPE12SPE
2

SCE1SCE2SPE12

= 0,9800

0b0 y b1x1b2 x2
= 11,924
SPI-EAO Facult de mdecine de Nancy

Solution suite
Variance rsiduelle
^2

SCE1SPE22y SCE2SPE12y 2SPE12SPE1y SPE2y

SCE
y.12
1

SCEy
y.12

2
n3 n3
SCE1SCE2SPE12

2
2

0
,
6074

0
,
6395
2 0,6074 0,6395 0,0866
44
,
9581
^y2.12
1

8
1 0,0866

= 1,596
quation
Y = 11,92 0,0266 x1 + 0,980 x2
Remarques :
1) Attention il ne faut pas de corrlation entre x 1 et x2
2) On peut dduire les limites de confiance de b1 et b2

b1t1 /2

y2.12
SCE11r122

b2t1 / 2

y2.12
SCE21r122

SPI-EAO Facult de mdecine de Nancy

10

Cas gnral : p variables


explicatives
Deux problmes
Choix du modle :
linaire
Autres (polynomiale, curvilinaire)

Estimation des paramtres

Calculs complexes
Choix des variables explicatives
Choisir des variables explicatives
fortement corrles la variable
dpendante et faiblement corrles entre
elles.
Mthode de rgression pas pas :
Introduction successives de variables de telle
sorte quavant toute introduction dune
variable supplmentaire, la signification des
variables explicatives dj prsentes dans
lquation soit teste. Les variables qui
napportent pas de contribution significatives
sont limines.
SPI-EAO Facult de mdecine de Nancy

11

Rgression multiple et
analyse discriminante
Y = variable qualitative deux
modalits code 1 et 0
Le vecteur y est compos
uniquement de 1 et de 0
Les variables explicatives
peuvent prendre toutes les valeurs

Dans ce cas particulier, la


rgression multiple pas pas est
identique lanalyse
discriminante.

SPI-EAO Facult de mdecine de Nancy

12

SAS et Rgression multiple


GLM procedure : general linear
models

Simple regression
Multiple regression
Anova
Analysis of covariance
Response surface models
Weighted regression
Polynomial regression
Partial correlation
Manova
Repeated measures analysis of variance

SPI-EAO Facult de mdecine de Nancy

13