Vous êtes sur la page 1sur 19

Bio-2042

Rgression multiple - corrlation multiple et partielle

Daniel Borcard
Dpartement de sciences biologiques
Universit de Montral

Rgression multiple
Scherrer (2009): 19.1.1 19.1.3; 19.1.5; 19.3; Sokal & Rohlf: p. 617; Legendre &
Legendre (1998) p. 517

1. Introduction
Il arrive souvent qu'on veuille expliquer la variation d'une variable
dpendante par l'action de plusieurs variables explicatives.
Exemple: l'abondance de Bidonia exemplaris (y) est influence par le
taux d'humidit (x1) et par le pourcentage de matire organique dans le
sol (x2).
Lorsqu'on a des raisons de penser que la relation entre ces variables
est linaire (faire des diagrammes de dispersion!), on peut tendre la
mthode de rgression linaire simple plusieurs variables
explicatives; s'il y a deux variables explicatives, le rsultat peut tre
visualis sous la forme d'un plan de rgression dont l'quation est:
y = b1x1 + b2 x2 + b0
y

x2

x1

Bio-2042

Rgression multiple - corrlation multiple et partielle

Le plan est ajust selon le principe des moindres carrs o les


sommes des carrs des erreurs d'estimation de la variable dpendante
(on a donc affaire une rgression de modle I) sont minimises.
S'il y a plus que deux variables explicatives (p. ex. m), on peut tendre
la mthode en ajoutant les variables et leurs paramtres:
y = b1x1 + b2 x2 + ... + b j x j + ... + bm x m + b0
Cette quation est celle d'un hyperplan m dimensions (qu'on ne
peut pas se reprsenter concrtement!). Les paramtres b1, b2bm
sont les "pentes" de l'hyperplan dans les dimensions considres, et
sont appels "coefficients de rgression".
La rgression multiple peut tre utilise plusieurs fins:
Trouver la meilleure quation linaire de prvision (modle) et en
valuer la prcision et la signification.
Estimer la contribution relative de deux ou plusieurs variables
explicatives sur la variation d'une variable expliquer; dceler l'effet
complmentaire ou, au contraire, antagoniste entre diverses variables
explicatives.
Juger de l'importance relative de plusieurs variables explicatives sur
une variable dpendante en lien avec une thorie causale sous-jacente
la recherche (attention aux abus: une corrlation n'implique pas
toujours une causalit; cette dernire doit tre postule a priori).

2. Calcul des coefficients de rgression


Le calcul des coefficients de rgression peut tre fait de plusieurs
manires. L'une, qui repose sur le calcul matriciel, est utilise dans les
programmes d'ordinateur. On trouvera cette technique chez Legendre
et Legendre (1998) pp. 79 et 517, et dans Scherrer (2009) p. 4 q.
19.8. Les formules sont aussi donnes dans le cours thorique 11
(rgression linaire) du cours Bio2041. L'autre, dtaille par Scherrer

Bio-2042

Rgression multiple - corrlation multiple et partielle

(2009, p. 4 6), est prsente ci-dessous. Elle se base sur un systme


de m quations m inconnues (p1 dans Scherrer 20091) qui permet
dans un premier temps d'obtenir les "coefficients de rgression centrs
et rduits" (voir plus bas: c'est comme si on calculait la rgression sur
les variables centres-rduites). Les valeurs des coefficients de
rgression pour les variables brutes (non centres-rduites) sont
ensuite obtenues par multiplication par le rapport des carts-types de la
variable dpendante et de la variable explicative considre.
Finalement, on calcule la valeur de l'ordonne l'origine.
2.1 Calculs prliminaires
On peut calculer les coefficients de rgression et l'ordonne l'origine
d'une rgression multiple en connaissant:
les coefficients de corrlation linaire simple de toutes les paires de
variables entre elles (y compris la variable dpendante): rx1 x2 , rx1 x3 ...
rx1 y , ...etc.;
les carts-types de toutes les variables: sx1, sx2, sx3...sy;
les moyennes de toutes les variables.
2.2 tapes de calcul
1. On calcule d'abord les coefficients de rgression centrs-rduits
b1', b2', ... b' m en rsolvant un systme de m quations normales m
inconnues (m = nombre de variables explicatives).
2. On trouve les coefficients de rgression pour les variables originales
b1, b2, ... bm en multipliant chaque coefficient centr-rduit par l'carttype de la variable dpendante (sy), et en divisant le rsultat par l'carttype de la variable explicative considre (sxj).
3. On trouve l'ordonne l'origine en posant la moyenne de la variable
dpendante y , et en lui soustrayant chaque coefficient obtenu au point
2, multipli par la moyenne de la variable explicative correspondante:
b0 = y (b1 x1 + b2 x2 + ... + b j x j ... + bm xm )

Attention: dans la notation de Scherrer (2009), il y a p1 variables explicatives et la p-ime est la variable dpendante y.

Bio-2042

Rgression multiple - corrlation multiple et partielle

2.3 Formules
Cette technique est expose par Scherrer (2009), p. 4 6, avec un
exemple numrique. Les formules ci-dessous sont donnes pour 3
variables explicatives, avec la notation b0, b1... Les calculs sont bien sr
plus simples avec deux variables explicatives.
2.3.1. quations normales:
rx1 y = b1' + rx1x2 b2' + rx1x3 b'3
rx2 y = rx 2 x1 b1' + b2' + rx2 x 3 b3'
rx3 y = rx3 x1 b1' + rx3 x2 b2' + b'3
Ce systme se rsoud par substitutions successives.
Premire tape:
b1' = rx1y rx1x2 b2' rx1x3 b3'
est plac dans les quations 2 et 3. On isole ensuite b2' ou b3' dans
l'une des quations. Ds lors, on peut trouver une des valeurs b' et, en
remontant la filire, on trouve les deux autres.
2.3.2. Coefficients de rgression pour les variables d'origine:
b1 = b1'

sy
sx1

b2 = b2'

sy
s x2

2.3.3. Ordonne l'origine:


b0 = y b1 x1 b2 x2 b3 x3

b3 = b3'

sy
sx3

Bio-2042

Rgression multiple - corrlation multiple et partielle

2.4 Exemple
Voici une quation de rgression multiple deux variables explicatives
x1 et x2:
y = 0.5543x1 + 0.7211x 2 41.6133
Si on remplace les symboles des variables par leur nom dans le
"monde rel", on a:
Abond. Bidonia = 0.5543Humid. + 0.7211M.O. 41.6133
Les signes des paramtres b1 et b2 sont tous deux positifs, ce qui
montre que Bidonia ragit positivement une augmentation du taux
d'humidit et de la teneur en matire organique.
Cette quation peut servir estimer l'abondance de B. exemplaris en
fonction des deux descripteurs "Humidit" et " Matire organique"
(exprims en % dans cet exemple).
Pour une humidit de 80% et un taux de matire organique de 30%,
on estime l'abondance de B. exemplaris
Abond. B.ex. = 0.554380 + 0.721130 41.6133 = 24.3637 ind.
2.5 Le coefficient de dtermination multiple R2
Comme en rgression linaire simple, on mesure la variation
explique par la rgression l'aide du coefficient de dtermination
multiple R2, qui mesure le rapport entre la dispersion explique par la
rgression (SCR) et la dispersion totale (SCT):

( y y )
R2 = i
2
y

y
(
)
i
2

SCR
SCT

Scherrer (2009) q. 19.13

Le R2 peut aussi se calculer partir des coefficients de rgression


centrs-rduits b'j et des coefficients de corrlation entre la variable
dpendante y et chacune des variables explicatives xj:

Bio-2042

Rgression multiple - corrlation multiple et partielle

R = b'j rx j y o m = nombre de variables explicatives et


2

j =1

rx y reprsente la corrlation r entre la variable


dpendante y et la jime variable explicative xj.
j

Attention: le R2 fournit une estimation biaise de la variance explique.


Un ajustement est possible (voir plus loin). On l'utilise cependant pour
la construction du test de signification ci-dessous.

3. Test de signification du modle de rgression


multiple
Les hypothses du test sont:
H0: la variable y est linairement indpendante des variables xj
H1: la variable y est explique linairement par au moins une des
variables xj
La signification du modle de rgression multiple peut tre teste par
une variable auxiliaire FRMc :
FRMC

R2 (n m 1)
=
= CMR / CME
m 1 R2

Scherrer (2009) q. 19.16

On rejette H0 au seuil lorsque FRMc F( ,m,nm1)


De la mme faon qu'en ANOVA, ce test compare la variance
explique avec celle des rsidus. Si H0 est vraie, ces deux valeurs
devraient tre peu prs semblables, et la statistique-test FRMc suivra
une distribution F de Fisher-Snedecor m et (nm1) degrs de
libert, o n = nombre d'observations et m = nombre de variables
explicatives.
Conditions d'application du test: la rgression multiple est soumise
aux mmes contraintes que la rgression linaire simple: distribution
normale des rsidus, quivariance, indpendance des observations et

Bio-2042

Rgression multiple - corrlation multiple et partielle

linarit des relations entre la variable dpendante y et chacune des


variables explicatives x.

4. Coefficient de "corrlation multiple"


La liaison entre la variable expliquer y et l'ensemble des variables
explicatives peut se mesurer par un coefficient de "corrlation multiple"
dfini comme la racine carre du coefficient de dtermination R2.
Par dfinition (puisqu'on prend la racine carre d'un nombre rel
positif), la corrlation multiple obtenue ne peut pas tre ngative. De ce
fait, la notion de corrlation multiple a une interprtation douteuse et
doit tre manipule avec beaucoup de prudence: par exemple, mme
dans un cas o une variable dpendante y serait influence
ngativement par toutes les variables explicatives x1 xm, le coefficient
de corrlation multiple serait positif.

5. Coefficients de rgression partielle


Point important, les coefficients de rgression obtenus par rgression
multiple sont en fait des coefficients de rgression partielle, en ce
sens que chacun mesure l'effet de la variable explicative concerne sur
la variable dpendante lorsque la ou les autres variables
explicatives sont tenues constantes. En d'autres termes, dans
l'quation suivante comprenant trois variables explicatives:
y = b1x1 + b2 x2 + b3 x3 + b0
le coefficient b1 tient compte de l'effet des variables x2 et x3 sur la
variable dpendante y. Il mesure l'effet de x1 lorsqu'on a enlev l'effet
de x2 et x3.
Cette proprit est trs intressante. En effet, si on dsire connatre
l'influence d'un groupe de facteurs sur une variable rponse
(=dpendante) y donne, en contrlant l'effet d'un autre groupe (p. ex.
on veut valuer l'effet de la teneur en matire organique du sol sur
l'abondance de Bidonia exemplaris, en tant l'effet de l'humidit), on
peut calculer une rgression intgrant toutes les variables explicatives,
et examiner les coefficients de rgression (centrs-rduits, voir plus
bas) du groupe de variables voulu, en sachant que ces coefficients

Bio-2042

Rgression multiple - corrlation multiple et partielle

traduisent l'importance de ces variables en contrlant pour l'effet de


l'autre groupe.
Cette dmarche n'est pas triviale. En effet, les influences combines
des diverses variables en jeu aboutissent quelquefois des effets
apparents contraires ceux qui sont en jeu. Exemple:

En haut gauche: rgression linaire simple de B. exemplaris sur l'humidit. En


bas gauche: rgression linaire simple de B. exemplaris sur le taux de matire
organique (raction apparemment ngative). En haut droite: relation entre
humidit et matire organique. En bas droite: rgression partielle de B.
exemplaris sur la matire organique, en maintenant l'humidit constante (la
variable explicative est le rsidu d'une rgression de la matire organique sur
l'humidit).

Dans cet exemple, en rgression linaire simple, Bidonia a l'air de


ragir ngativement l'augmentation de la teneur en matire

Bio-2042

Rgression multiple - corrlation multiple et partielle

organique (coefficient -0.3406, voir figure ci-dessus). Par contre, si l'on


tient constant l'effet de l'humidit, le coefficient de rgression partielle
de la matire organique est positif (0.7211). Cela tient ce que dans
l'chantillonnage, les prlvements les plus humides sont aussi ceux o
le taux de matire organique est le plus faible. Or, Bidonia ragit
fortement (et positivement) l'humidit. Il ragit aussi positivement
une augmentation de la matire organique, mais pas de faon aussi
forte que vis--vis de l'humidit. Le coefficient partiel (0.7211) est le
mme que celui qu'on obtient en intgrant l'humidit et la M.O dans
l'quation de rgression (voir exemple section 2.4, plus haut).
On voit donc qu'il est indispensable, lorsqu'on dispose de plusieurs
variables explicatives, de les intgrer ensemble dans une analyse plutt
que d'avoir recours une srie de rgressions simples. En plus de ce
qui prcde, non seulement on peut alors mesurer leur effet combin
sur la variable dpendante, mais on peut aussi tester globalement cet
effet ( l'aide de la statistique F prsente plus haut), ainsi que l'effet
partiel de chaque variable explicative ( l'aide d'une statistique t, voir
ci-dessous).

6. Test des coefficients de rgression bj


Une fois qu'on a rejet H0 pour l'ensemble de la rgression multiple
(voir section 3), on peut vouloir tester la signification individuelle de
chaque coefficient de rgression bj. Pour ce faire, on se sert d'une
statistique t dont le calcul (qui ne fait pas partie de la matire du cours
Bio2042) est expliqu (p.ex.) par Scherrer (2009) 19.1.6.
L'interprtation (qui, elle, est matire du cours) est en gnral
bilatrale: lorsque la probabilit de la statistique atteint ou dpasse le
seuil choisi, on rejette H0 et on conclut que la variable explicative
considre a un effet partiel significatif sur la variable dpendante.

7. Rgression sur variables centres-rduites


Une pratique courante en rgression consiste interprter les
coefficients de rgression centrs-rduits, c'est--dire ceux qu'on
obtient en centrant-rduisant toutes les variables (y compris la variable

Bio-2042

Rgression multiple - corrlation multiple et partielle

10

dpendante). En exprimant toutes les variables en units d'cart-type,


on rend les coefficients de rgression insensibles l'tendue de
variation des variables explicatives, leur permettant ainsi d'tre
interprts directement en termes de "poids" relatif des variables
explicatives. Notez aussi que la plupart des logiciels courants (mais pas
le langage R, hlas) fournissent les "coefficients de rgression centrsrduits" (standardized regression coefficients) en plus des coefficients
calculs pour les variables brutes. On peut aussi les calculer
simplement ainsi: b1' = b1sx1 /sy (idem pour les autres b).
On peut remarquer aussi que si on fait le calcul l'aide de la mthode
montre par Scherrer (2009) p. 4 6; section 2 de ce document), on
obtient de toute manire d'abord les coefficients centrs-rduits (sans
avoir centrer-rduire les variables pour faire le calcul!).
Le centrage-rduction n'affecte pas la corrlation entre les variables, ni
les coefficients de dtermination (R2) des rgressions simples et
multiples.
L'exemple de Bidonia expos plus haut (section 2.4) devient ainsi:
Abondance Bidoniacr = 1.6397Hum.cr + 0.9524M.O.cr
L'ordonne l'origine vaut 0 puisque toutes les variables sont
centres.
Dans ce contexte, rappelons que le coefficient de dtermination peut
aussi s'exprimer:
m

R = b'j rx j y
2

Scherrer (2009) q. 19.13

j =1

Les b' j sont les coefficients de rgression des variables centresrduites. Donc, chaque lment b'jrxjy reprsente la contribution de la
variable xj l'explication de la variance de y. Dans notre exemple, les
contributions de l'humidit et de la matire organique s'lvent

Bio-2042

Rgression multiple - corrlation multiple et partielle

11

1.6397 0.8251 = 1.3529 et 0.9524 0.4498 = 0.4284


R2 = 1.3529 0.4284 = 0.9245
Voir aussi l'exemple 18.17 de Scherrer (1984, p. 700).2
Remarque: en rgression linaire simple (uniquement!), lorsque les
deux variables sont centres-rduites, le coefficient de rgression b1
(=la pente) est gal la corrlation r entre les deux variables x et y.

8. R2 ajust
Une des proprits de la rgression multiple est que l'ajout de chaque
variable explicative au modle permet d'"expliquer" plus de variation,
et cela mme si la nouvelle variable explicative est compltement
alatoire. Cela vient du fait que si l'on compare deux variables
alatoires, les fluctuations alatoires de chacune d'entre elles
produisent de trs lgres corrlations: y et chacune des xj ne sont pas
strictement indpendantes (orthogonales) mme s'il n'y a aucune
relation relle entre elles. Par consquent, le R2 calcul comme cidessus (sections 2.5 et 7) comprend une composante dterministe, et
une composante alatoire d'autant plus leve que le nombre de
variables explicatives est lev. Le R2 est donc biais.
Pour contrer cet effet, et donc viter de surestimer le R2, plusieurs
auteurs ont propos un R2 ajust, qui tient compte du nombre de
variables explicatives du modle de rgression. La formule la plus
couramment utilise est celle d'Ezekiel (1930):
2
Raj
= 1

(n 1)
(1 R2 )
(n m 1)

Scherrer (2009) q. 19.14


o n = nombre d'observations et m = nombre de variables explicatives
Le R2 ajust est habituellement fourni par les programmes d'ordinateur
(incluant R).
2

Attention: cette contribution n'est pas gale au R 2 partiel. Elle n'est pas non plus gale la fraction [a] d'un partitionnement
de variation si les variables explicatives sont (mme trs peu!) corrles entre elles! Voir ces notions plus loin.

Bio-2042

Rgression multiple - corrlation multiple et partielle

12

9. Partitionnement de la variation (Legendre & Legendre (1998)


p. 531)

9.1. Principe et dmarche


Dans la grande majorit des cas, les variables explicatives xi intgres
une rgression multiple ne sont pas linairement indpendantes entre
elles (orthogonales). Le R2 total de la rgression multiple n'est donc
pas la somme des r2 d'une srie de rgressions simples impliquant tour
tour toutes les variables explicatives, mais une valeur infrieure
cette somme:
[a]

[b]

[c]

[d]

Var.expl. par X1
Var.expl. par X2

Var.non expl.

Dans cet exemple, la barre grasse reprsente toute la variation de la


variable dpendante. Comme les variables x1 et x2 ne sont pas
linairement indpendantes, une partie de leur pouvoir explicatif va
expliquer la mme part de variation de y. Cette fraction commune est
appele fraction [b]. L'explication unique de la variable x1 est la
fraction [a], et l'explication unique de la variable x2 est la fraction [c].
La fraction [d] constitue la partie non explique, soit le rsidu de la
rgression multiple.
On peut obtenir les valeurs de chacune de ces fractions. Il faut raliser
plusieurs rgressions simples ou multiples, en calculer les r2 ou R2, les
ajuster, et les combiner. Pour le cas de deux variables explicatives, on
procde de la manire suivante:
(1) Rgression linaire simple de y sur x1: le r2 vaut [a]+[b].
(2) Rgression linaire simple de y sur x2: le r2 vaut [b]+[c].
(3) Rgression linaire multiple de y sur x1 et x2: le R2 vaut
[a]+[b]+[c].

Bio-2042

Rgression multiple - corrlation multiple et partielle

13

tape intermdiaire: il faut maintenant ajuster les r2 et R2 cidessus l'aide de la formule du R2 ajust. Ensuite:
(4) La valeur de [a]aj est obtenue en soustrayant le rsultat de
l'opration (2)aj de celui de (3)aj.
(5) La valeur de [c]aj est obtenue en soustrayant le rsultat de (1)aj de
celui de (3)aj.
(6) La valeur de [b]aj s'obtient de diverses manires, p. ex. ([a]+[b])aj
[a]aj, ou ([b]+[c])aj [c]aj.
(7) La fraction [d]aj (variation non explique) s'obtient en faisant 1
([a]+[b]+[c])aj.
Remarque: on ne peut pas ajuster de modle de rgression sur la
fraction [b], dont la valeur ne peut tre obtenue que par soustraction.
Elle peut mme tre ngative s'il y a antagonisme entre les effets de
certaines variables explicatives (c'est le cas dans notre exemple de
Bidonia montr plus haut). C'est pourquoi on parle ici de variation et
non de variance au sens strict.
Voir aussi la bote 4.1 de la future nouvelle dition du manuel de
Legendre et Legendre, fournie en pdf sur la page web du cours.
9.2 Exemple
Reprenons notre exemple de Bidonia, dont la densit est explique par
le taux d'humidit et la quantit de matire organique (MO). Voici les
tapes du partitionnement de la variation entre les deux variables
explicatives.
(1) r2 de Bidonia expliqu par l'humidit ([a]+[b]):0.6808
(2) r2 de Bidonia expliqu par la MO ([b]+[c]):0.2023
(3) R2 de Bidonia expliqu par l'humid. et la MO ([a]+[b]+[c]):0.9245
Ajustement de ces trois valeurs (dans cet exemple n = 20):
(1)aj: raj2 = 1

(n 1)
20 1
(1 r 2 ) = 1
(1 0.6808) = 0.6631
(n m 1)
20 1 1

Bio-2042

(2)aj: raj2 = 1

Rgression multiple - corrlation multiple et partielle

14

(n 1)
20 1
(1 r 2 ) = 1
(1 0.2023) = 0.1580
(n m 1)
20 1 1

(3)aj: Raj2 = 1

(n 1)
20 1
(1 r 2 ) = 1
(1 0.9245) = 0.9156
(n m 1)
20 2 1

Calcul des fractions de variation:


[a] aj = 0.9156 0.1580 = 0.7576
[c] aj = 0.9156 0.6631 = 0.2525
Donc: [b]aj = 0.6631 0.7576 = 0.1580 0.2525 = 0.0945
[d] aj = 1 0.9156 = 0.0844
Cet exemple a la particularit de prsenter une fraction [b] ngative.
Un tel rsultat peut se prsenter dans certains cas, par exemple
(comme ici) lorsque deux variables explicatives ont une influence
positive sur la variable dpendante, mais sont corrles ngativement
entre elles.
Remarque 1: le dveloppement et l'exemple ci-dessus montrent le
partionnement entre deux variables explicatives x1 et x.2 . On peut aussi
procder au partionnement de la variation entre plusieurs groupes de
variables explicatives. Par exemple, on pourrait partitionner la variation
de l'abondance d'une espce d'arbre (y) explique d'une part par un
ensemble de variables daphiques (physico-chimie du sol), et d'autre
part par un ensemble de variables climatiques. On se servirait alors (1)
du R2 de la rgression multiple de y explique par les variables
daphiques, (2) du R2 de la rgression multiple de y explique par les
variables climatiques, et (3) du R2 de la rgression multiple de y
explique par les variables daphiques et climatiques mises ensemble.
Remarque 2: il est aussi possible de partionner la variation d'une
variable rponse par plus que deux groupes de variables explicatives. Il
faut raliser plus d'oprations, mais le principe reste le mme.

Bio-2042

Rgression multiple - corrlation multiple et partielle

15

10. Rgression multiple sur variables explicatives


centres-rduites
Pour permettre la comparaison de variables explicatives qui ne sont
pas toutes mesures dans les mmes units, ou qui ont des intervalles
de variation trs diffrents, on a souvent recours au centrage-rduction
des variables explicatives. Dans ce cas-l, il n'est pas ncessaire de
centrer-rduire la variable dpendante. L'ide est de donner toutes
les variables explicatives une moyenne commune de 0 et une variance
de 1. Cette opration n'affecte pas le R2 de la rgression.

11. Le problme de la multicolinarit


Lorsque plusieurs, voire toutes les variables explicatives sont fortement
corrles entre elles (r = 0.8 et plus), les estimations des coefficients de
rgression deviennent instables (fluctuent beaucoup d'un chantillon
l'autre). Leur interprtation devient donc dangereuse. Il y a plusieurs
solutions possibles:
- crer une nouvelle variable synthtique (combinant les variables
interrelies) et l'utiliser la place des autres;
- choisir une seule des variables trs interrelies et s'en servir comme
indicatrice des autres;
- utiliser d'autres mthodes (rgression partir des composantes
principales, rgression pseudo-orthogonale);
Remarque: si le seul but de la rgression multiple est la prdiction
(maximisation du R2), la multicolinarit ne drange pas.

12. Corrlation partielle (Scherrer 2009 19.1.5)


Au contraire du coefficient de "corrlation multiple" voqu plus haut,
on peut dfinir un coefficient de corrlation partielle qui a le mme
sens que le coefficient de corrlation r de Pearson ordinaire.
Un coefficient de corrlation partielle mesure la liaison entre deux
variables lorsque l'influence d'une troisime (ou de plusieurs autres)
est garde constante sur les deux variables compares. On rappellera

Bio-2042

Rgression multiple - corrlation multiple et partielle

16

cependant qu'une corrlation ne mesure que la liaison entre deux


variables, sans se proccuper de modles fonctionnels ou de capacit
de prdiction ou de prvision.
Le calcul d'une corrlation partielle fait intervenir les corrlations
linaires simples de Pearson entre les paires de variables considres.
L'exemple ci-dessous vaut dans le cas o on a deux variables
explicatives x1 et x2 (qu. 18-50 de Scherrer 1984, p. 704). La formule
dcrit le calcul de la corrlation partielle de y et x1 en tenant x2
constant:
ry,x |x =
1

r r r
yx1

yx 2 x 1 x 2

(1 ryx2 )(1 rx2x )


2

1 2

Scherrer (2009) q. 19.38

Ce coefficient se teste l'aide d'un F obissant sous H0 une loi de


Fisher-Snedecor 1 et nm1 degrs de libert. La construction du
test et les rgles de dcision figurent aux pages 705 et 706 de Scherrer
(1984) et sont abords dans le laus.
2
2
Le carr du coefficient de corrlation partielle ry,x
|x ,x ... , appel r
partiel, mesure la proportion de la variation de y explique par x1 par
rapport la variation non explique par x2, x3, etc. Cela correspond
donc au rapport des fractions de variation [a]/([a]+[d]) (non ajusts!)
dans le cadre du partitionnement expliqu plus haut. Les composantes
de variation [b] et [c], lies l'autre ou aux autres variables
explicatives, sont donc absentes du calcul.
L'exemple de Bidonia et de sa relation avec l'humidit et la teneur en
matire organique du sol est assez parlant:
1

Correlation Matrix
B. exemplaris Humidit M.O.
1.000
.825 -.450
B. exemplaris
Humidit
1.000 -.855
M.O.
1.000

Partial Correlation Matrix


B. exemplaris Humidit M.O.
1.000
.951 .874
B. exemplaris
Humidit
1.000 -.959
M.O.
1.000

Bio-2042

Rgression multiple - corrlation multiple et partielle

17

Un chercheur qui se contenterait d'une matrice de corrlations simples


( gauche) penserait que la relation entre Bidonia et la teneur en M.O.
est ngative. Par contre, s'il prenait la prcaution de calculer une
matrice de corrlations partielles, il verrait que cette illusion est due
l'effet masquant de l'humidit dans l'chantillon. La corrlation
partielle forte et positive entre Bidonia et la M.O. mesure la relation
entre Bidonia et la partie de la variation de la matire organique qui
n'est pas explique par l'humidit.

13. Rgression pas pas


On rencontre parfois des situations dans lesquelles on dispose de trop
de variables explicatives, soit parce que le plan de recherche tait trop
vague au dpart (on a mesur beaucoup de variables "au cas o elles
auraient un effet"), soit parce que le nombre d'observations (et donc de
degrs de libert) est trop faible par rapport au nombre de variables
explicatives intressantes. D'autres situations, notamment en analyse
des structures spatiales, mnent ce problme.
Une technique est parfois employe pour "faire le mnage" et
slectionner un nombre rduit de variables qui explique pourtant une
quantit raisonnable de variation. Il existe plusieurs variantes de cette
rgression dite "pas pas" (stepwise regression en anglais).
13.1 Mthode rtrograde (backward selection)
Cette mthode consiste construire un modle de rgression complet
(intgrant toutes les variables explicatives), et en retirer une par une
les variables dont le t partiel est non significatif (en commenant par
celle qui explique le moins de variation). Inconvnient: une fois qu'une
variable a t retire, elle ne peut plus tre rintroduite dans le modle,
mme si, la suite du retrait d'autres variables, elle redevenait
significative. Cette approche est nanmoins assez librale (elle a
tendance garder un nombre plus lev de variables dans le modle
final que les autres approches ci-dessous).

Bio-2042

Rgression multiple - corrlation multiple et partielle

18

13.2 Mthode progressive (forward selection)


Approche inverse de la prcdente: elle slectionne d'abord la variable
explicative la plus corrle la variable dpendante. Ensuite, elle
slectionne, parmi celles qui restent, la variable explicative dont la
corrlation partielle est la plus leve (en gardant constantes la ou les
variables dj retenues). Et ainsi de suite tant qu'il reste des variables
candidates dont le coefficient de corrlation partiel est significatif.
Inconvnient: lorsqu'une variable est entre dans le modle, aucune
procdure ne contrle si sa corrlation partielle reste significative aprs
l'ajout d'une ou de plusieurs autres variables. Cette technique est en
gnral plus conservatrice que la prcdente, ayant tendance
slectionner un modle plus restreint (moins de variables explicatives)
que la slection rtrograde.
Des simulations rcentes (Blanchet et al. 2008 3) montrent que mme
la slection progressive, la plus conservatrice des trois variantes, est
trop librale, c'est--dire qu'elle laisse souvent entrer au moins une
variable non significative dans le modle. C'est la raison pour laquelle
nous proposons dsormais d'appliquer un double critre d'arrt la
slection pas pas (plus spcifiquement la slection progressive):
1. Le niveau habituel, et
2. Le R2aj du modle comprenant toutes les variables candidates.
Pour ce deuxime critre, on calcule tout d'abord le R2aj global d'une
rgression multiple comprenant toutes les variables explicatives
candidates. Ensuite, durant la procdure de slection, on arrte la
slection lorsque le niveau prslectionn ou le R2aj global est atteint.
Cette procdure garantit une erreur de type I correcte et rduit
fortement le nombre de variables explicatives introduites tort dans le
modle. C'est la mthode de slection que nous prconisons.

13.3 Slection pas pas proprement dite (stepwise regression)


Cette procdure, la plus complte, consiste faire entrer les variables
l'une aprs l'autre dans le modle (selon leur corrlation partielle) par
3

Blanchet, F. G., P. Legendre & D. Borcard. 2008. Forward selection of explanatory variables. Ecology 89(9): 2623-2632.

Bio-2042

Rgression multiple - corrlation multiple et partielle

slection progressive et, chaque tape, vrifier si les corrlations


partielles de l'ensemble des variables dj introduites sont encore
significatives (une variable qui ne le serait plus serait rejete). Cette
approche tente donc de neutraliser les inconvnients des deux
prcdentes en les appliquant alternativement au modle en
construction. Cette mthode n'offrant pas les garanties de la
prcdente (assortie du double critre d'arrt), nous ne la
recommandons pas.
13.4 Dangers de la slection pas pas
Quelle que soit sa variante, la rgression pas pas prsente des
dangers:
1. Lorsqu'on a fait entrer une variable donne dans le modle, elle
conditionne la nature de la variation qui reste expliquer. De ce
fait, rien ne garantit qu'on a choisi au bout du compte la
combinaison de variables qui explique le plus de variation.
2. Le modle devient hautement instable en prsence de (multi)
colinarit entre les variables explicatives, ce qui veut dire que les
paramtres estims par la mthode (les coefficients b, donc les
poids attribus aux variables retenues), et mme la liste des
variables retenues elle-mme, peuvent varier fortement si on
change (mme trs peu) les donnes (autre chantillon tir de la
mme population statistique).

Annexe
Voir aussi le document "r2partiel.pdf", qui met en lumire, avec des
exemples, la diffrence entre r2 partiel, fraction [a] d'un
partitionnement de variation et contribution d'une variable
l'explication de la variance en rgression multiple.

19