La Regression Dans La Pratique

Ricco Rakotomalala
Pratique de la Rgression Linaire Multiple

Diagnostic et slection de variables
Version 2.1
Universit Lumire Lyon 2
Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Avant-propos
Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis
par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je
prfre l'appellation Rgression Linaire Multiple ) en L3-IDS de la Facult de Sciences Economiques de
l'Universit Lyon 2 (http://dis.univ-lyon2.fr/).
Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise
en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis
par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu
ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter
le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de
fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html).
Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes
rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus
prsents aujourd'hui dans la diusion de la connaissance.
Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exac-
titude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui
font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des
serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier 1 ; (3) les informations sont
disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique
trs structurante.
Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles
pour les enseignements. La gratuit n'est pas le moindre de leurs atouts.
Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer
le contenu sont le bienvenu.
1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.

Table des matires
Partie I La rgression dans la pratique
1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1 Diagnostic graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Graphiques des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Graphiques des rsidus pour les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Tester le caractre alatoire des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Test des squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1 Graphique Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.2 Test de symtrie de la distribution des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.3 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1 Points aberrants : dtection univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Dtection multivarie sur les exognes : le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Rsidu standardis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4 Rsidu studentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5 Autres indicateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.1 DFFITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.2 Distance de COOK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.3 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5.4 COVRATIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6 Bilan et traitement des donnes atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1 Dtection de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Consquences de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Table des matires
3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 72
3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 73
3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4 Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.1 Analyse de variance 1 facteur et transposition la rgression . . . . . . . . . . . . . . . . . . . . . . . 83
4.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.2 ANOVA 1 facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Inadquation du codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.2 Rgression sans constante et lecture des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3 Vers des solutions plus gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3 Codage "Cornered eect" de l'exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.4 Comparaisons entres groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4.1 Comparaisons avec le groupe de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4.2 Comparaisons entre deux groupes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5 Rgression avec plusieurs explicatives qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Table des matires 7
4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108
4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.8 Autres stratgies de codage d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 120
4.8.1 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . 120
4.8.2 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.9 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.9.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.9.2 (In)adquation du codage pour variable qualitative nominale . . . . . . . . . . . . . . . . . . . 128
4.9.3 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.9.4 Codage "backward dierence" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.9.5 Codage "forward dierence" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.9.6 Codage "Helmert" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . 136
4.10.1 Construction du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.10.2 Rgression sur les variables recodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.12 Conclusion pour le traitement des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5 Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 143
5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6 Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 155

8 Table des matires
6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 166
A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

Partie I
La rgression dans la pratique

3
La rgression dans la pratique
Le vritable travail du statisticien commence aprs la premire mise en oeuvre de la rgression linaire
multiple sur un chier de donnes. Aprs ces calculs, qu'on lance toujours "pour voir", il faut se poser la
question de la pertinence des rsultats, vrier le rle de chaque variable, interprter les coecients, etc.
En schmatisant, la modlisation statistique passe par plusieurs tapes 2 : proposer une solution (une
conguration de l'quation de rgression), estimer les paramtres, diagnostiquer, comprendre les rsultats,
rchir une formulation concurrente, etc.
Dans ce support, nous mettrons l'accent, sans se limiter ces points, sur deux aspects de ce processus :
le diagnostic de la rgression l'aide de l'analyse des rsidus, il peut tre ralis avec des tests statistiques,
mais aussi avec des outils graphiques simples ; l'amlioration du modle l'aide de la slection de variables,
elle permet entre autres de se dgager du pige de la colinarit entre les variables exognes.
Notations
Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable
endogne Y et p variables exognes Xj . Nous disposons de n observations.
L'quation de rgression s'crit :
yi = a0 + a1 xi,1 + + ap xi,p + i (0.1)
o yi est la i-me observation de la variable Y ; xi,j est la i-me observation de la j-me variable ; i
est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement
les valeurs de Y l'aide des p variables Xj .
Nous devons estimer (p + 1) paramtres. En adoptant une criture matricielle :
Y = Xa + (0.2)
les dimensions de matrices sont respectivement :
Y (n, 1)
X (n, p + 1)
a (p + 1, 1)
(n, 1)
La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm

4

1 x1,1 x1,p

1 x2,1 x2,p

.
..

1 xn,1 xn,p
Remarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se
justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante
comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert
pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en
termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.
Donnes
Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres
de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables :
le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations.
Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains
commentaires.
Fig. 0.1. Tableau de donnes CONSO - Consommation des vhicules
Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extra-
yons quelques informations importantes (Figure 0.2) :

5
la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95.45% de la variance
de l'endogne ;
impression conrme par le test de Fisher, F = 136.54 avec une p-value < 0.000001 : le modle est
globalement trs signicatif ;
mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.
Fig. 0.2. Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)
La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3) 3 . Seul le mode de
prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle
yi et les rsidus i = yi yi de la rgression.
Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des
bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis,
on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat
trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer
la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue
aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur
sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur
la slection des variables et l'interprtation des rsultats plus loin.
3. Fonction DROITEREG(...)

6
Fig. 0.3. Rsultat de la rgression sous EXCEL
Logiciels
Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des
logiciels gratuits tels que TANAGRA 4 , REGRESS 5 , LAZSTATS/OPENSTAT 6 et R 7 ; et des logiciels
commerciaux tels que SPSS 8 et STATISTICA 9 . Qu'importe le logiciel en ralit, le plus important est
de savoir lire correctement les sorties des outils statistiques.
4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.

univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html
5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html
6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html
7. The R Project for Statistical Computing - http://www.r-project.org/
8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/
regress.htm
9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html

1
tude des rsidus
L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypo-
thses, etc.) repose principalement sur les hypothses lies au terme d'erreur qui rsume les informations
absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsul-
tats 1 .
Rappelons brivement les hypothses lies au terme d'erreur :
sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ;
sa variance est constante ;
les erreurs i (i = 1, . . . , n) sont indpendantes.
Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, i produites par la
dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression yi
i = yi yi (1.1)
avec yi = a0 + a1 xi,1 + + ap xi,p

Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus = 1
n i i
est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En
revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas
lieu d'tre pour une rgression sans constante.
1.1 Diagnostic graphique
1.1.1 Graphiques des rsidus
Aussi simpliste qu'il puisse paratre, le diagnostic graphique est pourtant un outil puissant pour
valider une rgression. Il fournit un nombre important d'informations que les indicateurs statistiques
1. Voir Dodge, pages 113 120.

8 1 tude des rsidus
apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des
rsidus observs... car il y en a plusieurs.
Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure
1.1) :
les rsidus sont ports en ordonne ;

les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons
plus loin 2 , sur l'ordonne ;
aucun point ne doit se dmarquer ostensiblement des autres ;
on ne doit pas voir apparatre une forme de rgularit dans le nuage de points.
Le type du graphique dpend de l'information que nous portons en abcisse.
Rsidus en fonction de l'endogne Y
Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus i doivent
tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs
direntes selon les valeurs de Y . On cherche surtout voir si la prdiction est d'gale qualit sur tout
le domaine de valeurs de Y (Figure 1.1). Si pour une valeur ou une plage de valeur de Y , les rsidus
s'cartent visiblement, il faut s'inquiter car cela indique que la valeur yi a t mal reconstitue par le
modle.
Fig. 1.1. Graphique "normal" des rsidus. Endogne vs. Rsidus.
Rsidus en fonction de chaque exogne Xj
Il doit tre produit pour chaque variable exogne. L'ide est de dtecter s'il y a une relation quel-
conque entre le terme d'erreur et les exognes. Rappelons que les variables exognes et les erreurs sont
indpendantes par hypothse (covariance nulle), cela doit tre conrm visuellement.
2. Voir chapitre 2 sur les points atypiques

1.1 Diagnostic graphique 9
Graphique de rsidus pour les donnes longitudinales
Dans le cas particulier des sries temporelles, nous pouvons produire un graphique supplmentaire en
portant en abcisse la variable temps. Elle permet d'ordonner les valeurs d'une autre manire. Il est alors
possible de dtecter une rupture de structure associe une date particulire (ex. guerre, crise politique,
choc conomique, etc.).
Cas pathologiques
Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations
singulires qui doivent attirer notre attention.
Points atypiques et points inuents
Par dnition, un point atypique, on parle aussi de point aberrant, est une observation qui s'carte
rsolument des autres. Cela peut tre d une erreur de recueil des donnes, cela peut aussi correspondre
un individu qui n'appartient pas la population tudie. Dans le graphique de rsidus, il s'agit de
points loigns des autres, que la variable en abcisse soit l'endogne ou une des exognes (Figure 1.2).
Fig. 1.2. Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la
rgression (le rsidu est lev).
Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression.
On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que
la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des
variables, en cela ils se rapprochent des points atypiques.
Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez
mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent.
La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le
point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les

10 1 tude des rsidus
coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus,
il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection
des points atypiques et inuents (Chapitre 2).
Asymtrie des rsidus
Signe que la distribution des rsidus ne suit pas la loi normale, cette situation (Figure 1.3) survient
lorsque certains points se dmarquent des autres, ils sont mal reconstitus par la rgression. La
moyenne des rsidus est mcaniquement gale 0, mais la dispersion est trs ingale de part et
d'autre de cette valeur.
lorsque les donnes sont en ralit forms par plusieurs populations (ex. en mdecine, eectuer une
rgression en mlangeant les hommes et les femmes, sachant qu'ils ragissent de manire dirente
la maladie tudie).
lorsqu'on est face un problme de spcication, une variable exogne importante manque.
etc.
Fig. 1.3. La distribution des rsidus est asymtrique.
Non-linarit
Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la
rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime)
ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une
variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une
transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de
neurones, etc.).
Rupture de structure
Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur
tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs

1.1 Diagnostic graphique 11
Fig. 1.4. La relation modliser est non-linaire
rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients
de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une
seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent
tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent
en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique
dans la population (Figure 1.5).
Fig. 1.5. Rsidus caractristiques d'une rupture de structure
Htroscdasticit
Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la
variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques
pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).

Fig. 1.6. La variance des rsidus augmente avec les valeurs d'une des exognes
Autocorrlation des rsidus
Ce problme est spcique aux donnes longitudinales. Dans le graphique des rsidus, nous plaons
des dates en abcisse, nous essayons de dtecter si les erreurs suivent un processus particulier au cours du
temps. L'autocorrlation peut tre positive (des "blocs" de rsidus sont positifs ou ngatifs, gure 1.8)
ou ngative (les rsidus sont alternativement positifs et ngatifs, gure 1.7).
Fig. 1.7. Autocorrlation ngative des rsidus
1.1.2 Graphiques des rsidus pour les donnes CONSO
Nous avons lanc la rgression sur les donnes CONSO (Figures 0.2 et 0.3). Nous construisons les
dirents graphiques des rsidus en les croisant avec l'endogne et les exognes (Figure 1.9). Nous avons
utilis le logiciel R.
Une information, essentiellement, saute aux yeux : 2 points semblent se dmarquer systmatiquement
sur l'endogne Y , le prix, la cylindre et la puissance. Pourtant ils ne semblent pas particulirement mal
restitus par la rgression puisque le rsidu (erreur de prdiction) ne prend pas des valeurs anormalement

1.2 Tester le caractre alatoire des erreurs 13
Fig. 1.8. Autocorrlation positive des rsidus
leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le
chapitre consacr l'analyse des points atypiques et inuents.
1.2 Tester le caractre alatoire des erreurs
Lorsque nous travaillons avec des donnes longitudinales, la date dnit naturellement l'ordonnance-
ment des observations. Il est important de vrier que les rsidus sont produits de manire totalement
alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quel-
conque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires
n'est plus BLUE 3 : elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice
de variance covariance n'est plus estime de manire convergente, les tests de signicativit ne sont plus
oprants.
La dtection de l'autocorrlation des rsidus peut s'eectuer visuellement l'aide du graphique des
rsidus (Figures 1.8 et 1.7). Elle peut galement s'appuyer sur des techniques statistiques. La plus connue
est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation. Nous
pouvons aussi utiliser des tests plus gnraux comme le test des squences de Wald.
Les causes de l'autocorrlation des rsidus peuvent tre multiples. Elles se rapprochent des problmes
de spcications l'origine des violations des hypothses (Bourbonnais, page 114) : une variable exogne
importante est absente de l'quation de rgression ; la liaison modlise n'est pas linaire ; les donnes ont
t manipules (ex. moyenne mobile, reconstitue par interpolation, etc.), c'est souvent le cas lorsqu'elles
sont produites par des observatoires statistiques.
Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus
n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des obser-
vations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent
3. Best Linear Unbiased Estimator

Fig. 1.9. Graphiques des rsidus - Donnes CONSO
aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus
en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus
sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.

les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les
grandes valeurs de Y : manifestement il y a un problme dans le modle...).
1.2.1 Test de Durbin-Watson
Principe
Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :
i = . i1 + i , avec i N (0, ) (1.2)
Le test d'hypothses s'crit :
H0 : = 0
H1 : = 0
On utilise la statistique de Durbin-Watson
n 2
(ei ei1 )
i=2
d= n 2
(1.3)
i=1 ei
Par construction, 0 d 4, d = 2 lorsque = 0. Elle a t tabule par Durbin et Watson (Annexes

A) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter
la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour
un test bilatral (Bourbonnais, pages 115 et 116) :
Acceptation de H0 si dU < d < 4 dU

Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0)
Incertitude si dL < d < dU ou 4 dU < d < 4 dL
Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1.
De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) :
la rgression doit comporter un terme constant ;

les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter
l'endogne retarde 4 .
Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer
d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes
trimestrielles, etc. Johnston, pages 180 200).
4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)

Exemple : Prdiction de la consommation de textile
Pour illustrer la mise en oeuvre du test de Durbin-Watson, nous reprenons un exemple extrait de
l'ouvrage de Theil (1971) 5 . L'objectif est de prdire la consommation de textile partir du revenu par
tte des personnes et du prix. Nous disposons d'observations sur 17 annes partir de 1923 (Figure 1.10).
Fig. 1.10. Donnes de Theil sur le textile
Fig. 1.11. Test de Durbin-Watson sur les donnes de Theil
L'quation de rgression mettre en place est
yi = a0 + a1 xi,1 + a2 xi,2 + i , i = 1, . . . , 17
o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.

5. Theil, H., Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du
test sont accessibles sur le site http://shazam.econ.ubc.ca/intro/dwdist.htm

Les calculs sont organiss comme suit (Figure 1.11) :
1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

1.38 et a2 = 1.06.
2. Nous formons la prdiction yi avec ces coecients.
3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi .
4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874.66 et le
dnominateur 433.31, nous obtenons d = 2.02.
5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson
(Annexes A). Pour n = 17 et k = 2, dL = 1.02 et dU = 1.54.
6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocor-
rlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).
1.2.2 Test des squences
Le test des squences 6 , appel galement test de Wald-Wolfowitz, est plus gnrique que le prcdent.
Il cherche dtecter toute forme de rgularit lorsque les rsidus sont ordonns selon le temps. Il dtecte
autant les autocorrlations ngatives (les rsidus sont alternativement ngatives et positives) que les
autocorrlations positives (des blocs de rsidus conscutifs sont positifs ou ngatifs). tant plus gnrique,
il est bien entendu moins puissant pour des formes particulires d'autocorrlation. On lui prfrera le test
de Durbin-Watson par exemple si on veut vrier expressment la prsence d'un processus auto-rgressif
d'ordre 1 des rsidus.
Principe
Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est
la date pour les donnes longitudinales.
Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La
statistique du test r est le nombre total de squences dans la srie d'observations.
Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les
rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment
suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement.
Posons n+ (resp. n ) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hy-
pothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement 7
une loi normale de paramtres :
Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages
6. Voir Siegel, S., Castellan, J.,
58 64, section "The one-Sample runs test of randomness"
7. Pour les petites valeurs de n+ et n , les valeurs critique de r ont t tabules. Voir par exemple Siegel-
Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...

2n+ n
r = +1 (1.4)
n
(r 1)(r 2)
r = (1.5)
n1
Nous pouvons former la statistique centre et rduite z = r .

rr
La rgion critique du test rejet de
l'hypothse de gnration alatoire des rsidus s'crit :
R.C. : |z| > u1 2
o u1 2 est le fractile d'ordre 1

2 de la loi normale centre et rduite N (0, 1).
Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test
bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce
test permet autant de dtecter les autocorrlations ngatives que positives.
Prdiction de la consommation de textile
Fig. 1.12. Test de Wald-Wolfowitz sur les donnes de Theil
Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide
d'un tableur (Figure 1.12) :
1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

1.38 et a2 = 1.06.

1.3 Test de normalit 19
2. Nous formons la prdiction yi avec ces coecients.

3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi .
4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs).
5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que
n = n+ + n = 17.
6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :
r = 9.47 et r = 1.99.
7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences
r = 7.
8. Nous calculons enn la statistique centre et rduite z = 79.47
1.99 = 1.24 ;
9. Que nous comparons au fractile d'ordre 0.95 (pour un test bilatral 10%) de la loi normal centre
et rduite u0.95 = 1.64.
Nous sommes dans la rgion d'acceptation de H0 . Nous pouvons conclure que les rsidus sont ind-
pendants, ils sont gnrs par un processus purement alatoire.
1.3 Test de normalit
Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression, prdiction
par intervalle, etc.) repose sur l'hypothse de distribution normale N (0, ) du terme d'erreur de l'quation
de rgression (quation 0.1). Vrier cette hypothse semble incontournable pour obtenir des rsultats
exacts 8 .
Nous disposons des erreurs observs i , les rsidus de la rgression, pour valuer les caractristiques
des erreurs thoriques i . Cela n'est pas sans poser des problmes. En eet, si la variance de l'erreur
est constante V (i ) = 2 , la variance du rsidu, l'erreur observe, ne l'est pas V (i ) = 2 (1 hii ), o
hii est lue sur la diagonale principale de la hat matrix H = X(X X)1 X . Et surtout, la covariance
cov(i , j ) = 2 hij entre deux rsidus observs n'est pas nulle en gnral.
De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette
section sont modis, induisant galement une modication des valeurs critiques pour un mme risque .
Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent
valables, pour peu que l'on ait susamment d'observations (n 50) 9 . Il faut surtout voir les tests comme
8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons
l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/
econometrie.pdf
9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus
pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela
est pos clairement est celui de Capra P., Van Cutsem B., Mthodes et modles en statistique non paramtrique
- Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307

des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution
empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs
faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons 10 .
1.3.1 Graphique Q-Q plot
Principe
Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)
est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et
les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les valeurs
observes. Si la distribution est compatible avec la loi normale, les points forment une droite. Dans la
littrature francophone, ce dispositif est appel Droite de Henry.
Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.
univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf, section 1.5.
Application sur les donnes CONSO
A partir du descriptif de notre document de rfrence, nous avons construit la Droite de Henry dans
le tableur EXCEL (Figure 1.13). Le dtail des calculs est le suivant :
1. Trier les rsidus i de manire croissante, ce sont les quantiles observs.
2. Produire la fonction de rpartition empirique, lisse en accord avec la loi normale Fi = i0.375
n+0.25
3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre
rduite.
4. En dduire les quantiles thoriques d-normalises i = zi . Si la distribution empirique cadre

parfaitement avec la loi normale, les points devraient tre aligns sur la diagonale principale. Ici, pour

simplier 11 , nous prenons = n1 i=1 2i .
n
Nous constatons que les points sont relativement bien aligns. Il n'y a pas d'incompatibilit manifeste
avec une distribution normale.
10. Pour une prsentation dtaille des tests d'adquation la loi normale d'une distribution empirique, nous
conseillons un de nos supports accessibles en ligne http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_
Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de
supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique
11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur ( ). Mais cette
petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si
les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou
l'autre des estimateurs.

Fig. 1.13. Droite de Henry sur les rsidus des MCO Donnes CONSO
Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la
normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en
s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.
1.3.2 Test de symtrie de la distribution des rsidus
Principe du test
Ce test est bas sur le coecient d'asymtrie
3
1 = (1.6)
3
o 3 est le moment centr d'ordre 3, et l'cart-type.
On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire
suivante :
H0 : suit une loi normale, par consquent 1 = 0

H1 : ne suit pas une loi normale, par consquent 1 = 0
Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 = 0, nous savons
que la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est
seulement compatible avec une loi normale.

Statistique du test et rgion critique
Pour raliser le test, nous devons dnir la statistique du test et sa loi de distribution sous H0 . Nous
utilisons le coecient d'asymtrie empirique :
1
3
i i
g1 = ( n
) 32 (1.7)
1 2
n i i
Sous H0 , elle suit asymptotiquement une loi normale d'esprance et d'cart-type 12
1 0

6
1
n
Nous formons le rapport c1 = 1 .

g1
Pour un test bilatral au risque , la rgion critique est dnie par
R.C. : |c1 | u1 2
o u1 2 est le fractile d'ordre 1

2 de la loi normale centre rduite.
Nous construisons le test ci-dessus sur les rsidus des MCO sur nos donnes CONSO. Voici les prin-
cipales tapes (Figure 1.14) :
1. Nous rcuprons la colonne des rsidus i .

2. Nous calculons les colonnes de 2i et 3i .
0.1220
3. Nous calculons les sommes et formons g1 = 0.5602 3/2 = 0.2909.

4. Nous calculons l'cart-type 1 = 31
6
= 0.4399, et le rapport |c1 | = 0.6612.
5. Nous observons que |c1 | < 1.6449 = u0.95 , pour un test bilatral 10%. Nous ne sommes pas dans la
rgion critique.
Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre
rejete.
1.3.3 Test de Jarque-Bera
Principe
Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 = 4

4 3 dans la procdure.
Les hypothses deviennent :
12. Une formulation plus prcise de l'cart-type est disponible dans http://eric.univ-lyon2.fr/~ricco/
cours/cours/Test_Normalite.pdf

Fig. 1.14. Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO
H0 : suit une loi normale, par consquent 1 = 0 et 2 = 0

H1 : ne suit pas une loi normale, par consquent 1 = 0 ou 2 = 0
o 4 est le moment centr d'ordre 4, est l'cart-type.
Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribu-
tion est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un
des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important,
on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).
Statistique du test et rgion critique
Estimateur de 2
Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le

plus simple est d'utiliser l'estimation triviale dduite de la dnition du coecient 2 :

1 4
i i
g2 = n
( 1 2 )2 3 (1.8)
n i i
Sous H0 , l'esprance et l'cart-type de g2 sont :

2 0

24
2
n
La statistique standardise suit une loi normale : c2 = g2

2 N (0, 1).
Statistique de Jarque-Bera
Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2 . Puisqu'ils sont
indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera 13 :
( )
(n p 1) g2
T = g12 + 2 (1.9)
6 4
Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'un
chantillon de taille n, il y a (p + 1) coecients estimer dans la rgression avec constante. Cette prise en
compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction
jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p
est grand et que la taille de l'chantillon n est faible.
Sous H0 , la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque
, s'crit :
R.C. : T > 21 (2)
Il s'agit d'un test unilatral, 21 (2) correspond au fractile d'ordre 1 de la loi du 2 2 degrs
de libert.
Nous compltons le test fond sur le coecient d'asymtrie en utilisant les rsidus de la rgression sur
les donnes CONSO. Voici les principales tapes (Figure 1.15) :
1. Nous rcuprons la colonne des rsidus i .

2. Nous calculons les colonnes de 2i , 3i et 4i .
0.1220
3. Nous calculons les sommes et formons g1 = 0.56023/2
= 0.2909.
4. Nous formons g2 = 0.7020
0.56022 3 = 0.7626.
[ ]
(0.7626)2
5. Reste la calculer la statistique de Jarque-Bera : T = 3141
6 (0.2909)2 + 4 = 0.9967.
6. Que l'on compare avec le seuil critique 20.90 (2) = 4.6052.
Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des
rsidus.
13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera

1.4 Conclusion 25
Fig. 1.15. Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO
1.4 Conclusion
Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons
prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les
informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une
rgression sont :
la liaison tudie est non-linaire ;

un problme de spcication, par ex. une variable exogne importante manque ;
l'existence de points atypiques ou exagrment inuents ;
les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ;
il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homo-
gnes,...
Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont
privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles
proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par
la suite de complter le diagnostic visuel l'aide des tests statistiques.

2
Dtection des points aberrants et des points inuents
L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle
anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous
pourrons en rsumer les direntes tournures de la manire suivante :
L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection
univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une
puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules.
Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre
et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais
leur concomitance est surprenante (Figure 2.1).
L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la
relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.
L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (pr-
diction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.
Fig. 2.1. Le point entour est suspect car la combinaison de valeurs est inhabituelle
Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce
chapitre : le document de J. Confais et M. Le Guen [12], section 4.3, pages 307 311 ; et la prsentation de

28 2 Points aberrants et points inuents
A.Gueguen, La rgression linaires - Outils diagnostics, http://ifr69.vjf.inserm.fr/~webifr/ppt/

outilsdiag.ppt.
2.1 Points aberrants : dtection univarie
Bote moustache et dtection des points atypiques
L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote
moustaches (Figure 2.2), dite box-plot 1 . Elle ore une vue synthtique sur plusieurs indicateurs impor-
tants : le premier quartile (Q1 ), la mdiane (M e) et le troisime quartile (Q3 ). On peut aussi jauger
visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3 Q1).
Fig. 2.2. Boxplot de la variable endogne "consommation (y)", 2 observations se dmarquent
On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En
ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques
sont dnies par les rgles suivantes 2 :
LIF = Q1 1.5 IQ
U IF = Q3 + 1.5 IQ
o LIF signie "lower inner fence" et UIF "upper inner fence".
Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher
attentivement sur les observations correspondantes.
1. http://en.wikipedia.org/wiki/Box_plot
2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm

2.1 Points aberrants : dtection univarie 29
Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut
statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour
de la moyenne. Si l'on considre que la distribution est normale, 99.7% des observations sont situes dans
cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en
rduit la porte.
Les "outer fence"
Il est possible de durcir les conditions ci-dessus en largissant les bornes des valeurs. On parle alors
de outer fence. Elles sont dnies de la manire suivante :
LOF = Q1 3 IQ
U OF = Q3 + 3 IQ
Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement
atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).
Il est possible de produire une bote moustache pour chaque variable du chier de donnes. Nous
disposons ainsi trs rapidement d'informations sur l'talement de la distribution, de la prsence de points
qui s'cartent fortement des autres. Pour la variable endogne (Figure 2.2), nous dtectons immdiatement
2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et
la Mercedes S 600.
Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) :
1. de produire le 1er et le 3me quartile ;
2. d'en dduire l'intervalle inter-quartile ;
3. de calculer les bornes LIF et U IF ;
4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque
variable.
Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des
variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects
(Tableau 2.1).

Fig. 2.3. Dtection univarie des points atypiques pour chaque variable
Observations Prix Cylindre Puissance Poids Consommation

Ferrari 456 GT * * * *
Mercedes S 600 * * * * *
Maserati Ghibli GT * *
Tableau 2.1. Points suspects chier CONSO : dtection univarie
2.2 Dtection multivarie sur les exognes : le levier
Le levier
La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne
pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital
pour l'tude des points atypiques et inuents : le levier.
Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre
de gravit du nuage de points dans l'espace dni par les exognes. La mesure a de particulier qu'elle
tient compte de la forme du nuage de points, il s'agit de la distance de Mahalanobis (Tenenhaus, page
94). La prise en compte de la conguration des points dans l'espace de reprsentation permet de mieux
juger de l'loignement d'une observation par rapport aux autres (Figure 2.4).

2.2 Dtection multivarie sur les exognes : le levier 31
Fig. 2.4. Le point et le centre de gravit sont situs aux mmes coordonnes dans les graphiques (a) et (b).
Pourtant apparat nettement atypique dans (b).
Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H , dite Hat Matrix,
dnie de la manire suivante
H = X(X X)1 X (2.1)
La matrice H joue un rle trs important dans la rgression, elle permet de passer des valeurs observes
de Y vers les valeurs prdites Y , elle permet aussi le passage de l'erreur thorique vers les rsidus observs 3 .
Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments
de la diagonale principale hii , on parle de levier car il dtermine l'inuence de l'observation i sur les
estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations
en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points
aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques
et inuents que nous prsenterons dans la suite de ce chapitre.
Calcul des lments diagonaux de la matrice H
La taille (n n) de la matrice H peut tre considrable ds lors que la taille de l'chantillon augmente.
Il est possible d'en calculer uniquement les lments diagonaux en utilisant la formule
hii = hi = xi (X X)1 xi
o xi reprsente la i-me ligne de la matrice X .
Rgion critique
Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi
nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique
qui permet d'indiquer qu'un point est "suspect" ?
3. = [I X(X X)1 X ]

Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtout
n
i=1 hi = p + 1, o p + 1 est le nombre de coecients estimer dans une rgression avec constante. On
considre que le levier d'une observation est anormalement lev ds lors que :
p+1
R.C. : hi > 2 (2.2)
n
Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,
est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la
valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations
permet de statuer sur leur positionnement par rapport aux autres.
Fig. 2.5. Quelques indicateurs de points atypiques et inuents dans TANAGRA. Donnes CONSO.

2.2 Dtection multivarie sur les exognes : le levier 33
Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA
(Figure 2.5) 4 . La valeur de coupure est 2 4+1
31 = 0.3226, 3 points se dmarquent immdiatement, les
mmes que pour la dtection univarie : la Ferrari (h8 = 0.8686), la Mercedes (h9 = 0.4843) et la Maserati
(h10 = 0.6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines
(Mercedes) ou des vhicules sportifs (Ferrari, Maserati).
Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante
selon hi . Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons
que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa
Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace
(nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue
par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons
de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante
d'un prix relativement moyen et d'une cylindre leve.
Fig. 2.6. Trier les donnes CONSO selon la valeur du levier
4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement
reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.

2.3 Rsidu standardis
Rsidu standardis
Le rsidu standardis, appel galement rsidu studentis interne dans certains ouvrages, s'intresse
l'importance du rsidus observ i = yi yi . S'il est anormalement lev, en valeur absolue, le point a
t mal reconstitu par le modle : il s'carte ostensiblement de la relation modlise entre les exognes
et l'endogne.
Si par hypothse, la variance de l'erreur 2i = 2 est constante, il en va autrement du rsidu 2i =

2 (1 hi ). Nous devons donc normaliser le rsidu par son cart-type pour rendre les carts comparables
d'une observation l'autre.
Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de 2 , nous
estimons la variance des rsidus avec
2i = 2 (1 hi ) (2.3)

i i
o hi est lue dans la Hat Matrix H , 2 = np1 est l'estimateur de la variance de l'erreur.
Le rsidu standardis est dni par le rapport
i i
ti = = (2.4)
i (1 hi )
Rgion critique
Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu
standardis est anormalement lev (en valeur absolue).
Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse i N (0, ),
nous en dduisons que i N (0, i ). On peut montrer facilement que 2i suit une loi du 2 (n p 1)
degrs de libert.
De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine
carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert
ti T (n p 1) (2.5)
Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine
manire atypique) lorsque
R.C. : |ti | > t1 2 (n p 1)
o t1 2 (n p 1) est le fractile d'ordre 1

2 de la loi de Student (n p 1) degrs de libert.
Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.
Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :

2.3 Rsidu standardis 35
il est mal prdit c.--d. i est lev ;

la rgression est prcise c.--d. est faible ; en eet, si la rgression est globalement prcise, un
point mal prdit apparat comme d'autant plus suspect ;
le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus
(1 hi ) 0, et le rapport est lev.
TANAGRA fournit automatiquement les rsidus standardiss lors de l'analyse des points atypiques
(Figure 2.5). Il faut comparer la valeur absolue de la colonne avec la valeur seuil t0.95 (26) = 1.7056 pour
un risque 10%.
Lorsque le nombre d'observations est lev, il devient mal ais d'inspecter le tableau des valeurs
du rsidus standardis. Il est plus commode de revenir au graphique des rsidus en mettant en abcisse
l'endogne et en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs
seuils t1 2 et +t1 2 (Figure 2.7) 5 .
Fig. 2.7. Graphique des rsidus standardiss vs. endogne - Donnes CONSO
Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les don-
nes selon |ti |. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique est
d'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcanique-
ment mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations
5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.

aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une
opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points
les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.
Fig. 2.8. Observations tries selon la valeur absolue du rsidu standardis
Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Fi-
gure 2.8) :
La Mercedes cumule un rsidu fort (1.374) et un levier lev (0.4843). Ce type de vhicule appar-
tient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier.
La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0.8686.
Le rsidu brut = 0.610 n'est pas trs lev, on prdit correctement sa consommation au regard
de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un
vhicule bien particulier.
La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se
fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils
n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La
Hyundai consomme fortement par rapport ses caractristiques = y y = 11.7 10.264 = 1.436 ;
la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) = 7.6 9.168 =
1.568.

2.4 Rsidu studentis 37
2.4 Rsidu studentis
Le rsidu studentis
Principe
Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous
valuons l'importance du rsidu i d'une observation qui a particip la construction de la droite de
rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,
puis on regarde s'il a bien t modlis. Si l'observation est fortement inuente, au sens qu'elle "tire"
exagrment les rsultats de manire prsenter un rsidu brut trs faible 0, nous conclurons tort
qu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation (Figure 2.9).
Fig. 2.9. Exemple de rgression simple o l'observation est certes bien modlise ( 0) mais elle fausse
totalement les calculs : on parle de point exagrment inuent.
Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une
observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur
de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du
modle utilis pour prdire la valeur yi . Le rsidu studentis, on parle de rsidu studentis externe ou
RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,
page 135) :
Pour chaque observation i,

Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.
Nous eectuons la prdiction sur l'observation i en donne supplmentaire yi (i)
Nous obtenons aussi l'estimation de l'cart-type des erreurs (i), le levier hi (i) obtenu avec la

formule hi (i) = xi (Xi Xi )1 xi o Xi correspond la matrice des X sans la ligne numro i.
A l'instar du rsidu standardis, nous formons le rsidu studentis partir du rapport

yi yi (i)
ti = (2.6)
(i) (1 hi (i))
Le principe de la donne supplmentaire permet de mieux apprhender le rle/le poids de l'observation
i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des
points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser
qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).
Fig. 2.10. Principe de la donne supplmentaire : l'observation , exclue du calcul de la droite de rgression,
devient trs mal prdite
Une autre interprtation
Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les calculs.
En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons utiliser par la
suite pour dnir la rgion critique du test.
Le principe est le suivant, nous eectuons n rgressions avec toutes les observations. Pour la rgression
numro i, nous introduisons une variable muette z dnie de la manire suivante
z = 1 pour l'observation numro i

= 0 sinon
La rgression numro i s'crit donc de la manire suivante :
y = a0 + a1 x1 + . . . + ap xp + b z + (2.7)
Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons

que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y a
bien (p + 2) coecients estimer dans l'quation 2.7.

2.4 Rsidu studentis 39
Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit
l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se
rvler rdhibitoire.
A ce stade intervient une proprit remarquable du rsidu studentis : il

est possible de le calculer
pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons
pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95) 6 :

np2
ti = ti (2.8)
n p 1 t2i
Le calcul supplmentaire demand est ngligeable.
Rgion critique
A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire
rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente
ou non. On oppose :
H0 : b = 0
H1 : b = 0
Sous H0 , la statistique ti T (n p 2), on en dduit la rgion critique du test :
R.C. : |ti | > t1 2 (n p 2)
o t1 2 (n p 2) est le fractile d'ordre 1

2 de la loi de Student (n p 2) degrs de libert.
Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.
Comparaisons multiples et contrle du risque I
En multipliant les tests, nous valuons n observations, nous augmentons le risque de signaler tort
des points atypiques. Certains auteurs prconisent de rendre la dtection plus exigeante en introduisant
la correction de Bonferroni pour les comparaisons multiples : on divise le risque par l'eectif n. Pour
chaque observation tester, nous comparons le rsidu studentis avec le fractile d'ordre 1 2n .

Dans
l'exemple CONSO, le vrai risque utiliser serait 1 0.1
231 = 0.9984 et le seuil critique t0.9984 (25) = 3.539.
On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette
procdure.
6. La formule propose dans Dodge semble errone (page 135)

Comparaisons multiples et contrle du risque II
Si l'on comprend le principe de la correction du risque, multiplier les tests augmente les chances de
dsigner tort un point aberrant, il faut donc tre plus exigeant, la rectication ci-dessus est purement
empirique. Pour dpasser ces problmes, d'autres auteurs proposent tout simplement de comparer di-
rectement le rsidu studentis avec une valeur ad hoc, inspire nanmoins des seuils fournis par la loi
de Student, la valeur la plus utilise est 2 en rfrence un test 5%. Pour ma part, je pense que le
plus simple encore est de trier les observations selon |ti |, cela nous donne plus de latitude pour juger de
l'ampleur des carts.
Nous compltons le tableau EXCEL en ajoutant la colonne des rsidus studentiss. La valeur seuil
10% est 1.7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce
sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600,
Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).
Fig. 2.11. Observations tries selon la valeur absolue du rsidu studentis
Dans notre exemple, les deux indicateurs ti et ti concordent. Ce n'est pas toujours le cas en pratique.
Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer
l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur
la rgression.

2.5 Autres indicateurs usuels 41
2.5 Autres indicateurs usuels

Dans cette section, nous numrons d'autres indicateurs de points atypiques/inuents couramment
rencontrs dans les logiciels. Nous simplions la prsentation en mettant l'accent sur 3 aspects : le principe,
la formule et la rgle de dtection. Les rsultats relatifs au chier de donnes CONSO ont t produites
l'aide du logiciel TANAGRA (Figure 2.5).
2.5.1 DFFITS
Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la pr-
diction en resubstitution yi et la prdiction en donne supplmentaire yi (i). Dans le premier cas, l'ob-
servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi
mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence
serait trs marque, conrmant le rle mysticateur de l'individu .
Le DFFITS est normalise de la manire suivante

yi yi (i)
DF F IT Si = (2.9)
(i) hi
Nous considrons qu'une observation est inuente lorsque

p+1
R.C. : |DF F IT Si | > 2
n
mais le plus simple toujours est de trier les observations selon |DF F IT Si | pour mettre en vidence
les points suspects.

31 = 0.8032. Nous constatons que la Ferrari (tout
Sur le chier CONSO, le seuil critique est 2 4+1
particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne
dpasse pas le seuil (0.7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse
propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent
comptant les valeurs seuils (Figure 2.12).
Calcul pratique du DFFITS
Il n'est heureusement pas ncessaire d'eectuer les n rgressions pour calculer les DF F IT Si , on peut
l'obtenir partir du rsidu studentis

hi
DF F IT Si = ti (2.10)
1 hi
2.5.2 Distance de COOK
La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'eet de la suppression
de l'observation i sur la prdiction de yi , il mesure son eet sur la prdiction des n valeurs de l'endogne.

Fig. 2.12. Observations tries selon la valeur absolue du DF F IT S
La premire formulation de la distance de Cook Di est la suivante :

n 2
j=1 [yi yi (i)]
Di = (2.11)
2 (p + 1)
Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients,
et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle
valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans
l'estimation des coecients.
Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre.
La rgle la plus simple est :
R.C. : Di > 1 (2.12)
Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre
parfois la disposition plus exigeante suivante (Confais, page 309) :
4
R.C. : Di > (2.13)
np1
La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t
tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon
la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di > 4
np1 = 0.1538
(quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).
Calcul pratique de la distance de Cook
De nouveau, il n'est pas question d'eectuer les n rgressions en supprimant tour tour chaque
observation. Nous pouvons grandement simplier les calculs en drivant la distance de Cook partir des
rsidus standardiss

Fig. 2.13. Observations tries selon la distance de Cook Di
t2i hi
Di = (2.14)
(p + 1) (1 hi )
Distance de Cook entre les coecients estims
Nous avons dnis la distance de Cook comme un cart entre les prdictions. Il est galement possible
de la dnir comme une distance entre les coecients estims, avec ou sans l'observation i analyser.
Dans ce cas, la distance de Cook s'crit
(a a(i)) (X X)1 (a a(i))
Di = (2.15)
2 (p + 1)
o a est le vecteur des (p + 1) coecients estims (a0 , a1 , . . . , ap ) avec les n observations ; a(i) le
mme vecteur estim sans l'observation i.
La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients
estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement
la mme que celle obtenue avec la premire dnition (quation 2.11).
De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de
deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne
sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une
loi de Fisher (p + 1, n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter les
points atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure
50% 7 . On peut aussi imaginer une procdure plus souple et simplement trier les observations selon la
p-value de la distance de Cook. Dans le cas du chier CONSO, on constate que la Ferrari et la Mercedes
se dmarquent fortement par rapport aux autres vhicules (Figure 2.14).
7. http://www-stat.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf

Fig. 2.14. Observations tries selon la p-value de la distance de Cook Di
2.5.3 DFBETAS
La distance de Cook value globalement les disparits entre les coecients de la rgression utilisant
ou pas l'observation numro i. Si l'cart est important, on peut vouloir approfondir l'analyse en essayant
d'identier la variable qui est l'origine de l'cart : c'est le rle des DFBETAS.
Pour chaque observation i et pour chaque coecient aj , j = 0, . . . , p, nous calculons la quantit

aj aj (i)
DF BET ASj,i = (2.16)
(i) (X X)1 j
o aj est l'estimation du coecient de la variable Xj (a0 pour la constante) ; aj (i) l'estimation

du mme coecient lorsqu'on a omis l'observation i ; (i) l'estimation de l'cart-type de l'erreur de
rgression sans l'observation i ; (X X)1
j est lue sur la diagonale principale de la matrice (X X)1 .
On considre que l'observation i pse indment sur la variable Xj lorsque
R.C. : |DF BET ASj,i | > 1 (2.17)
Lorsque les observations sont nombreuses, on prfrera la rgle plus exigeante :

2
R.C. : |DF BET ASj,i | > (2.18)
n
Bien entendu, il est toujours possible de trier les observations selon les DFBETAS, mais cela peut
tre rapidement fastidieux lorsque le nombre de variables est lev.
Appliqu sur les donnes CONSO, les DFBETAS nous permettent de mieux situer l'action des obser-
vations mis en avant par la distance de Cook. On compare les valeurs calcules avec le seuil 2
31
= 0.3592.

On constate que la Ferrari et la Mercedes psent sur quasiment toutes les variables ds lors qu'on les retire
ou qu'on les rajoute dans les eectifs pour la rgression. La Hyundai, qui semble moins peser globalement
(cf. Di ), a aussi une action sur l'ensemble des coecients mis part la constante. Enn, la Maserati, la
Mitsubishi et la Toyota Previa agissent de manire anecdotique sur quelques coecients (Figure 2.15).
Fig. 2.15. DF BET ASj,i pour le chier CONSO
Calcul pratique
Encore une fois, il est hors de question d'eectuer n rgressions, on s'en sort en utilisant la formule
suivante [ ]
(X X)1 X
DF BET ASj,i = ti
j,i
(2.19)
(X X)1
j (1 hi )
2.5.4 COVRATIO
A la dirence de la distance de Cook, au lieu de mesurer la disparit entre les estimations des
coecients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparits entre les
prcisions des estimateurs c.--d. la variance des estimateurs.
A cet eet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance
gnralise, elle est gale
var(a) = 2 det(X X)1
o det(X X)1 est le dterminant de la matrice (X X)1 .

On formule alors le COV RAT IOi de l'observation i de la manire suivante :

var(a(i))
COV RAT IOi = (2.20)
var(a)
A premire vue :
Si COV RAT IOi > 1, la prsence de l'observation i amliore la prcision au sens o elle rduit la
variance des estimateurs ;
A l'inverse, si COV RAT IOi < 1 indique que la prsence de l'observation i dgrade la variance.
Remarque 14. Attention, une diminution de la variance (COV RAT IO > 1) n'est pas forcment un signe
du rle bnque de l'observation i. Une rduction excessive de la variance peut vouloir dire que l'ob-
servation pse exagrment par rapport aux autres observations. Il faut manipuler avec beaucoup de
prcautions cet indicateur.
A partir de quel moment doit-on s'inquiter de l'inuence d'une observation ? La rgle de dtection
la plus rpandue est
3(p + 1) 3(p + 1)
R.C. : COV RAT IOi < 1 ou COV RAT IOi > 1 + (2.21)
n n
que l'on peut simplier :

3(p + 1)
R.C. : |COV RAT IOi 1| > (2.22)
n
Le COVRATIO a t calcul pour chaque observation du chier CONSO. Le tableau est tri selon
|COV RAT IOi 1| dcroissant (Figure 2.16). Nous portons notre attention sur la premire partie du
tableau. Nous retrouvons la Ferrari, la Maserati et la Toyota Previa rapparaissent (cf. levier). Nous
notons aussi qu'ils sont suivis d'autres monospaces (Seat Alhambra et Peugeot 806, mme s'ils ne sont
pas signicatifs).
Calcul pratique
Il est possible d'obtenir le COVRATIO partir du rsidu studentis et du levier

1
COV RAT IOi = [ ](p+1) (2.23)
(t
i)
2
np2
np1 + np1 (1 hi )
2.6 Bilan et traitement des donnes atypiques

Lecture des indicateurs
Trop d'information tue l'information a-t-on coutume de dire. C'est tout fait vrai dans le cas de
ce chapitre. La profusion d'outils peut rapidement donner le tournis. Confais (2006) propose un tableau
rcapitulatif, on ne peut plus salutaire (pages 312 et 313). On discerne le type de lecture que l'on peut
faire de chaque indicateur et les conclusions que l'on pourraient en tirer (Figure 2.17).

2.6 Bilan et traitement des donnes atypiques 47
Fig. 2.16. Observations tries selon le COV RAT IOi
Traitement des observations atypiques
Reste alors la question dlicate du traitement des donnes atypique, que peut-on faire des observations
qui, manifestement, jouent un rle particulier dans la rgression ?
Tous les auteurs s'accordent dire que la suppression automatique des observations atypiques n'est
pas "la" solution. Il faut comprendre pourquoi l'observation se dmarque autant et proposer des solutions
appropries :
Premier rexe : vrier les donnes, y a-t-il des erreurs de saisie ou des erreurs de transcription ?
Dans ce cas, il sut de corriger les valeurs recenses.
Si la distribution est trs asymtrique (ex. salaires), il est plus indiqu de tenter de symtriser la
distribution avec une transformation de variables adquate (ex. log) avant de procder nouveau
l'analyse.
Si l'on manipule des donnes longitudinales, on introduit une variable muette pour neutraliser l'eet
de l'observation atypique (ex. guerre, famine).
Il apparat que les observations incrimines ne correspondent pas la population tudie (ex. des
martiens se sont immiscs dans une enqute). Dans ce cas, et dans ce cas seulement, la suppression
est rellement justie.
Dans notre exemple CONSO, il apparat clairement que la Ferrari, voiture sportive d'exception, et
la Mercedes, une limousine ultra-luxueuse, n'appartiennent pas au mme monde que les autres vhicules
de l'analyse. Ils se situent de plus des niveaux de prix qui les situent dnitivement hors de porte. Il
parat donc licite de les supprimer de nos donnes.

Fig. 2.17. Tableau rcapitulatif - Dtection des observations atypiques (Confais et Le Guen, Modulad, 35, 2006)
Remarque 15 (Techniques graphiques vs. techniques numriques). A ce sujet, prenons toujours de la hau-
teur par rapport aux techniques numriques, on peut se demander si nalement cet attirail tait bien
ncessaire dans la mesure o, ds les graphiques des rsidus, la Ferrari et la Mercedes taient systma-
tiquement l'cart des autres. Elles auront surtout servi conrmer et prciser le rle perturbateur de
ces 2 observations.
Nous eectuons la rgression sur les 29 observations restantes. En tudiant de nouveau les points
atypiques, nous constaterons que la Mitsubishi est particulirement mal modlise, ce n'est pas tonnant

2.6 Bilan et traitement des donnes atypiques 49
car elle prsente une consommation anormalement basse au regard de ses caractristiques, sa cylindre
notamment. Nous mettrons galement de ct la Maserati qui est un vhicule sportif turbo-compress
hautes performances.
Remarque 16 (Quand la suppression des observations atypiques devient abusive ?). Nous voyons bien l
les limites de l'approche consistant liminer les observations considres atypiques. En continuant ainsi,
nous nirons par vider le chier : aucun risque de voir des disparits entre les individus si nous n'avons
plus qu'une seule observation.
Fig. 2.18. Rsultats de la rgression CONSO sans les observations atypiques
Dornavant, nous utiliserons le chier des 27 observations, expurg des 4 vhicules numres ci-dessus,
pour illustrer les autres thmes abords dans ce support (Figure 2.18). Nous obtenons des rsultats bien
dirents avec des graphiques des rsidus autrement plus sympathiques (Figure 2.19). La variable prix
a disparu des paramtres signicatifs. On s'tonne en revanche que ni puissance ni cylindre ne soient
pertinents pour expliquer la consommation. Peut-tre faut-il y voir l l'eet de la colinarit ? Nous
approfondirons cette question dans le chapitre suivant.

Fig. 2.19. Graphiques des rsidus, chier CONSO aprs suppression des 4 points atypiques

3
Colinarit et slection de variables
L'un des objectifs de la rgression est d'essayer de dcrire le processus de causalit entre les exognes
et l'endogne. Pour cela, nous tudions le signe et la valeur des coecients. L'ide est de circonscrire au
possible le rle de telle ou telle variable dans l'explication des valeurs prises par Y . S'il est tabli qu'une
variable n'est d'aucune utilit, il est conseill de l'liminer, elle perturbe la lecture des rsultats.
Les problmes surgissent lorsqu'il va falloir dnir une stratgie de slection de variables. Peut-on
simplement liminer le bloc de variables qui ne sont pas signicatifs au sens du test de Student ? Ce
serait ngliger l'eet conjoint des variables. Doit-on les liminer unes unes, comment doit-on organiser
la suppression ? Est-ce que la suppression squentielle est la meilleure stratgie, ne peut-on pas envisager
une procdure o l'on slectionne petit petit les variables intressantes ou lieu d'liminer celles qui ne
sont pas pertinentes ? etc.
Les procdures de slection de variables que nous prsentons dans ce chapitre rpondent ces ques-
tions. Souvent certaines variables exognes sont redondantes, elles emmnent le mme type d'information :
c'est le problme de la colinarit, elles se gnent mutuellement dans la rgression.
Dans ce chapitre, nous dcrivons quelques techniques simples de dtection de la colinarit. Puis, nous
prsentons une solution simple pour y remdier par le truchement de la slection de variables.
3.1 Dtection de la colinarit
3.1.1 Consquences de la colinarit
On parle de colinarit entre 2 variables exognes lorsque la corrlation linaire entre ces variables est
leve (ex. r > 0.8 a-t-on l'habitude d'indiquer 1 mais ce n'est pas une rgle absolue). On peut gnraliser
cette premire dnition en dnissant la colinarit comme la corrlation entre une des exognes avec
une combinaison linaire des autres exognes.
1. Borcard, D., Rgression Multiple - Corrlation multiple et partielle, 2001-2007 ; http://biol10.biol.

umontreal.ca/BIO2042/Regr_mult.pdf

52 3 Colinarit et slection de variables
Plusieurs problmes peuvent surgir 2 :
les valeurs/signes des coecients sont contradictoires, elles ne concordent pas avec les connaissances
du domaine ;
les variances des estimateurs sont exagres ;
au point que les coecients ne paraissent pas signicatives (au sens du t de Student du test de
nullit des coecients), poussant le statisticien les supprimer indment ;
les rsultats sont trs instables, l'adjonction ou la suppression de quelques observations modie du
tout au tout les valeurs et signes des coecients.
Il y a un vrai risque de passer ct d'une variable exogne importante tout simplement parce qu'elle
est redondante avec une autre. La colinarit entre variables exognes rend illusoire la lecture des rsultats
sur la base des valeurs et de la signicativit des coecients. Il est indiqu de la dtecter et de la traiter
avant toute interprtation approfondie.
3.1.2 Illustration de l'eet nocif de la colinarit
Essayons d'illustrer le mcanisme de la colinarit.
Si la colinarit est parfaite, rang(X X) < p + 1 (X X)1 n'existe pas. Le calcul est impossible.
Si la colinarit est forte, det(X X) 0, l'inverse 3 (X X)1 = 1
det(X X) comA

contient des valeurs
trs leves. Il en est de mme pour la matrice de variance covariance des coecients estims
a = 2 (X X)1 . Ds lors, le t de Student taj =
aj
aj pour tester la signicativit des coecients
prsente mcaniquement de trs faibles valeurs. La variable parat non signicative, elle est limine
par le statisticien.
3.1.3 Quelques techniques de dtection
Test de Klein
Il ne s'agit pas d'un test proprement parler mais plutt d'un indicateur simple pour dtecter rapide-
ment les situations problmes (Bourbonnais, pages 100 et 101). Le test de Klein repose sur le principe
suivant
1. Nous calculons normalement la rgression linaire multiple y = a0 + a1 x1 + + ap xp + , nous

recueillons le coecient de dtermination R2 .
2. Nous calculons les corrlations croises entre les variables exognes Xj1 et Xj2 : rj1 ,j2 avec j1 = j2 .
3. Il y a prsomption de colinarit s'il existe au moins un couple de variables Xja , Xjb tel que R2 < rj2a ,jb .
Dans la pratique, une simple proximit entre les valeurs R2 et rj2a ,jb doit nous alerter.
2. Foucart, T., Colinarit et Rgression linaire, in Mathmatiques et Sciences Humaines, Numro 173, pp.
5-25, 2006 ; http://www.ehess.fr/revue-msh/pdf/N173R963.pdf
3. Voir la mthode des cofacteurs, http://fr.wikipedia.org/wiki/Matrice_inversible

3.1 Dtection de la colinarit 53
Dans la rgression sur 27 points, rappelons que le coecient de dtermination est R2 = 0.9295 (Figure
2.18). Nous avons calcul les corrlations croises entre les exognes, puis leur carr (Figure 3.1). Nous
constatons deux situations qui peuvent poser problme : la corrlation entre la puissance et la cylindre
(r2 = 0.91) ; celle entre le poids et le prix (r2 = 0.90) 4 .
Cela peut expliquer notamment pourquoi les variables puissance et cylindre ne paraissent pas per-
tinentes pour expliquer la consommation. Ce qui est un non sens si on s'intresse un tant soit peu aux
vhicules automobiles.
Fig. 3.1. Corrlation croises et leur carrs. Donnes CONSO
Test de multicolinarit - Facteur d'ination de la variance (VIF)
Le test de Klein ne "dtecte" que la colinarit bivarie. Pour valuer la multicolinarit, il faudrait
eectuer la rgression de chaque exogne Xj avec les (p 1) autres exognes, puis tudier le coecient
de dtermination Rj2 associ.
On appelle facteur d'ination de la variance (VIF) la quantit (Saporta, page 422) :

1
vj = (3.1)
1 Rj2
On parle de facteur d'ination car nous avons la relation suivante
2
V (aj ) = vj
n

L'cart-type de l'estimation est multipli par un facteur vj .
Plus vj sera lev, plus la variance V (aj ) de l'estimation sera forte. L'estimation aj sera donc trs
instable, il aura moins de chances d'tre signicatif dans le test de nullit du coecient dans la rgression.
A partir de quelle valeur de vj doit-on s'inquiter ? Si les variables taient 2 2 indpendantes, vj = 1

2
et V (aj ) = n . Nous pourrions obtenir les coecients de la rgression multiple partir de p rgressions
4. Les voitures sont vendues au poids maintenant ?

simples. Une rgle usuelle de dtection de la colinarit est de prendre un seuil o l'on multiplierait d'un
facteur de 2 l'cart-type de l'estimation. On dcide qu'il y a un problme de colinarit lorsque
vj 4
Certains utilisent une rgle moins contraignante et prfrent 5 les seuils 5 ou mme 10 c.--d. la
multicolinarit n'est signale que si elle est vraiment leve. A vrai dire, l'essentiel est d'identier les
variables qui posent problme dans la rgression.
Tolrance. La quantit 1 Rj2 , appele tolrance, est galement fournie par les logiciels statistiques.
Plus elle est faible, plus la variable Xj soure de colinarit. En drivant la rgle de dtection du VIF,
on s'inquiterait ds que la tolrance est infrieure 0.25.
Calcul pratique du VIF. Calculer p rgressions croises, chaque variable Xj contre les (p 1)
autres pour obtenir les Rj2 et donc vj , serait vite fastidieux. Nous pouvons proter des calculs existants
pour produire le VIF. En eet, si C est la matrice des corrlations entre les exognes, de taille (p p), la
quantit vj peut tre lue la coordonne j de la diagonale principale de la matrice inverse C 1 .
Nous en reparlerons plus loin (section 3.6), il est mme possible de produire les rsultats des rgressions
croises partir des valeurs de la matrice C 1 .
Nous inversons la matrice de corrlation, nous lisons sur la diagonale principale les VIF. Mme avec la
rgle de dtection la plus permissive (vj 10), nous constatons que toutes les variables posent problme
(Figure 3.2). Il y a rellement une trs forte colinarit des exognes dans ce chier. La variable prix en
particulier est fortement lie avec les autres variables. Ce qui n'est tonnant nalement. Le prix est un
indicateur du niveau de gamme des voitures. On s'attend ce qu'il soit, un tant soit peu, en relation avec
des critres objectifs tels que la puissance ou la cylindre.
Fig. 3.2. Inverse de la matrice des corrlations - Sur la diagonale principale le VIF
Autres tests statistiques de multicolinarit
Il existe des tests statistiques plus rigoureux bass sur la matrice des corrlations C : soit partir
du dterminant de la matrice, le test de Farrar et Glauber par exemple (Bournonnais, page 101) ; soit
5. Voir http://www2.chass.ncsu.edu/garson/PA765/regress.htm, section Multicoliearity, pour une des-
cription dtaille des critres et des seuils critiques.

3.2 Traitement de la colinarit - Slection de variables 55
partir de ses valeurs propres (ex. l'indice de multicolinarit - http://www.ehess.fr/revue-msh/

pdf/N173R963.pdf ; voir aussi Saporta, section 17.3.2.2, page 422, sur les relations entre le VIF et les
valeurs propres de la matrice C ). Ils s'appuient tous sur une dmarche similaire, l'hypothse nulle est
l'orthogonalit des variables exognes, on value dans quelle mesure on s'carte de cette hypothse.
Sans remettre en doute la pertinence de ces tests, force est de constater que les approches simples
susent souvent pour apprcier au mieux les multiples situations.
Cohrence des signes
Il existe une autre approche trs simple pour dtecter la colinarit, comparer les signes des coecients
de la rgression avec le signe des corrlations simples entre les exognes et l'endogne. La procdure est
la suivante :
1. Nous calculons normalement la rgression linaire multiple y = a0 + a1 x1 + + ap xp + , nous

recueillons les signes des coecients estims aj .
2. Nous calculons les corrlations croises entre chaque variable exogne Xj et l'endogne : ry,xj .
3. Il y a prsomption de colinarit s'il existe des situations o signe(aj ) = signe(ry,xj ). En eet, cela
indique que les autres variables perturbent la relation entre Y et Xj .
Application au donnes CONSO
Nous calculons les corrlations simples entre chaque exogne et l'endogne. Nous comparons les r-
sultats avec les coecients de la rgression (Figure 3.3). Il y a un conit pour la variable puissance que
nous souponnons justement d'tre carte tort.
Fig. 3.3. Comparaison des corrlations individuelles et des coecients. Donnes CONSO
3.2 Traitement de la colinarit - Slection de variables
Il existe plusieurs pistes pour traiter la colinarit. On note principalement la rgression ridge qui est
une technique de rgularisation visant rendre l'inversion de (X X) plus stable ; la rgression sur les
axes principaux de l'analyse en composantes principales, qui sont des variables synthtiques deux deux
linairement indpendantes produites partir des exognes initiales ; la rgression PLS (Partial Least
Squares) qui impose une contrainte dans la recherche des solutions ; etc.

Dans ce chapitre, nous traiterons plus particulirement de la slection de variables. L'objectif est de
trouver un sous-ensemble de q variables exognes (q p) qui soient, autant que possible, pertinentes et
non-redondantes pour expliquer l'endogne Y . Deux problmes se posent alors :
1. quelle est la bonne valeur de q ?

2. comment choisir ces q variables ?
Outre le traitement de la colinarit, la slection de variables rpond une autre motivation : la pr-
frence la simplicit. A pouvoir explicatif sensiblement quivalent, on choisit les modles parcimonieux
pour plusieurs raisons : le modle est plus lisible, il est plus facile interprter ; le nombre de variables
collecter est plus faible ; le modle est plus robuste, c'est le principe du Rasoir d'Occam.
3.2.1 Slection par optimisation
Cette approche consiste produire toutes les combinaisons possibles de variables exognes, puis de
choisir la rgression qui maximise un critre de qualit. Le premier cueil est le nombre de cas valuer,
il est gal 2p 1, ce qui peut se rvler prohibitif lorsque p est lev. Il faut donc choisir une stratgie de
recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale. Il existe un grand
nombre de techniques d'exploration dans la littrature (ex. approches gloutonnes, approches best rst
search, algorithmes gntiques, etc.). Elles se distinguent par leur complexit et leur aptitude trouver
la solution maximisant le critre.
Mais quel critre justement ? C'est ce que nous allons tudier maintenant.
Critre du R2
Le R2 semble de prime abord vident. Il exprime la part de la variance explique par le modle. C'est
le premier critre que l'on regarde dans une rgression. On essaie de trouver la combinaison de variables
qui maximise le R2 .
En ralit, il ne convient pas. En eet, le R2 augmente de manire mcanique avec le nombre de

variables : plus on ajoute de variables, meilleur il est, mme si ces variables ne sont absolument pas
pertinentes. A la limite, on connat d'oce la solution optimale : c'est le modle comportant les p variables
candidates.
Dans un processus de slection de modle, le R2 conviendrait uniquement pour comparer des solutions
comportant le mme nombre de variables.
Critre du R2 corrig
Le R2 corrig, not R2 , tient compte des degrs de libert, donc du nombre de variables introduits
dans le modle. Il rend comparable des rgressions comportant un nombre d'exognes dirent. Pour bien

comprendre la dirence, rappelons la formule du R2

SCR
R2 = 1 (3.2)
SCT

o SCR = i (yi yi )
2
est la somme des carrs rsiduels, SCT = i (yi y)
2
est la somme des carrs
totaux, ceux de l'endogne.
Le R2 introduit une correction par les degrs de libert, il s'crit

CM R SCR/(n q 1)
R2 = 1 =1 (3.3)
CM T SCT /(n 1)
o CM R sont les carrs moyens rsiduels, CM T les carrs moyens totaux, q est le nombre de variables
dans le modle valu.
Il est possible d'exprimer le R2 partir du R2

n1
R2 = 1 (1 R2 ) (3.4)
nq1
On voit bien le mcanisme qui se met en place. Deux eets antagonistes s'opposent lorsque l'on ajoute
une variable supplmentaire dans le modle : R2 augmente parce que R2 s'amliore, R2 diminue parce que
le nombre d'exognes q prend une valeur plus leve. Tant que la prcision du modle quantie par R2
prend le pas sur la complexit du modle quantie par q , nous pouvons ajouter de nouvelles variables.
Si le principe est sain, on se rend compte dans la pratique que ce critre est trop permissif. L'eet
contraignant de q n'est pas assez fort dans la formulation du R2 (quation 3.4). Le critre favorise les
solutions comportant un grand nombre de variables. Il faut trouver des formulations plus restrictives.
Critres AIC et BIC
Ces critres s'appuient sur la mme ide : mettre en balance la prcision du modle quanti par le
R2 (ou le SCR, c'est la mme chose puisque SCT est constant quel que soit le modle valuer) avec la
complexit du modle quantie par le nombre de variables qu'il comporte.
Avec le critre Akaike (AIC), nous cherchons la rgression qui minimise la quantit suivante :
SCR
AIC = n ln + 2(q + 1) (3.5)
n
Avec le critre BIC de Schwartz, nous cherchons optimiser

SCR
BIC = n ln + ln(n)(q + 1) (3.6)
n
Ds que n > e2 7, on constate que le critre BIC pnalise plus fortement les modles complexes. Il
favorise les solutions comportant peu de variables.
Remarque 17 (Complexit et colinarit entre les exognes). Notons que ces techniques de slection ne
tiennent pas compte explicitement de la redondance entre les variables. Cela est fait de manire implicite

avec la pnalisation de la complexit : deux explicatives corrles n'amliorent gure le SCR mais sont
pnalises parce que la complexit augmente, elles ne peuvent pas tre simultanment prsentes dans le
modle.
Critre du PRESS
Maximiser le coecient de dtermination R2 n'est pas appropri. Rappelons que
SCR
R2 = 1
SCT
o SCT , la somme des carrs totaux est constante quelle que soit la rgression considre ; SCR est
dnie de la manire suivante :

n
SCR = (yi yi )2
i=1
Lorsque l'on rajoute de nouvelles variables dans le modle, mme non pertinentes, SCR diminue
mcaniquement (au pire il reste constant), et par consquent R2 augmente. Cela provient du fait que l'on
confronte la vraie valeur yi avec la prdiction yi alors que l'observation i a particip l'laboration du
modle. A l'extrme, si on se contente que crer autant de dummy variable qu'il y a d'observations, nous
sommes assurs d'obtenir un R2 = 1 puisque nous ralisons une interpolation.
Pour avoir une estimation honnte des performances en prdiction, il ne faudrait pas que l'observation
i participe la construction du modle lorsqu'on veut prdire sa valeur de l'endogne. Elle intervient ainsi
comme une observation supplmentaire 6 . On dduit alors un indicateur similaire au SCR que l'on appelle
PRESS (Predicted Residual Sum of Squares) 7 :

n
P RESS = (yi yi (i))2 (3.7)
i=1
o yi (i) est la prdiction de la valeur de l'endogne pour l'observation i utilise en donne suppl-
mentaire dans la rgression numro i.
Calcul pratique du PRESS
Tout comme lors du calcul de certains indicateurs lors de la dtection des points atypiques, nous ne
saurions eectuer rellement n rgressions, surtout lorsque les eectifs sont levs. Encore une fois la
matrice H nous sauve la mise, il est possible de calculer le PRESS partir de la seule rgression sur
l'ensemble des observations en utilisant la relation suivante
yi yi
yi yi (i) = (3.8)
1 hi
6. Cela n'est pas sans rappeler la distinction que nous faisions entre les rsidus standardiss et studentiss dans
la dtection des points atypiques.
7. http://www.ltrr.arizona.edu/~dmeko/notes_12.pdf

Procdure de slection base sur le PRESS
A la dirence du R2 , nous disposons d'un critre honnte d'valuation des performances en prdiction.
Il est possible ds lors de dnir une stratgie de slection de variables uniquement bas sur ce critre
de performances, sans tenir compte explicitement de la complexit du modle. En eet, dans la pratique,
on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir explicatif, le R2 peut
s'amliorer (fallacieusement), le PRESS lui en revanche se dgrade, indiquant par l l'inutilit de la
variable.
Remarque 18 (Wrapper). Notons pour l'anecdote que ce type de stratgie de slection de variables dans le
domaine de l'apprentissage automatique (grosso modo, il s'agit de problmes de prdiction o la variable
prdire est qualitative) est connu sous le terme gnrique wrapper. Sauf, qu' ma connaissance, les
procdures construisent explicitement les n modles de prdiction (moins si on dcide d'exclure non pas
une seule mais k observations chaque phase de construction de modle) 8 .
Application : calcul du PRESS sur les donnes CONSO
Calculons le PRESS partir des coecients de la rgression estimes sur les 27 observations (Figure
2.18). Nous procdons par tapes (Figure 3.4) :
Fig. 3.4. Calcul du PRESS sur les donnes CONSO - Rgression 4 explicatives
8. Kohavi, R., John, G., Wrappers for Feature Subset Selection, in Articial Intelligence, (97)1-2,
P. 273-324, 1997 http://citeseer.ist.psu.edu/cache/papers/cs/124/http:zSzzSzrobotics.stanford.
eduzSz~ronnykzSzwrappers.pdf/kohavi97wrappers.pdf

1. Nous utilisons les coecients de la rgression pour calculer la prdiction en resubstitution yi ;
2. Nous formons alors l'erreur de prdiction i = yi yi ;
3. Nous calculons les lments diagonaux de la Hat Matrix, qui sont ni plus ni moins que les leviers
(leverage) hi = [X(X X)1 X ]ii ;
4. Nous formons l'erreur de prdiction en donne supplmentaire yi yi (i) = i

1hi ;
n
5. Nous en dduisons le P RESS = i=1 [yi yi (i)]2 = 13.54.
Notons pour rappel que SCR = 9.33 (Figure 2.18), nous avons systmatiquement la relation SCR
P RESS . Plus l'cart entre ces deux indicateurs est lev, plus nous suspectons un sur-apprentissage
c.--d. le modle "colle" trop aux donnes, il intgre des spcicits du chier et ne restitue plus la vraie
relation qui existe dans la population.
Calcul du PRESS sur les donnes CONSO - Modle simpli
A titre de comparaison, nous avons calcul le PRESS du modle n'utilisant que CYLINDRE et
POIDS comme explicatives. A priori le modle est de moins bonne qualit puisque le R2 = 0.92768 et
la SCR = 9.57211 sont moins avantageux que ceux de la rgression 4 variables (PRIX, CYLINDRE,
PUISSANCE, POIDS) avec respectivement R2 = 0.92952 et SCR = 9.3285. Et pourtant, le modle
simpli s'avre plus performant en prdiction avec P RESS = 11.694 (Figure 3.5), contre P RESS =
13.54 prcdemment.
Cela montre combien la recherche d'un modle parcimonieux est tout sauf une lucubration esthtique.
Elle permet d'amliorer (souvent) l'ecacit des modles lors du dploiement dans la population. Les
prdictions sont plus prcises.
Slection de variables sur les donnes CONSO - Critre AIC
Nous allons essayer de trouver le modle optimal qui minimise le critre AIC. Nous adoptons une
dmarche backward. Elle consiste, partir du modle complet comportant toutes les variables, liminer
unes unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la suppression
d'une variable amliore le critre.
Voici le dtail de la procdure :
1. calculer l'AIC pour le modle comportant l'ensemble courant de variables ;
2. valuer l'AIC conscutive la suppression de chaque variable du modle, choisir la suppression en-
tranant la plus forte diminution et vrier qu'elle propose une amlioration du critre par rapport
la situation prcdente ;
3. si NON, arrt de l'algorithme ; si OUI, retour en (1).

Fig. 3.5. Calcul du PRESS sur les donnes CONSO - Rgression 2 explicatives (CYLINDRE, POIDS)
Appliqu sur le chier CONSO de 27 observations, nous obtenons la squence de calculs 9 :
tape Modle courant (cte = constante) AIC Suppression d'une variable (AIC)
puissance 20.6188
prix 20.0081
1 y = prix + cylindre + puissance + poids + cte 18.69
cylindre 17.4625
poids 12.1155
prix 21.9986
2 y = prix + cylindre + poids + cte 20.6188 cylindre 17.6000
poids 13.3381
cylindre 13.3049
3 y = cylindre + poids + cte 21.9986
poids 0.2785
Au dpart, tape 1, avec toutes les variables, AIC = 18.69 = 27 ln 9.328

27 + 2(4 + 1). La suppression
de la variable puissance entrane la plus grande diminution du critre, il passe alors 20.6188, etc. A
l'tape 3, on constate qu'aucune suppression de variable n'amliore le modle courant.
9. Nous avons utilis la fonction stepAIC du package MASS du logiciel R

Le modle optimal au sens du critre AIC est
y = 1.392276 + 0.01311 cylindree + 0.004505 poids
Remarque 19 (Recherche forward). Si nous avions adopt une recherche forward c.--d. partir du modle
compos de la seule constante, ajouter au fur et mesure une variable de manire diminuer au possible
le critre AIC, nous aurions obtenu le mme ensemble nal de variables exognes.
3.2.2 Techniques bases sur le F partiel de Fisher
Les techniques prsentes dans cette section s'appuient sur le F partiel de Fisher. Grosso modo,
on ajoute une variable si le carr du t de Student (qui suit une loi de Fisher) indique que le coecient
associ est signicativement dirent de 0 ; on supprime une variable si son coecient n'est pas signicatif
(Tenenhaus, pages 100 108).
Slection par avant - Forward Selection
Comme son nom l'indique, il s'agit d'une technique incrmentale qui consiste reprer chaque tape
la variable proposant un t de Student le plus lev en valeur absolue (ou dont le carr est le plus lev),
de l'ajouter dans le pool courant si le coecient est signicatif, et de continuer ainsi tant que les ajouts
sont possibles.
On commence par p rgressions simples. Si une variable a t ajoute, on poursuit avec p1 rgressions
2 variables, etc. L'ajout d'une variable dpend de la signicativit du coecient de la variable choisie,
il dpend donc du risque dni par l'utilisateur. Si on souhaite obtenir peu de variables, on xe un
risque faible.
Il faut tre prudent par rapport ce risque. En eet, la variable tester est celle qui maximise le
F = t2 . Nous sommes en situation de comparaisons multiples. La loi sous l'hypothse nulle est modie.
On n'est pas sr de prendre rellement un risque d'accepter tort une variable. Pour viter cet aspect
trompeur, certains logiciels proposent de xer directement une valeur seuil de F pour accepter ou rejeter
la meilleure variable chaque tape. Cela peut paratre arbitraire, d'autant que les valeurs par dfaut
correspond peu ou prou des niveaux de risques usuels (ex. Dans STATISTICA, le seuil de 3.84 propos
est peu prs le fractile de la loi de Fisher 5%). Mais au moins, le statisticien vitera de faire rfrence
explicitement un niveau de risque erron.
D'autres logiciels tels que SPSS ore les deux possibilits l'utilisateur : il peut xer un risque
critique ou directement un seuil critique. L'essentiel tant de bien comprendre ce que l'on est en train de
manipuler.
Enn, le principal reproche que l'on peut adresser cette approche est qu'une variable choisie une
tape n'est plus jamais remise en cause par la suite.

Nous avons appliqu ce processus de slection aux donnes CONSO avec 27 observations. Nous avons
choisi un risque de 5%, avec bien entendu toutes les rserves d'usages ci-dessus. Le processus de slection
est rsum dans le tableau 3.1.
tape Modle courant (cte = constante) R2 t2aj = F (p-value)

poids 207.63 (0.0000)
prix 199.19 (0.0000)
1 y = cte -
cylindre 118.60 (0.0000)
puissance 93.53 (0.0000)
cylindre 11.66 (0.0023)
2 y = poids + cte 0.8925 puissance 7.42 (0.0118)
prix 6.32 (0.0190)
prix 0.53 (0.4721)
2 y = poids + cylindre + cte 0.9277
puissance 0.01 (0.9288)
Tableau 3.1. Slection forward bas sur le t2 - Donnes CONSO
Parmi les 4 rgressions simples, c'est la variable poids qui prsente un t2 = F = 207.63 le plus lev,
elle est trs signicative, en tous les cas avec un p-value largement en-de du niveau que l'on s'est x
(5%). La variable poids est donc intgre. A l'tape 2, nous essayons de voir quelle est la variable qu'on
pourrait lui adjoindre. Nous eectuons 3 rgressions 2 variables (poids et une autre) : cylindre se rvle
tre la plus intressante, avec un F = 11.66, elle est signicative 5%. Elle est intgre. A l'tape 3, nous
avons 2 rgressions 3 variables (poids, cylindre et une autre) tester. Nous constatons que la variable
la plus intressante, prix avec un F = 0.53, n'est plus signicative (pvalue > 5%). On s'en tient donc au
modle 2 variables : poids et cylindre.
Dans le chier CONSO, l'optimisation du AIC et la slection forward bas sur le F donnent des
rsultats identiques. Ce n'est pas toujours vrai dans la pratique.
limination en arrire - Backward Selection
Cette procdure fonctionne l'inverse de la prcdente. Elle commence avec la rgression comportant
toutes les exognes, regarde quelle est la variable la moins pertinente au sens du t de Student (le carr du
t de Student le plus faible), limine la variable si elle n'est pas signicative au risque . Elle recommence
avec les variables restantes. Le processus est interrompu lorsqu'il n'est plus possible de supprimer une
variable.
Si l'on met de ct les rserves d'usages par rapport au vrai sens donner au risque des tests successifs,
on xe gnralement un risque plus lev pour la suppression : la possibilit de retenir une variable est

favorise par rapport celle d'en ajouter. Notamment parce que la colinarit peut masquer le rle de
certaines d'entre elles 10 . La valeur = 10% est propose par dfaut dans la logiciel SPSS par exemple.
La plupart des logiciels procdent ainsi.
Nous appliquons la procdure au chier CONSO, voici le dtail des calculs :
tape Modle courant (cte = constante) R2 valuation t2 = F (pvalue)

puissance 0.0620 (0.8057)
prix 0.5666 (0.4596)
1 y = prix + cylindre + puissance + poids + cte 0.9295
cylindre 2.7978 (0.1086)
poids 8.2287 (0.0089)
prix 0.5344 (0.4721)
2 y = prix + cylindre + poids + cte 0.9293 cylindre 4.6779 (0.0412)
poids 9.4345 (0.0054)
cylindre 11.6631 (0.0023)
3 y = cylindre + poids + cte 0.9277
poids 33.7761 (0.0000)
Le modle complet 4 variables propose un R2 = 0.9295. La variable la moins intressante est

puissance avec un t2 = 0.0620, elle n'est pas signicative 10% (pvalue = 0.8057). Nous pouvons la
retirer. Le modle suivant, 3 exognes, propose un R2 = 0.9293. La variable la moins pertinente est
prix qui n'est pas non plus signicative, elle est galement limine. La rgression 2 exognes, cylindre
et poids, possde des variables qui sont toutes signicatives 10% : c'est notre modle dnitif avec un
R2 = 0.9277.
On note que le R2 diminue mcaniquement mesure que nous supprimons des variables. Mais la
dgradation est minime au regard du gain en simplicit obtenu en rduisant le nombre de variables du
modle.
Procdure stepwise - Stepwise regression
Cette procdure est un mix des approches forward et backward. A la premire tape, on commence
par construire le meilleur modle 1 exogne. Par la suite, chaque tape, on regarde si l'ajout d'une
variable ne provoque pas le retrait d'une autre. Cela est possible lorsqu'une variable exogne expulse une
autre variable qui lui est corrle, et qui semblait pourtant plus signicative dans les tapes prcdentes.
10. Merci Matthieu Buisine pour m'avoir indiqu les incohrences de la version prcdente de ce document.
Avec un seuil plus lev, on a tendance plus retenir les variables et non l'inverse. Merci Matthieu. C'est avec ce
type de commentaires qu'on peut faire avancer les choses.

3.3 Rgression stagewise 65
Gnralement, on xe un risque plus exigeant pour la slection (ex. 5%, on ne fait entrer la meilleure
variable que si elle est signicative 5%) que pour la suppression (ex. 10%, on supprime la variable la
moins pertinente si elle est non signicative 10%).
Appliqu sur les donnes CONSO avec le logiciel SPSS, cette technique nous renvoie le modle 2
variables
y = 1.392276 + 0.01311 cylindree + 0.004505 poids
3.3 Rgression stagewise
La rgression stagewise est une procdure forward qui consiste ajouter, au fur et mesure, une
variable qui explique au mieux la fraction de Y non-explique par les variables dj slectionnes (Bour-
bonnais, page 105 ; Dodge 11 , page 161 164).
On peut rsumer l'approche de la manire suivante :
1. On slectionne la variable Xa qui est la plus corrle, en valeur absolue, avec Y . On la slectionne
si la corrlation est signicativement dirent de 0 au risque . Nous utilisons un test de Student
(n 2) degrs de libert
r
ta = .
1r 2
n2
Comme il s'agit de tester un coecient qui a fait l'objet d'une optimisation pralable, le vrai risque
du test n'est pas . Mais dans la pratique, il ne faut pas attacher trop d'importance un calcul
prtendument pointu du vrai risque qui, de toute manire, dpend de la prfrence la simplicit de
l'utilisateur : on diminue si on veut moins de variables dans le modle, on l'augmente si on en veut
plus. C'est plus en ce sens qu'il faut lire la valeur de .
2. On veut choisir la variable Xb qui est la plus corrle avec la fraction de Y non-explique par Xa .
Pour ce faire, on calcule le rsidu de la rgression
e1 = y (a0 + a1 xa )
La variable Xb est celle qui est la plus corrle avec e1 . On l'intgre dans le modle si la corrlation
est signicativement dirent de 0 au risque . Attention, les degrs de libert sont modis (n 3),
il en est de mme pour la statistique du test 12 . On utilise
11. La description donne par Dodge est un peu dirente. La mthode Stagewise est utilise pour slectionner
les variables, et les coecients de la rgression nale sont dduits des calculs intermdiaires. Il distingue donc les
paramtres fournis par stagewise des paramtres estims l'aide de la MCO.
12. Lorsque les eectifs sont levs, cette correction a peu d'eet

r
tb = .
1r 2
n3
3. Si la variable Xb est intgre, nous cherchons la variable suivante Xc qui explique au mieux la fraction
de Y non-explique conjointement par Xa et Xb . Le plus simple toujours est de prendre le rsidu
e2 = y (b0 + b1 xa + b2 xb )
de choisir la variable qui lui le plus corrl, et de tester la signicativit du coecient de corrlation
avec un tc de Student (n 4) degrs de libert
r
tc = .
1r 2
n4
4. on continue ainsi jusqu' ce qu'aucun ajout de variable ne soit possible.
5. Au nal, le plus simple est de re-estimer la droite de rgression avec les variables slectionnes.
Nous appliquons la rgression stagewise sur les donnes CONSO. Nous dtaillons les calculs :
1. Nous calculons les corrlations brutes entre Y et les exognes rY,Xj . Nous obtenons le tableau suivant :
Xj r
poids 0.9447
prix 0.9426
cylindre 0.9088
puissance 0.8883
La variable la plus corrle avec l'endogne est poids : r = 0.9447
2. Vrions si la corrlation est signicativement dirente de 0. Pour ce faire, nous formons la statistique
de Student t = 0.9447
10.94472
= 14.4094 et calculons la p-value associe pvalue = 0.0000. La corrlation
272
est signicativement suprieure zro en valeur absolue, elle est accepte.
3. Pour choisir la variable suivante, nous procdons en deux temps : (a) nous calculons les coecients de
la rgression y = 1.0353+0.0068poids ; (b) nous calculons le rsidus e1 = y(1.0353+0.0068poids).
4. Nous calculons les corrlations re1 ,Xj pour dterminer la variable la plus corrle avec e1
Xj r
cylindre 0.2908
puissance 0.2544
prix 0.1471
poids 0.0000
Bien videmment, la corrlation re1 ,poids = 0 puisque e1 est la fraction de Y qui n'est pas explique
par poids.

3.4 Coecient de corrlation partielle et slection de variables 67
5. La variable la plus intressante est cylindre, nous formons le t de Student t = 0.2908

10.29082
= 1.4891,
273
avec une p-value gale 0.1495.
6. Au risque de 5%, la variable cylindre n'est signicativement corrle avec e1 . Le processus de slection
de variables est stoppe.
Au nal, le "meilleur" modle d'explication de la consommation selon la procdure stagewise intgre

uniquement la variable poids :
y = 1.0353 + 0.0068 poids
3.4 Coecient de corrlation partielle et slection de variables
3.4.1 Coecient de corrlation brute
Le coecient de corrlation 13 quantie le degr de liaison linaire entre deux variables continues Y
et X . Elle est dnie par
cov(y, x)
y,x = (3.9)
y x
C'est une mesure symtrique. Par dnition 1 +1, > 0 (resp. < 0) si la liaison est positive
(resp. ngative). Lorsque les variables sont indpendantes, = 0, l'inverse n'est pas vrai.
Le coecient de corrlation empirique est l'estimation de sur un chier de n observations :

i (xi x)(yi y)

ry,x = (3.10)
i (xi x) i (yi y)
2 2
On parle de corrlation brute parce que l'on mesure directement la liaison entre Y et X sans qu'aucune
autre variable n'intervienne. Nous l'opposerons la corrlation partielle expose plus bas.
Pour vrier que la corrlation entre deux variables est signicativement dirent de zro, nous posons
le test d'hypothses
H0 : = 0
H1 : = 0
La statistique du test s'crit

r
t=
1r 2
n2
La rgion critique du test au risque , rejet de H0 , est dnie par
R.C. : |t| > t1 2 (n 2)
o t1 2 (n 2) est le fractile d'ordre 1

2 de la loi de Student (n 2) degrs de libert.
13. http://en.wikipedia.org/wiki/Correlation

Quelques exemples sur les donnes CONSO
Prenons quelques variables du chier CONSO et calculons le coecient de corrlation linaire (Tableau
3.2).
variable 1 variable 2 r t p-value

y puissance 0.8883 9.6711 0.0000
y cylindre 0.9088 10.8901 0.0000
puissance cylindre 0.9559 16.2700 0.0000
Tableau 3.2. Corrlation entre quelques variables du chier CONSO
Nous constatons que toutes ces corrlations sont leves et trs signicativement direntes de zro.
3.4.2 Coecient de corrlation partielle
Mesurer la corrlation partielle
Corrlation n'est pas causalit a-t-on coutume de dire : ce n'est pas parce que 2 variables varient de
manire concomitante, dans le mme sens ou en sens oppos, qu'il faut y voir forcment une relation de
cause eet.
Parfois, la corrlation peut tre totalement fortuite, il s'agit simplement d'un artefact statistique
auquel on ne peut donner aucune interprtation valable. Parfois aussi, et c'est le cas qui nous intresse
ici, elle est due une tierce variable qui joue le rle d'intermdiaire entre les 2 variables tudies.
Exemple 2. Ventes de lunettes de soleil et ventes de glaces : aucune des deux n'a un eet sur l'autre, il
s'agit plutt de la temprature qui les fait varier dans le mme sens.
Exemple 3. La corrlation entre la taille des personnes et la longueur de leurs cheveux est ngative. Avant
d'y voir un quelconque phnomne de compensation, on se rend compte qu'il y a 2 populations dans le
chier : les hommes et les femmes (Figure 3.6). En gnral, les hommes sont plus grands et ont les cheveux
plus courts. La variable "sexe" est la variable intermdiaire qui fait apparatre une relation factice entre
la taille et la longueur des cheveux.
L'ide de la corrlation partielle justement est de mesurer le degr de liaison entre 2 variables en
neutralisant (en contrlant) les eets d'une troisime variable. Il peut y avoir plusieurs types d'eets
(Figure 3.7 ; le texte en ligne qui accompagne ce schma est trs instructif - http://www2.chass.ncsu.
edu/garson/pa765/partialr.htm).
Pour calculer la corrlation partielle, nous utilisons les corrlations brutes

Fig. 3.6. La corrlation est la consquence de la prsence de 2 populations distinctes dans le chier
Fig. 3.7. Direntes interactions dans la mesure de la corrlation partielle
ry,x ry,z rx,z

ry,x/z = (3.11)
1 ry,z
2 1 rx,z
2
L'ide sous-jacente est simple : on retranche de la liaison brute mesure entre y et x, l'eet induit par
z.

Tester la corrlation partielle
Pour vrier la signicativit d'un corrlation partielle, nous adoptons la mme dmarche que pour
la corrlation brute. Les hypothses tester sont :
H0 : y,x/z = 0
H1 : y,x/z = 0
La statistique du test s'crit :

ry,x/z
t= 2 1ry,x/z
n3
Et la rgion critique du test est dnie par :
R.C. : |t| > t1 2 (n 3)
o t1 2 (n 3) est le fractile d'ordre 1

2 de la loi de Student (n 3) degrs de libert. Il faut
faire attention au degr de libert, il y a bien 3 paramtres estims dans la statistique tudie.
Exemple sur les donnes CONSO
Nous voulons mesurer les relations entre la consommation et la puissance, en contrlant l'eet de
la cylindre (la taille du moteur). Nous appliquons directement la formule ci-dessus (quation 3.11) en
utilisant les corrlations brutes calcules prcdemment (Tableau 3.2) :
0.8883 0.9088 0.9559

ry,puissance/cylindree = = 0.1600
1 0.90882 1 0.95592
Pour tester la nullit du coecient, nous formons la statistique
0.1600
t= = 0.7940
10.16002
273
Le t calcul est 0.7940, avec une p-value de 0.4350.
Au risque de 5% (et bien au-del), on ne constate pas de liaison signicative entre consommation (y)
et puissance, une fois retranche l'explication apporte par la cylindre.
Autre lecture : cylindre gale, la consommation ne varie pas avec la puissance.
3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1
Nous savons maintenant calculer la corrlation partielle d'ordre 1. Comment faire pour calculer les
corrlations partielles d'ordre suprieur ? c.--d. mesurer la liaison entre y et x en contrlant l'eet induit
par d'autres (z1 , z2 , . . .) variables.

Il existe une formule de passage qui permet de gnraliser la premire expression (quation 3.11).
Mais elle devient dicile manipuler mesure que le nombre de variables zj augmente, d'autant plus
qu'elle impose de calculer de proche en proche toutes les corrlations croises. Il est plus ais d'utiliser
une autre formulation de la corrlation partielle.
Pour calculer la corrlation partielle ry,x/z1 ,z2 , nous procdons par tapes :
1. nous enlevons de y toute l'information achemine par z1 et z2 en calculant le rsidu de la rgression
e1 = y (a0 + a1 z1 + a2 z2 )
2. nous procdons de mme pour la variable x
e2 = x (b0 + b1 z1 + b2 z2 )
3. la corrlation partielle peut tre obtenue par la corrlation brute entre les 2 rsidus
ry,x/z1 ,z2 = re1 ,e2
4. et nous pouvons tester la nullit du coecient en formant la statistique
r
t=
1r 2
n4
5. qui suit une loi de Student (n 4) degrs de libert.
De manire gnrale, lorsque nous avons k variables de contrle zj , pour tester :
H0 : y,x/z1 ,...,zk = 0
H1 : y,x/z1 ,...,zk = 0
Nous calculons la corrlation r entre les rsidus
e1 = y (a0 + a1 z1 + ak zk )
e2 = x (b0 + b1 z1 + bk zk )
Et la statistique du test s'crit

r
t=
1r 2
nk2
Elle suit une loi de Student (n k 2) degrs de libert.

Nous voulons calculer et tester la corrlation partielle ry,puissance/cylindree,poids . Nous procdons selon
les tapes ci-dessus :
1. former le rsidu e1 = y (1.3923 + 0.0045 poids + 0.0013 cylindree) ;

2. idem, former e2 = puissance (15.8347 + 0.0117 poids + 0.0444 cylindree)
3. calculer alors la corrlation r = re1 ,e2 = 0.0188 ;
4. la statistique du test t = 0.0188
10.01882
= 0.0903 ;
2722
5. et la p-value = 0.9288.
En conclusion, la liaison entre la consommation (y) et la puissance est nulle (au risque de 5%) ds
lors que l'on retranche l'eet induit par les variables poids et cylindre.
Il est intressant d'ailleurs de rcapituler le lien entre la consommation (y) et la puissance mesure
que l'on fait intervenir d'autres variables (Tableau 3.3).
Corrlation r t p-value
ry,puissance 0.8883 9.6711 0.0000
ry,puissance/cylindree 0.1600 0.7940 0.4350
ry,puissance/cylindree,poids 0.0188 0.0903 0.9288
Tableau 3.3. Corrlations partielles entre CONSO (Y) et PUISSANCE
3.4.4 Procdure de slection fonde sur la corrlation partielle
La notion de corrlation partielle s'accorde bien avec la slection de variables de type forward :
on veut mesurer la relation d'une variable candidate avec l'endogne sachant les valeurs prises par les
variables dj choisies ; ou encore, on veut mesurer l'information additionnelle apporte par une variable
supplmentaire dans l'explication des valeurs prises par l'endogne.
L'enchanement des oprations serait :
1. dtecter la variable exogne Xa la plus corrle (en valeur absolue) avec l'endogne, la slectionner
si la liaison est signicative ;
2. dtecter la seconde variable Xb exogne qui maximise la corrlation partielle ry,Xb /Xa , on l'introduit
dans le modle si elle est signicativement dirente de zro ;
3. l'tape q , il s'agit de calculer la corrlation partielle d'ordre q 1 pour slectionner ou pas la q -me
variable.
La rgle d'arrt est simplement une corrlation partielle non-signicative de la meilleure variable
une tape donne.

Fig. 3.8. Slection de variables fonde sur la corrlation partielle - Donnes CONSO
Applique sur les donnes CONSO, le modle choisi comporte les exognes poids et cylindre (Figure
3.8). Dtaillons ces rsultats :
1. A la premire tape, la variable la plus corrle avec l'endogne est poids avec r = 0.9447 et t2 =
F = 207.63. La liaison est trs signicative p value < 0.0001. Elle est donc intgre dans le modle
dont le coecient de dtermination serait R2 = 0.8925.
2. La variable la plus corrle avec l'endogne, conditionnellement poids, est cylindre avec ry,cylindree/poids =
0.5719 et t2 = F = 11.66. La liaison est signicative, p value = 0.0023. Nous slectionnons donc
cette seconde variable, le coecient de dtermination du modle y = a0 + a1 poids + a2 cylindree est
R2 = 0.9277.
3. La variable la plus corrle avec l'endogne, conditionnellement poids et cylindre, est prix avec
r = 0.1507 et t2 = F = 0.53. La liaison n'est plus signicative 5% puisque la p value = 0.4721.
Nous stoppons la procdure de slection.
4. Au nal, le modle dnitif comprend les variables poids et cylindre.
3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression
Les valeurs des t2 = F manipules dans le processus de slection bas sur la corrlation partielle
(Figure 3.8) ne sont pas sans rappeler celles de la rgression forward base sur le F -partiel (Tableau 3.1).
Ce n'est absolument pas fortuit.
En eet, dans un modle q variables explicatives, il y a une relation directe entre la corrlation
partielle d'ordre (q 1), ry,xq /x1 ,...,xq1 , et le t de Student du test de nullit du q -me coecient taq dans
une rgression q exognes (Bourbonnais, page 93) :

t2aq
2
ry,x = (3.12)
q /x1 ,...,xq1
t2aq + (n q 1)
Ainsi, tester la nullit du coecient de Xq dans la rgression q variables quivaut tester la nullit
du coecient de corrlation partielle d'ordre (q 1). Il est tout fait normal que l'on retrouve exactement
les mmes tests, avec les mmes degrs de libert, chaque tape du processus de slection.
De mme, nous comprenons mieux maintenant pourquoi nous faisions rfrence un F-partiel dans
le processus de slection forward bas sur le t de Student des coecients de rgression (Section 3.2.2).
3.5 Les rgressions partielles
3.5.1 Principe des rgression partielles
La rgression partielle permet d'valuer graphiquement l'apport d'une variable additionnelle dans une
rgression o (p 1) variables explicatives sont dj prsentes. La procdure permet de produire un
"nuage de points", le graphique des rgressions partielles, directement li la notion de corrlation
partielle. Il permet galement d'identier les observations atypiques et/ou inuentes de la rgression.
Pour xer les ides, mettons que l'on souhaite valuer l'inuence de Xp dans la rgression
Y = a0 + a1 X1 + + ap1 Xp1 + ap Xp +
Aprs estimation des paramtres aj , nous pouvons produire les rsidus de cette rgression.
Le graphique de la rgression partielle pour la variable Xp est construit de la manire suivante 14 :
1. Nous ralisons la rgression de Y sur les (p 1) explicatives
Y = b0 + b1 X1 + + bp1 Xp1 + Y
Avec les coecients estims, nous calculons les rsidus de la rgression Y .

2. Nous expliquons maintenant Xp l'aide toujours des (p 1) explicatives
Xp = c0 + c1 X1 + + cp1 Xp1 + Xp
Nous en dduisons les rsidus Xp .

3. Le graphique de la rgression partielle pour Xp est le nuage de points (Xp , Y ) c.--d. avec Xp en
abcisse et Y en ordonne.
4. Le coecient de corrlation linaire calcul sur les rsidus (Xp , Y ) nous fournit le coecient de
corrlation partielle entre Y et Xp . Cette approche est trs pratique pour calculer les corrlations
partielles d'ordre suprieur 1 (section 3.4.3).
14. http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/partregr.htm ; et, ouh l il y
a du copier-coller dans l'air, http://en.wikipedia.org/wiki/Partial_regression_plot

3.5 Les rgressions partielles 75
5. A partir de ce nuage de points, nous pouvons calculer la rgression
Y = d Xj + e + r
Et en tirer les rsidus r .
Le graphique des rsidus r cumule des proprits trs intressantes 15 :
1. Nous constatons que e = 0, c'est tout fait normal puisque les variables intervenant dans la rgression
sont centres c.--d. Y = X = 0.
p
2. Nous constatons surtout que d = ap . Nous retrouvons le coecient du modle complet incluant Xp .
3. Le rsidu r est identique au rsidu du modle complet c.--d. i,r = i , i = 1, . . . , n.
4. Les observations inuentes sont facilement identiables dans ce graphique.
5. Nous pouvons galement dtecter rapidement les autres situations pathologiques (ex. htroscdasti-
cit, groupes d'observations atypiques, non linarit...).
Dans le cadre de l'valuation inuence de la variable Xp dans la rgression, nous pouvons lire le
graphique sous l'angle suivant (Cornillon et Matzner-Lober 16 , page 96) :
1. Si le nuage de points ne prsente pas de "forme particulire", s'il est globalement horizontal (de
pente nulle), la variable Xp n'apporte pas d'information supplmentaire pertinente par rapport aux
variables dj prsentes.
2. Si les points forment une droite de pente non nulle, Xp inue linairement dans la rgression.
3. S'ils forment une courbe non linaire, il est judicieux de remplacer Xp par une de ses transformes
(ex. en appliquant le logarithme, en passant au carr, etc.).
Cette dernire ide n'est pas sans rappeler la notion de "rsidus partiels" dveloppe par ailleurs
(section 6.2.2). Mais, la dirence de celle-ci, qui est un outil ddi la dtection de la forme de
liaison la plus approprie entre Xp et Y en prsence des (p 1) autres explicatives, le nuage de points
des rgressions partielles, notamment parce que les valeurs de Xp n'apparaissent pas explicitement dans
le graphique, ne donne pas d'indications sur la fonction utiliser pour transformer Xp et linariser la
relation.Pour le traitement de la non-linarit, il est prfrable de passer par les rsidus
partiels.
3.5.2 Traitement des donnes CONSO
Nous souhaitons valuer la contribution de puissance (Xp ) dans l'explication de la consommation (Y ),

sachant que les variables cylindre et poids ont dj t slectionnes. Nous avons une srie de rgression
construire (Figure 3.9) :
15. http://en.wikipedia.org/wiki/Partial_regression_plot
16. Cornillon, P-A., Matzner-Lober, E., Rgression - Thorie et applications., Springer, 2007.

Fig. 3.9. Rgression partielle pour la variable puissance- Donnes CONSO
1. Nous rgressons la consommation sur cylindre et poids, nous obtenons
conso = 0.00450 poids + 0.00131 cylindree + 1.39228
Nous en dduisons la colonne des rsidus RES.Y (conso ).

2. Nous construisons la rgression pour puissance
puissance = 0.01167 poids + 0.04442 cylindree 15.83469
Nous construisons galement la colonne des rsidus RES.X (puissance ).

Nous pouvons former le graphique de la rgression partielle pour la variable puissance (Figure 3.10).
Sans s'avancer outre mesure, le nuage de points ne prsente pas une pente particulire. L'explication
additionnelle de la puissance sur la consommation par rapport la cylindre et le poids n'est pas d-
cisive. Notons cependant une certaine dissymtrie de la distribution sur l'axe des abcisses (puissance ).
Elle est en grande partie due un point atypique, la Hyundai Sonata 3000 qui est singulirement
peu puissante (107 ch) au regard de sa cylindre (2972 cm3 ). C'est aussi le cas, dans une moindre
mesure cependant, de la Toyota Previa Salon.
3. Nous calculons la rgression sur les rsidus
conso = 0.00121 puissance + 0.0000
Eectivement, la constante de la rgression est nulle. Quant la pente d = 0.00121, conformment au

graphique, elle est trs proche de 0, conrmant l'ide d'une faible inuence additionnelle de puissance
dans la rgression. Le coecient de dtermination est R2 = 0.00035.
Nous formons les rsidus r (RES.R).

3.6 Rgressions croises 77
4. Voyons maintenant ce qu'il en est de la rgression incluant toutes les explicatives, nous avons
conso = 0.00449 poids + 0.00126 cylindree + 0.00121 puissance + 1.41143
a) Premier rsultat qui saute aux yeux, nous constatons bien l'galit entre les coecients ap = d =
0.00121.
b) Autre rsultat important, en calculant les rsidus (RES) de cette rgression, nous retrouvons
exactement les valeurs de r (RES.R).
5. Enn, dernire information importante, en calculant la corrlation entre Y et puissance , nous retom-
bons eectivement sur la corrlation partielle obtenues par ailleurs (Tableau 3.3), soit
rconso ,puissance = rconso,puissance/cylindree,poids = 0.01884
Bien videmment, en passant cette corrlation au carr, nous retrouvons le coecient de dtermination
de la rgression de conso sur puissance : r2 = (0.01884)2 = 0.00035.
Fig. 3.10. Graphique de la rgression partielle pour la variable puissance- Donnes CONSO
3.6 Rgressions croises
3.6.1 Principe des rgressions croises
Nous avions mis en avant le critre VIF (variance ination factor - section 3.1.3) pour mesurer la
multicolinarit entre les exognes c.--d. la liaison de chaque Xj avec une combinaison linaire des
(p 1) autres explicatives. Dans son principe, le critre vj est bas sur le coecient de dtermination Rj2
de la rgression de Xj sur les autres. On parle de rgressions croises. Dans les faits, nous obtenons
directement la valeur de vj sur la diagonale de l'inverse de la matrice des corrlations C 1 .
Dans cette section, nous approfondissons cette ide. Nous montrons qu'il est possible de reconstituer
les rsultats des rgressions croises partir de la matrice C 1 .

Notons vkj les lments de la matrice C 1 , qui est de dimension (p p) ; vjj = vj est le VIF de la
variable Xj lue sur la diagonale de C 1 . Nous nous intressons la rgression
Xl = a0 + a1 X1 + + al1 Xl1 + al+1 Xl+1 + + ap Xp + l
Coecient de dtermination. Comme le VIF vl peut tre exprim en fonction du coecient de

dtermination Rl2 de cette rgression (quation 3.1), l'inverse est aussi vrai, soit :
1
Rl2 = 1 (3.13)
vl
Test de signicativit globale. Il y a (p 1) explicatives dans la rgression, les degrs de libert

doivent tre ajusts en consquence. Pour tester la signicativit globale de la rgression, nous formons
la statistique Fl
Rl2 /(p 1) Rl2 /(p 1)
Fl = = (3.14)
(1 Rl2 )/(n (p 1) 1) (1 Rl2 )/(n p)
Sous H0 , tous les coecients de la rgression sont nuls (hormis la constante), Fl suit une loi de Fisher
(p 1, n p) degrs de libert.
Estimation de la variance de l'erreur 2 . La variance de l'erreur de rgression, autre indicateur

l
de qualit de l'ajustement, est aussi dduite du VIF. Elle est corrige par la variance de la variable :
s2x s2x
(n 1) vl
l
(n 1) vl
l
2j = = (3.15)
n (p 1) 1 np
o s2xl est la variance estime de la variable Xl
1
n
s2xl = (xil xl )2
n 1 i=1
Coecients standardiss de la rgression. Dans un premier temps, nous produisons les coe-
cients standardiss de la rgression. Contrairement aux coecients usuels, ils permettent la comparaison
de l'impact des variables indpendantes sur la variable dpendante en les ramenant sur une chelle com-
mune. Leur obtention est immdiate partir de la matrice C 1
vkl
kl = (3.16)
vl
Coecients de la rgression. Les coecients de la rgression sont alors obtenus en les d-

normalisant des cart-types des variables, soit
sxl
akl = kl , k = 0 (3.17)
sxk

Pour la constante a0 , nous avons besoin des moyennes

a0l = xl akl xk (3.18)
k=l
Corrlations partielles. Dernier rsultats intressant, il est possible de produire les corrlations
partielles entre les variables, prises deux deux, partir de la matrice C 1 . Pour mesurer la liaison entre
les variables Xk et Xj en contrlant l'inuence des autres, nous calculons
vkj
rxk ,xj /X{xk ,xj } = (3.19)
vk vj
L'objectif est de mesurer la "vritable" relation entre les variables, en dehors de toute inuence. Un
dcalage ventuel (forte rduction en valeur absolue) entre les valeurs de rxk ,xj et rxk ,xj /X{xk ,xj } est
rvlateur du caractre articiel de la relation mesure l'aide de la corrlation brute que l'on peut lire
dans la matrice C .
3.6.2 Rgressions croises sur les donnes CONSO
Reprenons notre exemple CONSO pour xer les ides, nous avons la matrice des corrlations croises
C (Figure 3.1 - l'ordre des variables est PRIX, CYLINDREE, PUISSANCE, POIDS)

1 0.92 0.93 0.95

0.92 1 0.96 0.86

C=
0.93 0.96 1 0.85

0.95 0.86 0.85 1
Et son inverse C 1 (Figure 3.2)

19.79 1.45 7.51 11.09

1.45 12.87 9.80 1.36

C 1 =
7.51 9.80 14.89 2.86

2.86 1.36 2.86 10.23
Nous souhaitons retrouver les caractristiques de la rgression 17
P RIX = a0 + a2 CY LIN DREE + a3 P U ISSAN CE + a4 P OIDS
Nous connaissons le VIF de la variable PRIX, v1 = 19.79 lue dans la matrice C 1 . Nous en dduisons
le coecient de dtermination de la rgression
17. Nous avons dcal sciemment les indices pour respecter la position des variables parmi l'ensemble des expli-
catives.

1 1
R12 = 1 =1 = 0.9495
vj 19.79
Le coecient de dtermination est trs lev, la variable PRIX est fortement corrle avec une combi-
naison linaire des autres variables. On peut vrier la signicativit globale de la rgression en utilisant
le test F, avec
R12 /(p 1) 0.9495/(4 1)
F1 = = = 144.0716
(1 R12 )/(n p) (1 0.9495)/(27 4)
Sachant que la variance de PRIX est gal s2prix = 158812189.1, nous calculons l'cart-type de l'erreur
de la rgression v
u
u (n 1) s2x1
t v1 (27 1) 158812189.1
19.79
1 = = = 3011.7605
np 27 4
Pour obtenir les coecients standardiss de la rgression de PRIX, nous nous intressons la 1ere
colonne de la matrice C 1 , nous calculons
v21 1.45
21 = = = 0.0734
v11 19.79
v31 7.51
31 = = = 0.3796
v11 19.79
v41 11.09
41 = = = 0.5601
v11 19.79
Nous les "d-standardisons" en utilisant les carts-type estims s1 = 12602.07, s2 = 634.42, s3 = 32.79
et s4 = 314.21 ; soit :
s1 12602.07
a21 = 21 = 0.0734 = 1.4572
s2 634.42
s1 12602.07
a31 = 31 = 0.3796 = 145.9061
s3 32.79
s1 12602.07
a41 = 41 = 0.5601 = 22.4638
s4 314.21
A l'aide des moyennes des variables xj , nous pouvons produire la constante de la rgression

a01 = x1 ak1 xk
k=1
= 28260.56 (1.4572 1802.07 + 145.9061 78.15 + 22.4638 1193.15)
= 12570.3173
Toutes ces oprations sont rsums dans une feuille Excel (Figure 3.11). Bien videmment, avec la
mme dmarche nous pouvons produire les rgressions des autres exognes versus les (p 1) autres
variables.
Concernant les corrlations partielles, le logiciel LAZSTATS 18 nous les fournit directement 19 . Si, au
regard de la matrice C , les liaisons brutes sont fortes quelles que soient les variables, nous constatons
18. http://statpages.org/miller/openstat/LazStatsPage.htm
19. La rgression croise est galement programme dans la version 1.4.40 (et ultrieures) de TANAGRA -
http://tutoriels-data-mining.blogspot.com/2011/07/tanagra-version-1440.html.

Fig. 3.11. Rgressions croises - PRIX = f(CYLINDREE, PUISSANCE, POIDS)
par exemple que la relation entre prix et cylindre (rprix,cylindree = 0.92 - lue dans la matrice C ) est en
ralit inuence par puissance et poids (rprix,cylindree/puissance,poids = 0.091) (Figure 3.12). En eet,
partir de la matrice C 1 ,
v12 1.45
rprix,cylindree/puissance,poids = = = 0.091
v1 v2 19.79 12.87
En revanche, la liaison entre puissance et cylindre (0.96) reste forte mme aprs avoir retranch
l'inuence de prix et poids (0.708).
Fig. 3.12. Rgressions croises - Corrlations partielles
Vrication avec la rgression explicite. A titre de vrication, nous avons calcul explicitement
sur les donnes le modle PRIX = f(CYLINDREE, PUISSANCE, POIDS) l'aide du logiciel TANAGRA
(Figure 3.13). Nous constatons que les rsultats concordent en tous points (R2 , F , , aj ) avec les valeurs
issues du post-traitement de la matrice C 1 (Figure 3.11).

Fig. 3.13. Rgressions croises - Rgression explicite : Prix vs. les autres variables
3.7 Conclusion
La colinarit devient un problme ds lors que l'on veut lire et interprter les rsultats de la rgression.
La slection de variables compte parmi les solutions possibles. Nanmoins, il ne faut surtout pas prendre
au pied de la lettre les sous-ensembles de variables fournis par les algorithmes de slection. tudier de
prs les rsultats intermdiaires en compagnie d'un expert du domaine (ex. un mdecin, un conomiste,
etc.) est indispensable pour bien apprhender les interdpendances en jeu et reprer les alas qui peuvent
altrer les rsultats.

4
Rgression sur des exognes qualitatives
La rgression telle que nous l'tudions met en relation des variables exclusivement continues. Si on
veut introduire des variables qualitatives nominales, la stratgie consistant procder au simple recodage
des variables incrimines, le codage 0/1 dit codage disjonctif complet est certainement la plus connue.
Mais il faut vrier la validit des hypothses probabilistes et structurelles lies la technique des MCO.
Il faut galement savoir interprter les rsultats.
Si c'est l'endogne qui est qualitative, on parle de rgression logistique. Les hypothses lies aux
erreurs de la MCO ne sont plus respectes. Nous entrons dans un cadre qui dpasse notre propos, nous
ne l'aborderons pas dans ce chapitre. Pour les lecteurs intresss par le sujet, je conseille la lecture du
document accessible en ligne "Pratique de la Rgression Logistique - Rgression Logistique Binaire et
Polytomique" (http://eric.univ-lyon2.fr/~ricco/cours/ouvrages.html).
Si ce sont les exognes qui sont qualitatives, nous pouvons procder au codage, mais encore faut-il :
1. dnir le type de codage utiliser ;
2. donner un sens aux rsultats et comprendre les coecients fournis par la rgression.
Le cas des exognes qualitatives nous fait mettre un pied dans le vaste domaine de la comparaison
de populations. La technique paramtrique privilgie dans ce cadre est l'analyse de variance (ANOVA).
Nous prsentons trs brivement un cas particulier de cette technique 1 .
4.1 Analyse de variance 1 facteur et transposition la rgression
L'analyse de variance (ANOVA) un facteur est une gnralisation de la comparaison de moyennes

dans K populations. Pour xer les ides, travaillons sur un jeu de donnes.
1. La prsentation adopte ici s'appuie en grande partie sur l'excellent document en ligne de D. Mouchiroud,
http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf. Le chapitre 9 fait partie d'un docu-
ment plus gnral "Probabilit et Statistique", http://spiral.univ-lyon1.fr/mathsv/

84 4 Rgression sur des exognes qualitatives
4.1.1 Un exemple introductif
Le chier LOYER (Figure 4.1) dcrit le montant du loyer au m2 de 15 habitations situes dans
direntes zones de la ville. On distingue 3 types de lieu d'habitation : banlieue, campagne et centre.
Fig. 4.1. Loyer au m2 selon le lieu d'habitation - Fichier LOYER
On veut rpondre la question : le loyer au m2 est-il signicativement dirent d'une zone l'autre ?
4.1.2 ANOVA 1 facteur
Test d'hypothses
Le problme que nous dcrivons est une comparaison de moyennes de K populations. On peut dcrire
le test d'hypothses de la manire suivante
H0 : 1 = 2 = = K =
H1 : une des moyennes au moins dire des autres
o k est la moyenne de la variable d'intrt Y pour la population k .
Une manire simple de visualiser les dirences est d'acher les botes moustaches de la variable
Y selon le groupe d'appartenance (Figure 4.2). Plus les boxplot seront dcals, plus forte sera la di-
renciation. Autre information trs importante que nous communique ce graphique, nous pouvons nous
faire une ide de la dispersion des valeurs dans chaque groupe. Nous verrons plus loin la porte de cette
information.
Remarque 20 (Facteurs xes et facteurs alatoires). On parle de facteurs xes lorsque tous les groupes
sont reprsents dans le chier de donnes, de facteurs alatoires lorsque seulement un chantillon des
groupes sont prsents. Dans le cas de l'ANOVA 1 facteur, cette distinction n'a aucune consquence sur
les calculs.

4.1 Analyse de variance 1 facteur et transposition la rgression 85
Fig. 4.2. Botes moustaches des loyers selon le lieu d'habitation - Fichier LOYER
Statistique du test
L'quation de dcomposition de la variance permet de construire la statistique du test. Elle s'crit
SCT = SCE + SCR

K
nk
K
K
nk
(yi,k y)2 = nk (yk y)2 + (yi,k yk )2
k=1 i=1 k=1 k=1 i=1
o yi,k reprsente la valeur de Y pour l'individu i du groupe k ; y est la moyenne globale de Y ; yk est
la moyenne conditionnelle c.--d. la moyenne de Y dans le groupe k .
Cette dcomposition se lit comme suit :
SCT est la somme des carrs des carts totaux, elle indique la variabilit totale de Y ;
SCE est la somme des carrs des carts inter-groupes, expliqus par l'appartenance aux groupes ;
SCR est la somme des carrs des carts intra-groupes, rsiduels l'intrieur des groupes.
La somme SCT est constante. Par consquent, une valeur de SCE leve indique que l'appartenance
aux groupes dtermine fortement la valeur de la variable d'intrt. A l'extrme, lorsque SCE = SCT ,
connatre le groupe d'appartenance d'un individu permet de connatre coup sr la valeur de Y associe.
Nous construisons le tableau d'analyse de variance partir de ces informations
Sources de variation Degrs de libert (ddl) Somme des carrs (SC) Carrs moyens (CM)
Expliqus (inter) K 1 SCE CM E = SCE
K1
Rsiduels (intra) nK SCR CM R = SCR
nK
Totaux n1 SCT -
Sous H0 , la statistique F = CM E
CM R suit une loi de Fisher (K 1, n K) degrs de libert.

La rgion critique du test s'crit
R.C. : F > F1 (K 1, n K)
o F1 (K 1, n K) est le quantile d'ordre (1 ) de la loi de Fisher.
Conditions d'applications
L'ANOVA 1 facteur est un test paramtrique. Elle est assortie d'un certain nombre de conditions
pour tre rellement oprationnelle : les observations doivent tre indpendantes, notamment les K chan-
tillons compars doivent tre indpendants ; la variable d'intrt doit suivre une loi normale ; la variance
de Y dans les groupes doit tre homogne (homoscdasticit).
Notons 2 points importants : l'ANOVA 1 facteur est assez robuste ; ces conditions, et c'est ce qui
nous intresse ici, ne sont pas sans rappeler certaines hypothses de la rgression linaire multiple. Nous
y reviendrons plus loin.
Application aux donnes LOYER
Fig. 4.3. Tableau de calcul de l'ANOVA 1 facteur - Donnes LOYER
Nous appliquons ces calculs sur les donnes LOYER (Figure 4.3), voici les tapes :
1. Recenser les eectifs nk et les moyennes yk conditionnelles ;

2. Calculer la moyenne globale y = 6.88 ;
3. Former SCT = 15.02400 et SCE = 5(6.72 6.8)2 + 3(5.27 6.88)2 + 7(7.69 6.88)2 = 12.48076 ;
4. En dduire SCR = 15.024 12.48076 = 2.54324 ;
12.48076/2
5. Calculer la statistique du test F = 2.54324/12 = 29.44458 ;
6. Obtenir enn la p-value l'aide de la loi de Fisher (2, 12) degrs de libert, p.value = 0.00002.
Au risque de 5%, l'hypothse d'galit des moyennes est rejete. Le lieu d'habitation a une inuence
sur le montant du loyer.

4.2 Inadquation du codage disjonctif complet 87
Remarque 21 (Analyse des contrastes). On complte gnralement l'ANOVA avec l'analyse des contrastes.
Elle vise dterminer quelle est la moyenne qui dire le plus des autres, ou encore quelles sont les couples
(triplets, etc.) de moyennes qui s'opposent le plus. Nous garderons l'esprit cette ide car elle nous aidera
mieux comprendre les rsultats de la rgression applique aux exognes qualitatives.
Analogie avec la rgression
Quel est le rapport avec la rgression ? On comprend mieux l'objet de ce chapitre si l'on reformule le
test de comparaison de moyennes. Les valeurs prises par la variable d'intrt peut s'crire sous la forme
suivante :
yi,k = + k + i,k
o k est l'eet du facteur k , i,k N (0, ).
Il s'agit, ni plus ni moins, d'une droite de rgression que l'on peut rsoudre avec la MCO. Il sut de
coder convenablement la variable exogne qualitative. L'hypothse nulle de l'ANOVA devient
H0 : 1 = 2 = = K = 0
qui s'apparente au test de signicativit globale d'une rgression linaire multiple.
Il nous faut donc dnir une transformation approprie de la variable exogne qualitative pour que la
rgression puisse rsoudre un problme d'ANOVA. Le codage est d'autant plus important qu'il conditionne
l'interprtation des coecients de l'quation de rgression. C'est ce que nous allons voir maintenant.
4.2 Inadquation du codage disjonctif complet
4.2.1 Codage disjonctif complet
La mthode la plus simple/connue pour transformer une variable qualitative X K modalits en une
variable numrique est le codage disjonctif complet. A chaque modalit k de X , on associe une variable
indicatrice 2 Zk telle que
1 si X = k
i
Zi,k =
0 sinon
Sur l'exemple LOYER, nous aurions 3 indicatrices Zk dnies partir des correspondances suivantes
Lieu Zbanlieue Zcampagne Zcentreville

Banlieue 1 0 0
Campagne 0 1 0
Centre 0 0 1
2. Dummy variable en anglais.

Fig. 4.4. Codage disjonctif complet de la variable habitation
Nous disposons d'un nouveau tableau de donnes (Figure 4.4), et nous crivons naturellement la
rgression comme suit
loyer = a0 + a1 Zbanlieue + a2 Zcampagne + a3 Zcentreville +
Pourtant, eectuer cette rgression provoquerait immdiatement une erreur en raison d'un problme
agrant de colinarit. En eet, pour tout individu i
Zi,banlieue + Zi,campagne + Zi,centreville = 1
La matrice (Z Z) n'est pas inversible car la premire colonne de Z est compose de la valeur 1, et la
somme des 3 colonnes suivantes est aussi gale 1.
4.2.2 Rgression sans constante et lecture des coecients
Pour viter cet cueil, une solution serait de dnir une rgression sans constante. L'quation devient
loyer = a1 Zbanlieue + a2 Zcampagne + a3 Zcentreville +
Fig. 4.5. Rgression sans constante - Donnes LOYER
Nous lanons les MCO pour obtenir les coecients (Figure 4.5).

4.2 Inadquation du codage disjonctif complet 89
Lecture de coecients
Penchons nous sur les coecients. Nous ne sommes pas sans noter une certaine similitude avec les
valeurs des moyennes conditionnelles prsentes dans le tableau de l'ANOVA 1 facteur (Figure 4.3).
Nous observons que a1 = ybanlieue , a2 = ycampagne et a3 = ycentre .
Remarque 22 (Moyenne conditionnelle). Pour rappel, nous pouvons dnir la moyenne conditionnelle yk
de la manire suivante, selon qu'on utilise ou non la variable recode
1
yk = yi
nk i:zi,k =1
1
= yi
nk
i:xi =k
Dans la rgression sans constante mettant en jeu des exognes codes 0/1 partir d'une
variable qualitative, les coecients s'interprtent comme des moyennes conditionnelles de
la variable endogne.
Dcomposition de la variance
La dcomposition de la variance en revanche est incorrecte. Si la SCR = 2.54324 est calcule correc-
tement par DROITEREG, la SCE = 722.49676 est fausse (cf. celle fournie par l'ANOVA un facteur,
gure 4.3, o SCE = 12.48076). Tout simplement parce que dans la rgression sans constante, l'quation
d'analyse de variance dcomposant la variabilit totale en variabilit explique et rsiduelle n'est plus
Nous ne pouvons donc pas dduire des rsultats de la rgression (sans constante) la
licite.
solution du test de comparaison des K moyennes conditionnelles.
4.2.3 Vers des solutions plus gnrales
Malgr son intrt, cette technique n'est pas gnralisable, notamment parce qu'il n'est pas possible
d'introduire plusieurs ( 2) variables qualitatives recodes dans la rgression. Nous devons nous tourner
vers d'autres solutions qui peuvent s'appliquer dans un cadre plus large.
Pour contourner le problme de la colinarit, une solution simple serait tout simplement d'omettre
la dernire modalit dans le codage. Pour une variable qualitative K modalits, nous produisons ainsi
(K 1) variables indicatrices. Reste savoir comment introduire dans ces nouvelles variables l'information
sur la dernire modalit. Ce point est loin d'tre anodin, il dnit le mode de lecture des coecients de
la rgression lorsqu'on introduit les variables exognes recodes dans l'analyse.

4.3 Codage "Cornered eect" de l'exogne qualitative
4.3.1 Principe
On part du constat que la dernire modalit K peut tre dduite des autres dans le codage disjonctif
complet
Zi,K = 1 (Zi,1 + Zi,2 + + Zi,K1 )
On omet tout simplement la variable ZK dans la rgression. On sait que
Xi = K Zi,1 = Zi,2 = = Zi,K1 = 0
Lorsque X prend la modalit K , toutes les indicatrices Z1 , . . . , ZK1 prennent la valeur zro. Ainsi,
nous avons le tableau de correspondance suivant pour les donnes LOYER avec 2 indicatrices Zk :
Lieu Zbanlieue Zcampagne

Banlieue 1 0
Campagne 0 1
Centre 0 0
L'quation de rgression estime l'aide des MCO pour les donnes LOYER en omettant la variable
Zcentre devient
loyer = a0 + a1 Zbanlieue + a2 Zcampagne (4.1)
Reste interprter les coecients de la rgression.
Remarque 23 (Choix de la modalit de rfrence). Le choix de la modalit de rfrence K est trs impor-
tant. Il faut qu'elle soit bien circonscrite pour que les interprtations aient une certaine consistance. Par
exemple, prendre la modalit "autres" comme rfrence n'est pas une bonne ide parce qu'on ne sait pas
trs bien souvent ce qu'elle recouvre. De fait, la direnciation avec les autres groupes est mal dnie.
Prenons le cas des symptmes grippaux, il y a 4 cas possibles : pas de symptmes, toux grasse, toux
sche, autres symptmes. Pour l'interprtation, il semble judicieux de prendre comme rfrence l'absence
de symptmes. En ce qui concerne les eectifs, il est souhaitable que le groupe de rfrence comporte
susamment d'observations pour que l'estimation de la moyenne conditionnelle associe soit prcise.
4.3.2 Lecture des rsultats
Voyons quelques cas particuliers pour mieux apprhender la situation :
Si l'habitation i est en centre-ville, nous savons que Zi ,banlieue = Zi ,campagne = 0. Par consquent
yi = a0 , le loyer prdit est a0 .
Si l'habitation i est en banlieue, nous savons que Zi ,banlieue = 1, les autres indicatrices sont gales
0. Nous en dduisons la valeur prdite du loyer yi = a0 + a1 .

4.3 Codage "Cornered eect" de l'exogne qualitative 91
En gnralisant, nous observons les relations suivantes :
a0 = ycentre
a1 = ybanlieue ycentre
a2 = ycampagne ycentre
Cela nous emmne tirer plusieurs conclusions :
1. Les coecients de la rgression s'interprtent comme une moyenne conditionnelle de l'endogne (la
constante) ou comme des carts cette moyenne (les autres coecients).
2. On parle de cornered eect car la constante reprsente la moyenne conditionnelle de l'endogne pour
les observations portant la modalit exclue. Elle nous sert de moyenne de rfrence. L'appellation
dummy coding est galement utilise pour qualier ce type de codage.
3. Le test de signicativit globale de la rgression correspond exactement une ANOVA 1 facteur
c.--d. tester l'galit globale des moyennes conditionnelles.
4. Pour le cas particulier de (K = 2) groupes, nous avons une rgression simple avec seul indicatrice. Le
test de signicativit globale est quivalent au test de signicativit de la pente ([18], section 3.6.1),
il correspond un test de comparaison de moyennes de 2 sous-populations ([18], section 13.3).
5. Nous pouvons mme aller plus loin, les tests de signicativit des coecients ak (k 1) s'apparentent
un test de comparaison de la moyenne conditionnelle k avec la moyenne de rfrence K . "S'ap-
parente" car, d'une part, l'estimation de l'cart-type n'est pas la mme, la statistique rduite n'est
donc pas exactement la mme ; d'autre part, il y a des disparits entre les degrs de libert. Nous y
reviendrons en dtail ci-dessous.
6. De mme, la comparaison des coecients des indicatrices s'apparente une comparaison de moyennes
entre 2 groupes quelconques.
4.3.3 Application aux donnes LOYER
Fig. 4.6. Rgression avec donnes codes "cornered eect" - Donnes LOYER

Nous eectuons la rgression sur notre chier de donnes cod selon la technique "cornered eect"
(Figure 4.6). Il y a bien p = 2 variables exognes. Nous obtenons les rsultats de l'quation de rgression
(Equation 4.1), nous en dduisons les moyennes conditionnelles :
a0 = ycentre = 7.69 ;
a1 = 0.97 ybanlieue = 7.69 + (0.97) = 6.72 ;
a2 = 2.42 ycampagne = 7.69 + (2.42) = 5.27
Pour tester la signicativit globale de la rgression, nous exploitons les sorties du tableur EXCEL :
Indicateur Valeur
SCE 12.48076
SCR 2.54324
ddl1 = p 2
ddl2 = n p 1 12
12.48076/2
F 2.54324/12 = 29.44458
p-value 0.00002
Ces rsultats - la dcomposition de la variance (SCT = SCE + SCR) et les degrs de libert - corres-
pondent exactement ceux de l'ANOVA 1 facteur (Figure 4.3). Les deux approches sont quivalentes.
4.4 Comparaisons entres groupes
4.4.1 Comparaisons avec le groupe de rfrence
Principe du test
Les coecients des indicatrices se lisent comme des carts la moyenne de rfrence (la moyenne de
Y pour le groupe de rfrence). De fait, le test

H : =
0 j K
H1 : j = K
Peut s'crire sous la forme d'un test de signicativit des paramtres de la rgression

H : a = 0
0 j
H1 : aj = 0
La statistique de test s'crit

aj
taj = (4.2)
aj
Elle suit une loi de Student ddl = (n p 1) degrs de libert sous H0 . N'oublions pas que dans
notre conguration, p = K 1, ainsi ddl = n K . Le test est bilatral.

4.4 Comparaisons entres groupes 93
Application aux donnes CONSO
Nous souhaitons comparer les moyennes des loyers en banlieue et en centre-ville. Nous disposons de
toutes les informations ncessaires via DROITEREG (Figure 4.6) :
abanlieue = 0.9657
abanlieue = 0.2696
0.97
tabanlieue = = 3.5825
0.27
ddl = 15 3 = 12
p value = 0.0038
Au risque = 5%, nous rejetons l'hypothse nulle. Le loyer moyen en banlieue est dirent de celui
du centre-ville.
quivalence avec le test usuel de comparaison de moyennes
Nous avions vu plus haut que le test de signicativit globale de la rgression tait compltement
quivalente une ANOVA un facteur. Est-ce que ce rsultat est transposable la comparaison d'un
groupe avec la rfrence ?
Le test de comparaison de moyennes, avec une hypothse d'galit des variances dans les groupes, est
bas sur l'indicateur
D = yj yK
Nous constatons immdiatement que D = aj . La dirence se joue sur l'estimation de la variance. En

eet, ( )
2 2 1 1
D =s +
nj nK
Avec
(nj 1)s2j + (nk 1)s2K
s2 =
nj + nK 2
s2k tant l'estimateur sans biais de la variance pour le groupe k .
Sous H0 , la statistique tD = t
D suit une loi de Student (nj + nK 2) degrs de libert.
Si l'estimation de l'cart est la mme (aj = D), il n'y aucune raison en revanche que les estimations
des variances concident. Les degrs de libert sont dirents. Numriquement, les rgions critiques ne
seront pas identiques.
Notons un lment trs important, les autres groupes n'interviennent pas dans cette criture de la
comparaison directe. Alors que dans la rgression, ils psent dans le calcul de la variance de la statistique
de test et dans la dnition des degrs de libert.

Fig. 4.7. Comparaison des moyennes - Loyers en banlieue et en centre-ville
Nous comparons directement les moyennes des loyers pour le centre-ville et la banlieue, l'exclusion
des autres groupes (campagne). Les calculs sont rsums dans une feuille Excel (Figure 4.7) :
1. Avec l'outil "Tableaux croiss dynamiques", nous obtenons
Habitation nk s2k yk
banlieue 5 0.1220 6.7200
centre 7 0.3014 7.6857
2. Nous en dduisons D = 6.7200 7.6857 = 0.9657, ce qui correspond exactement au coecient de

l'indicatrice "banlieue" obtenue dans la rgression.
3. Concernant la variance de D, nous calculons successivement
(5 1) 0.1220 + (7 1) 0.3014
s2 = = 0.2297
5+72
( )
1 1
2
D = 0.2297 + = 0.0787
5 7
4. Nous formons le rapport
D 0.9657 0.9657
tD = = = = 3.4415
D 0.0787 0.2806
5. Avec un loi T (5 + 7 2) T (10), nous avons une probabilit critique de 0.0063.
6. Au risque 5%, tout comme avec la rgression, nous rejetons l'hypothse d'galit des moyennes.
Les conclusions sont identiques, certes. Mais que cela ne masque pas les disparits au niveau de la
variance de la statistique de test et des degrs de libert.

Une autre estimation de la variance commune dans la comparaison de moyennes
La divergence entre les deux procdures tient essentiellement une estimation dirente de la variance
commune de Y dans les groupes. Dans cette section, on montre que l'on peut retrouver les rsultats de
la rgression avec la comparaison de moyennes en utilisant la variance intra-classes de l'ANOVA, prenant
en compte tous les groupes.
Reprenons la procdure de comparaison de deux moyennes. La statistique D = yj yK ne change

pas, elle est en relation directe avec les moyennes confronter.
En revanche, nous utilisons une autre estimation de la variance commune, la variance intra-classes
vue dans l'ANOVA (section 4.1), c.--d.
K
2 SCR k=1 (nk 1) s2k
s = =
nK nK
SCRest la somme des carrs des carts la moyenne intra-groupes. Elle correspond
galement la somme des carrs rsiduels de la rgression. Les degrs de libert deviennent
(n K) dans ce contexte.
La variance de la statistique de test est obtenu avec

( )
2 2 1 1
D = s +
nj nK
Et au nal, nous avons

D
tD =
D
Qui, sous H0 suit une loi de Student (n K) degrs de libert.
Application sur les donnes LOYER
Comparons de nouveau la moyenne des loyers en banlieue et en centre-ville. Nous avons dj D =

0.9657. Pour la variance intra-classes, nous reprenons les rsultats de l'ANOVA (Figure 4.3),
SCR 2.54324
s2 = = = 0.2119
nK 12
Puis, nous calculons ( ) ( )
2 2 1 1 1 1
D = s + = 0.2119 + = 0.0727
nj nK 5 7
Enn,
D 0.9657 0.9657
tD = = = = 3.5825
D 0.0727 0.2696
Exactement la mme valeur que la statistique tabanlieue , le degrs de libert tant galement identiques.

Le test issu de la rgression et le test de comparaison directe des moyennes sont dont quivalents si,
et seulement si, nous prenons la variance empirique intra-classes intgrant tous les groupes pour estimer
la variance Y2 de Y dans la seconde procdure 3 .
4.4.2 Comparaisons entre deux groupes quelconques
Construction du test
Toujours partir des rsultats de la rgression, nous pouvons laborer le test de comparaison de
moyennes de Y pour deux groupes l et j quelconques. Il s'crit

H : =
0 l j
H1 : l = j
Comment transposer cela la rgression ? Nous savons que
al = l K
aj = j K
On montre trs facilement que le test de comparaison de moyennes est quivalent au test de compa-
raison de coecients
H : a = a
0 l j
H1 : al = aj
Pour mettre en application ce test, nous formons la statistique E , avec
E = al aj (4.3)
Jusque l, c'est plutt facile. La vraie gageure est de calculer correctement la variance de E . Elle est
dnie comme suit
2
V (E) = E = V (al ) + V (aj ) 2 COV (al , aj ) (4.4)
Nous introduisons une nouvelle notion : la covariance entre les coecients estims. En eet, puisque
les variables (les indicatrices) ne sont pas indpendantes, la covariance entre les coecients n'est pas
nulle. Elle est lue dans la matrice de variance covariance des coecients qui est estime avec
1
a = 2 (Z Z)
O 2 est l'estimation de la variance de l'erreur ; Z est la matrice des indicatrices avec, la premire
colonne, le vecteur des valeurs 1 pour matrialiser la constante ([18], section 9.6.2). Rappelons que l'on
retrouve sur la diagonale principale de la matrice a les variances estimes des coecients.
3. J'adore ce type de conguration. Un mme et seul problme trait avec deux prismes a priori trs dirents
- comparaison de moyennes d'un ct, la rgression de l'autre - et, au nal, nous obtenons un rsultat numrique
identique. C'est bon a. Comme quoi, il doit y avoir une certaine forme de vrit derrire toutes ces techniques.

Sous H0 ,
E
tE =
E
suit une loi de Student (n K) degrs de libert. Le test est bilatral. La rgion critique correspond
aux valeurs extrmes de tE .
Remarque 24 (Test de contraintes linaire sur les coecients). La comparaison des coecients de la
rgression peut s'inscrire dans un cadre plus gnral, les tests de contraintes linaires. Nous dcrivons en
dtail l'approche dans notre premier support ([18], section 11.3). Ainsi, nous pouvons comparer plusieurs
( 2) moyennes, ou encore tester des formes linaires plus gnrales (ex. 1 = 2 2 + 7 3 , etc.). Notre
champ d'investigation est considrablement largi.
Application aux donnes CONSO
Nous souhaitons comparer la moyenne des loyers en banlieue et en campagne (Figure 4.8) :
Fig. 4.8. Comparaison des moyennes via la rgression - Loyers en banlieue et la campagne
A partir des coecients estims via la fonction DROITEREG, nous pouvons calculer E ,
E = abanlieue acampagne = 0.9657 (2.4190) = 1.45333
Plusieurs tapes sont ncessaires pour aboutir l'estimation de la variance de E . D'abord, il faut
disposer de la matrice Z , compose des indicatrices et de la colonne de 1 (en fond jaune dans la
gure 4.8).
Nous calculons ensuite la matrice (Z Z) que nous inversons. Nous avons (Z Z)1 .

Enn, nous la pr-multiplions par l'estimation de la variance de l'erreur fournie par DROITE-
REG 2 = (0.4604)2 = 0.21194 pour obtenir l'estimation de la matrice de variance covariance des
coecients estims

0.14286 0.14286 0.14286 0.03028 0.03028 0.03028

a = (0.4604)2
0.14286 0.34286 0.14286
= 0.03028 0.07266 0.03028

0.14286 0.14286 0.47619 0.03028 0.03028 0.10092
Nous piochons dans cette matrice les valeurs ncessaires l'estimation de la variance de E ,
2
E \(acampagne , abanlieue )
= V (acampagne ) + V (abanlieue ) 2 COV
= 0.10092 + 0.07266 2 0.03028
= 0.11303
Il nous reste former

1.45333 1.45333
tE = = = 4.32278
0.11303 0.33620
Avec la loi T (12), nous avons la probabilit critique p.value = 0.00099.
Au risque 5%, nous rejetons l'hypothse nulle d'galit des loyers moyens en banlieue et la cam-
pagne.
quivalence avec la comparaison de moyennes
Curieux comme nous sommes, voyons ce qu'il en est si nous passons par la comparaison directe des
moyennes, toujours en utilisant la variance intra-classe s2 = 0.2119 de l'ANOVA comme estimation de la
variance de Y .
Nous calculons l'cart entre les moyennes
D = ybanlieue ycampagne = 6.72000 5.26667 = 1.45333
Nous obtenons sa variance avec

( ) ( )
2 1 1 1 1
D = s2 + = 0.2119 + = 0.11303
nbanlieue ncampagne 5 3
Reste former le rapport,

1.45333
tD = = 4.32278 = tE
0.11303
Encore une fois, nous constatons que le test bas sur les rsultats de la rgression et celui bas sur
une comparaison directe des moyennes, pour peu que l'on utilise l'estimation s2 de la variance de Y , sont
totalement quivalents.

4.5 Rgression avec plusieurs explicatives qualitatives 99
4.5 Rgression avec plusieurs explicatives qualitatives
Approfondissons l'analyse en ajoutant d'autres variables qualitatives explicatives. Plusieurs questions

se posent alors : comme lire les paramtres estims, en eet les variables ne sont pas indpendantes, nous
avons des coecients partiels maintenant ([18], section 13.1.2) ; comment tester l'inuence d'une explica-
tive qualitative, reprsente par plusieurs variables indicatrices, dans la rgression ; comment prendre en
compte l'eet conjoint - l'interaction - des explicatives sur l'endogne.
Nous utilisons un nouveau chier pour illustrer notre propos. Il s'agit de la base Auto Pollution Filter
Noise du serveur DASL 4 . On cherche expliquer le niveau de pollution sonore de vhicules (NOISE, en
dcibels) partir de la taille (SIZE, 3 valeurs possibles) et du type de silencieux (TYPE, 2 valeurs). Nous
avons choisi d'ignorer la variable SIDE prsente dans la base, elle indiquait le ct du vhicule partir
duquel la mesure a t eectue.
Fig. 4.9. Donnes NOISE - Valeurs et moyennes conditionnelles
4. http://lib.stat.cmu.edu/DASL/Datafiles/airpullutionfiltersdat.html

Premire tape pour xer les ides, nous calculons les moyennes de la variable d'intrt conditionnel-
lement aux valeurs de SIZE et TYPE (Figure 4.9). Dans ce qui suit, nous noterons kl les esprances
conditionnelles et ykl les moyennes empiriques ; k. (resp. .l ) est la moyenne de Y conditionnellement
aux seules valeurs de la premire explicative (resp. la seconde explicative) ; .. = est la moyenne globale
de Y . Dans notre exemple, nous lisons :
Moyennes T1 T2 TYPE
S1 y11 = 825.8333 y12 = 822.5000 y1. = 824.1667
S2 y21 = 845.8333 y22 = 821.6667 y2. = 833.7500
S3 y31 = 775.0000 y32 = 770.0000 y3. = 772.5000
SIZE y.1 = 815.5556 y.2 = 804.7222 y.. = y = 810.1389
La moyenne du bruit chez les voitures (SIZE = S1), quel que soit le type de silencieux utilis, est
y1. = 824.1667 ; elle est de y21 = 845.8333 chez les vhicules (SIZE = S2) et (TYPE = T1) ; etc.
Manifestement, il y a des dirences entre les moyennes conditionnelles. Notre objectif consiste
valuer jusqu' quel point et selon que processus ces carts sont signicatifs. Les connaisseurs auront
reconnu un problme d'analyse de variance (ANOVA) 2 facteurs.
Nous avons donc un double objectif en ralisant les rgressions sur indicatrices :
1. Voir dans quelle mesure la rgression peut rpondre la problmatique de l'analyse de variance c.--
d. valuer l'impact des exognes sur la variable d'intrt Y , en faisant la part entre les explicatives.
Mieux mme, est-ce qu'il est possible de retrouver les rsultats numriques de l'ANOVA ?
2. Montrer de quelle manire et quelles conditions nous pouvons retrouver le tableau des moyennes
conditionnelles ci-dessus partir des coecients de la rgression.
4.5.1 Rgression sur les indicatrices
A l'aide du logiciel R, nous avons men une analyse de variance sans prise en compte de l'interaction
entre les deux explicatives (Figure 4.10). Ce faisant, nous mettons l'hypothse que l'inuence de TYPE
(resp. SIZE) sur le bruit des vhicules (NOISE) ne dpend pas de (est la mme quelle que soit) la valeur
prise par SIZE (resp. TYPE).
Nous constatons que les deux variables impactent signicativement sur le bruit au risque 5%.
Ces rsultats nous serviront de rfrence dans cette section.
Eet global des explicatives
Nous crons les indicatrices adquates pour les variables SIZE et TYPE. Dans les deux cas, nous
prenons la premire modalit comme rfrence. Nous avons donc 3 nouvelles colonnes : S1, S2 et T 2.
Nous ralisons la rgression sur ces indicatrices

Fig. 4.10. Donnes NOISE - ANOVA sans interaction entre SIZE et TYPE
N OISE = a1 T 2 + a2 S3 + a3 S2 + a0
En introduisant les indicatrices de cette manire, nous considrons que les variables n'interagissent
pas dans la dnition de NOISE.
Fig. 4.11. Donnes NOISE - Rgression sur indicatrices, sans prise en compte des interactions

DROITEREG nous fournit tous les lments ncessaires l'analyse (Figure 4.11) :
La rgression est de bonne qualit avec R2 = 0.90739. Elle est globalement signicative avec un
F = 104.51138 et une probabilit critique trs faible < 0.00001.
La variabilit rsiduelle, non explique par la rgression (SCR = 2766.66667) est identique celle
de l'ANOVA sans interaction (Figure 4.10), avec les mmes degrs de libert ddl = 36 3 1 = 32.
Par consquent, la partie explique est cohrente galement SCE = 27107.63889, la dirence
que la fonction AOV de R dcompose directement la portion dvolue SIZE (SCEsize = 26051.4)
et TYPE (SCEtype = 1056.2).
Premire conclusion, notre apprhension du problme est tout fait conforme avec une analyse de
variance 2 facteurs sans prise en compte des interactions. A vrai dire, ce n'est pas trop une surprise. En
lisant la documentation de R, on se rend compte qu'AOV procde par rgressions dans les sous-groupes
"(AOV) Fit an analysis of variance model by a call to lm for each stratum " ; lm() tant la fonction
dvolue la rgression.
Dcomposition de l'eet des variables
Deuxime tape, il faut discerner ce qui revient SIZE et TYPE, comme le fait l'analyse de variance
(Figure 4.10).
Cas des variables binaires
Si la variable n'est reprsente que par une indicatrice, on peut passer directement par le test de signi-
cativit du coecient associ. C'est le cas justement de la variable TYPE. Via la fonction DROITEREG
(Figure 4.11), nous avons a1 = 10.83333 et a1 = 3.09943. Nous formons la statistique de test
10.83333
ta1 = = 3.49526
3.09943
Avec un loi de Student 32 degrs de libert, nous avons une probabilit critique de 0.001411.
O est l'analogie avec l'analyse de variance sans interaction ?
On sait que qu'il y a une relation directe entre la loi de Student et la loi de Fisher, T (ddl) F(1, ddl).
Dans notre exemple, on constate aisment que
(ta1 )2 = (3.49526)2 = 12.217
Correspond exactement au carr moyen associ la variable TYPE dans l'ANOVA sans interaction
(Figure 4.10). En conclusion : au risque 5%, taille gale des vhicules, on considre que le type de
silencieux inue sur leur niveau sonore.
La rgression nous fournit une information supplmentaire, le silencieux de type T2 permet de rduire
le niveau sonore puisque que a1 = 10.83333 est de signe ngatif.

Cas des variables plus de 2 modalits
Quand la variable est reprsente par (q 2) indicatrices, il faut tester la signicativit simultane
des coecients associs. Dans le cas de la variable SIZE, il s'agit de tester
H0 : a2 = a3 = 0
H1 : un des deux au moins est non nul
La manire la plus simple de procder est de raliser deux rgressions : la premire avec l'ensemble
des p indicatrices, nous obtenons un coecient de dtermination R12 ; la seconde sans les q indicatrices
incrimines, nous avons R02 . La statistique de test s'crit alors ([18], section 10.4)
(R12 R02 )/q
F = (4.5)
(1 R12 )/(n p 1)
Sous H0 , elle suit une loi de Fisher (q, n p 1) degrs de libert.
Pour les donnes NOISE, nous disposons dj de R12 = 0.90739 via la rgression sur toutes les indica-
trices (Figure 4.11). Reste raliser la rgression sans les indicatrices de SIZE (Figure 4.12), nous avons
R02 = 0.03536. Nous formons la statistique destine valuer la signicativit de SIZE :
(R12 R02 )/q (0.90739 0.03536)/2
Fsize = = = 150.659
(1 R1 )/(n p 1)
2 (1 0.90739)/(36 3 1)
Fig. 4.12. Donnes NOISE - Tester la signicativit de SIZE (2 indicatrices)
Au risque 5%, en contrlant l'eet de TYPE, on conclut que la taille (SIZE) des vhicules inue sur
le niveau sonore puisque la p-value est (largement) infrieure au seuil. Nous retrouvons exactement les
valeurs (F, degrs de libert, p-value) fournies par l'ANOVA sans interaction (Figure 4.10).
TYPE seul n'est pas signicatif, TYPE en contrlant SIZE le devient ? ? ?
Notons un rsultat important qui va nous clairer lors de la lecture des coecients que nous aborderons
plus bas. La rgression o TYPE intervient seul ( travers l'indicatrice T2, gure 4.12) n'est pas signi-

cative (F = 1.24618, la p-value est 0.2721). En nous rfrant au tableau des moyennes conditionnelles
(Figure 4.9), l'cart de 10.83333 (y.1 y.2 = 815.5556 804.7222) n'est pas concluant.
Pourtant dans la rgression incluant les deux variables (Figure 4.11), TYPE devient signicative
travers son coecient (ta1 = 3.49526, avec une p-value = 0.001411).
D'o vient cette contradiction ?
L'analyse est modie par la variable SIZE. En eet, en compilant les carts entre les deux colonnes
pour chaque ligne du tableau des moyennes conditionnelles (Figure 4.9) (c.--d. y11 y12 = 825.8333
822.5000 = 3.3333, y21 y22 = 845.8333821.6667 = 24.1667 et y31 y32 = 775.0000770.0000 = 5.0000),
L'hypothse sous-jacente est
on aboutit un indicateur d'cart "moyen" qui devient signicatif.
que TYPE (resp. SIZE) pse de la mme manire sur NOISE, quelle que soit la valeur
de SIZE (resp. TYPE). Ce qui n'est pas tout fait vrai si l'on se rfre au tableau des moyennes
conditionnelles. Nous constatons que cette hypothse simplicatrice n'est pas sans rpercussions sur la
lecture des coecients.
Interprtation des coecients
La constante a0 = 829.58333 devrait correspondre la moyenne du groupe de rfrence, savoir

(SIZE = S1) et (TYPE = T1), les modalits dont les indicatrices ont t exclues. Or y11 = 825.8333 dans
le tableau des moyennes (Figure 4.9). Cette distorsion est la consquence de l'hypothse selon laquelle
l'impact de l'une des explicatives ne dpend pas de la valeur prise par l'autre.
Pour nous en convaincre, nous avons construit le tableau des moyennes conditionnelles reconstitues
(ykl ) partir des rsultats de la rgression (Figure 4.11). Les calculs sont facilits par le fait que nous
avons des eectifs totalement quilibrs c.--d. nkl = 6, k, l.
Pour rappel, a0 = 829.58 est la constante, a1 = 10.83 le coecient de T 2, a2 = 51.67 celui de S3

et a3 = 9.58 celui de S2.
Moyennes T1 T2 Total
S1 y11 = a0 = 829.58 y12 = a0 + a1 = 818.75 y1. = 829.58+818.75
2
= 824.17
S2 y21 = a0 + a3 = 839.17 y22 = a0 + a1 + a3 = 828.33 y2. = 839.17+828.33
2
= 833.75
S3 y31 = a0 + a2 = 777.92 y32 = a0 + a2 + a1 = 767.08 y3. = 777.92+767.08
2
= 772.50
Total y.1 = 829.58+839.17+777.92
3
= 815.56 y.2 = 818.75+828.33+767.08
3
= 804.72 y.. = y = 810.14
Nous rcapitulons les rsultats en confrontant les moyennes calcules et les moyennes reconstitues
(Figure 4.13) :
Une premire information trs importante saute aux yeux : les moyennes marginales sont parfaite-
ment reconstitues, tant pour SIZE (yk. = yk. , k) que pour TYPE (y.l = y.l , l).
Il en est de mme en ce que concerne la moyenne globale y.. = y.. = 810.14
Les divergences apparaissent lorsque nous calculons les moyennes conditionnelles.

Fig. 4.13. Donnes NOISE - Moyennes reconstitues, rgression sans interaction
Preuve que nous ne tenons pas compte des interactions dans la rgressions, nous constatons que les
carts sont constants entre les deux colonnes T 1 et T 2 (colonne carts) quelle que soit la valeur de
SIZE (S1, S2 ou S3) c.--d. (yk1 yk2 ) = 10.83, k .
Pour SIZE, la dmonstration est un peu plus dicile. Il faut calculer la sommes des carrs des carts

(variabilit explique) de SIZE selon les valeurs de TYPE, nous avons SCEl = k 6 (ykl y.l )2 =
13025.69, l.
Ces deux rsultats sont en contradiction avec ceux obtenus via le tableau des moyennes calcules
directement partir des donnes, moyennes qui tiennent compte des interactions entre SIZE et
TYPE. Les carts ne sont pas constants d'une ligne l'autre, les SCE ne sont pas les mmes d'une
colonne l'autre.
4.5.2 Prise en compte des interactions
De nouveau avec R, nous avons ralis une ANOVA en prenant en compte les interactions entre SIZE
nous considrons que l'eet de TYPE (resp.
et TYPE cette fois-ci (Figure 4.14). Maintenant,
SIZE) sur le bruit peut dpendre de la valeur prise par SIZE (resp. TYPE).
Voyons de quelle manire nous pouvons retrouver ces rsultats l'aide de la rgression.
Fig. 4.14. Donnes NOISE - ANOVA avec interaction entre SIZE et TYPE
4.5.3 Ajout de nouvelles indicatrices
Prendre en compte l'interaction signie que l'impact de TYPE (resp. SIZE) dpend de la valeur prise
par SIZE (resp. TYPE). Pour ce faire, nous ajoutons de nouvelles variables explicatives dans la rgression,

elles sont formes partir du produit des indicatrices. Concrtement, nous travaillons maintenant sur le
modle :
N OISE = b1 S3 T 2 + b2 S2 T 2 + b3 T 2 + b4 S3 + b5 S2 + b0
La variable S3 T 2 (resp. S2 T 2) est aussi une indicatrice. Elle prend la valeur 1 si et seulement si
les indicatrices S3 et T 2 (resp. S2 et T 2) prennent simultanment la valeur 1. Elle est gale zro dans
tous les autres cas.
Voyons deux exemples pour bien situer le rle des coecients. Par rapport la rfrence (S1, T 1)
avec un niveau de bruit moyen b0 :
un vhicule (S3, T 1) prsente un niveau de bruit (b0 + b4 ) ;

un vhicule (S3, T 2) prsente un niveau de bruit (b0 + b4 + b3 + b1 ).
Nous verrons plus loin que notre modle tant satur, c.--d. tous les eets possibles sont pris en compte
dans la rgression, il sera possible de reconstituer l'identique le tableau des moyennes conditionnelles
partir des coecients du modle.
Fig. 4.15. Donnes NOISE - Rgression sur indicatrices, avec prise en compte des interactions
Pour l'heure, lanons la fonction DROITEREG pour obtenir les estimations (Figure 4.15) :
La rgression est de trs bonne qualit avec un R2 = 0.93431.

Elle est globalement signicative 5% avec une p-value < 0.00001.

Par rapport l'ANOVA avec interaction (Figure 4.14), nous constatons que la variabilit rsiduelle,
non explique par le modle, est la mme : SCR = 1962.50, avec les mmes degrs de libert
ddl = 30. Notre spcication de la rgression semble donc convenir.
4.5.4 Tester la signicativit de l'interaction
L'tape suivante consiste vrier la pertinence de l'introduction du terme d'interaction dans notre
analyse (toujours 5%). L'ANOVA l'arme avec Fsize:type = 6.1465 et une p-value de 0.0057915 (Figure
4.14). Voyons si la rgression fournit les mmes rsultats.
Fig. 4.16. Donnes NOISE - Tester l'interaction entre SIZE et TYPE
Pour tester la pertinence de l'interaction, nous devons tester la signicativit simultane des coe-
cients de (S3 T 2) et (S2 T 2) (Figure 4.16). Nous appliquons une dmarche analogue celle prsente
prcdemment pour tester la nullit des coecients de plusieurs indicatrices ( 2) associes une variable
qualitative (page 103) :
La rgression sur toutes les variables, y compris les (q = 2) termes d'interaction (S3 T 2, S2 T 2),
prsente un coecient de dtermination R12 = 0.93431.
La rgression sans les termes d'interaction propose un R02 = 0.90739.
R12 est forcment suprieur R02 puisque que nous avons des variables additionnelles, mais l'est-il
signicativement ? Pour le savoir, nous utilisons la statistique
(R12 R02 )/q (0.93431 0.90739)/2

Fsize:type = = = 6.1465
(1 R12 )/(n p 1) (1 0.93431)/(36 5 1)
Avec une distribution de Fisher F(2, 30), nous obtenons une p-value de 0.0057915. Les termes
d'interaction sont justis dans la rgression.
Et par la mme occasion, nous constatons que nous avons reproduit l'identique les rsultats de
l'ANOVA avec interaction (Figure 4.14). Nous sommes contents.

4.5.5 Interprtation des coecients
Dernire tape de notre exploration, voyons de quelle manire nous pouvons obtenir les "vraies"
moyennes conditionnelles partir de la rgression. Cela est possible maintenant parce que nous prenons
en compte tous les eets des exognes sur l'endogne. On dit que le modle est satur.
Pour viter les renvois rpts vers d'autres pages, rcapitulons les coecients estims de la rgression :
Variable S3*T2 S2*T2 T2 S3 S2 Constante

Coecient b1 b2 b3 b4 b5 b0
- -1.67 -20.83 -3.33 -50.83 20.00 825.83
Premire vrication immdiate, la constante b0 = 825.83 correspond bien la moyenne conditionnelle

de Y pour la combinaison des modalits exclues (S1, T 1). C'est plutt rassurant. Reste reconstituer les
autres moyennes conditionnelles partir de l'association de ces coecients. Notons la logique d'obtention
des moyennes partir des bj .
Enn, nous gardons toujours l'esprit que les eectifs sont totalement quilibrs, nkl = 6, k, l ; cela
explique les formules simplies utilises pour le calcul des moyennes marginales.
ykl T1 T2 TYPE
S1 y11 = b0 = 825.83 y12 = b0 + b3 = 822.50 y1. = 825.83+822.50
2 = 824.17
S2 y21 = b0 + b5 = 845.83 y22 = b0 + b5 + b3 + b2 = 821.67 y2. = 845.83+821.67
2 = 833.75
S3 y31 = b0 + b4 = 775.00 y32 = b0 + b4 + b3 + b1 = 770.00 y3. = 775.00+770.00
2 = 772.50
SIZE y.1 = 825.83+845.83+775.00
3 = 815.56 y.2 = 822.50+821.67+770.00
3 = 804.72 y.. = y = 810.14
Le tableau des moyennes conditionnelles est parfaitement reconstitu !
4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives
Nous avons dtaill l'interprtation des coecients dans le cas d'un mlange d'explicatives qualita-
tives et quantitatives dans notre support consacr la rgression ([18], section 13.3). Nous y essayions
d'expliquer le niveau de salaire partir du genre (homme vs. femme) et du nombre d'annes d'tudes.
Nous suivrons la mme dmarche dans cette section. Nous la complterons avec l'tude de l'interaction
entre ces variables. Nous utiliserons cependant un autre exemple pour varier les plaisirs. Avec les donnes
CARBURANT, nous essayons d'expliquer la consommation des vhicules 5 (CONSO, en litres par 100
km) en fonction du type de carburant [CARBURANT : gazole (0) ou essence (1)] et la cylindre (en
cm3 ). Le chier reprsente un chantillon de n = 32 observations extrait de la base Automobile Data
Set" 6 accessible sur le serveur UCI Machine Learning Repository.
5. C'est vrai qu'il adore les voitures le monsieur, j'ai du tre garagiste dans une autre vie.
6. http://archive.ics.uci.edu/ml/datasets/Automobile, les units ont t converties.

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives 109
4.6.1 Interprtation des coecients
Rgression avec la variable CARBURANT seule
Dans un premier temps, nous tentons d'expliquer la consommation uniquement l'aide du carburant
utilis. Le modle s'crit
CON SO = a1 CARBU RAN T + a0
CARBURANT tant binaire, nous savons que a0 est la moyenne de la consommation des vhicules
fonctionnant au gazole ; a1 reprsente alors l'cart entre cette moyenne et celle des vhicules essence.
Fig. 4.17. Donnes CARBURANT - Rgressions sans prise en compte de l'interaction
Voyons ce que nous fournit DROITEREG (Figure 4.17) :
Le modle n'explique que R2 = 42.8% de la variance de l'endogne.

Mais il est globalement signicatif 5% avec un F = 22.428 et une p-value de 4.90725 105 .
La pente de la droite, qui reprsente l'cart entre les moyennes conditionnelles de consommation
des vhicules essence et diesel, est signicative galement (ta1 = 4.73585, avec une p-value de

4.90725 105 ). Ce rsultats n'est pas tonnant. Tester le modle dans sa globalit et tester la
pente sont quivalents dans la rgression simple.
Nous pouvons donc dire que les vhicules essence consomment signicativement plus que les
diesels. L'cart est estim a1 = 2.49316 litres au 100 km.
Pour obtenir les consommations moyennes conditionnelles, nous formons :
ygazole = a0 = 8.98
yessence = a0 + a1 = 8.98 + 2.49316 = 11.47316
Rgression avec CARBURANT et CYLINDRE
Nous souhaitons approfondir l'analyse en introduisant la variable CYLINDRE. Le modle s'crit

maintenant :
CON SO = b1 CY LIN DREE + b2 CARBU RAN T + b0
L'estimation l'aide de DROITREG fournit de nouveaux rsultats (Figure 4.17) :

La rgression est de meilleure qualit avec un R2 = 0.92838, elle est globalement signicative bien
videmment (F = 187.962, p-value = 2.49945 107 ).
Les deux variables CYLINDRE et CARBURANT sont largement signicatives 5%.
La constante b0 = 1.74761 n'est pas trs intressante. Elle correspondrait la consommation
moyenne des vhicules de cylindre nulle fonctionnant au gazole.
En revanche, le coecient de CARBURANT, b2 = 3.47220, revt une signication trs intressante.
A cylindre gale, les essences consomment 3.47220 litres au 100km de plus que les gazoles. L'ide
est que cet cart reste constant quelle que soit la cylindre des vhicules.
De mme le coecient de CARBURANT b1 = 0.00296 propose une lecture trs instructive :
type de carburant gal, l'augmentation de la cylindre d'1 cm3 entrane une augmentation de la
consommation de 0.00296 litres au 100 km. On considre ainsi que la variation est identique
chez les essences et les gazoles.
Ces deux hypothses sous-jacentes la rgression sans interactions introduisent une lecture intres-
sante des coecients. Il permettent d'analyser l'impact de chaque explicative en contrlant l'eet des
autres variables. Mais elles en limitent la porte galement. Nous n'explorons pas la conguration selon
laquelle l'eet de l'une dpend des valeurs prises par l'autre. C'est prcisment l'objet de l'introduction
des termes d'interaction.
4.6.2 Prise en compte des interactions
Pour prendre en compte l'interaction, nous introduisons une nouvelle variable forme par le produit
de l'indicatrice et de l'explicative quantitative. Si la variable qualitative comporte plus de deux modalits,
il faudra former le produit de chaque indicatrice avec la variable quantitative. Dans notre exemple, le
modle devient :

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives 111
CON SO = c1 CARB CY L + c2 CY LIN DREE + c3 CARBU RAN T + c0
Fig. 4.18. Donnes CARBURANT - Rgressions avec prise en compte de l'interaction
Les valeurs prises par les termes d'interactions sont trs particulires (Figure 4.18). Elle sont gales
la variable quantitative lorsqu'elle correspond l'indicatrice concerne, 0 dans tous les autres cas. C'est
comme si les donnes ont t morceles et, pour chaque morceau, nous analysons de manire (plus ou
moins) spare l'impact de l'exogne quantitative. Nous approfondirons cette ide lorsque nous ferons le
parallle entre la rgression avec interaction et la comparaison de rgressions spares.
Pour l'heure, voyons les rsultats de notre rgression (Figure 4.18) :

Le coecient de dtermination est trs lgrement amlior (R2 = 0.92876).
Attention, le coecient de CARBURANT c3 = 3.10093 correspond au dcalage de consommation
lorsque les vhicules sont de cylindre nulle. Dans le cas prsent, sa lecture n'est pas trs intressante.
Parce qu'il y a interaction, le dcalage du niveau de consommation selon le carburant dpend de la
valeur de la cylindre. Par exemple, pour les vhicules de 1500 cm3 , l'cart est de (0.000162 0
1500 + 0.002872 1500 + 3.10093 0 + 1.95224) (0.000162 1 1500 + 0.002872 1500 + 3.10093
1 + 1.95224) = 3.34452 ; il devient 3.42572 si la cylindre passe 2000 cm3 .

Le coecient de CYLINDREE (c2 = 0.002872) correspond l'augmentation de la consommation

conscutive un accroissement de 1 cm3 de la cylindre du moteur pour les vhicules gazole.
Si nous souhaitons obtenir la mme information pour les vhicules essence, il faut former c2 + c1 =
0.002872 + 0.000162 = 0.003034.
Pour savoir si ce direntiel de comportement entre les essences et les gazoles est bien rel, il faut
alors tester la signicativit de c1 . Dans notre exemple, on se rend compte qu'il ne l'est pas avec
tc1 = 0.38516 et une p-value de 0.70303. Les donnes ne contredisent pas l'hypothse (H0 : c1 = 0),
on peut considrer que le surcrot de consommation conscutif une augmentation de cylindre est
le mme chez les gazoles et les essences.
Nous pouvons nous contenter de la rgression sans interaction dans l'explication de la consommation
partir du type de carburant et de la cylindre.
Remarque 25 (Explicative qualitative plus de 2 modalits). Dans le cas o l'explicative qualitative est
exprime par plusieurs indicatrices, il faudrait tester la nullit simultane des coecients associs tous
les termes d'interactions.
4.6.3 Lien avec la comparaison de rgressions
La rgression avec un mix d'exognes qualitatives et quantitatives a de fortes connexions avec la

comparaison de rgressions ([18], chapitre 8) et l'analyse des ruptures de structures (chapitre 5). Le
rapprochement est facilit par le fait que nous n'avons que deux exognes dans notre exemple illustratif,
l'une qualitative et l'autre quantitative. Nous pouvons reprsenter graphiquement les deux rgressions
(Figure 4.19) :
Fig. 4.19. Donnes CARBURANT - Rgressions spares indpendantes - Prise en compte de l'interaction

4.7 Slection de variables en prsence d'exognes qualitatives 113
Nous avons autant de rgressions que de modalits de l'explicative qualitative. Ici, nous avons 2
modles, l'un pour les vhicules fonctionnant au gazole avec agazole CY LIN DREE + bgazole ,
Mgazole : CON SO = 0.002872 CY LIN DREE + 1.952237
L'autre pour ceux roulant l'essence, aessence CY LIN DREE + bessence

Messence : CON SO = 0.003034 CY LIN DREE + 5.053162
Le deux rgressions ont quasiment la mme pente, c'est le signe de l'absence d'interactions. Dans
le cas contraire, l'cart entre les rgressions ne serait pas constant, les droites pourraient mme se
croiser.
Par rapport aux coecients cj de la rgression avec prise en compte des interactions (Figure 4.18),
voyons les relations :
1. La constante de Mgazole concide avec la constante de la rgression, soit bgazole = c0 = 1.952237.
Son interprtation est purement thorique, elle correspondrait la consommation des vhicules
gazole de cylindre nulle.
2. La pente de Mgazole est identique au coecient de CYLINDREE agazole = c2 = 0.002872. Le
mcanisme est relativement simple, lorsque CARBURANT = GAZOLE, CARBURANT vaut
0, le terme d'interaction CARB CY L galement. De fait, le coecient c2 revient mesurer
l'impact de la cylindre uniquement chez les vhicules roulant au gazole.
3. Passons la rgression chez les vhicules essence Messence . La constante mesure la consom-
mation pour les vhicules de cylindre nulle, le dcalage entre les deux constantes corres-
pond au coecient de CARBURANT dans la rgression avec interaction : bessence bgazole =
5.053162 1.9552237 = 3.10093 = c3 .
4. Concernant la pente, nous l'avions dj mis en exergue prcdemment, nous constatons que
aessence = c2 + c1 = 0.002872 + 0.000162 = 0.003034.
5. Le terme d'interaction permet de situer la concomitance entre les pentes. Si le coecient as-
dans la rgression sans terme
soci est nul, l'cart entre les droites serait stable. De fait,
d'interaction, nous les obligeons explicitement tre parallles. Les rgressions s-
pares seraient contraintes par cette exigence (Figure 4.20 ; les coecients sont comparer
avec ceux de la rgression sans interaction CON SO = 0.00296 CY LIN DREE + 3.47220
CARBU RAN T + 1.74761, gure 4.17).
Bien videmment, la lecture est moins facile lorsque l'explicative qualitative possde plusieurs (> 2)
modalits ou lorsque nous avons plusieurs explicatives quantitatives. Mais fondamentalement, les mca-
nismes sous-jacents sont identiques.
4.7 Slection de variables en prsence d'exognes qualitatives

L'introduction d'exognes qualitatives reprsentes par plusieurs indicatrices pose une question cl
dans la slection de variables : doit-on traiter ces indicatrices en bloc ou individuellement ?

Fig. 4.20. Rgressions spares avec contrainte d'galit des pentes - Non prise en compte de l'interaction
4.7.1 Traitement group des indicatrices
Fig. 4.21. Donnes CARDIO - Expliquer le risque de maladie cardio-vasculaire

La premire approche consiste traiter en bloc les indicatrices relatives une exogne tout simplement
parce que nous sommes dans un schma de slection de variables. On cherche identier celles qui sont
pertinentes pour expliquer l'endogne. Dissocier les indicatrices d'une exogne qualitative ne parat pas
judicieux car l'interprtation des coecients qui en dcoulerait devient hasardeux (apparemment, nous
reviendrons sur cet aspect dans la section suivante).
Prenons un schma backward pour xer les ides (section 3.2.2). Pour rappel, il s'agit d'une procdure
de retrait pas--pas des variables jusqu' ce qu'elles soient toutes signicatives un risque qui constitue
le paramtre de l'algorithme. A chaque tape, on retire la variable la moins signicative c.--d. dont la
p-value est la plus leve, et suprieure bien videmment, puis on relance la rgression.
Pour les variables quantitatives, la dcision est base sur le t de Student du test de signicativit
([18], section 10.3). Pour les variables qualitatives, on se base sur le F de Fisher de nullit simultane des
coecients associes aux indicatrices ([18], section 10.4).
Nous utilisons le chier "CARDIO" pour illustrer la procdure (Figure 4.21, n = 35 observations).
On souhaite expliquer le risque de maladie cardio-vasculaire. Il s'agit d'une note comprise entre 0 et 5
attribue par des experts la suite de la lecture du dossier mdical de patients, plus la note est leve,
plus le risque de maladie est lev. Les variables explicatives candidates sont : le sexe, code 0 (femme) / 1
(homme) ; l'indice de masse corporelle (IMC, voir http://fr.wikipedia.org/wiki/Indice_de_masse_
corporelle) ; le comportement par rapport au tabac (FUMER), avec 4 valeurs possibles ("jamais",
"ancien", "occasionnel", "rgulier"). Cette dernire a t recode en 3 indicatrices, la modalit "jamais"
servant de rfrence.
Nous ralisons tous les tests = 10% dans tout ce qui suit.
La rgression avec la totalit des variables fournit une rgression qui n'est pas globalement signicative
(F = 1.4502, p-value = 0.236412) et un R2 = 0.200021. Du ct des explicatives, l'IMC et l'indicatrice
(FUMER = REGULIER) sont signicatives (Figure 4.22). Ce dernier rsultat n'a pas trop de sens pour
nous puisque nous voulons traiter la variable FUMER comme un tout. Nous calculons donc le F-partiel
et la p-value associe pour chaque exogne. Pour les variables individuelles (quantitatives ou binaires), il
s'agit tout simplement du carr du t de Student. Pour FUMER, il s'agit de confronter le coecient de
dtermination de la rgression comprenant toutes les variables avec celui de la rgression avec les seules
variables IMC et SEXE (Figure 4.23, R2 = 0.075983).
Nous formons le tableau de F-partiels.
Variable F ddl1 ddl2 p-value

SEXE 2
F = (0.702823) = 0.493960 1 29 0.48777
IMC 2
F = (1.810742) = 3.278787 1 29 0.080553
(0.2000210.075983)/3
FUMER F = (10.200021)/29 = 1.498832 3 29 0.235665
Ce sont les rsultats que l'on obtiendrait avec la PROC GLM de SAS par exemple (Figure 4.24).

Fig. 4.22. Donnes CARDIO - Rgression avec SEXE, IMC, et toutes les indicatrices de FUMER
Fig. 4.23. Donnes CARDIO - Rgression avec SEXE et IMC
La variable la moins intressante est SEXE, elle n'est pas signicative 10%. Nous la retirons. Nous
relanons la rgression avec IMC et toutes les indicatrices de FUMER (Figure 4.25). Nous obtenons
R2 = 0.186395. De nouveau, il nous faut calculer les F-partiels. Pour cela nous avons besoin de la
rgression avec IMC seule (Figure 4.26, R2 = 0.063405).

Fig. 4.24. Donnes CARDIO - PROC GLM de SAS avec SEXE, IMC, et FUMER
Fig. 4.25. Donnes CARDIO - Rgression avec IMC et toutes les indicatrices de FUMER
Variable F ddl1 ddl2 p-value

IMC 2
F = (1.837727) = 3.377241 1 29 0.076025
(0.1863950.063405)/3
FUMER F = (10.186395)/30 = 1.511667 3 29 0.231622

Fig. 4.26. Donnes CARDIO - Rgression avec IMC
La variable la moins intressante est FUMER, que nous retirons puisque la p-value est plus grande
que 10%. Reste donc que la variable IMC qui est limine aussi nalement puisque, seule, elle n'est pas
signicative au risque = 10% (Figure 4.26).
Finalement, il n'est pas possible d'expliquer le risque cardio-vasculaire avec les variables initialement
disponibles.
4.7.2 Traitement individuel des indicatrices
Dans ce section, nous renouvelons le processus de slection backward. Mais en ignorant sciemment
que les indicatrices F _AN CIEN , F _OCCAS et F _REGU LIER sont relatives la mme variable
FUMER. Cela peut paratre trange parce qu'on omet (perd ?) de l'information ainsi. Mais en analysant
attentivement les sorties du logiciel, on se rend compte que l'on obtient des rsultats qui ne sont pas
inintressants.
Nous avons utilis la procdure BACKWARD ELIMINATION REG de TANAGRA, toujours avec un
seuil = 10%. Dtaillons les informations fournies par le logiciel (Figure 4.27) :
Nous avons un R2 = 0.184447 et, surtout, le R2 ajust qui tient compte des degrs de libert, atteint
ici sa valeur la plus leve avec R2 = 0.133475. Nous avons l le modle le plus avantageux - compte
tenu du nombre d'explicatives utilises - parmi toutes les tentatives eectues jusqu' prsent.
Le modle est maintenant globalement signicatif 10% avec F = 3.6186 et une p-value de
0.0038303.
Penchons-nous sur le processus de slection Backward Elimination Process. Initialement le coecient
de dtermination ajust de la rgression avec la totalit des explicatives est de R2 = 0.062.

Fig. 4.27. Donnes CARDIO - Rgression backward, indicatrices traites individuellement
1. La premire variable limine a t l'indicatrice F _OCCAS , avec une p-value de 0.8856. Le R2

ajust de la rgression qui en rsulte est de R2 = 0.093.
2. La seconde est F _AN CIEN , R2 passe 0.118.
3. La troisime est SEXE, R2 passe 0.133.
4. Les deux variables restantes, IMC (p-value = 0.0619) et F _REGU LIER (p-value = 0.0368)
sont signicatives 10%. Le processus est stopp.
Les caractristiques de la rgression avec les deux variables retenues sont aches dans la partie
haute de la fentre (Figure 4.27).
Comment expliquer ce rsultat ? En s'accordant la possibilit de traiter individuellement les indi-

catrices, on s'ore une libert supplmentaire dans le processus exploratoire. La contrainte de traitement

en bloc des indicatrices de variables qualitatives ne pse plus. Nous avons accs des combinaisons plus
nes des variables explicatives. Clairement, la solution propose ici est introuvable si nous traitons les
indicatrices de FUMER en bloc. Par ailleurs, je me suis rendu compte qu' la sortie, nous obtenons
souvent des modles plus performants en prdiction (si on se base sur le critre du PRESS par exemple,
section 3.2.1).
Comment interprter les coecients ? Si les performances sont bonnes, qu'en est-il de l'inter-
prtation ? Est-ce que les rsultats ont un sens ? Le noeud du problme est ici. La lecture du coecient
de IMC, explicative quantitative, n'est pas modie. Quand l'IMC augmente d'une unit, le risque est
augment de 0.077550. Concernant le comportement tabagique, les modalits de rfrence deviennent
maintenant ("jamais", "ancien" et "occasionnel"). Les indicatrices exclues dsignent les modalits
de rfrence. C'est lorsque l'on est un fumeur rgulier qu'il y a un surcrot de risque de maladie. Ici,
nous lisons : fumer rgulirement, par rapport aux 3 autres types comportements (qui sont mis dans le
mme panier), entrane un risque de maladie accru de 0.883481.
Quelques commentaires. Le traitement individuel des indicatrices d'une explicative catgorielle

n'est pas trs usuel. Les praticiens, essentiellement pour des questions d'interprtations, prfrent le
traitement en bloc. Pourtant, nous le constatons sur notre exemple, en se donnant la possibilit de traiter
individuellement les indicatrices, nous avons accs des solutions (des modles) plus performantes. La
seule contrainte est qu'il nous faut reconsidrer les modalits de rfrences pour les variables catgorielles
dont les indicatrices auraient t dissocies. L'interprtation est modie. Elle est peut tre aussi un peu
plus subtile.
4.8 Autres stratgies de codage d'une exogne qualitative nominale

4.8.1 Le codage "centered eect" d'une exogne qualitative nominale
Principe
Nous comprenons que le type de codage dnit l'interprtation des coecients. Nous proposons dans
cette section une autre approche. Certes nous crons toujours (K 1) variables en excluant la K -me
modalit, mais nous attribuons des valeurs direntes. Pour la variable Zj correspondant la modalit j
de X (j = 1, . . . , K 1) :

1 si Xi = j

Zi,j = 1 si Xi = K

0 sinon
La modalit K (centre-ville ) sert toujours de rfrence. Mais, cette fois-ci, nous signalons explicitement
sa prsence pour l'individu i en attribuant la valeur 1 toutes les variables recodes Zj . Voici le tableau
de correspondance

4.8 Autres stratgies de codage d'une exogne qualitative nominale 121

Banlieue 1 0
Campagne 0 1
Centre -1 -1
Nous estimons les coecients de la rgression :
loyer = b0 + b1 Zbanlieue + b2 Zcampagne + (4.6)
Comment lire ces coecients ?
Lecture des rsultats
Voyons nouveau quelques cas particuliers :
Si l'habitation i est en centre-ville, nous savons que Zi ,banlieue = Zi ,campagne = 1. Par cons-
quent, le loyer prdit est yi = b0 (b1 + b2 ).
Si l'habitation i est en banlieue, nous savons que Zi ,banlieue = 1, les autres indicatrices sont gales
0. Nous en dduisons la valeur prdite du loyer yi = b0 + b1 .
En gnralisant, nous observons les relations suivantes :
ybanlieue = b0 + b1 b1 = ybanlieue b0 ;
ycampagne = b0 + b2 b2 = ycampagne b0
ycentre = b0 (b1 + b2 )
Cela nous emmne tirer plusieurs conclusions :
La constante de la rgression s'interprte maintenant comme une valeur centrale, moyenne non-
pondre des moyennes conditionnelles
1
b0 = (ybanlieue + ycampagne + ycentre )
3
D'o l'appellation "centered eect". On parle galement de "deviation coding" dans la littrature.
De manire gnrale, cette valeur centrale ne concide pas avec la moyenne globale de l'endogne
b0 = y . Ce sera le cas uniquement si les eectifs dans les groupes taient quilibrs c.--d.
n
b0 = y si et seulement si nj =
K
Les autres coecients se lisent comme la dirence entre la moyenne conditionnelle et cette valeur
centrale. Pour le cas de la banlieue, b1 = ybanlieue b0
Le test de signicativit globale de la rgression (tous les coecients excepts la constante sont-
ils tous gaux zro ?) correspond toujours au test d'galit des moyennes conditionnelles. Nous
devrions retrouver les rsultats de l'ANOVA 1 facteur.

Fig. 4.28. Rgression avec donnes codes "centered eect" - Donnes LOYER
Nous eectuons la rgression sur les donnes LOYER recodes (Figure 4.28). Nous obtenons les
coecients b (quation 4.6) et nous en dduisons les moyennes conditionnelles :
b2 = 1.29 ycampagne = b2 + b0 = 1.29 + 6.259 = 5.27 ;

b1 = 0.16 ybanlieue = b1 + b0 = 0.16 + 5.56 = 6.72 ;
ycentre = b0 (b1 + b2 ) = 6.56 (0.16 + (1.29)) = 7.69.
Le test de signicativit globale de la rgression nous fournit un F = 29.44 (2, 12) degrs de libert,
la p value < 0.0001, ce qui est conforme avec les rsultats de l'ANOVA 1 facteur (Figure 4.3). Les
Le codage n'inue pas sur la qualit de la modlisation. Il
tests sont totalement quivalents.
pse en revanche sur la lecture des coecients. Ce constat est conrm dans la 3-me solution
propose dans la section suivante.
Le codage "simple coding"
La stratgie simple coding aboutit un rsultat mixte entre les solutions cornered eect et centered
eect. Nous crons toujours (K 1) variables qui ne sont plus vraiment des indicatrices :

K1 si X = j
K i
Zi,j =
1 si Xi = j
K
Nous avons ainsi les correspondances suivantes pour les donnes LOYER

Banlieue 2/3 -1/3
Campagne -1/3 2/3
Centre -1/3 -1/3

Lorsque nous lanons la rgression, les coecients obtenus (Figure 4.29) mlangent ceux de la solution
"cornered eect" (Figure 4.6, les paramtres des indicatrices) avec ceux de "centered eect" (Figure 4.28,
la constante).
Fig. 4.29. Rgression avec donnes codes "simple coding" - Donnes LOYER
Nous pouvons tablir les relations entre les coecients et les moyennes conditionnelles :
b0 = 6.56 = 13 (ybanlieue + ycampagne + ycentre ) ;

b1 = 0.97 = ybanlieue ycentre ;
b2 = 2.42 = ycampagne ycentre .
Nous avons 3 quations 3 inconnues, nous pouvons facilement dduire les moyennes conditionnelles.
Commentaire sur le codage "simple coding". Cette solution est rfrence dans la littrature,
j'en parle uniquement pour cette raison. Personnellement, je ne vois pas trs bien ce qu'elle apporte de
plus par rapport aux codages cornered eect et centered eect.
4.8.2 Le codage "contrast eect" d'une exogne qualitative
L'utilisation des contrastes est une alternative l'utilisation des indicatrices. L'objectif est de comparer
Les blocs sont construits de
les moyennes de la variables dpendante par groupes de modalits.
manire mettre en vidence les oppositions les plus intressantes.
Reprenons l'exemple du chier LOYER (Figure 4.1, page 84). Nous souhaitons mener une analyse
en deux temps : (1) tout d'abord, vrier que la moyenne des loyers en centre-ville est dirent de la
moyenne des loyers la campagne et en banlieue ; (2) puis, dans ce second temps, eectuer la comparaison
l'intrieur de ce second groupe c.--d. comparer les loyers en banlieue et la campagne.
Nous devons utiliser un codage de type "contrastes" pour raliser cette analyse. Il repose sur une srie
de spcications bien prcises ([5], pages 71 75) : (a) si l'explicative nominale possde K modalits,
nous crerons (K 1) variables contrastes ; (b) les codes de chaque contraste doit tre dnis de manire
crer une opposition entre groupes, la somme des codes du premier bloc doit tre gal 1, la somme

pour le second gale 1 (ou vice versa ), la somme totale doit tre nulle ; (c) les codes des variables
contrastes doivent tre deux deux orthogonaux c.--d. le produit scalaire doit tre nul.
Vite un exemple pour bien comprendre le mcanisme. La variable "lieu d'habitation" est compose
de 3 modalits, nous crons donc 2 variables contrastes C1 et C2. Nous adoptons le codage suivant
pour raliser l'analyse en deux temps spcie ci-dessus c.--d. opposer centre-ville au couple (campagne,
banlieue), puis opposer campagne et banlieue.
Lieu C1 C2
Banlieue 0.5 1
Campagne 0.5 -1
Centre -1 0
Notons que :
La somme des codes tant pour C1 [0.5 + 0.5 + (1) = 0] que pour C2 [1 + (1) + 0 = 0] sont nuls.
Pour chaque contraste, la somme des codes positifs est gal 1, celle des codes ngatifs 1.
Les signes sont opposs : ("banlieue", "campagne") d'une part, ("centre") d'autre part pour C1.
Concernant C2, "centre" n'entrant plus en ligne de compte, son code est gal 0. "Campagne" et
"banlieue" sont de signes opposs.
Enn, le deux contrastes sont bien orthogonaux puisque [0.5 1 + 0.5 (1) + (1) 0] = 0.
Ces vrications faites, nous pouvons construire notre tableau de donnes et lancer la rgression
LOY ER = a2 C2 + a1 C1 + a0
Pour faciliter la lecture, nous avons report dans la feuille Excel les moyennes conditionnelles et les
rsultats de l'ANOVA (section 4.1). Voyons voir tout cela (Figure 4.30) :
Premire conclusion importante, encore une fois, la qualit globale de l'ajustement n'est pas aecte
par le type de codage. La variabilit rsiduelle est exactement la mme SCR = 2.54324 pour la
Le type de codage ne modie pas le pouvoir explicatif
rgression et l'analyse de variance.
du modle. En revanche, il met en lumire des aspects dirents des informations que
reclent les donnes. L'intrt est de pouvoir en tirer des interprtations en rapport avec les
objectifs de notre tude.
La constante a0 = 6.55746 correspond la moyenne non pondre des moyennes conditionnelles
ybanlieue + ycampagne + ycentre 6.72000 + 5.26667 + 7.68571
a0 = = = 6.55746
3 3
Ce rsultat rejoint celui du codage "centered eect" (Figure 4.28).
Les coecients aj nous permettent d'obtenir les carts entre les moyennes (non pondres des
moyennes) des modalits dans les groupes que l'on oppose. Si k1 (resp. k2 ) est le nombre de modali-
ts dans le premier (resp. second) groupe, nous avons :
k1 + k2
ej = aj (4.7)
k1 k2

Fig. 4.30. Rgression avec donnes codes "contrast eect" - Donnes LOYER
Pour le premier contraste, nous obtenons a1 = 1.12825. Nous avons k1 = 2 (banlieue et campagne)
dans le 1er groupe, et k2 = 1 (centre) dans le 2nd . Nous calculons
2+1
e1 = 1.12825 = 1.69238
21
Qui correspond l'cart entre les moyennes (non pondre des moyennes conditionnelles) dans les
groupes c.--d.
ybanlieue + ycampagne 6.72000 + 5.26667
ycentre = 7.68571 = 1.69238 = e1
2 2
Pour le second contraste opposant "banlieue" et "campagne", la modalit "centre" tant mise de
ct, nous k1 = 1 et k2 = 2, nous en dduisons
1+1
e2 = a2 = 0.72667 2 = 1.45333
11
Il correspond l'cart
ybanlieue ycampagne = 6.72000 5.26667 = 1.45333 = e2
Dans les deux cas, les carts sont signicatifs 5% selon la rgression puisque nous avons :
ta1 = 6.99505 p value = 1.4443 105

ta2 = 4.32278 p value = 0.00099124

Conclusion. Certes, l'outil n'est pas trs limpide au premier abord. Il faut proposer un codage qui
rpond des spcications assez restrictives. L'aaire devient complique lorsque le nombre de modalits
est lev. Mais une fois que nous avons mis en place le bon schma de codage, les avantages sont appr-
ciables. Nous pouvons dcomposer l'analyse en une cascade d'oppositions entres groupes. Nous obtenons
une estimation des carts, et nous pouvons tester de surcrot s'ils sont signicatifs. Tout cela la lecture
des rsultats d'une seule rgression. L'eort initial est largement rcompens.
Remarque 26 (Lorsque les eectifs sont quilibrs.). Lorsque les eectifs sont quilibrs c.--d. nous avons
les mmes eectifs dans chaque groupe, une pratique quand mme bien rpandue en statistique, nous
opposons bien les moyennes conditionnelles. Ainsi, la procdure n'est pas sans rappeler les schmas de
comparaisons multiples que l'on initie la suite d'une ANOVA dtectant des dirences globalement
signicatives entre les moyennes conditionnelles.
4.9 Codage d'une exogne qualitative ordinale
On parle de variable qualitative ordinale lorsque (1) la variable prend un nombre ni de modalits
(de valeurs) ; (2) il y a une relation d'ordre entre ces modalits. L'exemple le plus souvent cit est la
satisfaction. On peut imaginer 3 valeurs possibles : mcontent, satisfait, trs satisfait. Manifestement,
le passage d'un niveau l'autre implique une amlioration. Mais nous n'avons pas d'indications sur
son amplitude. Le codage numrique simple (1, 2, 3) peut nous induire en erreur justement parce qu'il
introduit une valorisation de l'amplitude de l'cart qui - peut-tre, on ne le sait pas en ralit - n'a pas
lieu d'tre. Nous reviendrons en dtail sur ce type de codage plus loin (section 4.11.2).
Lorsque l'exogne est qualitative ordinale, l'utilisation d'indicatrices telle que dcrite dans les sections
prcdentes remplit son oce. Mais nous perdons le caractre ordonn des modalits. Une information
importante est omise. La modlisation n'en tient pas compte. L'interprtation en ptit.
4.9.1 Un exemple introductif
Nous utilisons des donnes articielles dans cette section. Nous cherchons expliquer Y partir de
X . Nous disposons de n = 30 observations.
Manifestement, la liaison est non linaire (Figure 4.31). Plutt que de chercher la forme de la liaison
la plus approprie, nous prfrons dcouper le domaine de X en 3 intervalles. Cette stratgie est trs
pratique pour traiter les problmes de non-linarit. Le premier intervalle I1 est dni sur (X < 10), le
I2 second sur (10 X < 20) et le troisime I3 sur (X 20) 7 (Figure 4.32).
La variable qualitative ordinale Z K = 3 modalits (z1 , z2 , z3 ) est dduite de ces intervalles, soit
7. Ce qui correspond grosso modo la technique des intervalles de largeur gales. Elle a pour mrite de ne pas
modier la distribution des donnes ; elle a pour inconvnient d'tre trs sensible aux points atypiques, certains
intervalles peuvent tre vides. Nos donnes tant trs simples, elle donne entirement satisfaction.

4.9 Codage d'une exogne qualitative ordinale 127
Fig. 4.31. Codage ordinal - Nuage de points
Fig. 4.32. Codage ordinal - Dcoupage en 3 intervalles

z1 , si xi < 10

Zi = z2 , si (10 xi < 20)

z3 , si xi 20
La variable qualitative ordinale Z s'ajoute au tableau de donnes. Nous remarquons que la reprsen-
tation des valeurs de Y en fonction des modalits de Z montre qu'une discrtisation induit toujours une
perte d'information (Figure 4.33). Nous esprons qu'elle se fera au prot d'une meilleure apprhension
de la relation entre Y et X 8 .
Dans la suite de cette section, nous verrons (1) comment coder numriquement Z pour pouvoir
analyser la relation entre Y et Z via une rgression ; (2) comment par la suite interprter les coecients
estims selon la stratgie de codage choisie.
8. La discrtisation, c'est pas automatique... On perd en variance ce qu'on espre gagner en biais dans la
modlisation. Le tout est de dlimiter jusqu' quel point.

Fig. 4.33. Tableau de donnes avec la variable ordinale Z - Valeurs de Y en fonction des modalits de Z
4.9.2 (In)adquation du codage pour variable qualitative nominale
La premire modalit z1 servant de rfrence, nous crons deux indicatrices en se rfrant au codage
"cornered eect" tudie lors du traitement des variables exognes qualitatives nominales :

1, si Z = z
i 1
C2i =
0, sinon
Et
1, si Z = z
i 2
C3i =
0, sinon
La correspondance peut s'crire sous forme de tableau
Z C2 C3
z1 0 0
z2 1 0
z3 0 1
Le chier de donnes est transform. Nous pouvons lancer la rgression
Y = a0 + a2 C2 + a3 C3 +

Fig. 4.34. Codage disjonctif - Tableau de donnes et rgression sur les indicatrices
Auscultons les rsultats (Figure 4.34) :
Le coecient de dtermination est R2 = 0.825.

La rgression est globalement pertinente avec F = 63.656, comparer avec un F0.95 (2, 27) = 3.35
pour un test 5%.
La constante a0 = 17.12 correspond la moyenne de Y pour la modalit z1 , la rfrence. Nous
l'appellerons moyenne de rfrence y1 = 17.12. Ce rsultat est tout fait conforme au comportement
des rgressions sur variables indicatrices.
Le second coecient a2 = 18.82 indique le dcalage entre la moyenne pour z2 et la rfrence z1 c.-
-d. y2 = y1 + a2 = 17.12 + 18.82 = 35.94. L'cart entre les moyennes conditionnelles est signicatif
5% dixit le t de Student du test de signicativit du coecient de la rgression (ta2 = 10.674).
Le troisime coecient enn matrialise l'cart entre la moyenne pour z3 et la rfrence z1 . Ainsi,
y3 = y1 + a3 = 17.12 + 22.26 = 39.38. Ici aussi la dirence est signicative.
Reprsentes graphiquement, les relations entre les moyennes conditionnelles et les coecients de
la rgression prennent tout leur sens (Figure 4.35).
Tout cela est cohrent. Il reste pourtant une information importante qui apparat clairement dans le
graphique, et que la rgression n'a pas mis en vidence. La dirence entre les moyennes des 2me et 3me

Fig. 4.35. Codage disjonctif - Moyennes conditionnelles et coecients de la rgression
modalits est visiblement faible, voire non signicative ( conrmer par les calculs...). Or dans le cadre
du traitement des variables ordinales, ce n'est pas tant l'cart par rapport la premire modalit qui
nous intresse, mais plutt l'tude du passage d'un palier (modalit) un autre (le suivant). Comment
coder la variable explicative ordinale pour que la rgression fournisse des coecients propices ce type
d'analyse ?
4.9.3 Utilisation du codage cumulatif
Le codage cumulatif est une solution simple ce problme. Il s'agit toujours d'utiliser des indicatrices,
mais en intgrant l'information de passage aux paliers suprieurs. Pour notre exemple, nous crerons D2
et D3 telles que :

1, si (Z z )
i 2
D2i =
0, sinon
Et
1, si (Z z )
i 3
D3i =
0, sinon
La nouvelle correspondance entre les modalits et les indicatrices devient
Z D2 D3
z1 0 0
z2 1 0
z3 1 1
Nous introduisons ainsi des contraintes supplmentaires dans la construction des indicatrices. Nous
notons plusieurs particularits :

A l'instar du codage usuel, si un individu appartient la modalit de rfrence z1 , toutes les

indicatrices prennent la valeur 0 (D2i = D3i = 0).
Si un individu appartient la k-me modalit (k > 2), l'indicatrice associe prend la valeur 1, et
toutes les indicatrices de niveau infrieur galement c.--d. Dki = 1 D2i = = D(k 1)i = 1.
Seule la dernire modalit zK est code de manire identique dans les deux approches CKi = DKi .
Fig. 4.36. Codage cumulatif - Tableau de donnes et rgression sur les indicatrices
Quelles sont les consquences de ce codage dit "cumulatif" sur la rgression ? Nous nous empressons
de vrier cela tout de suite. Nous implmentons la rgression
Y = b0 + b2 D2 + b3 D3 +
Analysons les rsultats (Figure 4.36) :
Par rapport la rgression prcdente, la qualit globale n'est pas modie (R2 , F test). Ce
L'introduction du nouveau codage ne dgrade pas les qualits
constat est trs important.
prdictives et explicatives du modle.
La vraie nouveaut se situe au niveau des coecients. La constante b0 = 17.12 correspond toujours
la moyenne y1 = 17.12 de la modalit de rfrence.

Le coecient de la premire indicatrice b2 = 18.82 constitue toujours au dcalage entre les moyennes
conditionnelles y2 = y1 + b2 = 17.12 + 18.82 = 35.94.
l'indicatrice D3 indique le dcalage entre la moyenne condi-
En revanche, le coecient de
tionnelle de la 3me modalit et la prcdente ! Ici, y3 = y2 + b3 = 35.94 + 3.44 = 39.38. Il
apparat que cet cart n'est pas signicatif 5% puisque dans la rgression tb3 = 1.698 avec une
p-value de 0.1011.
Fig. 4.37. Codage cumulatif - Moyennes conditionnelles et coecients de la rgression
La gnralisation est immdiate : tous les coecients des indicatrices correspondent au dcalage des
moyennes conditionnelles entre les modalits successives. Nous mettons bien en vidence l'eet du passage
d'un pallier un autre. La reprsentation des moyennes et des coecients dans le nuage de points illustre
parfaitement le phnomne (Figure 4.37).
4.9.4 Codage "backward dierence"
Le codage "backward dierence" est une variante du codage cumulatif. Il consiste toujours comparer
la moyenne conditionnelle d'un niveau par rapport la prcdente. Mais la constante est modie : elle
indique la moyenne non pondre des moyennes conditionnelles.
Le tableau de correspondance pour notre exemple est modi. Nous n'avons plus vraiment des indi-
catrices proprement parler :
Z D2 D3
K = 3 K = 3
z1 K1 2 K2 1
z2 1
K = 1
3 K2
K = 3
1
1 1 2 2
z3 K = 3 K = 3

Fig. 4.38. Codage "backward dierence" - Tableau de donnes et rgression
Le schma semble dirent par rapport au codage cumulatif. Mais, bien y regarder, nous percevons
l'eet de cascade lorsque nous passons d'un niveau un autre. Les coecients de la rgression reteront
cette spcication.
Le jeu de donnes est modi en consquence et la rgression est relance (Figure 4.38). Les coecients
de D2 et D3 indiquent toujours l'cart entre chaque niveau successif. La constante en revanche indique
la moyenne non-pondre des moyennes conditionnelles c.--d.
1
b0 = 30.81 = (17.12 + 35.94 + 39 + 38)
3
4.9.5 Codage "forward dierence"
Rfrenc dans la littrature, le codage "forward dierence" agit rebroussement chemin du "back-
ward" c.--d. il permet d'obtenir l'cart entre les moyennes conditionnelles lorsque nous analysons les
niveaux dans le sens inverse.
Dans notre exemple, nous utiliserions ce tableau de conversion :

Z D2 D3
K1 2 K2 1
z1 K = 3 K = 3
z2 K
1
= 13 K2
K = 3
1
z3 K
1
= 13 K
2
= 23
A l'issue de la rgression, les signes des coecients de D2 et D3 sont inverss. La constante, elle, n'est
pas modie, elle correspond toujours la moyenne non pondre des moyennes conditionnelles.
4.9.6 Codage "Helmert"
Le codage "Helmert" permet de mettre en vidence la dirence entre la moyenne conditionnelle de la

variable endogne pour un niveau par rapport celle de l'ensemble des niveaux qui lui succdent (Helmert
coding) ou qui le prcdent (Reverse Helmert coding).
Intressons-nous cette seconde conguration pour nos donnes. Nous calculons les moyennes condi-
tionnelles de Y pour chaque modalit de Z , individuellement puis cumulativement.
Z Moyenne Moyenne cumule

z1 17.12 17.12
z2 35.94 26.53
z3 39.38 30.81
Comment lire ces chires ?
Pour la modalit z1 , la moyenne de Y est de 17.12.

Pour z2 , elle est de 35.94.
La moyenne cumule des 2 premires modalits est gale la moyenne non pondre des deux
moyennes c.--d. 26.53 = 21 (17.12 + 35.94).
Pour la 3me z3 , la moyenne conditionnelle est de 39.38. Cumulativement sur les 3 modalits, nous
aurions 30.81 = 13 (17.12 + 35.94 + 39.38).
Remarque 27 (Moyenne pondre ou non-pondre des moyennes conditionnelles). La notion de moyenne

cumule telle qu'elle est dcrite ici peut paratre trange. On aurait t tent de penser que la moyenne
de Y pour les 2 premires modalits doit tre gale la moyenne calcule sur l'ensemble des observations
composant ces deux niveaux c.--d. en eectuant une moyenne pondre des moyennes conditionnelles.
Le rsultat aurait t dirent. Les deux approches ne concident que dans les cas des groupes quilibrs,
lorsque les eectifs sont identiques pour chaque modalit. On rencontre souvent cette conguration dans
les donnes exprimentales c.--d. lorsque les donnes sont issues d'une exprimentation. Les statisticiens
procdent ainsi notamment parce que les tests paramtriques de comparaison de populations s'avrent
nettement plus robustes dans ce cas.
Il y aurait donc 2 carts caractriser pour ces donnes : la dirence entre la moyenne du 2nd
niveau et celle du premier 18.82 = (35.94 17.12) ; la dirence entre le 3me niveau et les deux premiers

12.85 = (39.38 26.53). Voyons comment obtenir cela avec la rgression
Y = c0 + c2 H2 + c3 H3 +
Voici le tableau de conversion
Z H2 H3
z1 12 13
z2 1
2 13
2
z3 0 3
Fig. 4.39. Codage "Reverse Helmert" - Tableau de donnes et rgression
Que faut-il en penser ?
H2 confronte le premier niveau au second. Les codes sont de mme valeur mais de signe oppos. Le
troisime n'entre pas en ligne de compte, son code est gal 0.
H3 oppose les deux premiers niveaux (ils partagent la mme valeur) au troisime, ce dernier est
cod de manire ce que la somme des codes soit nulle.
Nous observons l'eet cumulatif du codage en passant de H2 H3 .

Nous recodons notre jeu de donnes et nous ralisons la rgression sous Excel (Figure 4.39). Les
coecients des variables correspondent aux carts entre les moyennes successives telles que nous les
avions dnis ci-dessus, c2 = 18.82 et c3 = 12.85. La constante quant elle est gale la moyenne non
pondre des moyennes conditionnelles c0 = 30.81 = 13 (17.12 + 35.94 + 39.38)
4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale
Nous l'avons vu prcdemment, tenir compte du caractre ordinal de l'exogne Z est intressant
pour mettre en vidence les carts entre les moyennes successives de l'endogne Y . Pour des motifs
pdagogiques, nous nous tions arrangs pour que la relation entre Y et Z soit monotone dans notre jeu
de donnes illustratif an que les carts successifs soient toujours positifs. En ralit, le codage n'introduit
aucune hypothse quant la nature de la relation entre les variables.
Dans cette section, nous tudions le codage par polynmes orthogonaux. Sa particularit est d'in-
troduire une hypothse de tendance dans la relation liant Y et Z ordinal. Elle (la tendance) peut tre
linaire, quadratique, etc. On peut - en thorie - prendre des polynmes de degrs levs lorsque le nombre
de modalits augmente. Bien videmment, il faut que Z soit ordinal pour que ce type d'analyse soit pos-
sible, mais on recommande galement que ses modalits soient galement espaces 9 . Ce commentaire est
loin d'tre anodin. En eet, si les modalits sont rgulirement espaces, on peut tre tent de coder
numriquement (0, 1, 2, . . .) les modalits de Z et d'introduire telle quelle la nouvelle variable. Dans ce
cas, nous faisons l'hypothse que la relation entre Y et Z est linaire. Le codage polynomial orthogonal
nous permet de couvrir cette conguration, mais aussi d'explorer d'autres hypothses de liaison.
Notre chier exemple se prte bien ce type d'analyse puisque les niveaux sont issus d'une discrti-
sation intervalles de largeurs gales d'une variable quantitative.
4.10.1 Construction du codage
L'objectif est de construire un ensemble de vecteurs orthonorms permettant de traduire les dirents
types de liaison - une tendance que l'on peut traduire sous forme de polynme - existant entre Y et Z .
Ne disposant que de 3 modalits pour la variable Z , nous irons jusqu' un polynme de degr 2.
Tendance linaire
Nous devons traduire les valeurs initiales de Z , mettons (0, 1, 2) pour xer les ides, en un ensemble
de valeurs V = (v1 , v2 , v3 ) avec une relation linaire
V =aZ +b
numrons les contraintes dnissant les valeurs de V :

9. http://www.ats.ucla.edu/stat/r/library/contrast_coding.htm#ORTHOGONAL

4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale 137
1. v1 = a 0 + b = b pour la premire valeur de Z .
2. v2 = a 1 + b = a + b.
3. v3 = a 2 + b = 2a + b.
4. v2 v1 = v3 v2 = a, tout fait logiquement puisque la liaison est linaire.
5. v1 + v2 + v3 = 0, la somme des codes doit tre nulle.

6. v12 + v22 + v32 = 1, parce que le vecteur doit tre norm.
Il vient de ces spcications (je laisse la rsolution aux frus de mathmatiques, mais ce n'est pas bien
compliqu en vrit) que le vecteur V s'crit :

2 2
V = ( , 0, )
2 2
Par rapport aux valeurs de Z , V traduit l'ide d'une progression linaire avec une pente positive.
Tendance quadratique
Nous devons mettre en vidence un relation quadratique cette fois-ci, on souhaite de plus que le
nouveau vecteur W = (w1 , w2 , w3 ) soit orthogonal au prcdent. W est reli Z comme suit
W = Z2 + Z +
De nouveau, nous pouvons crire :
1. w1 = 02 + 0 + = .
2. w2 = 12 + 1 + = + + .
3. w3 = 22 + 2 + = 4 + 2 + .
4. w1 + w2 + w3 = 0.

5. w12 + w22 + w32 = 1.
6. v1 w1 + v2 w2 + v3 w3 = 0 parce que le nouveau vecteur doit tre orthogonal au prcdent.
Nous obtenons cette fois-ci (de nouveau, je laisse rsolution aux matheux) :
1 2 1
W = ( , , )
6 6 6
Par rapport aux valeurs de Z , W reprsente une parabole concavit tourne vers le haut.
4.10.2 Rgression sur les variables recodes
Nous utilisons le tableau de conversion suivant...

Z V W

z1 22 16
2
z2 0 6

2 1
z3 2 6
... pour laborer les donnes utilises dans la rgression
Y = d0 + d1 V + d2 W +
DROITEREG d'Excel nous fournit les coecients du modle (Figure 4.40).
Fig. 4.40. Codage polynomial orthogonal - Tableau de donnes et rgression
Nous devons lire ces rsultats en gardant l'esprit la forme de la relation entre Y et Z (Figure 4.33) :
1. Avec R2 = 0.825, la rgression est de qualit quivalente aux prcdents, le codage n'induit pas une
perte d'information dans l'explication de la relation entre Y et Z .
2. La constante d0 = 30.81 correspond la moyenne non pondre des moyennes conditionnelles.
3. Le coecient de V , d1 = 15.74 est trs largement signicatif. Il y a donc une trs forte relation linaire
positive entre Y et Z .
4. Et elle se double d'une liaison quadratique puisque le coecient de W , d2 = 6.28 est galement
signicatif 5%. Le coecient estim est ngatif en revanche. Cela veut dire que la parabole est

4.11 Les erreurs ne pas commettre 139
inverse par rapport au codage dni, elle est concavit tourne vers le bas. L'tude visuelle du
nuage de points (Figure 4.33) conrme cette analyse.
La construction des codes des polynmes orthogonaux est le principe cueil de cette approche. Les
calculs seront d'autant plus dicile que le nombre de modalits augmente. Fort heureusement, certains
logiciels les fournissent automatiquement. La commande contr.poly() du logiciel R par exemple permet
d'obtenir automatiquement les (K 1) vecteurs de codes pour le traitement de K modalits. C'est
d'ailleurs ainsi que j'ai pu vrier mes calculs dans la section 4.10.1.
4.11 Les erreurs ne pas commettre
Comme nous pouvons le constater, le codage conditionne la lecture des rsultats. Le vritable danger
est d'utiliser une transformation qui occasionne une perte d'information, ou qui introduit une information
supplmentaire qui n'existe pas dans les donnes. Dans cette section, nous nous penchons sur le codage
numrique {1, 2, 3, . . .} des variables qualitatives.
4.11.1 Codage numrique d'une variable discrte nominale
On parle de variable discrte nominale lorsque (1) la variable prend un nombre ni de modalits (de
valeurs) ; (2) il n'y a pas de relation d'ordre entre les modalits. On peut apprhender ainsi la variable
habitation du chier LOYER, il n'y a pas de hirarchie entre les zones de rsidence : vivre la campagne
n'est pas mieux que vivre en ville, etc. Dans ce cas, le codage suivant est totalement inappropri

1 si Xi = banlieue

Zi = 2 si Xi = campagne

3 si Xi = centre
En eet, nous introduisons dans la variable recode une relation d'ordre qui n'existe pas dans les
donnes initiales, information que la rgression va utiliser pour calculer les coecients.
Dans ce cas, les dirents codages dcrits plus haut (cornered eect, centered eect, contrastes ) sont
plus adapts, charge au statisticien de choisir celui qui convient le mieux au problme trait.
4.11.2 Codage numrique d'une variable discrte ordinale
Une variable ordinale est une variable qualitative dont les modalits sont ordonnes (section 4.9).
Parfois, le caractre ordinal repose tout simplement sur un point de vue dirent des mmes donnes.
Considrons la variable habitation comme un indicateur d'loignement par rapport au centre-ville o
seraient situs la majorit des lieux de travail. Dans ce cas, il y a bien une relation d'ordre dans les
modalits prises par la variable et coder


1 si Xi = centre

Zi = 2 si Xi = banlieue

3 si Xi = campagne
semble tout fait licite.
Notons cependant que ce codage n'est pas totalement innocent, il introduit une information suppl-
mentaire dont tiendra compte la rgression dans le calcul des coecients : l'amplitude de l'cart. Avec ce
codage nous sommes en train de dire que
l'cart entre "centre" et "banlieue" est de 1, il en est de mme pour l'cart entre "banlieue" et
"campagne" ;
et de plus, nous armons galement que l'cart entre "campagne" et "centre" est 2 fois plus lev
que l'cart entre "centre" et "banlieue".
De fait, nous faisons l'hypothse d'une forme linaire de liaison. En ralit, nous n'en savons rien. Peut-
tre est-ce vrai, peut tre est-ce erron. L'tude du codage polynomial ci-dessus (section 4.10) montre
que l'on peut explorer des solutions plus sophistiques ds lors que l'on met des hypothses sur le forme
de la relation entre l'endogne et l'exogne. Quoi qu'il en soit, le pire serait de lancer les calculs sans tre
conscient de ce qu'on manipule.
4.12 Conclusion pour le traitement des exognes qualitatives
Il y a 2 ides matresses retenir de ce chapitre :
1. Il est possible d'eectuer une rgression linaire multiple avec des exognes qualitatives, le tout est
de produire une transformation approprie des donnes ;
2. Le codage est primordial car il dtermine les informations que nous extrayons des donnes initiales
et, par consquent, l'interprtation des coecients fournis par la rgression.
L'analyse devient particulirement intressante lorsque nous introduisons plusieurs exognes qualita-
tives ou un mlange de variables qualitatives et quantitatives. La technique est riche et ses applications
multiples. L'tude des interactions, entres autres, se rvle particulirement passionnante (voir [6]).

5
Tester les changements structurels
Le test de changement structurel est dni naturellement pour les donnes longitudinales : l'ide est
de vrier qu'au l du temps, la nature de la relation entre l'endogne et les exognes n'a pas t modie.
Statistiquement, il s'agit de contrler que les coecients de la rgression sont les mmes quelle que soit
la sous-priode tudie.
Prenons un cas simple pour illustrer cela. On veut expliquer le niveau de production des entreprises
d'un secteur en fonction du temps. En abcisse, nous avons l'anne, en ordonne la production. A une
date donne, nous observons que la relation est modie brutalement, parce qu'il y a eu, par exemple,
une mutation technologique introduisant une hausse de la productivit (Figure 5.1). Il est vident dans
ce cas qu'il n'est pas possible d'eectuer une seule rgression pour toute la priode, la pente de la droite
de rgression est modie.
Fig. 5.1. Rupture de structure : modication de la pente la date t = 11
Mettons maintenant qu' la date t = 11 est survenue une catastrophe dtruisant une partie de l'outil
de travail. Dans ce cas, la production connat un recul fort, puis volue de la mme manire que nagure.
Dans ce cas, la pente de la rgression reste identique, seule est modie l'origine (la constante) de la
rgression (Figure 5.2).

142 5 Rupture de structure
Fig. 5.2. Rupture de structure : modication de l'origine la date t = 11
Extension aux donnes transversales
Chercher des points d'inexion. La notion de rupture de structure est extensible aux donnes
transversales. Il sut d'imaginer la relation entre la puissance et la taille du moteur. A partir d'un certain
stade, augmenter indniment la cylindre entrane une amlioration inme de la puissance (Figure 5.3).
La relation est peut-tre non-linaire. Le test de changement structurel permet de localiser le point
d'inexion de la courbe de rgression si l'on triait les donnes selon l'exogne.
Fig. 5.3. Relation non-linaire ou linaire par morceaux ?
Travailler sur des populations direntes. Toujours dans le mme domaine, on sait que la
technologie des moteurs fonctionnant au gazole et l'essence est quelque peu dirente. Fractionner les
donnes en 2 parties, selon le type de carburant, permet de mettre jour l'existence de 2 populations
avec des comportements, ventuellement, dirents.
Bref, le test de changement structurel vise avant tout constater statistiquement des modications de
comportement dans l'chantillon tudi. A charge au statisticien de caractriser au mieux ce qui permet
de dnir les sous-ensembles que l'on confronte (en utilisant des informations externes ou une variable
supplmentaire disponible dans les donnes) et dceler la nature du changement survenu (modication
des coecients relatifs quelles variables ?).
Pour une tude approfondie de la dtection et de la caractrisation des changements structurels dans
la rgression, je conseille la lecture attentive du chapitre 4 de l'ouvrage de Johnston (pages 111 145).

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow 143
C'est une des rares rfrences, en franais, qui explicite avec autant de dtails l'tude des ruptures de
structure dans la rgression.
5.1 Rgression contrainte et rgression non-contrainte - Test de Chow
5.1.1 Formulation et test statistique
Les tests de changements structurels reposent sur la confrontation d'une rgression contrainte (a)
avec une rgression non-contrainte (b) (ou tout du moins, avec moins de contraintes) 1 . L'objectif est de
dterminer si, sur les deux sous-ensembles (sous-priodes) tudies, certains coecients de la rgression
sont les mmes. On peut comparer plusieurs coecients simultanment.
La dmarche est la suivante :
(a) On eectue la rgression sur l'chantillon complet (n observations). C'est la rgression "contrainte"
dans le sens o les coecients doivent tre les mmes quelle que soit la sous-population (sous-priode)
tudie.
yi = a0 + a1 xi,1 + + ap xi,p + i , i = 1, . . . , n (5.1)
(b) On eectue 2 rgressions indpendantes sur les 2 sous-populations. Ce sont les rgressions "non-
contraintes" dans le sens o nous n'imposons pas que les coecients soient les mmes sur les 2
sous-populations (sous-priodes).
yi = a0,1 + a1,1 xi,1 + + ap,1 xi,p + i , i = 1, . . . , n1

yi = a0,2 + a1,2 xi,1 + + ap,2 xi,p + i , i = n1 + 1, . . . , n (n2 obs.)
Il y a alors plusieurs manires d'apprhender le test de rupture de structure.
1. Est-ce que la rgression contrainte est d'aussi bonne qualit que les 2 rgressions non-contraintes ?
Si oui, cela indiquerait qu'il n'y a pas distinguer les rgressions dans les 2 sous-populations : ce
sont les mmes. Pour cela, nous confrontons la somme des carrs des rsidus (qui est un indicateur
de qualit de la rgression, plus elle faible, meilleure est l'approximation)
(a) Rgression contrainte : SCR
(b) Rgressions non-contraintes : SCR1 et SCR2
1. Sur l'ide de confronter 2 rgressions, dont une serait une restriction de l'autre, voir l'excellent document
de T. Duchesne, Chapitre 3, Section 3.6 "Le principe de somme de carrs rsiduels additionnelle" ; http://
archimede.mat.ulaval.ca/pages/genest/regression/chap3.pdf. La rexion sur le mode de calcul des degrs
de libert est trs instructive.

Par construction,
SCR SCR1 + SCR2
Si SCR est "signicativement" plus grand que SCR1 + SCR2 , il y a bien une dirence. Reste bien
sr quantier le "signicativement".
2. On peut y rpondre en apprhender le problme sous forme d'un test d'hypothses. Nous opposons

a0 a0,1 a0,2

a1 a1,1 a1,2

H0 : . = . = .
.. .. ..

ap ap,1 ap,2
H1 : un des coecients (au moins) dire des autres
La statistique du test de Chow 2 s'appuie sur les sommes des carrs rsiduels des rgressions contraintes
(SCR) et non-contraintes (SCR1 et SCR2 ). Elle s'crit :
[SCR (SCR1 + SCR2 )] /ddln

F =
(SCR1 + SCR2 )/ddld
Plus que les valeurs gnriques des degrs de libert, voyons en dtail le mcanisme de leur formation
an que nous puissions le reproduire dans d'autres congurations.
Pour ddld , qui est le plus facile apprhender, nous avons la runion de 2 rgressions indpendantes :
ddld = (n1 p 1) + (n2 p 1)

= (n1 + n2 ) 2p 2
= n 2p 2
= n 2(p + 1)
Pour ddln , la situation est un peu plus complexe :
ddln = (n p 1) [(n1 p 1) + (n2 p 1)]

= (n p 1) (n 2p 2)
= p+1
A posteriori, (ddln = p + 1) semble vident. En eet, nous avions bien (p + 1) contraintes linaires
dans l'hypothse nulle de notre test de comparaison des coecients.
2. Gregory C. Chow (1960). Tests of Equality Between Sets of Coecients in Two Linear Regressions. in
Econometrica 28(3) : 591-605.

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow 145
Sous H0 , la statistique F suit une loi de Fisher (p + 1, n 2p 2) degrs de libert. La rgion critique
du test s'crit
R.C. : F > F1 (p + 1, n 2p 2)
o F1 (p + 1, n 2p 2) est le quantile d'ordre (1 ) de la loi de Fisher (p + 1, n 2p 2) degrs

de libert.
5.1.2 Un exemple
Nous reprenons un exemple dcrit dans Johnston (pages 134 138). Nous voulons eectuer une
rgression linaire simple Y = aX + b + . Les donnes (chier CHOW) peuvent tre subdivises en 2
sous-parties (sous-priodes) correspondant une variable supplmentaire 3 (Figure 5.4).
Fig. 5.4. Donnes pour le test de Chow (Johnston, page 134)
Pour raliser le test global de Chow c.--d. la rgression est-elle la mme dans les 2 sous-parties du
chier ?, nous ralisons 3 rgressions : (a) sur la totalit du chier, (b) sur la premire partie, (c) sur la
seconde partie. Nous obtenons les rsultats suivants (Figure 5.5) :
a : Y = 0.52X 0.07 avec SCR = 6.56 et ddl = 13 ;
b : Y = 0.44X 0.06 avec SCR1 = 0.69 et ddl1 = 3 ;
c : Y = 0.51X + 0.40 avec SCR2 = 2.47 et ddl2 = 8.
Calculons les degrs de libert : ddln = 13 (3 + 8) = 2 et ddld = 3 + 8 = 11. La statistique du test

est donc gale
[6.56 (0.69 + 2.47)]/2

F = = 5.91
(0.69 + 2.47)/11
3. C'est un peu abstrait j'en conviens. Mettons que l'on veut expliquer la consommation (Y) en fonction de la
taille du moteur (X). Les donnes regroupent les vhicules fonctionnant au gazole et l'essence.

Fig. 5.5. Test global de Chow
La p-value associe est 0.0181.
Au risque de 5%, ces deux sous-parties du chier donnent bien lieu 2 rgressions direntes 4 .
5.2 Dtecter la nature de la rupture
Il y a 2 types de ruptures dans la rgression :
1. une modication de niveau, la constante n'est pas la mme dans les 2 sous-priodes ;
2. une modication de pente, la relation entre l'endogne et une ou plusieurs exognes a t modie.
Nous verrons dans cette section quels tests mettre en place pour caractriser ces situations.
5.2.1 Tester la stabilit de la constante
Dans ce cas, les coecients des exognes sont communs aux deux sous populations, seule la constante
est modie. Le test d'hypothses s'crit :
H0 : a0,1 = a0,2 = a0
H1 : a0,1 = a0,2
En pratique, nous construisons deux variables auxiliaires qui permettent de spcier les 2 sous-parties
du chier :
4. Au risque de 1%, la conclusion aurait t dirente. Mais au vu de la taille de l'chantillon, prendre un
risque critique aussi bas nous conduirait quasi-systmatiquement accepter l'hypothse nulle.

5.2 Dtecter la nature de la rupture 147

1 , i = 1, . . . , n
1
di,1 =
0 , i = n1 + 1, . . . n

0 , i = 1, . . . , n
1
di,2 =
1 , i = n1 + 1, . . . , n
Et nous construisons la rgression suivante (Equation 5.2), c'est la rgression non-contrainte que nous
opposons l'quation initiale (Equation 5.1) o la constante est la mme sur les deux priodes.
yi = a0,1 di,1 + a0,2 di,2 + a1 xi,1 + + ap xi,p + i (5.2)
Attention, nous n'introduisons plus de constante dans cette rgression car di,1 + di,2 = 1, le calcul ne
serait pas possible.
Bien entendu, nous pourrions eectuer le test d'hypothses (H0 : a0,1 = a0,2 ) directement sur l'qua-
tion 5.2 (Voir "Tests de comparaisons de coecients et tests de combinaisons linaires de coecients" ;
Bourbonnais, page 69 ; Johnston, pages 95 101). Mais il est plus simple, et plus cohrent avec notre d-
marche dans ce chapitre, de procder en opposant le modle contraint et le(s) modle(s) non contraint(s).
Fig. 5.6. Test de la constante de rgression
Pour illustrer notre propos, nous reprenons notre exemple ci-dessus (Figure 5.4). Rappelons que la
rgression contrainte (quation 5.1) a fourni (Figure 5.5) : SCR = 6.56 et ddl = 13. Nous ralisons
maintenant la rgression non-contrainte destine tester la stabilit de la constante (quation 5.2), elle
nous propose les rsultats suivants (Figure 5.6) :
SCR3 = 3.49 et ddl3 = 12 ;

pour opposer les modles contraints et non-contraints (resp. quations 5.1 et 5.2), nous calculons
tout d'abord les degrs de libert : ddln = ddl ddl3 = 13 12 = 1 et ddld = ddl3 = 12 ;
(SCRSCR3 )/ddln 3.07/1
nous formons alors la statistique F = SCR3 /ddl3 = 3.49/12 = 10.54 ;
avec un p-value = 0.0070.

Conclusion : la dirence de structure dtecte par le test global de Chow serait due, au moins en
partie, une dirence entre les constantes des rgressions construites dans chaque sous-chantillon. "En
partie" car nous n'avons pas encore test l'inuence de la pente de rgression, c'est l'objet de la section
suivante.
5.2.2 Tester la stabilit du coecient d'une des exognes
Une formulation errone
Il s'agit maintenant de tester si la rupture est imputable une modication de la pente de la rgression
c.--d. un ou plusieurs coecients associs des exognes ne sont pas les mmes sur les deux priodes.
Nous traitons dans cette section, sans nuire la gnralit du discours, du test du coecient associ
la variable x1 de la rgression.
Forts des schmas dcrit prcdemment, nous drivons deux variables intermdiaires z1 et z2 partir
de la variable x1 avec :

x
i,1 , i = 1, . . . , n1
zi,1 =
0 , i = n1 + 1, . . . n

0 , i = 1, . . . , n
1
zi,2 =
xi,1 , i = n1 + 1, . . . , n
Nous pourrions alors tre tent de proposer comme formulation non-contrainte de la rgression :
yi = a0 + a1,1 zi,1 + a1,2 zi,2 + + ap xi,p + i (5.3)
Que nous opposerions au modle initial (quation 5.1).
En fait, cette formulation du test est errone, principalement pour 2 raisons :
1. Une modication de la pente entrane de facto une modication de l'origine de la rgression. Un

exemple ctif, construit sur une rgression simple illustre bien la situation (Figure 5.7).
2. En contraignant les deux quations, contraints et non-contraints, avoir la mme origine, nous faus-
sons les rsultats relatifs au test de la pente (Figure 5.8).
En conclusion, pour tester la stabilit des coecients sur 2 sous-ensembles de donnes,

il faut absolument relcher, dans le modle de rfrence, la contrainte de stabilit de la
constante.

5.2 Dtecter la nature de la rupture 149
Fig. 5.7. Un changement de pente entrane automatiquement une modication de l'origine
Fig. 5.8. En imposant la mme origine aux deux rgressions, on fausse l'apprciation des pentes
Tester la pente en relchant la contrainte sur la constante
A la lumire de ces lments, il apparat que le modle de rfrence, le modle contraint, devient
maintenant celui o les constantes sont possiblement direntes sur les 2 sous-parties du chier (quation
5.2). Et nous lui opposons le modle :
yi = a0,1 di,1 + a0,2 di,2 + a1,1 zi,1 + a1,2 zi,2 + + ap xi,p + i (5.4)
L'hypothse nulle du test est naturellement H0 : a1,1 = a1,2 .

Fig. 5.9. Test de la pente de rgression
Reprenons notre chier de donnes et mettons en place ces calculs. Pour notre modle de rfrence
(quation 5.2), nous avions obtenu SCR3 = 3.49 et ddl3 = 12. Dans la nouvelle rgression (Equation
5.4), nous avons (Figure 5.9) :
SCR4 = 3.16 et ddl4 = 11 ;

on calcule les degrs de liberts ddln = ddl3 ddl4 = 12 11 = 1 et ddld = ddl4 = 11 ;
(SCR3 SCR4 )/ddln (3.493.16)/1
la statistique du test s'crit alors F = SCR4 /ddld = 3.16/11 = 1.15 ;
avec une p-value = 0.3068.
Les dirences dtectes entre les rgressions sur les 2 sous-parties du chier ne sont pas imputables
une modication de la pente. En d'autres termes, la pente de la rgression est la mme dans les 2
sous-populations.
Moralit de tout ceci, concernant notre chier de donnes : il y a bien une rupture de structure entre les
2 sous-populations, elle est essentiellement due une modication de la constante. A vrai dire, un nuage
de points nous aurait permis de trs vite aboutir aux mmes conclusions (Figure 5.10), la dirence
que la dmarche dcrite dans cette section est applicable quelle que soit le nombre de variables exognes.
5.3 Conclusion
L'tude des changements structurels peut tre tendue l'analyse de k sous-populations (ou sous-
priodes). Il s'agit tout simple de dnir correctement le modle contraint, qui sert de rfrence, et
le(s) modle(s) non-contraint(s), qui servent identier la nature de la rupture. Seulement, les tests et
la comprhension des rsultats deviennent diciles, voire prilleux, il faut procder avec beaucoup de
prudence.
Le vritable goulot d'tranglement de cette dmarche est la dtection intuitive du point de rupture.
Encore pour les donnes longitudinales, quelques connaissances approfondies du domaine donnent des
indications sur les vnements (conomiques, politiques, etc.) qui peuvent inchir les relations entre
les variables. En revanche, pour les donnes transversales, deviner le point d'inexion sur une variable

5.3 Conclusion 151
Fig. 5.10. Nuage de points (X,Y) et droites de rgression pour les deux sous-populations de notre chier exemple
(Figure 5.4)
exogne, ou encore dterminer le facteur externe qui vient modier la structure des dpendances, relve
du saut dans l'inconnu. Trs souvent, les graphiques, notamment des rsidus, sont d'une aide prcieuse
pour airer les ruptures dans les donnes.

6
Dtection et traitement de la non linarit
Nous avions abord le sujet de la non-linarit dans notre support consacr la rgression linaire
simple (et multiple) [18](chapitre 6). Nous nous tions surtout intresss aux congurations o, sur la
base des connaissances du domaine et de l'interprtation que l'on souhaitait donner aux rsultats, nous
choisissions une forme particulire de la relation. Il tait possible de retrouver une forme linaire, dont
les coecients pouvaient tre estims avec la mthode des moindres carrs ordinaires, en appliquant les
fonctions de transformations idoines.
Nous allons plus loin dans ce chapitre. Nous nous basons sur un processus guid par les donnes et
non plus par les connaissances du domaine. Il y a toujours une double tape : valuer la compatibilit
des donnes avec l'hypothse d'une relation linaire ; si elle est rfute, trouver la transformation de
variables la plus approprie de manire amliorer la qualit de l'ajustement. Bien videmment, il y
a une limite (trs dicile trouver) ne pas dpasser dans la recherche du meilleur modle. Il s'agit
d'exploiter au mieux les informations vhicules par les donnes, sans en ingrer les spcicits qui ne
sont pas gnralisables dans la population. En apprentissage supervis, on parlerait du problme de
sur-ajustement des modles.
6.1 Non linarit dans la rgression simple
6.1.1 Linarisation par transformation de variables
Dans le cadre de la rgression simple, la dtection graphique est une approche privilgie. Elle permet
de dtecter l'ventuelle non-linarit de la relation et, de plus, elle donne une ide sur la transformation
oprer pour obtenir un modle satisfaisant.
Pour illustrer notre propos, nous reprenons un exemple tir de l'ouvrage de Avazian (pages 148 et 149,
donnes "prouvettes"). On tudie la rsistance la rupture des prouvettes de ciment (Y, en kg/m2 ) en
fonction de la dure de maintien (X, en jours) (Figure 6.1). Manifestement, la relation est non-linaire.
L'ajustement l'aide de la rgression linaire simple n'est pas trs satisfaisante (R2 = 0.6199).

154 6 Dtection et traitement de la non linarit
Fig. 6.1. Liaison linaire - Donnes "prouvettes"
Il nous faut proposer les bonnes transformations de variables. L'aaire est loin d'tre vidente. Dans
notre exemple, on voit bien que la relation est logarithmique. Pourtant, en tentant la transformation
Z = ln(X), V = Y n'tant pas modie, la qualit de l'ajustement (V = a Z + b) laisse dsirer avec
R2 = 0.8842 (Figure 6.2). Nous constatons galement un autre lment gnant : la dispersion de V selon
les valeurs de Z n'est visiblement pas constante, nous sommes en situation d'htroscdasticit.
Fig. 6.2. Donnes "prouvettes" - V = f(Z) avec V = Y et Z = ln(X).

6.1 Non linarit dans la rgression simple 155
La "bonne" solution nous est fournie par Avazian (pages 149 et 150), il propose les transformations
V = log10 (Y )
1
Z=
X
Bien malin aurait t celui qui y aurait pens. Il faut la fois de l'intuition, de bonnes connaissances
du domaine, une certaine pratique, pour proposer rapidement les bonnes formules. Concernant notre
exemple, elles sont tout fait justies puisque la qualit de l'ajustement est grandement amliore
(R2 = 0.9612) (Figure 6.3).
Fig. 6.3. Donnes "prouvettes" - V = f(Z) avec V = log10 (Y ) et Z = 1/X .
Bref, la recherche du "bon" modle travers les transformations de variables peut s'avrer trs fruc-
tueux. Passer d'un R2 de 0.6199 0.9612 est une avance indniable. Mais il faut tre capable d'introduire
les bonnes transformations de variables. La solution n'est pas toujours vidente.
6.1.2 Dtecter numriquement la non-linarit dans la rgression simple
La dtection graphique prsente un double avantage : nous pouvons dceler une ventuelle non-
linarit, nous disposons de pistes sur la "bonne" forme de la relation. Elle n'est pas adapte en revanche
pour le traitement automatis d'un grand nombre de variables. Dans ce contexte, rien ne remplace un
critre numrique qui permet, au moins dans une premire tape, d'isoler les cas problmes sur les-
quels nous devrions nous pencher plus attentivement. Dans cette section, nous prsentons une approche
pour dtecter numriquement - avec une procdure statistique, le rsultat est probabiliste - les relations
non linaires. Pour ce faire, nous opposerons deux mesures d'associations des variables quantitatives :

le premier, le rapport de corrlation, ne fait aucune hypothse sur la forme de la liaison ; le second, le
coecient de corrlation linaire de Pearson, mesure la force d'une liaison linaire. La divergence entre
ces indicateurs permet de caractriser la nature non-linaire de la relation.
Le rapport de corrlation
Le rapport de corrlation est une mesure "universelle" de la liaison entre deux variables quantitatives.
"Universelle" car elle est valable quelle que soit la forme de la relation, mme si cette dernire est non-
monotone.
Le rapport de corrlation est une mesure asymtrique. Il rsulte de la confrontation de deux esprances
mathmatiques ([17], section 3.6.) : la moyenne de la variable dpendante, et sa moyenne conditionnel-
lement aux valeurs de X . Plus fort sera l'impact de X sur Y , plus lev sera l'cart entre ces deux
quantits.
Concrtement, sur un chantillon de taille n pour lequel nous disposons de K valeurs distinctes de
X , et pour chaque valeur de X , nous disposons de nk valeurs de Y, le rapport de corrlation empirique
s'crit : K
k=1 nk (yk y)
2
2
y/x = n (6.1)
i=1 (yi y)
2
On distingue au numrateur la variance inter-classes, la variabilit de Y explique par X ; et au

dnominateur, la variance totale de Y . Les habitus de l'analyse de variance ne seront pas dpayss.
On peut d'ailleurs utiliser le rapport de corrlation pour mesurer l'inuence d'une variable indpendante
qualitative nominale sur une variable dpendante quantitative.
Par dnition, le rapport de corrlation varie entre 0 et 1 (0 y/x

2
1). Il est nul si la liaison n'existe
pas ; il est gal 1 si X explique parfaitement les valeurs prises par Y . Il est possible de mettre en place
un test de signicativit ([17], section 3.6.2).
Remarque 28 (Cas des donnes individuelles, non-groupes). Dans le cas des donnes non-groupes c.-
-d. chaque valeur de X , on dispose d'une seule valeur de Y , nous avons K = n et nk = 1, k . Par
construction, y/x
2
est toujours gal 1, laissant croire une liaison parfaite. Dans ce cas, il est judicieux
de procder articiellement des regroupements en dcoupant en intervalles les valeurs de X . On peut,
par exemple, utiliser la technique des intervalles d'amplitudes gales 1 . Le choix du nombre de classes est
crucial. Il faut qu'il soit susamment faible pour que l'eectif dans chaque classe permettent d'obtenir
des moyennes yk qui aient un sens ; il faut qu'il soit susamment lev pour que la forme de la relation
entre Y et X ne soit pas occulte. Il dpend aussi du nombre d'observations disponibles.
Le coecient de corrlation linaire
Le coecient de corrlation de Pearson mesure le degr de liaison linaire entre deux variables Y et
X ([17], chapitre 2). Le coecient de corrlation empirique, calcul partir d'un chantillon, est obtenu
1. http://www.info.univ-angers.fr/~gh/wstat/discr

de la manire suivante :
y)(xi x)
i (yi
ryx = (6.2)
i (yi y) i (xi x)
2 2
On reconnat au numrateur la covariance entre Y et X , elle est normalise au dnominateur par le

produit des carts-type. Le coecient est compris entre 1 et +1 (1 ryx +1), le signe tient compte
du sens de la relation. Nous perdons cette information en passant au carr ryx
2
(ryx
2
0). Mais nous y
gagnons en interprtation car l'indicateur correspond au coecient de dtermination de la rgression 2 de
Y sur X dans ce cas c.--d. il reprsente la part de variance de Y explique par X .
Tester la non linarit par comparaison de y/x

2
et ryx
2
2
y/x et ryx
2
se rejoignent en termes d'interprtation, la dirence que l'on introduit une contrainte
de linarit dans le second indicateur. De fait
2
y/x ryx
2
Il y aurait galit si et seulement si la relation est parfaitement linaire. Nous exploitons l'amplitude
de la dirence entre ces indicateurs pour caractriser le caractre non linaire de la liaison entre Y et X .
Le test de linarit de la relation revient donc tester la signicativit de la dirence entre ces deux
indicateurs. Nous utilisons la statistique de test (Avazian, page 121 ; Veysseyre, page 368 ; Dagnelie 3 ,
page 483)
2
(y/x ryx
2
)/(K 2)
W2 = (6.3)
(1 y/x
2 )/(n K)
Sous H0 , W 2 suit une loi de Fisher (K 2, n K) degrs de libert. La rgion critique correspond
aux valeurs leves de W 2 . Nous pouvons aussi calculer la probabilit critique du test (p-value). Dans ce
cas, nous rejetons l'hypothse nulle si la p-value est infrieure au risque du test.
Application aux donnes "prouvettes" (1)
Nous souhaitons vrier la nature de la relation entre Y et X pour les donnes "prouvettes" (Figure
6.1). Nous avions constat graphiquement que l'hypothse de linarit n'tait pas vraiment crdible.
Voyons ce que nous dit la procdure numrique.
Nous avons mont une feuille Excel pour raliser les calculs (Figure 6.4). Tout d'abord, nous devons
calculer le rapport de corrlation :
2. Et de la rgression de X sur Y aussi d'ailleurs.

3. Dagnelie, P., Statistique thorique et applique - 2. Infrence statistique une et deux dimensions, de Boeck,
2006 ; la prsentation est un peu dirente mais le principe est le mme : on teste la signicativit de la dirence
entre les deux indicateurs.

Fig. 6.4. Donnes "prouvettes" - Test de linarit - Variables originelles
Avec l'outil "tableau croiss dynamiques", nous obtenons les moyennes de Y pour chaque valeur
distincte de X . Nous calculons le numrateur de y/x
2
:

K
nk (yk y)2 = 3 (12.70 28.83)2 + 3 (23.70 28.83)2 + = 1561.7387
k=1
Au dnominateur, nous avons la somme des carrs des carts la moyenne

n
(yi y)2 = (13 28.83)2 + (13.3 28.83)2 + = 1642.5267
i=1
Ds lors,
K
k=1 nk (yk y)
2
1561.7387
=
2
y/x n = = 0.9508
i=1 (yi y)
2 1642.5267
Pour obtenir le coecient de corrlation, nous utilisons la fonction COEFFICIENT.CORRELATION
d'Excel. Elle nous fournit ryx = 0.7873, nous la passons au carr
2
ryx = (0.7873)2 = 0.6199
Nous pouvons calculer maintenant la statistique de test
(0.9508 0.6199)/(5 2)
W2 = = 35.8864
(1 0.9508)/(21 5)

Avec la loi de Fisher F(52, 215), nous avons une probabilit critique (p-value) largement infrieure
au niveau de signication = 5% que nous nous sommes choisis. Les donnes ne sont pas compatibles
avec l'hypothse de linarit.
Application aux donnes "prouvettes" (2)
Ritrons l'analyse aprs transformation des variables. Pour rappel, nous avons V = log10 (Y ) et
X. La structure de la feuille de calcul n'est pas modie par rapport la prcdente. Nous obtenons
1
Z=
prsent (Figure 6.5) :
2
v/z = 0.9683
2
rvz = 0.9612
2 (0.9683 0.9612)/(5 2)
W = = 1.1865
(1 0.9683)/(21 5)
Toujours avec un F(3, 16), nous avons une p-value de 0.3462. Aprs transformation judicieuse des
variables, l'hypothse de linarit devient licite. L'analyse graphique est conrme (Figure 6.3).
Fig. 6.5. Donnes "prouvettes" - Test de linarit - Variables transformes

6.1.3 Tester l'adquation d'une spcication
Au-del du test de non-linarit, nous pouvons vrier l'adquation d'une forme choisie avec les
donnes disponibles. La procdure repose sur la confrontation entre, d'une part, la prdiction y(xk ) = yk
du modle pour chaque valeur observe xk ; et, d'autre part, la prdiction triviale qui consiste calculer
la moyenne de Y pour les nk observations associes la valeur xk .
La statistique du test s'crit (Avazian, page 120) :

K
(n K) k=1 nk (yk yk )2
2
= K nk (6.4)
(K g) k=1 i=1 (yik yk )2
O n est le nombre d'observations, K est le nombre de valeurs distinctes de X , g est le nombre de

paramtres du modle (g = 2 pour la rgression simple).
Au numrateur, la somme correspond la variabilit rsiduelle non explique par le modle, dont la
forme est contrainte par la spcication choisie. Au dnominateur, nous avons la variabilit de Y non
explique par les X , sans contrainte sur la forme de la relation. Le rapport est forcment suprieur 1 ;
s'il s'en carte signicativement, nous pouvons conclure l'inadquation de la spcication choisie.
Sous H0 , la forme choisie est compatible avec les donnes, 2 suit une loi de Fisher (K g, n K)
degrs de libert. La rgion critique correspond aux valeurs trop leves de 2 .
Modle logarithmique pour les donnes "prouvettes"
Prcdemment, nous avions tent le modle logarithmique pour les donnes "prouvettes" (Figure
6.2). Nous reproduisons la courbe de tendance ici en reprsentant les donnes dans leur repre initial
(X, Y ) (Figure 6.6). Manifestement, la courbe d'ajustement n'est pas satisfaisante mme si elle introduit
une amlioration sensible par rapport au modle linaire.
Fig. 6.6. Donnes "prouvettes" - Modle logarithmique
Voyons si cette intuition est conrme par le test de spcication dvelopp dans cette section.

Fig. 6.7. Donnes "prouvettes" - Modle logarithmique - Test de spcication
Nous disposons des valeurs pour les variables X et Y dans une feuille Excel (Figure 6.7)
Nous ajoutons la colonne Z = ln(X) pour former la rgression
Y = 7.3344 Z + 16.9715
Nous formons alors la colonne de prdiction yi (ex. y1 = 7.3344 ln(1) + 16.9715 = 16.9715).
A l'aide de l'outil "tableaux croiss dynamiques", nous calculons les statistiques intermdiaires pour
chaque valeur distincte de X (ces valeurs sont {1, 2, 3, 7, 28}). Nous retrouvons de gauche droite
dans la grille :
1
nk
yk = yi (ex. y1 = 12.7)
nk i=1
yk = a ln(xk ) + b (ex. y1 = 16.971)

nk = 1 (ex. n1 = 3)
i:xi =xk
1 nk
s2k = (yi yk )2 (ex. s21 = 0.42)
nk i=1
Nous calculons le numrateur de 2

(n K) nk (yk yk )2 = (21 5) (3 (12.7 16.971)2 + 3 (23.7 22.055)2 +
k
= 22 109.387
= 1750.2
Et le dnominateur


K
nk
K
(K g) (yik yk )2 = (K g) nk s2k
k=1 i=1 k=1
= (5 2) (3 0.42 + 3 1.6267 + )
= 3 80.788 = 242.364
Il reste former le rapport

1750.2
2 = = 7.2213
242.364
Avec un F(3, 16), nous obtenons une probabilit critique (p-value) de 0.0028.
Les donnes ne cadrent pas avec un modle logarithmique. Nous devons trouver une spcication
plus approprie. Ce que nous avons fait avec les transformations V = log10 (Y ) et Z = 1
X qui donnent
pleinement satisfaction (Figure 6.3).
6.2 Non linarit dans la rgression multiple
L'aaire se corse quand il s'agit de passer la rgression linaire multiple. En eet, nous sommes en
prsence de plusieurs variables explicatives. Mme si les nuages de points dans le repre (Xj , Y ) peuvent
tre intressants pour analyser le rle de chaque exogne, ils sont fausss parce que les variables ne sont
pas indpendantes, il y a interaction lors de la rgression. Nous devons nous tourner vers un outil la
porte plus large pour dtecter et traiter la non-linarit.
6.2.1 Lecture des rsidus
Le graphique des rsidus est un outil de diagnostic privilgi dans la rgression linaire multiple. Nous
avions dtaill sa lecture dans la section 1.1.1. Pour valuer la (non)linarit par rapport l'exogne,
nous crons le graphique avec les rsidus en ordonne et les valeurs de X en abcisse. Les points devraient
tre disposs totalement alatoirement. Ds qu'une forme de rgularit quelconque apparat, il faut se
mer et approfondir l'analyse.
Concernant notre exemple des donnes "prouvettes", nous avons opr une rgression linaire, puis
calcul la prdiction et l'erreur. Nous avons alors form le graphique des rsidus (Figure 6.8 ; la prdiction
s'crit yi = 0.6597xi +22.5816, et le rsidu i = yi yi ). Manifestement, il y a un problme. La dispersion
des rsidus dpend des valeurs de X , c'est le signe d'une htroscdasticit. Pire, leur valeur moyenne
dpend galement des valeurs de X , l nous sommes clairement confronts un problme de non-linarit.
Malheureusement, cette dmarche n'est pas transposable la rgression multiple, tout simplement
parce que nous avons plusieurs exognes, elles sont plus ou moins lies. Nous nous tournons alors vers les
rsidus partiels.

6.2 Non linarit dans la rgression multiple 163
Fig. 6.8. Donnes "prouvettes" - Graphique des rsidus de la rgression linaire
6.2.2 Rsidus partiels et rsidus partiels augments
Rsidus partiels
Les rsidus partiels permettent d'identier la nature de la relation entre une des exognes Xj et
l'endogne Y , sachant qu'il y a d'autres variables explicatives dans le modle 4 .
Dans une rgression linaire multiple
Y = a0 + a1 X1 + + ap Xp +
Les rsidus partiels de la variables exogne Xj sont dnis comme suit
i,j = (yi yi,j ) + aj xi,j (6.5)
O aj est le coecient estim relatif la variable Xj dans la rgression ci-dessus.
Si la liaison entre Xj et Y est linaire, les n couples de points reprsents dans le repre (xj , j )
le nuage nous donne une indication sur la
doivent former une droite 5 . Dans le cas contraire,
transformation oprer pour amliorer l'ajustement. C'est son principal atout.
Un exemple numrique
Sans restreindre la porte de notre propos, nous dcrivons les calculs pour une rgression simple. Ils
sont directement transposables la rgression multiple.
4. http://en.wikipedia.org/wiki/Partial_residual_plot
5. Dans certains logiciels, une rgression permet de souligner l'alignement des points. Ex. la fonction prplot(.)
du package "faraway" du logiciel R.

tape 1
Nous disposons de n = 100 observations d'un couple de variables Y et X . Nous ralisons la rgres-
sion linaire Y = a X + b. Nous obtenons a = 1218.1841 et b = 1865.1907, avec un coecient de
dtermination R2 = 0.9697. La rgression est de trs bonne qualit.
Nous en dduisons les prdictions yi = 1218.1841 xi 1865.1907 et les rsidus i = yi yi .
Pour valuer la forme de la liaison entre X et Y , nous calculons les rsidus partiels. Nous projetons
alors les observations dans le repre (xj , j ) (Figure 6.9).
Fig. 6.9. Rsidus partiels - Rgression y = ax + b
Les points sont plus ou moins aligns en formant une courbure assez marque. Ce constat apparat
clairement lorsque nous ajoutons une courbe de tendance linaire dans le graphique 6 . Manifestement, il y
a une forme de relation entre X et Y que l'on ne prend pas en compte dans la rgression linaire simple.
tape 2
Sur la base du graphique, nous souhaitons amliorer l'ajustement en ajoutant la variable Z = X 2 dans
la base. Nous ralisons maintenant la rgression Y = a0 + a1 X + a2 Z . Dans notre exemple, il ne s'agit
pas de substituer Z X car, malgr tout, nous avons constat que la rgression linaire est de trs bonne
qualit dj (R2 = 0.9697). Nous voulons vrier que Z = X 2 amne de l'information supplmentaire
pertinente dans l'explication de Y .
Nous obtenons le modle
Y = 324.9884 + 350.5567 X + 84.1142 Z
Avec un R2 = 0.99861. X et Z sont tous deux largement signicatifs (ta1 = 17.63 et ta2 = 44.89). Le
modle s'est boni, l'introduction de Z = X 2 dans la rgression est totalement justi.
6. Nous avons utilis l'outil "courbe de tendance" d'Excel.

Voyons ce que nous en annonce les rsidus partiels. De nouveau, nous ralisons la prdiction yi =
324.9884 + 350.5567 xi + 84.1142 x2i . Avec la mme dmarche, nous calculons les rsidus partiels
i,x = (yi yi ) + 350.5567 xi et nous construisons le graphique (Figure 6.10).
Fig. 6.10. Rsidus partiels - Rgression y = a0 + a1 x + a2 x2
La situation est incontestablement meilleure, sauf pour les petites valeurs de X proches de 0 o il
reste une distorsion par rapport la droite. Il faut la prendre en compte. Pour ce faire, nous introduisons
la variable supplmentaire W = ln(X).
Remarque 29 (Rsidus partiels par rapport la variable modie). Nous aurions pu galement calculer le
rsidu partiel
i = (yi yi ) + 84.112 x2i
La conclusion aurait t du mme ordre c.--d. la ncessit d'introduire une variable de type W = ln(X).
tape 3
Nous introduisons la variable W = ln(X) dans la rgression Y = b0 +b1 X +b2 Z +b3 W , nous obtenons :
Y = 18.4623 + 109.0188 X + 98.8254 Z + 317.4565 W
Tous les coecients sont signicatifs 5%, avec respectivement tb1 = 3.30, tb2 = 43.06, tb3 = 8.24. La
rgression est d'excellente qualit avec un coecient de dtermination gal R2 = 0.9919.
A partir de cette quation, nous calculons les nouvelles prdictions yi et les rsidus partiels
i,x = (yi yi ) + 109.0188 xi
Il nous reste construire le graphique (xi , i,x ) (Figure 6.11). Les points forment une droite. Nous
avons puis les direntes formes de X qui permettent d'expliquer linairement les valeurs de Y .

Fig. 6.11. Rsidus partiels - Rgression y = b0 + b1 x + b2 x2 + b3 ln(x)
Pour tre tout fait honnte, les situations sur donnes relles ne sont pas toujours aussi idylliques.
Nous avons travaill sur des variables gnres articiellement dans cette section et, eectivement, nous
avons utilis X , X 2 et ln(X) pour obtenir Y . Il est heureux que l'on retrouve le bon rsultat en nous
appuyant sur les rsidus partiels.
Rsidus partiels augments
Dans certains ouvrages, on conseille de passer par les rsidus partiels augments. Il s'agit simplement
d'introduire toutes les expressions de la variable dans le calcul du rsidu.
Ainsi, l'tape 2 de notre exemple prcdent, nous avons introduit Z = X 2 dans la rgression. Les
rsidus partiels augments correspondraient alors
i = i + a1 X + a2 X 2 (6.6)
L'intrt de ce nouvel indicateur n'est pas dterminant dans notre contexte de recherche des direntes
transformes possibles des variables exognes introduire dans la rgression. L'usage des rsidus partiels
est amplement susant.
6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R
Tournons-nous maintenant vers des donnes "ralistes" pour montrer l'intrt des rsidus partiels.
Nous utilisons la base mtcars livre en standard avec le logiciel R.
Nous la chargeons l'aide des commandes suivantes :
> data(mtcars)
> print(mtcars)

Fig. 6.12. Donnes mtcars - Logiciel R
Elle comporte n = 32 observations et 11 variables (Figure 6.12). Dans notre contexte, nous n'utiliserons
que 3 variables. Nous essayons d'expliquer la consommation (mpg ), le nombre de miles que l'on peut
parcourir l'aide d'un galon de carburant, l'aide de la puissance (ht) et le poids (wt). Nous obtenons
les rsultats la rgression.
> modele <- lm(mpg ~ hp + wt, data = mtcars)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.22727 1.59879 23.285 < 2e-16 ***
hp -0.03177 0.00903 -3.519 0.00145 **
wt -3.87783 0.63273 -6.129 1.12e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.593 on 29 degrees of freedom

Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148
F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12

Le modle est plutt de bonne qualit avec un coecient de dtermination corrig 7 R2 = 0.8148. La
rgression est globalement signicative 5%, les deux variables le sont galement, largement mme.
Voyons maintenant ce qu'il en est des rsidus partiels. Nous utilisons le package faraway. Les com-
mandes adquates sont
#librairie pour les rsidus partiels

> library(faraway)
#rsidus partiels
> par(mfrow=c(1,2))
> prplot(modele,1)
> prplot(modele,2)
Les deux graphiques des rsidus partiels sont achs dans la mme fentre (Figure 6.13). Ici commence
les choses dlicates. En eet, il faut choisir la transformation approprie partir d'informations purement
visuelles. Il y a quand mme une certaine part de subjectivit l-dedans.
Fig. 6.13. Donnes mtcars - Rsidus partiels mpg = f (hp, wt)
Compte tenu des formes plus ou moins curvilinaires des nuages de points, nous tentons les deux
transformations suivantes : zhp = hp2 et zwt = ln(wt). Nous les ajoutons parmi les explicatives. Nous
lanons de nouveau la rgression.
> zhp <- mtcars$hp^2

> zwt <- log(mtcars$wt)
> modele.bis <- lm(mpg ~ hp + wt + zhp + zwt, data = mtcars)
7. Nous privilgions cet indicateur car il tient compte des degrs de libert. Et nous aurons comparer des
modles avec un nombre d'explicatives dirent par la suite.

Coefficients:
(Intercept) 4.217e+01 1.911e+00 22.072 < 2e-16 ***
hp -9.777e-02 3.110e-02 -3.143 0.00403 **
wt 2.384e+00 1.887e+00 1.263 0.21741
zhp 1.806e-04 7.893e-05 2.287 0.03023 *
zwt -1.793e+01 5.935e+00 -3.022 0.00545 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Le modle est meilleur que le prcdent avec un R2 = 0.8785. Les deux variables additionnelles zhp
et zwt sont signicatives, wt ne l'est plus en revanche. En passant aux rsidus partiels,
#rsidus partiels
> par(mfrow=c(2,2))
> for (i in 1:4)prplot(modele.bis,i)
Nous constatons que les modications introduites ont permis de rduire les problmes de non-linarit.
Les formes plus ou moins curvilinaires constates prcdemment ont t rsorbes (Figure 6.14) 8 .
Reste retirer la variable wt rendue inutile.
> modele.ter <- lm(mpg ~ hp + zhp + zwt, data = mtcars)
Coefficients:
(Intercept) 4.179e+01 1.906e+00 21.920 < 2e-16 ***
hp -9.736e-02 3.143e-02 -3.098 0.00441 **
zhp 1.809e-04 7.977e-05 2.268 0.03122 *
zwt -1.082e+01 1.886e+00 -5.737 3.73e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8. Ca apparat plus clairement maintenant, il y a aussi un mchant point atypique sur hp (et zhp). On passera
outre. Mais il est clair que dans une tude relle, il faudra se pencher attentivement sur ce quidam avant de
poursuivre l'analyse.

Fig. 6.14. Donnes mtcars - Rsidus partiels mpg = f (hp, wt, hp2 , ln(wt))

La rgression 3 explicatives donne amplement satisfaction, R2 = 08759 est quivalente la rgression

prcdente (on ne va pas commencer gloser pour une dirence la 3eme dcimale). Toutes les variables
sont signicatives maintenant.
Concernant les rsidus partiels,
> #rsidus partiels

> par(mfrow=c(1,3))
> for (i in 1:3)prplot(modele.ter,i)
Nous constatons que l'adjonction d'une transformation supplmentaire ne parat pas ncessaire. Dans
aucun des nuages nous observons une distorsion vidente par rapport une droite (Figure 6.15). Le
modle 3 variables explicatives est celui que nous utiliserons pour les interprtations et les prdictions.

Fig. 6.15. Donnes mtcars - Rsidus partiels mpg = f (hp, hp2 , ln(wt))

A
Table de Durbin Watson
http://www.jourdan.ens.fr/~bozio/stats/dw.pdf
Fig. A.1. Table de Durbin-Watson

B
Gestion des versions
Premire version
La premire version de ce document a t mis en ligne en septembre 2007. Elle n'a pas t numrote.
Version 2.0
La seconde version, 2.0, a t mise en ligne n juin 2011. Elle se distingue (et celles qui suivront) par
les graphiques en couleur (h oui, on apprend tout ge...).
Plus srieusement, un chapitre a t ajout, d'autres ont t complts. Je distinguerais volontiers :
Chapitre 3 - Colinarit et slection de variables. Deux sections ont t ajoutes : rgressions

partielles (section 3.5), rgressions croises (section 3.6).
Chapitre 4 - Rgression sur des exognes qualitatives. Ce chapitre a t profondment
remani. Je confesse avoir t normment inuenc 1 par la lecture de l'extraordinaire ouvrage
de M.A. Hardy, Regression with dummy variables [5]. Mon travail a surtout consist reprendre
les parties qui me paraissaient les plus intressantes, en l'inscrivant dans mon propre canevas de
prsentation et en utilisant mes propres exemples. Le chier LOYER, entres autres, est mis toutes
les sauces dans ce chapitre.
Chapitre 6 - Dtection et traitement de la non linarit. Ce chapitre fait cho une premire
approche de la non-linarit concernant la rgression simple dvelopp dans mon premier volume sur
la rgression ([18], chapitre 6). Des approches plus gnriques sont mises en avant dans ce document,
dans un premier temps pour la rgression simple, dans un second temps pour la rgression multiple.
Ce chapitre doit beaucoup l'extraordinaire ouvrage de Avazian [1]. Je l'ai depuis plus de 20 ans.
A chaque fois que je l'ouvre, je (re)dcouvre des choses intressantes. Je l'ai galement beaucoup
mis contribution dans mon fascicule consacr la corrlation [17].
1. Comme je le dis toujours, reprendre en citant, c'est faire honneur au travail des collgues, reprendre sans
citer, c'est du plagiat.

176 B Gestion des versions
Version 2.1
Le chapitre consacr la rgression sur les exognes qualitatives (Chapitre 4) a t remani suite
la lecture de la page web "R Library : Contrast Coding Systems for categorical variables" - UCLA
Statistical Consulting Group (http://www.ats.ucla.edu/stat/r/library/contrast_coding.htm).
Cette rfrence est particulirement intressante. Outre la description relativement complte des dif-
frentes stratgies de codage, il y en avait plus que ceux que j'avais moi-mme recens dans la version
2.0 de ce document en tous les cas, l'auteur montre comment les implmenter sous le logiciel R l'aide
des commandes ddies (ex. contr.treatment(), contr.poly(), contrasts(), etc.). Nous sommes directement
oprationnels sous R pour lancer ses rgressions avec les direntes stratgies de codage.

C
Fichiers associs ce support
Un certain nombre de jeux de donnes ont servi illustrer ce support. Ils ont t traits. De nombreuses
copies d'cran sont prsentes tout le long du texte. Pour que le lecteur puisse accder aux dtails des
calculs et, s'il le dsire, les reproduire, ces chiers sont accessibles en ligne.
Les chiers peuvent tre classs en 3 principales catgories :
1. Les classeurs EXCEL contiennent, dans la premire feuille, les donnes ; dans les feuilles suivantes, les
traitements associs aux problmes statistiques. Ils ont contribu l'laboration des copies d'cran
de ce support de cours.
2. Les chiers au format CSV contiennent les donnes destines tre traits avec le logiciel R.
3. Les scripts R dcrivent les traitements relatifs chaque chapitre du support. Concernant l'utilisation
du logiciel R pour la rgression, nous conseillons vivement la lecture du didacticiel de J. Faraway
qui est rellement d'une qualit exceptionnelle : il est aussi intressant pour l'apprentissage de la
rgression que pour l'apprentissage du logiciel R (Voir la rfrence en bibliographie).
Les chiers et les thmes rattachs sont dcrits dans "_description_des_chiers.txt", intgr dans
l'archive "chiers_pratique_regression.zip", accessible sur le net - http://eric.univ-lyon2.fr/~ricco/
cours/exercices/fichiers_pratique_regression.zip.

D
Tutoriels
Mes tutoriels relatifs la pratique de la rgression sont sur le site http://tutoriels-data-mining.

blogspot.com/. Sauf mention contraire, j'utilise principalement les logiciels TANAGRA (http://eric.
univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html) et R (http://www.r-project.org/).
Plutt que d'intgrer dans ce fascicule la description de la mise en oeuvre des techniques l'aide
des logiciels, j'ai prfr crire des tutoriels dans des documents part. L'ide est de pouvoir construire
une histoire complte autour d'une base de donnes analyser, en partant de l'importation des donnes
jusqu'au dploiement et l'interprtation des rsultats. Chaque tutoriel peut ainsi couvrir plusieurs thmes
de la pratique de la rgression. Dans ce qui suit, je recense les sujets abords dans chacun d'entre eux.
1. Rgression linaire - Lecture des rsultats, http://tutoriels-data-mining.blogspot.com/

2011/02/regression-lineaire-lecture-des.html. Logiciels : Tanagra, R. Thmes : tests gnra-
liss, tests de conformit, tests de comparaison.
2. Diagnostic de la rgression avec R, http://tutoriels-data-mining.blogspot.com/2009/05/
diagnostic-de-la-regression-avec-r.html. Logiciel : R. Thmes : analyse des rsidus, points
atypiques, points aberrants, points inuents, colinarit, critre VIF, slection de variables.
3. Points aberrants et inuents dans la rgression, http://tutoriels-data-mining.blogspot.
com/2008/04/points-aberrants-et-influents-dans-la.html. Logiciels : Tanagra, R, SAS. Thmes :
points inuents, points aberrants, points atypiques, rsidus standardiss, rsidus studentiss, levier
(leverage), dts, distance de cook, covratio, dfbetas.
4. Colinarit et rgression,
http://tutoriels-data-mining.blogspot.com/2008/04/colinarit-et-rgression.html. Logiciels :
Tanagra, R. Thmes : colinarit, slection de variables, analyse en composantes principales, rgres-
sion pls1.
5. Slection forward - Crime dataset, http://tutoriels-data-mining.blogspot.com/2008/03/
slection-forward-crime-dataset.html. Logiciel : Tanagra. Thmes : slection de variables, slec-
tion forward, stepwise, colinarit, corrlation partielle.
6. REGRESS dans la distribution SIPINA, http://tutoriels-data-mining.blogspot.com/
2011/05/regress-dans-la-distribution-sipina.html. Logiciel : REGRESS (via la distribution

180 D Tutoriels
SIPINA - http://sipina.over-blog.fr/). Thmes : points aberrants, points atypiques, points in-

uents, normalit des rsidus, test de Jarque-Bera, droite de Henry, q-q plot.
7. Rgression avec le logiciel LazStats (OpenStat), http://tutoriels-data-mining.blogspot.

com/2011/05/regression-avec-le-logiciel-lazstats.html. Logiciel : LazStats (http://www.
statprograms4u.com/ - Malheureusement, je viens de me rendre compte - aujourd'hui 20 juin 2011,
que le logiciel est devenu du jour au lendemain commercial. Thmes : slection de variables, forward,
backward, stepwise, rgressions croises.
8. Rgression - Dploiement de modles, http://tutoriels-data-mining.blogspot.com/2011/

03/regression-deploiement-de-modeles.html. Logiciel : Tanagra. Thmes : dploiement, rgres-
sion pls, support vector regression, SVR, arbres de rgression, cart, analyse en composantes princi-
pales, rgression sur axes factoriels.

Littrature
Ouvrages
1. Avazian, S., tude statistique des dpendances, dition de Moscou, 1978.

2. Bourbonnais, R., Economtrie. Manuel et exercices corrigs, Dunod, 2 dition, 1998.
3. Dodge, Y, Rousson, V., Analyse de rgression applique, Dunod, 2 dition, 2004.
4. Giraud, R., Chaix, N., Economtrie, Presses Universitaires de France (PUF), 1989.
5. Hardy, M.A., Regression with dummy variables, Sage University Paper series on Quantitative Applications in
the Social Sciences, series no. 07-093, Newbury Park, CA : Sage, 1993.
6. Jacquard, J., Turrisi, R., Interaction Eects in Multiple Regression (2nd ed), Sage University Paper series on
Quantitative Applications in the Social Sciences, series no. 07-072, Newbury Park, CA : Sage, 2003.
7. Johnston, J., DiNardo, J., Mthodes Economtriques, Economica, 4 dition, 1999.
8. Labrousse, C., Introduction l'conomtrie. Matrise d'conomtrie, Dunod, 1983.
9. Saporta, G., Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006.
10. Tenenhaus, M., Mthodes Statistiques en Gestion, Dunod, 1996.
11. Veysseyre R., Aide mmoire - Statistique et probabilits pour l'ingnieur, Dunod, 2006.
Supports en ligne
12. Confais, J., Le Guen, M., Premier pas en rgression linaire avec SAS, Revue Modulad, numro 35, 2006 ;
http://www-rocq.inria.fr/axis/modulad/numero-35/Tutoriel-confais-35/confais-35.pdf
13. , Davidson, R., MacKinnon, J.G., Estimation et infrence en conomtrie, traduction franaise de Estimation
and inference in econometrics, http://russell.vcharite.univ-mrs.fr/EIE/
14. Faraway, J., Practical Regression and ANOVA using R, July 2002, http://cran.r-project.org/doc/
contrib/Faraway-PRA.pdf
15. Genest, C., Modle de rgression linaire multiple, sur http://archimede.mat.ulaval.ca/pages/genest/
regression/chap3.pdf. Voir aussi le chapitre 2 (chap2.pdf), Rgression linaire simple, et le chapitre 4 (chap4.
pdf), Critres de slection de modle.
16. Haurie, A., Modle de rgression linaire, sur http://ecolu-info.unige.ch/~haurie/mba05/
17. Rakotomalala, R., Analyse de corrlation. tude des dpendances - Variables quantitatives, http://eric.
univ-lyon2.fr/~ricco/publications.html

182 Littrature
18. Rakotomalala, R., Economtrie - La rgression linaire simple et multiple, http://eric.univ-lyon2.fr/

~ricco/publications.html
19. Rgression Linaire Multiple, sur http://fr.wikipedia.org/wiki/Rgression_linaire_multiple
20. Xycoon Online Econometrics Textbook, sur http://www.xycoon.com/index.htm#econ

La Regression Dans La Pratique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Regression Dans La Pratique

Transféré par

Droits d'auteur :

Formats disponibles

Ricco Rakotomalala

Pratique de la Rgression Linaire Multiple

Universit Lumire Lyon 2

Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Partie I La rgression dans la pratique

1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5 Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

6 Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

La rgression dans la pratique

Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

La rgression dans la pratique

L'quation de rgression s'crit :

yi = a0 + a1 xi,1 + + ap xi,p + i (0.1)

Nous devons estimer (p + 1) paramtres. En adoptant une criture matricielle :

les dimensions de matrices sont respectivement :

Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Fig. 0.1. Tableau de donnes CONSO - Consommation des vhicules

Page: 4 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Fig. 0.3. Rsultat de la rgression sous EXCEL

4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.

Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

tude des rsidus

Rappelons brivement les hypothses lies au terme d'erreur :

avec yi = a0 + a1 xi,1 + + ap xi,p

1.1 Diagnostic graphique

1.1.1 Graphiques des rsidus

1. Voir Dodge, pages 113 120.

Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

 les rsidus sont ports en ordonne ;

Le type du graphique dpend de l'information que nous portons en abcisse.

Rsidus en fonction de l'endogne Y

Fig. 1.1. Graphique "normal" des rsidus. Endogne vs. Rsidus.

Rsidus en fonction de chaque exogne Xj

Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Graphique de rsidus pour les donnes longitudinales

Points atypiques et points inuents

Page: 9 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Asymtrie des rsidus

Fig. 1.3. La distribution des rsidus est asymtrique.

Page: 10 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Fig. 1.4. La relation modliser est non-linaire

Fig. 1.5. Rsidus caractristiques d'une rupture de structure

Page: 11 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Autocorrlation des rsidus

Fig. 1.7. Autocorrlation ngative des rsidus

1.1.2 Graphiques des rsidus pour les donnes CONSO

Page: 12 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Fig. 1.8. Autocorrlation positive des rsidus

1.2 Tester le caractre alatoire des erreurs

2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

les rsidus sont ports en ordonne ;

Points atypiques et points inuents

Acceptation de H0 si dU < d < 4 dU

la rgression doit comporter un terme constant ;

1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

2. Nous formons la prdiction yi avec ces coecients.

Ce test est bas sur le coecient d'asymtrie

Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 = 4

Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le

la liaison tudie est non-linaire ;

Dtection des points aberrants et des points inuents