Vous êtes sur la page 1sur 182

Ricco Rakotomalala

Pratique de la Rgression Linaire Multiple


Diagnostic et slection de variables
Version 2.0

Universit Lumire Lyon 2


Page: 1 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 2

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Avant-propos

Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je prfre l'appellation Rgression Linaire Multiple ) en L3-IDS de la Facult de Sciences Economiques de l'Universit Lyon 2 (http://dis.univ-lyon2.fr/). Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html). Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier  ; (3) les informations sont disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique trs structurante. Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles pour les enseignements. La gratuit n'est pas le moindre de leurs atouts. Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.

1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.
Page: 3 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 4

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Table des matires

Partie I La rgression dans la pratique 1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


1.1 Diagnostic graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Graphiques des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Graphiques des rsidus pour les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Tester le caractre alatoire des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Test des squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Graphique Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Test de symtrie de la distribution des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 12 13 15 17 19 20 21 22 25 27 28 30 34 37 41 41 41 44 45 46 51 51 51

Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


2.1 Points aberrants : dtection univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Dtection multivarie sur les exognes : le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Rsidu standardis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Rsidu studentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Autres indicateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 DFFITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Distance de COOK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 COVRATIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Bilan et traitement des donnes atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


3.1 Dtection de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Consquences de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Page: 5

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Table des matires

3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52 52 55 56 62 65 67 67 68 70 72 73 74 74 75 77 77 79 82 83 83 84 84 87 87 88 89 90 90 90 91 92 92 95 98

Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


4.1 Analyse de variance 1 facteur et transposition la rgression . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 ANOVA 1 facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Inadquation du codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Rgression sans constante et lecture des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Vers des solutions plus gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Codage "Cornered eect" de l'exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Comparaisons entres groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Comparaisons avec le groupe de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Comparaisons entre deux groupes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Rgression avec plusieurs explicatives qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Page: 6

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Table des matires

4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108 4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.8 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.8.1 (In)adquation du codage disjonctif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.8.2 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.9 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 125 4.9.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.9.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.9.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.10 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.12 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

133

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 135 5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

145

6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 147 6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 158
Page: 7 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Table des matires

A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Littrature

165 167 169 171

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

Page: 8

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Partie I

La rgression dans la pratique

Page: 1

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 2

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

La rgression dans la pratique


Le vritable travail du statisticien commence aprs la premire mise en oeuvre de la rgression linaire multiple sur un chier de donnes. Aprs ces calculs, qu'on lance toujours "pour voir", il faut se poser la question de la pertinence des rsultats, vrier le rle de chaque variable, interprter les coecients, etc. En schmatisant, la modlisation statistique passe par plusieurs tapes : proposer une solution (une conguration de l'quation de rgression), estimer les paramtres, diagnostiquer, comprendre les rsultats, rchir une formulation concurrente, etc. Dans ce support, nous mettrons l'accent, sans se limiter ces points, sur deux aspects de ce processus : le diagnostic de la rgression l'aide de l'analyse des rsidus, il peut tre ralis avec des tests statistiques, mais aussi avec des outils graphiques simples ; l'amlioration du modle l'aide de la slection de variables, elle permet entre autres de se dgager du pige de la colinarit entre les variables exognes.

Notations
Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable endogne Y et p variables exognes Xj . Nous disposons de n observations. L'quation de rgression s'crit :

yi = a0 + a1 xi,1 + + ap xi,p + i

(0.1)

o yi est la i-me observation de la variable Y ; xi,j est la i-me observation de la j-me variable ; i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement les valeurs de Y l'aide des p variables Xj . Nous devons estimer (p + 1) paramtres. En adoptant une criture matricielle : (0.2)

Y = Xa +
les dimensions de matrices sont respectivement :  Y (n, 1)  X (n, p + 1)  a (p + 1, 1)  (n, 1)

La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exognes, avec une premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.

2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm
Page: 3 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1 x1,1 x1,p 1 x2,1 x2,p . . . 1 xn,1 xn,p

Remarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se
justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.

Donnes
Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables : le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations. Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains commentaires.

Fig. 0.1.

Tableau de donnes CONSO - Consommation des vhicules

Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extrayons quelques informations importantes (Figure 0.2) :
Page: 4 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

 la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95.45% de la variance de l'endogne ;  impression conrme par le test de Fisher, F = 136.54 avec une p-value < 0.000001 : le modle est globalement trs signicatif ;  mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.

Fig. 0.2.

Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)

La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3) ! . Seul le mode de prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle

yi et les rsidus i = yi yi de la rgression.

Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des
bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis, on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur la slection des variables et l'interprtation des rsultats plus loin.

3. Fonction DROITEREG(...)
Page: 5 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Fig. 0.3.

Rsultat de la rgression sous EXCEL

Logiciels
Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des logiciels gratuits tels que TANAGRA " , REGRESS # , LAZSTATS/OPENSTAT $ et R % ; et des logiciels commerciaux tels que SPSS & et STATISTICA ' . Qu'importe le logiciel en ralit, le plus important est

de savoir lire correctement les sorties des outils statistiques.

4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.

univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html 5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html 6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html 7. The R Project for Statistical Computing - http://www.r-project.org/ 8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/ regress.htm 9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html
Page: 6 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1 tude des rsidus

L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypothses, etc.) repose principalement sur les hypothses lies au terme d'erreur qui rsume les informations absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsultats  . Rappelons brivement les hypothses lies au terme d'erreur :  sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ;  sa variance est constante ;  les erreurs i (i = 1, . . . , n) sont indpendantes. Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, i produites par la dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression yi

i = yi yi
avec yi = a0 + a1 xi,1 + + ap xi,p

(1.1)

Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus =

1 n

i i

est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas lieu d'tre pour une rgression sans constante.

1.1 Diagnostic graphique


1.1.1 Graphiques des rsidus
Aussi simpliste qu'il puisse paratre, le diagnostic graphique est pourtant un outil puissant pour valider une rgression. Il fournit un nombre important d'informations que les indicateurs statistiques
1. Voir Dodge, pages 113 120.
Page: 7 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1 tude des rsidus

apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des rsidus observs... car il y en a plusieurs. Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure 1.1) :  les rsidus sont ports en ordonne ;  les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons plus loin , sur l'ordonne ;  aucun point ne doit se dmarquer ostensiblement des autres ;  on ne doit pas voir apparatre une forme de rgularit dans le nuage de points. Le type du graphique dpend de l'information que nous portons en abcisse.

Rsidus en fonction de l'endogne Y


Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus i doivent tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs direntes selon les valeurs de Y . On cherche surtout voir si la prdiction est d'gale qualit sur tout le domaine de valeurs de Y (Figure 1.1). Si pour une valeur ou une plage de valeur de Y , les rsidus s'cartent visiblement, il faut s'inquiter car cela indique que la valeur yi a t mal reconstitue par le modle.

Fig. 1.1.

Graphique "normal" des rsidus. Endogne vs. Rsidus.

Rsidus en fonction de chaque exogne Xj


Il doit tre produit pour chaque variable exogne. L'ide est de dtecter s'il y a une relation quelconque entre le terme d'erreur et les exognes. Rappelons que les variables exognes et les erreurs sont indpendantes par hypothse (covariance nulle), cela doit tre conrm visuellement.
2. Voir chapitre 2 sur les points atypiques
Page: 8 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.1 Diagnostic graphique

Graphique de rsidus pour les donnes longitudinales


Dans le cas particulier des sries temporelles, nous pouvons produire un graphique supplmentaire en portant en abcisse la variable temps. Elle permet d'ordonner les valeurs d'une autre manire. Il est alors possible de dtecter une rupture de structure associe une date particulire (ex. guerre, crise politique, choc conomique, etc.).

Cas pathologiques
Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations singulires qui doivent attirer notre attention.

Points atypiques et points inuents


Par dnition, un point atypique, on parle aussi de point aberrant, est une observation qui s'carte rsolument des autres. Cela peut tre d une erreur de recueil des donnes, cela peut aussi correspondre un individu qui n'appartient pas la population tudie. Dans le graphique de rsidus, il s'agit de points loigns des autres, que la variable en abcisse soit l'endogne ou une des exognes (Figure 1.2).

Fig. 1.2.

Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la

rgression (le rsidu est lev).

Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression. On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des variables, en cela ils se rapprochent des points atypiques. Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent. La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les
Page: 9 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

10

1 tude des rsidus

coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus, il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection des points atypiques et inuents (Chapitre 2).

Asymtrie des rsidus


Signe que la distribution des rsidus ne suit pas la loi normale, cette situation (Figure 1.3) survient  lorsque certains points se dmarquent des autres, ils sont mal reconstitus par la rgression. La moyenne des rsidus est mcaniquement gale 0, mais la dispersion est trs ingale de part et d'autre de cette valeur.  lorsque les donnes sont en ralit forms par plusieurs populations (ex. en mdecine, eectuer une rgression en mlangeant les hommes et les femmes, sachant qu'ils ragissent de manire dirente la maladie tudie).  lorsqu'on est face un problme de spcication, une variable exogne importante manque.  etc.

Fig. 1.3.

La distribution des rsidus est asymtrique.

Non-linarit
Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime) ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de neurones, etc.).

Rupture de structure
Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs
Page: 10 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.1 Diagnostic graphique

11

Fig. 1.4.

La relation modliser est non-linaire

rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique dans la population (Figure 1.5).

Fig. 1.5.

Rsidus caractristiques d'une rupture de structure

Htroscdasticit
Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).

Page: 11

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

12

1 tude des rsidus

Fig. 1.6.

La variance des rsidus augmente avec les valeurs d'une des exognes

Autocorrlation des rsidus


Ce problme est spcique aux donnes longitudinales. Dans le graphique des rsidus, nous plaons des dates en abcisse, nous essayons de dtecter si les erreurs suivent un processus particulier au cours du temps. L'autocorrlation peut tre positive (des "blocs" de rsidus sont positifs ou ngatifs, gure 1.8) ou ngative (les rsidus sont alternativement positifs et ngatifs, gure 1.7).

Fig. 1.7.

Autocorrlation ngative des rsidus

1.1.2 Graphiques des rsidus pour les donnes CONSO


Nous avons lanc la rgression sur les donnes CONSO (Figures 0.2 et 0.3). Nous construisons les dirents graphiques des rsidus en les croisant avec l'endogne et les exognes (Figure 1.9). Nous avons utilis le logiciel R. Une information, essentiellement, saute aux yeux : 2 points semblent se dmarquer systmatiquement sur l'endogne Y , le prix, la cylindre et la puissance. Pourtant ils ne semblent pas particulirement mal restitus par la rgression puisque le rsidu (erreur de prdiction) ne prend pas des valeurs anormalement

Page: 12

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

1.2 Tester le caractre alatoire des erreurs

13

Fig. 1.8.

Autocorrlation positive des rsidus

leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le chapitre consacr l'analyse des points atypiques et inuents.

1.2 Tester le caractre alatoire des erreurs


Lorsque nous travaillons avec des donnes longitudinales, la date dnit naturellement l'ordonnancement des observations. Il est important de vrier que les rsidus sont produits de manire totalement alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quelconque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires n'est plus BLUE ! : elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice de variance covariance n'est plus estime de manire convergente, les tests de signicativit ne sont plus oprants. La dtection de l'autocorrlation des rsidus peut s'eectuer visuellement l'aide du graphique des rsidus (Figures 1.8 et 1.7). Elle peut galement s'appuyer sur des techniques statistiques. La plus connue est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation. Nous pouvons aussi utiliser des tests plus gnraux comme le test des squences de Wald. Les causes de l'autocorrlation des rsidus peuvent tre multiples. Elles se rapprochent des problmes de spcications l'origine des violations des hypothses (Bourbonnais, page 114) : une variable exogne importante est absente de l'quation de rgression ; la liaison modlise n'est pas linaire ; les donnes ont t manipules (ex. moyenne mobile, reconstitue par interpolation, etc.), c'est souvent le cas lorsqu'elles sont produites par des observatoires statistiques.

Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus
n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des observations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent
3. Best Linear Unbiased Estimator
Page: 13 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

14

1 tude des rsidus

Fig. 1.9.

Graphiques des rsidus - Donnes CONSO

aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.

Page: 14

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

1.2 Tester le caractre alatoire des erreurs

15

les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les grandes valeurs de Y : manifestement il y a un problme dans le modle...).

1.2.1 Test de Durbin-Watson Principe


Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :

i = . i1 + i , avec i N (0, )
Le test d'hypothses s'crit :

(1.2)

H0 : = 0 H1 : = 0
On utilise la statistique de Durbin-Watson

n d=

i=2 (ei ei1 ) n 2 i=1 ei

(1.3)

Par construction, 0 d 4, d = 2 lorsque = 0. Elle a t tabule par Durbin et Watson (Annexes A) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour un test bilatral (Bourbonnais, pages 115 et 116) :  Acceptation de H0 si dU < d < 4 dU  Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0)  Incertitude si dL < d < dU ou 4 dU < d < 4 dL Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1. De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) :  la rgression doit comporter un terme constant ;  les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter l'endogne retarde " .

Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer
d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes trimestrielles, etc.  Johnston, pages 180 200).
4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)
Page: 15 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

16

1 tude des rsidus

Exemple : Prdiction de la consommation de textile


Pour illustrer la mise en oeuvre du test de Durbin-Watson, nous reprenons un exemple extrait de l'ouvrage de Theil (1971) # . L'objectif est de prdire la consommation de textile partir du revenu par tte des personnes et du prix. Nous disposons d'observations sur 17 annes partir de 1923 (Figure 1.10).

Fig. 1.10.

Donnes de Theil sur le textile

Fig. 1.11.

Test de Durbin-Watson sur les donnes de Theil

L'quation de rgression mettre en place est

yi = a0 + a1 xi,1 + a2 xi,2 + i , i = 1, . . . , 17
o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.
5. Theil, H.,

Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du

test sont accessibles sur le site http://shazam.econ.ubc.ca/intro/dwdist.htm


Page: 16 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.2 Tester le caractre alatoire des erreurs

17

Les calculs sont organiss comme suit (Figure 1.11) : 1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

1.38 et a2 = 1.06.
2. Nous formons la prdiction yi avec ces coecients. 3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi . 4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874.66 et le dnominateur 433.31, nous obtenons d = 2.02. 5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson (Annexes A). Pour n = 17 et k = 2, dL = 1.02 et dU = 1.54. 6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocorrlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).

1.2.2 Test des squences


Le test des squences $ , appel galement test de Wald-Wolfowitz, est plus gnrique que le prcdent. Il cherche dtecter toute forme de rgularit lorsque les rsidus sont ordonns selon le temps. Il dtecte autant les autocorrlations ngatives (les rsidus sont alternativement ngatives et positives) que les autocorrlations positives (des blocs de rsidus conscutifs sont positifs ou ngatifs). tant plus gnrique, il est bien entendu moins puissant pour des formes particulires d'autocorrlation. On lui prfrera le test de Durbin-Watson par exemple si on veut vrier expressment la prsence d'un processus auto-rgressif d'ordre 1 des rsidus.

Principe
Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est la date pour les donnes longitudinales. Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La statistique du test r est le nombre total de squences dans la srie d'observations.

Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les
rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement. Posons n+ (resp. n ) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hypothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement % une loi normale de paramtres :

Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages 58 64, section "The one-Sample runs test of randomness"
6. Voir Siegel, S., Castellan, J., Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...
Page: 17 job: la_regression_dans_la_pratique macro: svmono.cls

7. Pour les petites valeurs de n+ et n , les valeurs critique de r ont t tabules. Voir par exemple Siegel-

date/time: 9-Jul-2011/7:43

18

1 tude des rsidus

r =

2n+ n +1 n (r 1)(r 2) r = n1
rr r .

(1.4) (1.5) La rgion critique du test  rejet de

Nous pouvons former la statistique centre et rduite z = l'hypothse de gnration alatoire des rsidus  s'crit :

R.C. : |z| > u1 2


o u1 est le fractile d'ordre 1 2
2

de la loi normale centre et rduite N (0, 1).

Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test
bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce test permet autant de dtecter les autocorrlations ngatives que positives.

Prdiction de la consommation de textile

Fig. 1.12.

Test de Wald-Wolfowitz sur les donnes de Theil

Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide d'un tableur (Figure 1.12) : 1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =

1.38 et a2 = 1.06.
Page: 18 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.3 Test de normalit

19

2. Nous formons la prdiction yi avec ces coecients. 3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi . 4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs). 5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que

n = n+ + n = 17.
6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :

r = 9.47 et r = 1.99.
7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences

r = 7.
8. Nous calculons enn la statistique centre et rduite z = et rduite u0.95 = 1.64. Nous sommes dans la rgion d'acceptation de H0 . Nous pouvons conclure que les rsidus sont indpendants, ils sont gnrs par un processus purement alatoire.
79.47 1.99

= 1.24 ;

9. Que nous comparons au fractile d'ordre 0.95 (pour un test bilatral 10%) de la loi normal centre

1.3 Test de normalit


Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression, prdiction par intervalle, etc.) repose sur l'hypothse de distribution normale N (0, ) du terme d'erreur de l'quation de rgression (quation 0.1). Vrier cette hypothse semble incontournable pour obtenir des rsultats exacts & . Nous disposons des erreurs observs i , les rsidus de la rgression, pour valuer les caractristiques des erreurs thoriques i . Cela n'est pas sans poser des problmes. En eet, si la variance de l'erreur
2 2 est constante V (i ) = , la variance du rsidu, l'erreur observe, ne l'est pas V (i ) = (1 hii ), o

hii est lue sur la diagonale principale de la hat matrix H = X(X X)1 X . Et surtout, la covariance
2 cov(i , j ) = hij entre deux rsidus observs n'est pas nulle en gnral.

De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette section sont modis, induisant galement une modication des valeurs critiques pour un mme risque . Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent valables, pour peu que l'on ait susamment d'observations (n 50) ' . Il faut surtout voir les tests comme
8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/

econometrie.pdf 9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus
pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela est pos clairement est celui de Capra P., Van Cutsem B., Mthodes

et modles en statistique non paramtrique - Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307
Page: 19 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

20

1 tude des rsidus

des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons  .

1.3.1 Graphique Q-Q plot Principe


Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot) est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les valeurs observes. Si la distribution est compatible avec la loi normale, les points forment une droite. Dans la littrature francophone, ce dispositif est appel Droite de Henry.

Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.

univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf, section 1.5.

Application sur les donnes CONSO


A partir du descriptif de notre document de rfrence, nous avons construit la Droite de Henry dans le tableur EXCEL (Figure 1.13). Le dtail des calculs est le suivant : 1. Trier les rsidus i de manire croissante, ce sont les quantiles observs. 2. Produire la fonction de rpartition empirique, lisse en accord avec la loi normale Fi = rduite. 4. En dduire les quantiles thoriques d-normalises = zi . Si la distribution empirique cadre i parfaitement avec la loi normale, les points devraient tre aligns sur la diagonale principale. Ici, pour n 1 simplier  , nous prenons = n i=1 2 . i Nous constatons que les points sont relativement bien aligns. Il n'y a pas d'incompatibilit manifeste avec une distribution normale.
10. Pour une prsentation dtaille des tests d'adquation la loi normale d'une distribution empirique, nous conseillons un de nos supports accessibles en ligne http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_
i0.375 n+0.25

3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre

Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de
supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique 11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur ( ). Mais cette petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou l'autre des estimateurs.
Page: 20 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.3 Test de normalit

21

Fig. 1.13.

Droite de Henry sur les rsidus des MCO  Donnes CONSO

Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.

1.3.2 Test de symtrie de la distribution des rsidus Principe du test


Ce test est bas sur le coecient d'asymtrie

1 =

3 3

(1.6)

o 3 est le moment centr d'ordre 3, et l'cart-type. On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire suivante :

H0 : suit une loi normale, par consquent 1 = 0 H1 : ne suit pas une loi normale, par consquent 1 = 0

Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 = 0, nous savons
que la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est seulement compatible avec une loi normale.

Page: 21

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

22

1 tude des rsidus

Statistique du test et rgion critique


Pour raliser le test, nous devons dnir la statistique du test et sa loi de distribution sous H0 . Nous utilisons le coecient d'asymtrie empirique :
1 n

g1 = ( 1
n

3 i i

2 i i

)3 2

(1.7)

Sous H0 , elle suit asymptotiquement une loi normale d'esprance et d'cart-type 

1 0 1
Nous formons le rapport c1 =
g1 1 .

6 n

Pour un test bilatral au risque , la rgion critique est dnie par

R.C. : |c1 | u1 2
o u1 est le fractile d'ordre 1 2
2

de la loi normale centre rduite.

Application sur les donnes CONSO


Nous construisons le test ci-dessus sur les rsidus des MCO sur nos donnes CONSO. Voici les principales tapes (Figure 1.14) : 1. Nous rcuprons la colonne des rsidus i .

i i 2. Nous calculons les colonnes de 2 et 3 .


0.1220 3. Nous calculons les sommes et formons g1 = 0.56023/2 = 0.2909. 6 4. Nous calculons l'cart-type 1 = 31 = 0.4399, et le rapport |c1 | = 0.6612.

5. Nous observons que |c1 | < 1.6449 = u0.95 , pour un test bilatral 10%. Nous ne sommes pas dans la rgion critique. Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre rejete.

1.3.3 Test de Jarque-Bera Principe


Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 = Les hypothses deviennent :
12. Une formulation plus prcise de l'cart-type est disponible dans http://eric.univ-lyon2.fr/~ricco/
4 4

3 dans la procdure.

cours/cours/Test_Normalite.pdf
Page: 22 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.3 Test de normalit

23

Fig. 1.14.

Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO

H0 : suit une loi normale, par consquent 1 = 0 et 2 = 0 H1 : ne suit pas une loi normale, par consquent 1 = 0 ou 2 = 0
o 4 est le moment centr d'ordre 4, est l'cart-type.

Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribution est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important, on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).

Statistique du test et rgion critique


Estimateur de 2
Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le plus simple est d'utiliser l'estimation triviale dduite de la dnition du coecient 2 :
1 4 i i n ( 1 2 )2 i i n

g2 =

(1.8)

Sous H0 , l'esprance et l'cart-type de g2 sont :

Page: 23

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

24

1 tude des rsidus

2 0 2

24 n
g2 2

La statistique standardise suit une loi normale : c2 =

N (0, 1).

Statistique de Jarque-Bera
Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2 . Puisqu'ils sont indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera ! :

(n p 1) T = 6

(
2 g1

g2 + 2 4

)
(1.9)

Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'un
chantillon de taille n, il y a (p + 1) coecients estimer dans la rgression avec constante. Cette prise en compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p est grand et que la taille de l'chantillon n est faible. Sous H0 , la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque

, s'crit :

R.C. : T > 2 (2) 1


Il s'agit d'un test unilatral, 2 (2) correspond au fractile d'ordre 1 de la loi du 2 2 degrs 1 de libert.

Application sur les donnes CONSO


Nous compltons le test fond sur le coecient d'asymtrie en utilisant les rsidus de la rgression sur les donnes CONSO. Voici les principales tapes (Figure 1.15) : 1. Nous rcuprons la colonne des rsidus i . 2. Nous calculons les colonnes de 2 , 3 et 4 . i i i 3. Nous calculons les sommes et formons g1 = 4. Nous formons g2 =
0.7020 0.56022 0.1220 0.56023/2

= 0.2909. [
(0.7626)2 4

3 = 0.7626.
3141 6

5. Reste la calculer la statistique de Jarque-Bera : T =

(0.2909)2 +

= 0.9967.

6. Que l'on compare avec le seuil critique 2 (2) = 4.6052. 0.90 Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des rsidus.
13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera
Page: 24 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.4 Conclusion

25

Fig. 1.15.

Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO

1.4 Conclusion
Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une rgression sont :  la liaison tudie est non-linaire ;  un problme de spcication, par ex. une variable exogne importante manque ;  l'existence de points atypiques ou exagrment inuents ;  les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ;  il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homognes,... Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par la suite de complter le diagnostic visuel l'aide des tests statistiques.

Page: 25

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 26

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2 Dtection des points aberrants et des points inuents

L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous pourrons en rsumer les direntes tournures de la manire suivante :  L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules.  Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais leur concomitance est surprenante (Figure 2.1).  L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.  L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (prdiction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.

Fig. 2.1.

Le point entour est suspect car la combinaison de valeurs est inhabituelle

Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce chapitre : le document de J. Confais et M. Le Guen [12], section 4.3, pages 307 311 ; et la prsentation de
Page: 27 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

28

2 Points aberrants et points inuents

A.Gueguen, La rgression linaires - Outils diagnostics, http://ifr69.vjf.inserm.fr/~webifr/ppt/

outilsdiag.ppt.

2.1 Points aberrants : dtection univarie


Bote moustache et dtection des points atypiques
L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote moustaches (Figure 2.2), dite box-plot  . Elle ore une vue synthtique sur plusieurs indicateurs importants : le premier quartile (Q1 ), la mdiane (M e) et le troisime quartile (Q3 ). On peut aussi jauger visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3 Q1).

Fig. 2.2.

Boxplot de la variable endogne "consommation (y)", 2 observations se dmarquent

On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques sont dnies par les rgles suivantes :

LIF = Q1 1.5 IQ U IF = Q3 + 1.5 IQ


o LIF signie "lower inner fence" et UIF "upper inner fence". Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher attentivement sur les observations correspondantes.
1. http://en.wikipedia.org/wiki/Box_plot 2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
Page: 28 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

2.1 Points aberrants : dtection univarie

29

Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut
statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour de la moyenne. Si l'on considre que la distribution est normale, 99.7% des observations sont situes dans cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en rduit la porte.

Les "outer fence"


Il est possible de durcir les conditions ci-dessus en largissant les bornes des valeurs. On parle alors de outer fence. Elles sont dnies de la manire suivante :

LOF = Q1 3 IQ U OF = Q3 + 3 IQ
Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).

Application sur les donnes CONSO


Il est possible de produire une bote moustache pour chaque variable du chier de donnes. Nous disposons ainsi trs rapidement d'informations sur l'talement de la distribution, de la prsence de points qui s'cartent fortement des autres. Pour la variable endogne (Figure 2.2), nous dtectons immdiatement

2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et
la Mercedes S 600. Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) : 1. de produire le 1er et le 3me quartile ; 2. d'en dduire l'intervalle inter-quartile ; 3. de calculer les bornes LIF et U IF ; 4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque variable. Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects (Tableau 2.1).

Page: 29

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

30

2 Points aberrants et points inuents

Fig. 2.3.

Dtection univarie des points atypiques pour chaque variable Prix Cylindre Puissance Poids Consommation * * * * * * * * * * *

Observations Ferrari 456 GT Mercedes S 600 Maserati Ghibli GT


Tableau 2.1.

Points suspects chier CONSO : dtection univarie

2.2 Dtection multivarie sur les exognes : le levier


Le levier
La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital pour l'tude des points atypiques et inuents : le levier. Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre de gravit du nuage de points dans l'espace dni par les exognes. La mesure a de particulier qu'elle tient compte de la forme du nuage de points, il s'agit de la distance de Mahalanobis (Tenenhaus, page 94). La prise en compte de la conguration des points dans l'espace de reprsentation permet de mieux juger de l'loignement d'une observation par rapport aux autres (Figure 2.4).

Page: 30

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2.2 Dtection multivarie sur les exognes : le levier

31

Fig. 2.4.

Le point et le centre de gravit sont situs aux mmes coordonnes dans les graphiques (a) et (b).

Pourtant apparat nettement atypique dans (b).

Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H , dite Hat Matrix, dnie de la manire suivante

H = X(X X)1 X

(2.1)

La matrice H joue un rle trs important dans la rgression, elle permet de passer des valeurs observes de Y vers les valeurs prdites Y , elle permet aussi le passage de l'erreur thorique vers les rsidus observs ! . Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments de la diagonale principale hii , on parle de levier car il dtermine l'inuence de l'observation i sur les estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques et inuents que nous prsenterons dans la suite de ce chapitre.

Calcul des lments diagonaux de la matrice H


La taille (n n) de la matrice H peut tre considrable ds lors que la taille de l'chantillon augmente. Il est possible d'en calculer uniquement les lments diagonaux en utilisant la formule

hii = hi = xi (X X)1 x i
o xi reprsente la i-me ligne de la matrice X .

Rgion critique
Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique qui permet d'indiquer qu'un point est "suspect" ?
3. = [I X(X X)1 X ]
Page: 31 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

32

2 Points aberrants et points inuents

Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtout n i=1 hi = p + 1, o p + 1 est le nombre de coecients estimer dans une rgression avec constante. On considre que le levier d'une observation est anormalement lev ds lors que :

R.C. : hi > 2

p+1 n

(2.2)

Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,
est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations permet de statuer sur leur positionnement par rapport aux autres.

Application sur les donnes CONSO

Fig. 2.5.

Quelques indicateurs de points atypiques et inuents dans TANAGRA. Donnes CONSO.

Page: 32

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2.2 Dtection multivarie sur les exognes : le levier

33

Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA (Figure 2.5) " . La valeur de coupure est 2
4+1 31

= 0.3226, 3 points se dmarquent immdiatement, les

mmes que pour la dtection univarie : la Ferrari (h8 = 0.8686), la Mercedes (h9 = 0.4843) et la Maserati (h10 = 0.6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines (Mercedes) ou des vhicules sportifs (Ferrari, Maserati). Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante selon hi . Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace (nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante d'un prix relativement moyen et d'une cylindre leve.

Fig. 2.6.

Trier les donnes CONSO selon la valeur du levier

4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.
Page: 33 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

34

2 Points aberrants et points inuents

2.3 Rsidu standardis


Rsidu standardis
Le rsidu standardis, appel galement rsidu studentis interne dans certains ouvrages, s'intresse l'importance du rsidus observ i = yi yi . S'il est anormalement lev, en valeur absolue, le point a t mal reconstitu par le modle : il s'carte ostensiblement de la relation modlise entre les exognes et l'endogne.
2 2 2 Si par hypothse, la variance de l'erreur i = est constante, il en va autrement du rsidu i = 2 (1 hi ). Nous devons donc normaliser le rsidu par son cart-type pour rendre les carts comparables

d'une observation l'autre.


2 Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de , nous

estimons la variance des rsidus avec

i = (1 hi ) 2 2
o hi est lue dans la Hat Matrix H , = 2
i i np1

(2.3)

est l'estimateur de la variance de l'erreur.

Le rsidu standardis est dni par le rapport

ti =

i i = i (1 hi )

(2.4)

Rgion critique
Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu standardis est anormalement lev (en valeur absolue). Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse i N (0, ), nous en dduisons que i N (0, i ). On peut montrer facilement que i suit une loi du 2 (n p 1) 2 degrs de libert. De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert

ti T (n p 1)

(2.5)

Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine manire atypique) lorsque

R.C. : |ti | > t1 (n p 1) 2


o t1 (n p 1) est le fractile d'ordre 1 2
2

de la loi de Student (n p 1) degrs de libert.

Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue. Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :
Page: 34 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

2.3 Rsidu standardis

35

 il est mal prdit c.--d. i est lev ;  la rgression est prcise c.--d. est faible ; en eet, si la rgression est globalement prcise, un point mal prdit apparat comme d'autant plus suspect ;  le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus

(1 hi ) 0, et le rapport est lev.

Application sur les donnes CONSO


TANAGRA fournit automatiquement les rsidus standardiss lors de l'analyse des points atypiques (Figure 2.5). Il faut comparer la valeur absolue de la colonne avec la valeur seuil t0.95 (26) = 1.7056 pour un risque 10%. Lorsque le nombre d'observations est lev, il devient mal ais d'inspecter le tableau des valeurs du rsidus standardis. Il est plus commode de revenir au graphique des rsidus en mettant en abcisse l'endogne et en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs seuils t1 et +t1 (Figure 2.7) # . 2 2

Fig. 2.7.

Graphique des rsidus standardiss vs. endogne - Donnes CONSO

Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les donnes selon |ti |. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique est d'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcaniquement mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations
5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.
Page: 35 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

36

2 Points aberrants et points inuents

aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.

Fig. 2.8.

Observations tries selon la valeur absolue du rsidu standardis

Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Figure 2.8) :  La Mercedes cumule un rsidu fort (1.374) et un levier lev (0.4843). Ce type de vhicule appartient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier.  La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0.8686. Le rsidu brut = 0.610 n'est pas trs lev, on prdit correctement sa consommation au regard de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un vhicule bien particulier.  La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La Hyundai consomme fortement par rapport ses caractristiques = y y = 11.7 10.264 = 1.436 ; la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) = 7.6 9.168 =

1.568.

Page: 36

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2.4 Rsidu studentis

37

2.4 Rsidu studentis


Le rsidu studentis
Principe
Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous valuons l'importance du rsidu i d'une observation qui a particip la construction de la droite de rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle, puis on regarde s'il a bien t modlis. Si l'observation est fortement inuente, au sens qu'elle "tire" exagrment les rsultats de manire prsenter un rsidu brut trs faible 0, nous conclurons tort qu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation (Figure 2.9).

Fig. 2.9.

Exemple de rgression simple o l'observation est certes bien modlise ( 0) mais elle fausse

totalement les calculs : on parle de point exagrment inuent.

Il faudrait mettre en place une procdure qui permet de

observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur
de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du modle utilis pour prdire la valeur yi . Le rsidu studentis, on parle de rsidu studentis externe ou

confronter les rsultats selon qu'une

RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,
page 135) :  Pour chaque observation i,  Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.

 Nous eectuons la prdiction sur l'observation i en donne supplmentaire yi (i)


 Nous obtenons aussi l'estimation de l'cart-type des erreurs (i), le levier hi (i) obtenu avec la
formule hi (i) = xi (Xi Xi )1 x o Xi correspond la matrice des X sans la ligne numro i. i

 A l'instar du rsidu standardis, nous formons le rsidu studentis partir du rapport

Page: 37

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

38

2 Points aberrants et points inuents

t = i

yi yi (i) (i) (1 hi (i))

(2.6)

Le principe de la donne supplmentaire permet de mieux apprhender le rle/le poids de l'observation

i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des
points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).

Fig. 2.10.

Principe de la donne supplmentaire : l'observation , exclue du calcul de la droite de rgression,

devient trs mal prdite

Une autre interprtation


Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les calculs. En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons utiliser par la suite pour dnir la rgion critique du test. Le principe est le suivant, nous eectuons n rgressions avec toutes les observations. Pour la rgression numro i, nous introduisons une variable muette z dnie de la manire suivante

z = 1 pour l'observation numro i = 0 sinon


La rgression numro i s'crit donc de la manire suivante :

y = a0 + a1 x1 + . . . + ap xp + b z +

(2.7)

Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y a bien (p + 2) coecients estimer dans l'quation 2.7.

Page: 38

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2.4 Rsidu studentis

39

Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se rvler rdhibitoire.

est possible de le calculer pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons
pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95) $ : np2 t = ti i n p 1 t2 i Le calcul supplmentaire demand est ngligeable.

A ce stade intervient une proprit remarquable du rsidu studentis : il

(2.8)

Rgion critique
A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente ou non. On oppose :

H0 : b = 0 H1 : b = 0
Sous H0 , la statistique t T (n p 2), on en dduit la rgion critique du test : i

R.C. : |t | > t1 (n p 2) i 2
o t1 (n p 2) est le fractile d'ordre 1 2
2

de la loi de Student (n p 2) degrs de libert.

Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.

Comparaisons multiples et contrle du risque  I


En multipliant les tests, nous valuons n observations, nous augmentons le risque de signaler tort des points atypiques. Certains auteurs prconisent de rendre la dtection plus exigeante en introduisant la correction de Bonferroni pour les comparaisons multiples : on divise le risque par l'eectif n. Pour chaque observation tester, nous comparons le rsidu studentis avec le fractile d'ordre 1 l'exemple CONSO, le vrai risque utiliser serait 1 procdure.
6. La formule propose dans Dodge semble errone (page 135)
Page: 39 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
0.1 231 2n .

Dans

= 0.9984 et le seuil critique t0.9984 (25) = 3.539.

On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette

40

2 Points aberrants et points inuents

Comparaisons multiples et contrle du risque  II


Si l'on comprend le principe de la correction du risque, multiplier les tests augmente les chances de dsigner tort un point aberrant, il faut donc tre plus exigeant, la rectication ci-dessus est purement empirique. Pour dpasser ces problmes, d'autres auteurs proposent tout simplement de comparer directement le rsidu studentis avec une valeur ad hoc, inspire nanmoins des seuils fournis par la loi de Student, la valeur la plus utilise est 2 en rfrence un test 5%. Pour ma part, je pense que le plus simple encore est de trier les observations selon |t |, cela nous donne plus de latitude pour juger de i l'ampleur des carts.

Application sur les donnes CONSO


Nous compltons le tableau EXCEL en ajoutant la colonne des rsidus studentiss. La valeur seuil

10% est 1.7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce
sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600, Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).

Fig. 2.11.

Observations tries selon la valeur absolue du rsidu studentis

Dans notre exemple, les deux indicateurs ti et t concordent. Ce n'est pas toujours le cas en pratique. i Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur la rgression.

Page: 40

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

2.5 Autres indicateurs usuels

41

2.5 Autres indicateurs usuels


Dans cette section, nous numrons d'autres indicateurs de points atypiques/inuents couramment rencontrs dans les logiciels. Nous simplions la prsentation en mettant l'accent sur 3 aspects : le principe, la formule et la rgle de dtection. Les rsultats relatifs au chier de donnes CONSO ont t produites l'aide du logiciel TANAGRA (Figure 2.5).

2.5.1 DFFITS
Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la prdiction en resubstitution yi et la prdiction en donne supplmentaire yi (i). Dans le premier cas, l'ob servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence serait trs marque, conrmant le rle mysticateur de l'individu . Le DFFITS est normalise de la manire suivante

DF F IT Si =

yi yi (i) (i) hi

(2.9)

Nous considrons qu'une observation est inuente lorsque

R.C. : |DF F IT Si | > 2

p+1 n

mais le plus simple toujours est de trier les observations selon |DF F IT Si | pour mettre en vidence les points suspects.

Sur le chier CONSO, le seuil critique est 2 4+1 = 0.8032. Nous constatons que la Ferrari (tout 31

particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne dpasse pas le seuil (0.7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent comptant les valeurs seuils (Figure 2.12).

Calcul pratique du DFFITS


Il n'est heureusement pas ncessaire d'eectuer les n rgressions pour calculer les DF F IT Si , on peut l'obtenir partir du rsidu studentis

DF F IT Si = t i

hi 1 hi

(2.10)

2.5.2 Distance de COOK


La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'eet de la suppression de l'observation i sur la prdiction de yi , il mesure son eet sur la prdiction des n valeurs de l'endogne.
Page: 41 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

42

2 Points aberrants et points inuents

Fig. 2.12.

Observations tries selon la valeur absolue du DF F IT S

La premire formulation de la distance de Cook Di est la suivante : n 2 y j=1 [i yi (i)] Di = (p + 1) 2

(2.11)

Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients, et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans l'estimation des coecients. Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre. La rgle la plus simple est :

R.C. : Di > 1

(2.12)

Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre parfois la disposition plus exigeante suivante (Confais, page 309) :

R.C. : Di >

4 np1

(2.13)

La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di > (quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).
4 np1

= 0.1538

Calcul pratique de la distance de Cook


De nouveau, il n'est pas question d'eectuer les n rgressions en supprimant tour tour chaque observation. Nous pouvons grandement simplier les calculs en drivant la distance de Cook partir des rsidus standardiss
Page: 42 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

2.5 Autres indicateurs usuels

43

Fig. 2.13.

Observations tries selon la distance de Cook Di

Di =

t2 hi i (p + 1) (1 hi )

(2.14)

Distance de Cook entre les coecients estims


Nous avons dnis la distance de Cook comme un cart entre les prdictions. Il est galement possible de la dnir comme une distance entre les coecients estims, avec ou sans l'observation i analyser. Dans ce cas, la distance de Cook s'crit

Di =

( a(i)) (X X)1 ( a(i)) a a 2 (p + 1)

(2.15)

o a est le vecteur des (p + 1) coecients estims (0 , a1 , . . . , ap ) avec les n observations ; a(i) le a mme vecteur estim sans l'observation i. La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement la mme que celle obtenue avec la premire dnition (quation 2.11). De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une loi de Fisher (p + 1, n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter les points atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure

50% % . On peut aussi imaginer une procdure plus souple et simplement trier les observations selon la
p-value de la distance de Cook. Dans le cas du chier CONSO, on constate que la Ferrari et la Mercedes se dmarquent fortement par rapport aux autres vhicules (Figure 2.14).
7. http://www-stat.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf
Page: 43 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

44

2 Points aberrants et points inuents

Fig. 2.14.

Observations tries selon la p-value de la distance de Cook Di

2.5.3 DFBETAS
La distance de Cook value globalement les disparits entre les coecients de la rgression utilisant ou pas l'observation numro i. Si l'cart est important, on peut vouloir approfondir l'analyse en essayant d'identier la variable qui est l'origine de l'cart : c'est le rle des DFBETAS. Pour chaque observation i et pour chaque coecient aj , j = 0, . . . , p, nous calculons la quantit

DF BET ASj,i =

aj aj (i) (i) (X X)1 j

(2.16)

o aj est l'estimation du coecient de la variable Xj (a0 pour la constante) ; aj (i) l'estimation du mme coecient lorsqu'on a omis l'observation i ; (i) l'estimation de l'cart-type de l'erreur de rgression sans l'observation i ; (X X)1 est lue sur la diagonale principale de la matrice (X X)1 . j On considre que l'observation i pse indment sur la variable Xj lorsque

R.C. : |DF BET ASj,i | > 1


Lorsque les observations sont nombreuses, on prfrera la rgle plus exigeante :

(2.17)

2 R.C. : |DF BET ASj,i | > n

(2.18)

Bien entendu, il est toujours possible de trier les observations selon les DFBETAS, mais cela peut tre rapidement fastidieux lorsque le nombre de variables est lev. Appliqu sur les donnes CONSO, les DFBETAS nous permettent de mieux situer l'action des observations mis en avant par la distance de Cook. On compare les valeurs calcules avec le seuil
Page: 44 job: la_regression_dans_la_pratique macro: svmono.cls
2 31

= 0.3592.

date/time: 9-Jul-2011/7:43

2.5 Autres indicateurs usuels

45

On constate que la Ferrari et la Mercedes psent sur quasiment toutes les variables ds lors qu'on les retire ou qu'on les rajoute dans les eectifs pour la rgression. La Hyundai, qui semble moins peser globalement (cf. Di ), a aussi une action sur l'ensemble des coecients mis part la constante. Enn, la Maserati, la Mitsubishi et la Toyota Previa agissent de manire anecdotique sur quelques coecients (Figure 2.15).

Fig. 2.15.

DF BET ASj,i pour le chier CONSO

Calcul pratique
Encore une fois, il est hors de question d'eectuer n rgressions, on s'en sort en utilisant la formule suivante

[ DF BET ASj,i = t i

(X X)1 X

]
j,i


(2.19)

(X X)1 (1 hi ) j

2.5.4 COVRATIO
A la dirence de la distance de Cook, au lieu de mesurer la disparit entre les estimations des coecients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparits entre les prcisions des estimateurs c.--d. la variance des estimateurs. A cet eet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance

gnralise, elle est gale


var() = det(X X)1 a 2
o det(X X)1 est le dterminant de la matrice (X X)1 .
Page: 45 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

46

2 Points aberrants et points inuents

On formule alors le COV RAT IOi de l'observation i de la manire suivante :

COV RAT IOi =


A premire vue :

var((i)) a var() a

(2.20)

 Si COV RAT IOi > 1, la prsence de l'observation i amliore la prcision au sens o elle rduit la variance des estimateurs ;  A l'inverse, si COV RAT IOi < 1 indique que la prsence de l'observation i dgrade la variance.

Remarque 14. Attention, une diminution de la variance (COV RAT IO > 1) n'est pas forcment un signe
du rle bnque de l'observation i. Une rduction excessive de la variance peut vouloir dire que l'observation pse exagrment par rapport aux autres observations. Il faut manipuler avec beaucoup de prcautions cet indicateur. A partir de quel moment doit-on s'inquiter de l'inuence d'une observation ? La rgle de dtection la plus rpandue est

R.C. : COV RAT IOi < 1


que l'on peut simplier :

3(p + 1) 3(p + 1) ou COV RAT IOi > 1 + n n 3(p + 1) n

(2.21)

R.C. : |COV RAT IOi 1| >

(2.22)

Le COVRATIO a t calcul pour chaque observation du chier CONSO. Le tableau est tri selon

|COV RAT IOi 1| dcroissant (Figure 2.16). Nous portons notre attention sur la premire partie du
tableau. Nous retrouvons la Ferrari, la Maserati et la Toyota Previa rapparaissent (cf. levier). Nous notons aussi qu'ils sont suivis d'autres monospaces (Seat Alhambra et Peugeot 806, mme s'ils ne sont pas signicatifs).

Calcul pratique
Il est possible d'obtenir le COVRATIO partir du rsidu studentis et du levier

COV RAT IOi = [

1
np2 np1

(t )2 i np1

](p+1)

(2.23)

(1 hi )

2.6 Bilan et traitement des donnes atypiques


Lecture des indicateurs
Trop d'information tue l'information a-t-on coutume de dire. C'est tout fait vrai dans le cas de ce chapitre. La profusion d'outils peut rapidement donner le tournis. Confais (2006) propose un tableau rcapitulatif, on ne peut plus salutaire (pages 312 et 313). On discerne le type de lecture que l'on peut faire de chaque indicateur et les conclusions que l'on pourraient en tirer (Figure 2.17).
Page: 46 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

2.6 Bilan et traitement des donnes atypiques

47

Fig. 2.16.

Observations tries selon le COV RAT IOi

Traitement des observations atypiques


Reste alors la question dlicate du traitement des donnes atypique, que peut-on faire des observations qui, manifestement, jouent un rle particulier dans la rgression ? Tous les auteurs s'accordent dire que la suppression automatique des observations atypiques n'est pas "la" solution. Il faut comprendre pourquoi l'observation se dmarque autant et proposer des solutions appropries :  Premier rexe : vrier les donnes, y a-t-il des erreurs de saisie ou des erreurs de transcription ? Dans ce cas, il sut de corriger les valeurs recenses.  Si la distribution est trs asymtrique (ex. salaires), il est plus indiqu de tenter de symtriser la distribution avec une transformation de variables adquate (ex. log) avant de procder nouveau l'analyse.  Si l'on manipule des donnes longitudinales, on introduit une variable muette pour neutraliser l'eet de l'observation atypique (ex. guerre, famine).  Il apparat que les observations incrimines ne correspondent pas la population tudie (ex. des martiens se sont immiscs dans une enqute). Dans ce cas, et dans ce cas seulement, la suppression est rellement justie. Dans notre exemple CONSO, il apparat clairement que la Ferrari, voiture sportive d'exception, et la Mercedes, une limousine ultra-luxueuse, n'appartiennent pas au mme monde que les autres vhicules de l'analyse. Ils se situent de plus des niveaux de prix qui les situent dnitivement hors de porte. Il parat donc licite de les supprimer de nos donnes.

Page: 47

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

48

2 Points aberrants et points inuents

Fig. 2.17.

Tableau rcapitulatif - Dtection des observations atypiques (Confais et Le Guen, Modulad, 35, 2006)

Remarque 15 (Techniques graphiques vs. techniques numriques). A ce sujet, prenons toujours de la hauteur par rapport aux techniques numriques, on peut se demander si nalement cet attirail tait bien ncessaire dans la mesure o, ds les graphiques des rsidus, la Ferrari et la Mercedes taient systmatiquement l'cart des autres. Elles auront surtout servi conrmer et prciser le rle perturbateur de ces 2 observations. Nous eectuons la rgression sur les 29 observations restantes. En tudiant de nouveau les points atypiques, nous constaterons que la Mitsubishi est particulirement mal modlise, ce n'est pas tonnant
Page: 48 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

2.6 Bilan et traitement des donnes atypiques

49

car elle prsente une consommation anormalement basse au regard de ses caractristiques, sa cylindre notamment. Nous mettrons galement de ct la Maserati qui est un vhicule sportif turbo-compress hautes performances.

Remarque 16 (Quand la suppression des observations atypiques devient abusive ?). Nous voyons bien l
les limites de l'approche consistant liminer les observations considres atypiques. En continuant ainsi, nous nirons par vider le chier : aucun risque de voir des disparits entre les individus si nous n'avons plus qu'une seule observation.

Fig. 2.18.

Rsultats de la rgression CONSO sans les observations atypiques

Dornavant, nous utiliserons le chier des 27 observations, expurg des 4 vhicules numres ci-dessus, pour illustrer les autres thmes abords dans ce support (Figure 2.18). Nous obtenons des rsultats bien dirents avec des graphiques des rsidus autrement plus sympathiques (Figure 2.19). La variable prix a disparu des paramtres signicatifs. On s'tonne en revanche que ni puissance ni cylindre ne soient pertinents pour expliquer la consommation. Peut-tre faut-il y voir l l'eet de la colinarit ? Nous approfondirons cette question dans le chapitre suivant.

Page: 49

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

50

2 Points aberrants et points inuents

Fig. 2.19.

Graphiques des rsidus, chier CONSO aprs suppression des 4 points atypiques

Page: 50

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

3 Colinarit et slection de variables

L'un des objectifs de la rgression est d'essayer de dcrire le processus de causalit entre les exognes et l'endogne. Pour cela, nous tudions le signe et la valeur des coecients. L'ide est de circonscrire au possible le rle de telle ou telle variable dans l'explication des valeurs prises par Y . S'il est tabli qu'une variable n'est d'aucune utilit, il est conseill de l'liminer, elle perturbe la lecture des rsultats. Les problmes surgissent lorsqu'il va falloir dnir une stratgie de slection de variables. Peut-on simplement liminer le bloc de variables qui ne sont pas signicatifs au sens du test de Student ? Ce serait ngliger l'eet conjoint des variables. Doit-on les liminer unes unes, comment doit-on organiser la suppression ? Est-ce que la suppression squentielle est la meilleure stratgie, ne peut-on pas envisager une procdure o l'on slectionne petit petit les variables intressantes ou lieu d'liminer celles qui ne sont pas pertinentes ? etc. Les procdures de slection de variables que nous prsentons dans ce chapitre rpondent ces questions. Souvent certaines variables exognes sont redondantes, elles emmnent le mme type d'information : c'est le problme de la colinarit, elles se gnent mutuellement dans la rgression. Dans ce chapitre, nous dcrivons quelques techniques simples de dtection de la colinarit. Puis, nous prsentons une solution simple pour y remdier par le truchement de la slection de variables.

3.1 Dtection de la colinarit


3.1.1 Consquences de la colinarit
On parle de colinarit entre 2 variables exognes lorsque la corrlation linaire entre ces variables est leve (ex. r > 0.8 a-t-on l'habitude d'indiquer  mais ce n'est pas une rgle absolue). On peut gnraliser cette premire dnition en dnissant la colinarit comme la corrlation entre une des exognes avec une combinaison linaire des autres exognes.

1. Borcard, D.,

Rgression Multiple - Corrlation multiple et partielle, 2001-2007 ; http://biol10.biol.

umontreal.ca/BIO2042/Regr_mult.pdf
Page: 51 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

52

3 Colinarit et slection de variables

Plusieurs problmes peuvent surgir :  les valeurs/signes des coecients sont contradictoires, elles ne concordent pas avec les connaissances du domaine ;  les variances des estimateurs sont exagres ;  au point que les coecients ne paraissent pas signicatives (au sens du t de Student du test de nullit des coecients), poussant le statisticien les supprimer indment ;  les rsultats sont trs instables, l'adjonction ou la suppression de quelques observations modie du tout au tout les valeurs et signes des coecients. Il y a un vrai risque de passer ct d'une variable exogne importante tout simplement parce qu'elle est redondante avec une autre. La colinarit entre variables exognes rend illusoire la lecture des rsultats sur la base des valeurs et de la signicativit des coecients. Il est indiqu de la dtecter et de la traiter avant toute interprtation approfondie.

3.1.2 Illustration de l'eet nocif de la colinarit


Essayons d'illustrer le mcanisme de la colinarit.  Si la colinarit est parfaite, rang(X X) < p + 1 (X X)1 n'existe pas. Le calcul est impossible.  Si la colinarit est forte, det(X X) 0, l'inverse ! (X X)1 =
1 det(X X) comA

contient des valeurs

trs leves. Il en est de mme pour la matrice de variance covariance des coecients estims a a = (X X)1 . Ds lors, le t de Student taj = aj pour tester la signicativit des coecients 2
j

prsente mcaniquement de trs faibles valeurs. La variable parat non signicative, elle est limine par le statisticien.

3.1.3 Quelques techniques de dtection Test de Klein


Il ne s'agit pas d'un test proprement parler mais plutt d'un indicateur simple pour dtecter rapidement les situations problmes (Bourbonnais, pages 100 et 101). Le test de Klein repose sur le principe suivant 1. Nous calculons normalement la rgression linaire multiple y = a0 + a1 x1 + + ap xp + , nous recueillons le coecient de dtermination R2 . 2. Nous calculons les corrlations croises entre les variables exognes Xj1 et Xj2 : rj1 ,j2 avec j1 = j2 .
2 3. Il y a prsomption de colinarit s'il existe au moins un couple de variables Xja , Xjb tel que R2 < rja ,jb . 2 Dans la pratique, une simple proximit entre les valeurs R2 et rja ,jb doit nous alerter.

2. Foucart, T.,

Colinarit et Rgression linaire, in Mathmatiques et Sciences Humaines, Numro 173, pp.

5-25, 2006 ; http://www.ehess.fr/revue-msh/pdf/N173R963.pdf 3. Voir la mthode des cofacteurs, http://fr.wikipedia.org/wiki/Matrice_inversible


Page: 52 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.1 Dtection de la colinarit

53

Application sur les donnes CONSO


Dans la rgression sur 27 points, rappelons que le coecient de dtermination est R2 = 0.9295 (Figure 2.18). Nous avons calcul les corrlations croises entre les exognes, puis leur carr (Figure 3.1). Nous constatons deux situations qui peuvent poser problme : la corrlation entre la puissance et la cylindre (r2 = 0.91) ; celle entre le poids et le prix (r2 = 0.90) " . Cela peut expliquer notamment pourquoi les variables puissance et cylindre ne paraissent pas pertinentes pour expliquer la consommation. Ce qui est un non sens si on s'intresse un tant soit peu aux vhicules automobiles.

Fig. 3.1.

Corrlation croises et leur carrs. Donnes CONSO

Test de multicolinarit - Facteur d'ination de la variance (VIF)


Le test de Klein ne "dtecte" que la colinarit bivarie. Pour valuer la multicolinarit, il faudrait eectuer la rgression de chaque exogne Xj avec les (p 1) autres exognes, puis tudier le coecient
2 de dtermination Rj associ.

On appelle facteur d'ination de la variance (VIF) la quantit (Saporta, page 422) :

vj =

1 2 1 Rj

(3.1)

On parle de facteur d'ination car nous avons la relation suivante

V (j ) = a

2 vj n

L'cart-type de l'estimation est multipli par un facteur

vj .

Plus vj sera lev, plus la variance V (j ) de l'estimation sera forte. L'estimation aj sera donc trs a instable, il aura moins de chances d'tre signicatif dans le test de nullit du coecient dans la rgression. A partir de quelle valeur de vj doit-on s'inquiter ? Si les variables taient 2 2 indpendantes, vj = 1 et V (j ) = a
2 n .

Nous pourrions obtenir les coecients de la rgression multiple partir de p rgressions

4. Les voitures sont vendues au poids maintenant ?


Page: 53 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

54

3 Colinarit et slection de variables

simples. Une rgle usuelle de dtection de la colinarit est de prendre un seuil o l'on multiplierait d'un facteur de 2 l'cart-type de l'estimation. On dcide qu'il y a un problme de colinarit lorsque

vj 4
Certains utilisent une rgle moins contraignante et prfrent # les seuils 5 ou mme 10 c.--d. la multicolinarit n'est signale que si elle est vraiment leve. A vrai dire, l'essentiel est d'identier les variables qui posent problme dans la rgression.
2 Tolrance. La quantit 1 Rj , appele tolrance, est galement fournie par les logiciels statistiques.

Plus elle est faible, plus la variable Xj soure de colinarit. En drivant la rgle de dtection du VIF, on s'inquiterait ds que la tolrance est infrieure 0.25.

Calcul pratique du VIF.

Calculer p rgressions croises, chaque variable Xj contre les (p 1)

2 autres pour obtenir les Rj et donc vj , serait vite fastidieux. Nous pouvons proter des calculs existants

pour produire le VIF. En eet, si C est la matrice des corrlations entre les exognes, de taille (p p), la quantit vj peut tre lue la coordonne j de la diagonale principale de la matrice inverse C 1 . Nous en reparlerons plus loin (section 3.6), il est mme possible de produire les rsultats des rgressions croises partir des valeurs de la matrice C 1 .

Application sur les donnes CONSO


Nous inversons la matrice de corrlation, nous lisons sur la diagonale principale les VIF. Mme avec la rgle de dtection la plus permissive (vj 10), nous constatons que toutes les variables posent problme (Figure 3.2). Il y a rellement une trs forte colinarit des exognes dans ce chier. La variable prix en particulier est fortement lie avec les autres variables. Ce qui n'est tonnant nalement. Le prix est un indicateur du niveau de gamme des voitures. On s'attend ce qu'il soit, un tant soit peu, en relation avec des critres objectifs tels que la puissance ou la cylindre.

Fig. 3.2.

Inverse de la matrice des corrlations - Sur la diagonale principale le VIF

Autres tests statistiques de multicolinarit


Il existe des tests statistiques plus rigoureux bass sur la matrice des corrlations C : soit partir du dterminant de la matrice, le test de Farrar et Glauber par exemple (Bournonnais, page 101) ; soit
5. Voir http://www2.chass.ncsu.edu/garson/PA765/regress.htm, section cription dtaille des critres et des seuils critiques.
Page: 54 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
Multicoliearity,

pour une des-

3.2 Traitement de la colinarit - Slection de variables

55

partir de ses valeurs propres (ex. l'indice de multicolinarit - http://www.ehess.fr/revue-msh/

pdf/N173R963.pdf ; voir aussi Saporta, section 17.3.2.2, page 422, sur les relations entre le VIF et les
valeurs propres de la matrice C ). Ils s'appuient tous sur une dmarche similaire, l'hypothse nulle est l'orthogonalit des variables exognes, on value dans quelle mesure on s'carte de cette hypothse. Sans remettre en doute la pertinence de ces tests, force est de constater que les approches simples susent souvent pour apprcier au mieux les multiples situations.

Cohrence des signes


Il existe une autre approche trs simple pour dtecter la colinarit, comparer les signes des coecients de la rgression avec le signe des corrlations simples entre les exognes et l'endogne. La procdure est la suivante : 1. Nous calculons normalement la rgression linaire multiple y = a0 + a1 x1 + + ap xp + , nous recueillons les signes des coecients estims aj . 2. Nous calculons les corrlations croises entre chaque variable exogne Xj et l'endogne : ry,xj . 3. Il y a prsomption de colinarit s'il existe des situations o signe(j ) = signe(ry,xj ). En eet, cela a indique que les autres variables perturbent la relation entre Y et Xj .

Application au donnes CONSO


Nous calculons les corrlations simples entre chaque exogne et l'endogne. Nous comparons les rsultats avec les coecients de la rgression (Figure 3.3). Il y a un conit pour la variable puissance que nous souponnons justement d'tre carte tort.

Fig. 3.3.

Comparaison des corrlations individuelles et des coecients. Donnes CONSO

3.2 Traitement de la colinarit - Slection de variables


Il existe plusieurs pistes pour traiter la colinarit. On note principalement la rgression ridge qui est une technique de rgularisation visant rendre l'inversion de (X X) plus stable ; la rgression sur les axes principaux de l'analyse en composantes principales, qui sont des variables synthtiques deux deux linairement indpendantes produites partir des exognes initiales ; la rgression PLS (Partial Least Squares) qui impose une contrainte dans la recherche des solutions ; etc.
Page: 55 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

56

3 Colinarit et slection de variables

Dans ce chapitre, nous traiterons plus particulirement de la slection de variables. L'objectif est de trouver un sous-ensemble de q variables exognes (q p) qui soient, autant que possible, pertinentes et

non-redondantes pour expliquer l'endogne Y . Deux problmes se posent alors :


1. quelle est la bonne valeur de q ? 2. comment choisir ces q variables ? Outre le traitement de la colinarit, la slection de variables rpond une autre motivation : la prfrence la simplicit. A pouvoir explicatif sensiblement quivalent, on choisit les modles parcimonieux pour plusieurs raisons : le modle est plus lisible, il est plus facile interprter ; le nombre de variables collecter est plus faible ; le modle est plus robuste, c'est le principe du Rasoir d'Occam.

3.2.1 Slection par optimisation


Cette approche consiste produire toutes les combinaisons possibles de variables exognes, puis de choisir la rgression qui maximise un critre de qualit. Le premier cueil est le nombre de cas valuer, il est gal 2p 1, ce qui peut se rvler prohibitif lorsque p est lev. Il faut donc choisir une stratgie de recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale. Il existe un grand nombre de techniques d'exploration dans la littrature (ex. approches gloutonnes, approches best rst search, algorithmes gntiques, etc.). Elles se distinguent par leur complexit et leur aptitude trouver la solution maximisant le critre. Mais quel critre justement ? C'est ce que nous allons tudier maintenant.

Critre du R2
Le R2 semble de prime abord vident. Il exprime la part de la variance explique par le modle. C'est le premier critre que l'on regarde dans une rgression. On essaie de trouver la combinaison de variables qui maximise le R2 . En ralit, il ne convient pas. En eet, le R2 augmente de manire mcanique avec le nombre de variables : plus on ajoute de variables, meilleur il est, mme si ces variables ne sont absolument pas pertinentes. A la limite, on connat d'oce la solution optimale : c'est le modle comportant les p variables candidates. Dans un processus de slection de modle, le R2 conviendrait uniquement pour comparer des solutions comportant le mme nombre de variables.

Critre du R2 corrig
Le R2 corrig, not R2 , tient compte des degrs de libert, donc du nombre de variables introduits
dans le modle. Il rend comparable des rgressions comportant un nombre d'exognes dirent. Pour bien
Page: 56 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.2 Traitement de la colinarit - Slection de variables

57

comprendre la dirence, rappelons la formule du R2

R2 = 1
o SCR =

SCR SCT i (yi y )


2

(3.2) est la somme des carrs

2 i (yi yi )

est la somme des carrs rsiduels, SCT =

totaux, ceux de l'endogne.

Le R2 introduit une correction par les degrs de libert, il s'crit SCR/(n q 1) CM R =1 R2 = 1 CM T SCT /(n 1)
(3.3)

o CM R sont les carrs moyens rsiduels, CM T les carrs moyens totaux, q est le nombre de variables dans le modle valu.

Il est possible d'exprimer le R2 partir du R2 R2 = 1 n1 (1 R2 ) nq1


(3.4)

On voit bien le mcanisme qui se met en place. Deux eets antagonistes s'opposent lorsque l'on ajoute une variable supplmentaire dans le modle : R2 augmente parce que R2 s'amliore, R2 diminue parce que le nombre d'exognes q prend une valeur plus leve. Tant que la prcision du modle quantie par R2 prend le pas sur la complexit du modle quantie par q , nous pouvons ajouter de nouvelles variables. Si le principe est sain, on se rend compte dans la pratique que ce critre est trop permissif. L'eet contraignant de q n'est pas assez fort dans la formulation du R2 (quation 3.4). Le critre favorise les solutions comportant un grand nombre de variables. Il faut trouver des formulations plus restrictives.

Critres AIC et BIC


Ces critres s'appuient sur la mme ide : mettre en balance la prcision du modle quanti par le

R2 (ou le SCR, c'est la mme chose puisque SCT est constant quel que soit le modle valuer) avec la
complexit du modle quantie par le nombre de variables qu'il comporte. Avec le critre Akaike (AIC), nous cherchons la rgression qui minimise la quantit suivante :

AIC = n ln

SCR + 2(q + 1) n

(3.5)

Avec le critre BIC de Schwartz, nous cherchons optimiser

BIC = n ln

SCR + ln(n)(q + 1) n

(3.6)

Ds que n > e2 7, on constate que le critre BIC pnalise plus fortement les modles complexes. Il favorise les solutions comportant peu de variables.

Remarque 17 (Complexit et colinarit entre les exognes). Notons que ces techniques de slection ne
tiennent pas compte explicitement de la redondance entre les variables. Cela est fait de manire implicite
Page: 57 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

58

3 Colinarit et slection de variables

avec la pnalisation de la complexit : deux explicatives corrles n'amliorent gure le SCR mais sont pnalises parce que la complexit augmente, elles ne peuvent pas tre simultanment prsentes dans le modle.

Critre du PRESS
Maximiser le coecient de dtermination R2 n'est pas appropri. Rappelons que

R2 = 1

SCR SCT

o SCT , la somme des carrs totaux est constante quelle que soit la rgression considre ; SCR est dnie de la manire suivante :

SCR =

n (yi yi )2 i=1

Lorsque l'on rajoute de nouvelles variables dans le modle, mme non pertinentes, SCR diminue mcaniquement (au pire il reste constant), et par consquent R2 augmente. Cela provient du fait que l'on confronte la vraie valeur yi avec la prdiction yi alors que l'observation i a particip l'laboration du modle. A l'extrme, si on se contente que crer autant de dummy variable qu'il y a d'observations, nous sommes assurs d'obtenir un R2 = 1 puisque nous ralisons une interpolation. Pour avoir une estimation honnte des performances en prdiction, il ne faudrait pas que l'observation

i participe la construction du modle lorsqu'on veut prdire sa valeur de l'endogne. Elle intervient ainsi
comme une observation supplmentaire $ . On dduit alors un indicateur similaire au SCR que l'on appelle PRESS (Predicted Residual Sum of Squares) % :
n (yi yi (i))2 i=1

P RESS =

(3.7)

o yi (i) est la prdiction de la valeur de l'endogne pour l'observation i utilise en donne suppl mentaire dans la rgression numro i.

Calcul pratique du PRESS


Tout comme lors du calcul de certains indicateurs lors de la dtection des points atypiques, nous ne saurions eectuer rellement n rgressions, surtout lorsque les eectifs sont levs. Encore une fois la matrice H nous sauve la mise, il est possible de calculer le PRESS partir de la seule rgression sur l'ensemble des observations en utilisant la relation suivante

yi yi (i) =

yi yi 1 hi

(3.8)

6. Cela n'est pas sans rappeler la distinction que nous faisions entre les rsidus standardiss et studentiss dans la dtection des points atypiques. 7. http://www.ltrr.arizona.edu/~dmeko/notes_12.pdf
Page: 58 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.2 Traitement de la colinarit - Slection de variables

59

Procdure de slection base sur le PRESS


A la dirence du R2 , nous disposons d'un critre honnte d'valuation des performances en prdiction. Il est possible ds lors de dnir une stratgie de slection de variables uniquement bas sur ce critre de performances, sans tenir compte explicitement de la complexit du modle. En eet, dans la pratique, on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir explicatif, le R2 peut s'amliorer (fallacieusement), le PRESS lui en revanche se dgrade, indiquant par l l'inutilit de la variable.

Remarque 18 (Wrapper). Notons pour l'anecdote que ce type de stratgie de slection de variables dans le
domaine de l'apprentissage automatique (grosso modo, il s'agit de problmes de prdiction o la variable prdire est qualitative) est connu sous le terme gnrique wrapper. Sauf, qu' ma connaissance, les procdures construisent explicitement les n modles de prdiction (moins si on dcide d'exclure non pas une seule mais k observations chaque phase de construction de modle) & .

Application : calcul du PRESS sur les donnes CONSO


Calculons le PRESS partir des coecients de la rgression estimes sur les 27 observations (Figure 2.18). Nous procdons par tapes (Figure 3.4) :

Fig. 3.4.

Calcul du PRESS sur les donnes CONSO - Rgression 4 explicatives

8. Kohavi, R., John, G.,

Wrappers for Feature Subset Selection, in Articial Intelligence, (97)1-2,

P. 273-324, 1997  http://citeseer.ist.psu.edu/cache/papers/cs/124/http:zSzzSzrobotics.stanford.

eduzSz~ronnykzSzwrappers.pdf/kohavi97wrappers.pdf
Page: 59 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

60

3 Colinarit et slection de variables

1. Nous utilisons les coecients de la rgression pour calculer la prdiction en resubstitution yi ; 2. Nous formons alors l'erreur de prdiction i = yi yi ; 3. Nous calculons les lments diagonaux de la Hat Matrix, qui sont ni plus ni moins que les leviers (leverage) hi = [X(X X)1 X ]ii ; 4. Nous formons l'erreur de prdiction en donne supplmentaire yi yi (i) = n 5. Nous en dduisons le P RESS = i=1 [yi yi (i)]2 = 13.54.
i 1hi

Notons pour rappel que SCR = 9.33 (Figure 2.18), nous avons systmatiquement la relation SCR

P RESS . Plus l'cart entre ces deux indicateurs est lev, plus nous suspectons un
relation qui existe dans la population.

sur-apprentissage

c.--d. le modle "colle" trop aux donnes, il intgre des spcicits du chier et ne restitue plus la vraie

Calcul du PRESS sur les donnes CONSO - Modle simpli


A titre de comparaison, nous avons calcul le PRESS du modle n'utilisant que CYLINDRE et POIDS comme explicatives. A priori le modle est de moins bonne qualit puisque le R2 = 0.92768 et la SCR = 9.57211 sont moins avantageux que ceux de la rgression 4 variables (PRIX, CYLINDRE, PUISSANCE, POIDS) avec respectivement R2 = 0.92952 et SCR = 9.3285. Et pourtant, le modle simpli s'avre plus performant en prdiction avec P RESS = 11.694 (Figure 3.5), contre P RESS =

13.54 prcdemment.
Cela montre combien la recherche d'un modle parcimonieux est tout sauf une lucubration esthtique. Elle permet d'amliorer (souvent) l'ecacit des modles lors du dploiement dans la population. Les prdictions sont plus prcises.

Slection de variables sur les donnes CONSO - Critre AIC


Nous allons essayer de trouver le modle optimal qui minimise le critre AIC. Nous adoptons une dmarche backward. Elle consiste, partir du modle complet comportant toutes les variables, liminer unes unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la suppression d'une variable amliore le critre. Voici le dtail de la procdure : 1. calculer l'AIC pour le modle comportant l'ensemble courant de variables ; 2. valuer l'AIC conscutive la suppression de chaque variable du modle, choisir la suppression entranant la plus forte diminution et vrier qu'elle propose une amlioration du critre par rapport la situation prcdente ; 3. si NON, arrt de l'algorithme ; si OUI, retour en (1).

Page: 60

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

3.2 Traitement de la colinarit - Slection de variables

61

Fig. 3.5.

Calcul du PRESS sur les donnes CONSO - Rgression 2 explicatives (CYLINDRE, POIDS)

Appliqu sur le chier CONSO de 27 observations, nous obtenons la squence de calculs ' :

tape

Modle courant (cte = constante)

AIC

Suppression d'une variable (AIC) puissance 20.6188 prix poids prix

y = prix + cylindre + puissance + poids + cte 18.69

20.0081 12.1155 21.9986 13.3381 0.2785

cylindre 17.4625

y = prix + cylindre + poids + cte

20.6188

cylindre 17.6000 poids cylindre 13.3049 poids

y = cylindre + poids + cte

21.9986

Au dpart, tape 1, avec toutes les variables, AIC = 18.69 = 27 ln 9.328 + 2(4 + 1). La suppression 27 de la variable puissance entrane la plus grande diminution du critre, il passe alors 20.6188, etc. A l'tape 3, on constate qu'aucune suppression de variable n'amliore le modle courant.
9. Nous avons utilis la fonction
Page: 61
stepAIC

du package MASS du logiciel R


macro: svmono.cls date/time: 9-Jul-2011/7:43

job: la_regression_dans_la_pratique

62

3 Colinarit et slection de variables

Le modle optimal au sens du critre AIC est

y = 1.392276 + 0.01311 cylindree + 0.004505 poids

Remarque 19 (Recherche forward). Si nous avions adopt une recherche forward c.--d. partir du modle
compos de la seule constante, ajouter au fur et mesure une variable de manire diminuer au possible le critre AIC, nous aurions obtenu le mme ensemble nal de variables exognes.

3.2.2 Techniques bases sur le F partiel de Fisher


Les techniques prsentes dans cette section s'appuient sur le F partiel de Fisher. Grosso modo, on ajoute une variable si le carr du t de Student (qui suit une loi de Fisher) indique que le coecient associ est signicativement dirent de 0 ; on supprime une variable si son coecient n'est pas signicatif (Tenenhaus, pages 100 108).

Slection par avant - Forward Selection


Comme son nom l'indique, il s'agit d'une technique incrmentale qui consiste reprer chaque tape la variable proposant un t de Student le plus lev en valeur absolue (ou dont le carr est le plus lev), de l'ajouter dans le pool courant si le coecient est signicatif, et de continuer ainsi tant que les ajouts sont possibles. On commence par p rgressions simples. Si une variable a t ajoute, on poursuit avec p1 rgressions 2 variables, etc. L'ajout d'une variable dpend de la signicativit du coecient de la variable choisie, il dpend donc du risque dni par l'utilisateur. Si on souhaite obtenir peu de variables, on xe un risque faible. Il faut tre prudent par rapport ce risque. En eet, la variable tester est celle qui maximise le

F = t2 . Nous sommes en situation de comparaisons multiples. La loi sous l'hypothse nulle est modie.
On n'est pas sr de prendre rellement un risque d'accepter tort une variable. Pour viter cet aspect trompeur, certains logiciels proposent de xer directement une valeur seuil de F pour accepter ou rejeter la meilleure variable chaque tape. Cela peut paratre arbitraire, d'autant que les valeurs par dfaut correspond peu ou prou des niveaux de risques usuels (ex. Dans STATISTICA, le seuil de 3.84 propos est peu prs le fractile de la loi de Fisher 5%). Mais au moins, le statisticien vitera de faire rfrence explicitement un niveau de risque erron. D'autres logiciels tels que SPSS ore les deux possibilits l'utilisateur : il peut xer un risque critique ou directement un seuil critique. L'essentiel tant de bien comprendre ce que l'on est en train de manipuler. Enn, le principal reproche que l'on peut adresser cette approche est qu'une variable choisie une tape n'est plus jamais remise en cause par la suite.

Page: 62

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

3.2 Traitement de la colinarit - Slection de variables

63

Application sur les donnes CONSO


Nous avons appliqu ce processus de slection aux donnes CONSO avec 27 observations. Nous avons choisi un risque de 5%, avec bien entendu toutes les rserves d'usages ci-dessus. Le processus de slection est rsum dans le tableau 3.1.

tape Modle courant (cte = constante)

R2

t2 j = F (p-value) a

poids 1 y = cte prix

207.63 (0.0000) 199.19 (0.0000)

cylindre 118.60 (0.0000) puissance 93.53 (0.0000) cylindre 11.66 (0.0023)

y = poids + cte

0.8925 puissance 7.42 (0.0118)

prix 2 y = poids + cylindre + cte


0.9277

6.32 (0.0190) 0.53 (0.4721)

prix

puissance 0.01 (0.9288)

Tableau 3.1.

Slection forward bas sur le t2 - Donnes CONSO

Parmi les 4 rgressions simples, c'est la variable poids qui prsente un t2 = F = 207.63 le plus lev, elle est trs signicative, en tous les cas avec un p-value largement en-de du niveau que l'on s'est x (5%). La variable poids est donc intgre. A l'tape 2, nous essayons de voir quelle est la variable qu'on pourrait lui adjoindre. Nous eectuons 3 rgressions 2 variables (poids et une autre) : cylindre se rvle tre la plus intressante, avec un F = 11.66, elle est signicative 5%. Elle est intgre. A l'tape 3, nous avons 2 rgressions 3 variables (poids, cylindre et une autre) tester. Nous constatons que la variable la plus intressante, prix avec un F = 0.53, n'est plus signicative (pvalue > 5%). On s'en tient donc au modle 2 variables : poids et cylindre. Dans le chier CONSO, l'optimisation du AIC et la slection forward bas sur le F donnent des rsultats identiques. Ce n'est pas toujours vrai dans la pratique.

limination en arrire - Backward Selection


Cette procdure fonctionne l'inverse de la prcdente. Elle commence avec la rgression comportant toutes les exognes, regarde quelle est la variable la moins pertinente au sens du t de Student (le carr du t de Student le plus faible), limine la variable si elle n'est pas signicative au risque . Elle recommence avec les variables restantes. Le processus est interrompu lorsqu'il n'est plus possible de supprimer une variable. Si l'on met de ct les rserves d'usages par rapport au vrai sens donner au risque des tests successifs, on xe gnralement un risque plus lev pour la suppression : la possibilit de retenir une variable est
Page: 63 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

64

3 Colinarit et slection de variables

favorise par rapport celle d'en ajouter. Notamment parce que la colinarit peut masquer le rle de certaines d'entre elles  . La valeur = 10% est propose par dfaut dans la logiciel SPSS par exemple. La plupart des logiciels procdent ainsi.

Application sur les donnes CONSO


Nous appliquons la procdure au chier CONSO, voici le dtail des calculs :

tape

Modle courant (cte = constante)

R2

valuation t2 = F (pvalue) puissance 0.0620 (0.8057) prix poids prix

y = prix + cylindre + puissance + poids + cte 0.9295

0.5666 (0.4596) 8.2287 (0.0089) 0.5344 (0.4721) 9.4345 (0.0054) 33.7761 (0.0000)

cylindre 2.7978 (0.1086)

y = prix + cylindre + poids + cte

0.9293 cylindre 4.6779 (0.0412)


poids cylindre 11.6631 (0.0023) poids

y = cylindre + poids + cte

0.9277

Le modle complet 4 variables propose un R2 = 0.9295. La variable la moins intressante est

puissance avec un t2 = 0.0620, elle n'est pas signicative 10% (pvalue = 0.8057). Nous pouvons la
retirer. Le modle suivant, 3 exognes, propose un R2 = 0.9293. La variable la moins pertinente est

prix qui n'est pas non plus signicative, elle est galement limine. La rgression 2 exognes, cylindre
et poids, possde des variables qui sont toutes signicatives 10% : c'est notre modle dnitif avec un

R2 = 0.9277.
On note que le R2 diminue mcaniquement mesure que nous supprimons des variables. Mais la dgradation est minime au regard du gain en simplicit obtenu en rduisant le nombre de variables du modle.

Procdure stepwise - Stepwise regression


Cette procdure est un mix des approches forward et backward. A la premire tape, on commence par construire le meilleur modle 1 exogne. Par la suite, chaque tape, on regarde si l'ajout d'une variable ne provoque pas le retrait d'une autre. Cela est possible lorsqu'une variable exogne expulse une autre variable qui lui est corrle, et qui semblait pourtant plus signicative dans les tapes prcdentes.
10. Merci Matthieu Buisine pour m'avoir indiqu les incohrences de la version prcdente de ce document. Avec un seuil plus lev, on a tendance plus retenir les variables et non l'inverse. Merci Matthieu. C'est avec ce type de commentaires qu'on peut faire avancer les choses.
Page: 64 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.3 Rgression stagewise

65

Gnralement, on xe un risque plus exigeant pour la slection (ex. 5%, on ne fait entrer la meilleure variable que si elle est signicative 5%) que pour la suppression (ex. 10%, on supprime la variable la moins pertinente si elle est non signicative 10%).

Application sur les donnes CONSO


Appliqu sur les donnes CONSO avec le logiciel SPSS, cette technique nous renvoie le modle 2 variables

y = 1.392276 + 0.01311 cylindree + 0.004505 poids

3.3 Rgression stagewise


La rgression stagewise est une procdure forward qui consiste ajouter, au fur et mesure, une variable qui explique au mieux la fraction de Y non-explique par les variables dj slectionnes (Bourbonnais, page 105 ; Dodge  , page 161 164). On peut rsumer l'approche de la manire suivante : 1. On slectionne la variable Xa qui est la plus corrle, en valeur absolue, avec Y . On la slectionne si la corrlation est signicativement dirent de 0 au risque . Nous utilisons un test de Student

(n 2) degrs de libert ta =

r
1r 2 n2

Comme il s'agit de tester un coecient qui a fait l'objet d'une optimisation pralable, le vrai risque du test n'est pas . Mais dans la pratique, il ne faut pas attacher trop d'importance un calcul prtendument pointu du vrai risque qui, de toute manire, dpend de la prfrence la simplicit de l'utilisateur : on diminue si on veut moins de variables dans le modle, on l'augmente si on en veut plus. C'est plus en ce sens qu'il faut lire la valeur de . 2. On veut choisir la variable Xb qui est la plus corrle avec la fraction de Y non-explique par Xa . Pour ce faire, on calcule le rsidu de la rgression

e1 = y (0 + a1 xa ) a
La variable Xb est celle qui est la plus corrle avec e1 . On l'intgre dans le modle si la corrlation est signicativement dirent de 0 au risque . Attention, les degrs de libert sont modis (n 3), il en est de mme pour la statistique du test  . On utilise
11. La description donne par Dodge est un peu dirente. La mthode Stagewise est utilise pour slectionner les variables, et les coecients de la rgression nale sont dduits des calculs intermdiaires. Il distingue donc les paramtres fournis par stagewise des paramtres estims l'aide de la MCO. 12. Lorsque les eectifs sont levs, cette correction a peu d'eet
Page: 65 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

66

3 Colinarit et slection de variables

tb =

r
1r 2 n3

3. Si la variable Xb est intgre, nous cherchons la variable suivante Xc qui explique au mieux la fraction de Y non-explique conjointement par Xa et Xb . Le plus simple toujours est de prendre le rsidu

e2 = y (0 + 1 xa + 2 xb ) b b b
de choisir la variable qui lui le plus corrl, et de tester la signicativit du coecient de corrlation avec un tc de Student (n 4) degrs de libert

tc =

r
1r 2 n4

4. on continue ainsi jusqu' ce qu'aucun ajout de variable ne soit possible. 5. Au nal, le plus simple est de re-estimer la droite de rgression avec les variables slectionnes.

Application sur les donnes CONSO


Nous appliquons la rgression stagewise sur les donnes CONSO. Nous dtaillons les calculs : 1. Nous calculons les corrlations brutes entre Y et les exognes rY,Xj . Nous obtenons le tableau suivant :

Xj
poids prix

r 0.9447 0.9426

cylindre 0.9088 puissance 0.8883 La variable la plus corrle avec l'endogne est poids : r = 0.9447 2. Vrions si la corrlation est signicativement dirente de 0. Pour ce faire, nous formons la statistique de Student t =
0.9447

est signicativement suprieure zro en valeur absolue, elle est accepte. 3. Pour choisir la variable suivante, nous procdons en deux temps : (a) nous calculons les coecients de la rgression y = 1.0353+0.0068poids ; (b) nous calculons le rsidus e1 = y(1.0353+0.0068poids). 4. Nous calculons les corrlations re1 ,Xj pour dterminer la variable la plus corrle avec e1

10.94472 272

= 14.4094 et calculons la p-value associe pvalue = 0.0000. La corrlation

Xj

cylindre 0.2908 puissance 0.2544 prix poids par poids.


Page: 66 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

0.1471 0.0000

Bien videmment, la corrlation re1 ,poids = 0 puisque e1 est la fraction de Y qui n'est pas explique

3.4 Coecient de corrlation partielle et slection de variables

67

5. La variable la plus intressante est cylindre, nous formons le t de Student t = avec une p-value gale 0.1495. de variables est stoppe.

0.2908

10.29082 273

= 1.4891,

6. Au risque de 5%, la variable cylindre n'est signicativement corrle avec e1 . Le processus de slection

Au nal, le "meilleur" modle d'explication de la consommation selon la procdure stagewise intgre uniquement la variable poids :

y = 1.0353 + 0.0068 poids

3.4 Coecient de corrlation partielle et slection de variables


3.4.1 Coecient de corrlation brute
Le coecient de corrlation ! quantie le degr de liaison et X . Elle est dnie par

linaire entre deux variables continues Y


(3.9)

y,x =

cov(y, x) y x

C'est une mesure symtrique. Par dnition 1 +1, > 0 (resp. < 0) si la liaison est positive (resp. ngative). Lorsque les variables sont indpendantes, = 0, l'inverse n'est pas vrai. Le coecient de corrlation empirique est l'estimation de sur un chier de n observations : i (xi x)(yi y ) ry,x = (3.10) 2 2 i (xi x) i (yi y ) On parle de corrlation brute parce que l'on mesure directement la liaison entre Y et X sans qu'aucune autre variable n'intervienne. Nous l'opposerons la corrlation partielle expose plus bas. Pour vrier que la corrlation entre deux variables est signicativement dirent de zro, nous posons le test d'hypothses

H0 : = 0 H1 : = 0
La statistique du test s'crit

t=

r
1r 2 n2

La rgion critique du test au risque , rejet de H0 , est dnie par

R.C. : |t| > t1 (n 2) 2


o t1 (n 2) est le fractile d'ordre 1 2
2

de la loi de Student (n 2) degrs de libert.

13. http://en.wikipedia.org/wiki/Correlation
Page: 67 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

68

3 Colinarit et slection de variables

Quelques exemples sur les donnes CONSO


Prenons quelques variables du chier CONSO et calculons le coecient de corrlation linaire (Tableau 3.2).
variable 1 variable 2 y y r t p-value

puissance 0.8883 9.6711 0.0000 cylindre 0.9088 10.8901 0.0000

puissance cylindre 0.9559 16.2700 0.0000


Tableau 3.2.

Corrlation entre quelques variables du chier CONSO

Nous constatons que toutes ces corrlations sont leves et trs signicativement direntes de zro.

3.4.2 Coecient de corrlation partielle Mesurer la corrlation partielle


Corrlation n'est pas causalit a-t-on coutume de dire : ce n'est pas parce que 2 variables varient de
manire concomitante, dans le mme sens ou en sens oppos, qu'il faut y voir forcment une relation de cause eet. Parfois, la corrlation peut tre totalement fortuite, il s'agit simplement d'un artefact statistique auquel on ne peut donner aucune interprtation valable. Parfois aussi, et c'est le cas qui nous intresse ici, elle est due une tierce variable qui joue le rle d'intermdiaire entre les 2 variables tudies.

Exemple 2. Ventes de lunettes de soleil et ventes de glaces : aucune des deux n'a un eet sur l'autre, il
s'agit plutt de la temprature qui les fait varier dans le mme sens.

Exemple 3. La corrlation entre la taille des personnes et la longueur de leurs cheveux est ngative. Avant
d'y voir un quelconque phnomne de compensation, on se rend compte qu'il y a 2 populations dans le chier : les hommes et les femmes (Figure 3.6). En gnral, les hommes sont plus grands et ont les cheveux plus courts. La variable "sexe" est la variable intermdiaire qui fait apparatre une relation factice entre la taille et la longueur des cheveux. L'ide de la corrlation partielle justement est de mesurer le degr de liaison entre 2 variables en neutralisant (en contrlant) les eets d'une troisime variable. Il peut y avoir plusieurs types d'eets (Figure 3.7 ; le texte en ligne qui accompagne ce schma est trs instructif - http://www2.chass.ncsu.

edu/garson/pa765/partialr.htm).
Pour calculer la corrlation partielle, nous utilisons les corrlations brutes
Page: 68 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.4 Coecient de corrlation partielle et slection de variables

69

Fig. 3.6.

La corrlation est la consquence de la prsence de 2 populations distinctes dans le chier

Fig. 3.7.

Direntes interactions dans la mesure de la corrlation partielle

ry,x ry,z rx,z ry,x/z = 2 2 1 ry,z 1 rx,z

(3.11)

L'ide sous-jacente est simple : on retranche de la liaison brute mesure entre y et x, l'eet induit par

z.

Page: 69

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

70

3 Colinarit et slection de variables

Tester la corrlation partielle


Pour vrier la signicativit d'un corrlation partielle, nous adoptons la mme dmarche que pour la corrlation brute. Les hypothses tester sont :

H0 : y,x/z = 0 H1 : y,x/z = 0
La statistique du test s'crit :

ry,x/z t= 2

1ry,x/z n3

Et la rgion critique du test est dnie par :

R.C. : |t| > t1 (n 3) 2


o t1 (n 3) est le fractile d'ordre 1 2
2

de la loi de Student (n 3) degrs de libert. Il faut

faire attention au degr de libert, il y a bien 3 paramtres estims dans la statistique tudie.

Exemple sur les donnes CONSO


Nous voulons mesurer les relations entre la consommation et la puissance, en contrlant l'eet de la cylindre (la taille du moteur). Nous appliquons directement la formule ci-dessus (quation 3.11) en utilisant les corrlations brutes calcules prcdemment (Tableau 3.2) :

0.8883 0.9088 0.9559 ry,puissance/cylindree = = 0.1600 1 0.90882 1 0.95592


Pour tester la nullit du coecient, nous formons la statistique

t=

0.1600
10.16002 273

= 0.7940

Le t calcul est 0.7940, avec une p-value de 0.4350. Au risque de 5% (et bien au-del), on ne constate pas de liaison signicative entre consommation (y) et puissance, une fois retranche l'explication apporte par la cylindre. Autre lecture : cylindre gale, la consommation ne varie pas avec la puissance.

3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1


Nous savons maintenant calculer la corrlation partielle d'ordre 1. Comment faire pour calculer les corrlations partielles d'ordre suprieur ? c.--d. mesurer la liaison entre y et x en contrlant l'eet induit par d'autres (z1 , z2 , . . .) variables.

Page: 70

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

3.4 Coecient de corrlation partielle et slection de variables

71

Il existe une formule de passage qui permet de gnraliser la premire expression (quation 3.11). Mais elle devient dicile manipuler mesure que le nombre de variables zj augmente, d'autant plus qu'elle impose de calculer de proche en proche toutes les corrlations croises. Il est plus ais d'utiliser une autre formulation de la corrlation partielle. Pour calculer la corrlation partielle ry,x/z1 ,z2 , nous procdons par tapes : 1. nous enlevons de y toute l'information achemine par z1 et z2 en calculant le rsidu de la rgression

e1 = y (0 + a1 z1 + a2 z2 ) a
2. nous procdons de mme pour la variable x

e2 = x (0 + 1 z1 + 2 z2 ) b b b
3. la corrlation partielle peut tre obtenue par la corrlation brute entre les 2 rsidus

ry,x/z1 ,z2 = re1 ,e2


4. et nous pouvons tester la nullit du coecient en formant la statistique

t=

r
1r 2 n4

5. qui suit une loi de Student (n 4) degrs de libert.

De manire gnrale, lorsque nous avons k variables de contrle zj , pour tester :

H0 : y,x/z1 ,...,zk = 0 H1 : y,x/z1 ,...,zk = 0


Nous calculons la corrlation r entre les rsidus

e1 = y (0 + a1 z1 + ak zk ) a e2 = x (0 + 1 z1 + k zk ) b b b
Et la statistique du test s'crit

t=

r
1r 2 nk2

Elle suit une loi de Student (n k 2) degrs de libert.

Page: 71

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

72

3 Colinarit et slection de variables

Exemple sur les donnes CONSO


Nous voulons calculer et tester la corrlation partielle ry,puissance/cylindree,poids . Nous procdons selon les tapes ci-dessus : 1. former le rsidu e1 = y (1.3923 + 0.0045 poids + 0.0013 cylindree) ; 2. idem, former e2 = puissance (15.8347 + 0.0117 poids + 0.0444 cylindree) 3. calculer alors la corrlation r = re1 ,e2 = 0.0188 ; 4. la statistique du test t = 5. et la p-value = 0.9288. En conclusion, la liaison entre la consommation (y) et la puissance est nulle (au risque de 5%) ds lors que l'on retranche l'eet induit par les variables poids et cylindre. Il est intressant d'ailleurs de rcapituler le lien entre la consommation (y) et la puissance mesure que l'on fait intervenir d'autres variables (Tableau 3.3).
Corrlation
ry,puissance ry,puissance/cylindree
0.0188
10.01882 2722

= 0.0903 ;

p-value

0.8883 9.6711 0.0000 0.1600 0.7940 0.4350

ry,puissance/cylindree,poids 0.0188 0.0903 0.9288


Tableau 3.3.

Corrlations partielles entre CONSO (Y) et PUISSANCE

3.4.4 Procdure de slection fonde sur la corrlation partielle


La notion de corrlation partielle s'accorde bien avec la slection de variables de type forward : on veut mesurer la relation d'une variable candidate avec l'endogne sachant les valeurs prises par les variables dj choisies ; ou encore, on veut mesurer l'information additionnelle apporte par une variable supplmentaire dans l'explication des valeurs prises par l'endogne. L'enchanement des oprations serait : 1. dtecter la variable exogne Xa la plus corrle (en si la liaison est signicative ; 2. dtecter la seconde variable Xb exogne qui maximise la corrlation partielle ry,Xb /Xa , on l'introduit dans le modle si elle est signicativement dirente de zro ; 3. l'tape q , il s'agit de calculer la corrlation partielle d'ordre q 1 pour slectionner ou pas la q -me variable. La rgle d'arrt est simplement une corrlation partielle non-signicative de la meilleure variable une tape donne.
Page: 72 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

valeur absolue) avec l'endogne, la slectionner

3.4 Coecient de corrlation partielle et slection de variables

73

Exemple sur les donnes CONSO

Fig. 3.8.

Slection de variables fonde sur la corrlation partielle - Donnes CONSO

Applique sur les donnes CONSO, le modle choisi comporte les exognes poids et cylindre (Figure 3.8). Dtaillons ces rsultats : 1. A la premire tape, la variable la plus corrle avec l'endogne est poids avec r = 0.9447 et t2 =

F = 207.63. La liaison est trs signicative p value < 0.0001. Elle est donc intgre dans le modle
dont le coecient de dtermination serait R2 = 0.8925. 2. La variable la plus corrle avec l'endogne, conditionnellement poids, est cylindre avec ry,cylindree/poids =

0.5719 et t2 = F = 11.66. La liaison est signicative, p value = 0.0023. Nous slectionnons donc
cette seconde variable, le coecient de dtermination du modle y = a0 + a1 poids + a2 cylindree est

R2 = 0.9277.
3. La variable la plus corrle avec l'endogne, conditionnellement poids et cylindre, est prix avec

r = 0.1507 et t2 = F = 0.53. La liaison n'est plus signicative 5% puisque la p value = 0.4721.


Nous stoppons la procdure de slection. 4. Au nal, le modle dnitif comprend les variables poids et cylindre.

3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression


Les valeurs des t2 = F manipules dans le processus de slection bas sur la corrlation partielle (Figure 3.8) ne sont pas sans rappeler celles de la rgression forward base sur le F -partiel (Tableau 3.1). Ce n'est absolument pas fortuit. En eet, dans un modle q variables explicatives, il y a une relation directe entre la corrlation partielle d'ordre (q 1), ry,xq /x1 ,...,xq1 , et le t de Student du test de nullit du q -me coecient taq dans une rgression q exognes (Bourbonnais, page 93) :
Page: 73 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

74

3 Colinarit et slection de variables


2 ry,xq /x1 ,...,xq1 =

t2 q a t2 q + (n q 1) a

(3.12)

Ainsi, tester la nullit du coecient de Xq dans la rgression q variables quivaut tester la nullit du coecient de corrlation partielle d'ordre (q 1). Il est tout fait normal que l'on retrouve exactement les mmes tests, avec les mmes degrs de libert, chaque tape du processus de slection. De mme, nous comprenons mieux maintenant pourquoi nous faisions rfrence un F-partiel dans le processus de slection forward bas sur le t de Student des coecients de rgression (Section 3.2.2).

3.5 Les rgressions partielles


3.5.1 Principe des rgression partielles
La rgression partielle permet d'valuer graphiquement l'apport d'une variable additionnelle dans une rgression o (p 1) variables explicatives sont dj prsentes. La procdure permet de produire un "nuage de points",

le graphique des rgressions partielles, directement li la notion de corrlation

partielle. Il permet galement d'identier les observations atypiques et/ou inuentes de la rgression. Pour xer les ides, mettons que l'on souhaite valuer l'inuence de Xp dans la rgression

Y = a0 + a1 X1 + + ap1 Xp1 + ap Xp +
Aprs estimation des paramtres aj , nous pouvons produire les rsidus de cette rgression. Le graphique de la rgression partielle pour la variable Xp est construit de la manire suivante " : 1. Nous ralisons la rgression de Y sur les (p 1) explicatives

Y = b0 + b1 X1 + + bp1 Xp1 + Y
Avec les coecients estims, nous calculons les rsidus de la rgression Y . 2. Nous expliquons maintenant Xp l'aide toujours des (p 1) explicatives

Xp = c0 + c1 X1 + + cp1 Xp1 + Xp
Nous en dduisons les rsidus Xp .

3. Le graphique de la rgression partielle pour Xp est le nuage de points (Xp , Y ) c.--d. avec Xp en
abcisse et Y en ordonne. 4. Le coecient de corrlation linaire calcul sur les rsidus (Xp , Y ) nous fournit le coecient de corrlation partielle entre Y et Xp . Cette approche est trs pratique pour calculer les corrlations partielles d'ordre suprieur 1 (section 3.4.3).
14. http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/partregr.htm ; et, ouh l il y a du copier-coller dans l'air, http://en.wikipedia.org/wiki/Partial_regression_plot
Page: 74 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.5 Les rgressions partielles

75

5. A partir de ce nuage de points, nous pouvons calculer la rgression

Y = d Xj + e + r
Et en tirer les rsidus r . Le graphique des rsidus r cumule des proprits trs intressantes # :

1. Nous constatons que e = 0, c'est tout fait normal puisque les variables intervenant dans la rgression sont centres c.--d. Y = X = 0.
p

2. Nous constatons surtout que d = ap . Nous retrouvons le coecient du modle complet incluant Xp .
3. Le rsidu r est identique au rsidu du modle complet c.--d. i,r = i , i = 1, . . . , n. 4. Les observations inuentes sont facilement identiables dans ce graphique. 5. Nous pouvons galement dtecter rapidement les autres situations pathologiques (ex. htroscdasticit, groupes d'observations atypiques, non linarit...). Dans le cadre de l'valuation inuence de la variable Xp dans la rgression, nous pouvons lire le graphique sous l'angle suivant (Cornillon et Matzner-Lober $ , page 96) : 1. Si le nuage de points ne prsente pas de "forme particulire", s'il est globalement horizontal (de pente nulle), la variable Xp n'apporte pas d'information supplmentaire pertinente par rapport aux variables dj prsentes. 2. Si les points forment une droite de pente non nulle, Xp inue linairement dans la rgression. 3. S'ils forment une courbe non linaire, il est judicieux de remplacer Xp par une de ses transformes (ex. en appliquant le logarithme, en passant au carr, etc.). Cette dernire ide n'est pas sans rappeler la notion de "rsidus partiels" dveloppe par ailleurs (section 6.2.2). Mais, la dirence de celle-ci, qui est un outil ddi la dtection de la forme de liaison la plus approprie entre Xp et Y en prsence des (p 1) autres explicatives, le nuage de points des rgressions partielles, notamment parce que les valeurs de Xp n'apparaissent pas explicitement dans le graphique, ne donne pas d'indications sur la fonction utiliser pour transformer Xp et linariser la

Pour le traitement de la non-linarit, il est prfrable de passer par les rsidus partiels.
relation.

3.5.2 Traitement des donnes CONSO


Nous souhaitons valuer la contribution de puissance (Xp ) dans l'explication de la consommation (Y ), sachant que les variables cylindre et poids ont dj t slectionnes. Nous avons une srie de rgression construire (Figure 3.9) :
15. http://en.wikipedia.org/wiki/Partial_regression_plot 16. Cornillon, P-A., Matzner-Lober, E., Rgression - Thorie et applications., Springer, 2007.
Page: 75 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

76

3 Colinarit et slection de variables

Fig. 3.9.

Rgression partielle pour la variable puissance- Donnes CONSO

1. Nous rgressons la consommation sur cylindre et poids, nous obtenons

conso = 0.00450 poids + 0.00131 cylindree + 1.39228


Nous en dduisons la colonne des rsidus RES.Y (conso ). 2. Nous construisons la rgression pour puissance

puissance = 0.01167 poids + 0.04442 cylindree 15.83469


Nous construisons galement la colonne des rsidus RES.X (puissance ). Nous pouvons former le graphique de la rgression partielle pour la variable puissance (Figure 3.10). Sans s'avancer outre mesure, le nuage de points ne prsente pas une pente particulire. L'explication additionnelle de la puissance sur la consommation par rapport la cylindre et le poids n'est pas dcisive. Notons cependant une certaine dissymtrie de la distribution sur l'axe des abcisses (puissance ). Elle est en grande partie due un point atypique, la Hyundai Sonata 3000 qui est singulirement peu puissante (107 ch) au regard de sa cylindre (2972 cm3 ). C'est aussi le cas, dans une moindre mesure cependant, de la Toyota Previa Salon. 3. Nous calculons la rgression sur les rsidus

conso = 0.00121 puissance + 0.0000 Eectivement, la constante de la rgression est nulle. Quant la pente d = 0.00121, conformment au
graphique, elle est trs proche de 0, conrmant l'ide d'une faible inuence additionnelle de puissance dans la rgression. Le coecient de dtermination est R2 = 0.00035. Nous formons les rsidus r (RES.R).
Page: 76 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.6 Rgressions croises

77

4. Voyons maintenant ce qu'il en est de la rgression incluant toutes les explicatives, nous avons

conso = 0.00449 poids + 0.00126 cylindree + 0.00121 puissance + 1.41143 a) Premier rsultat qui saute aux yeux, nous constatons bien l'galit entre les coecients ap = d = 0.00121.
b) Autre rsultat important, en calculant les rsidus (RES) de cette rgression, nous retrouvons exactement les valeurs de r (RES.R). 5. Enn, dernire information importante, en calculant la corrlation entre Y et puissance , nous retom bons eectivement sur la corrlation partielle obtenues par ailleurs (Tableau 3.3), soit

rconso ,puissance = rconso,puissance/cylindree,poids = 0.01884


Bien videmment, en passant cette corrlation au carr, nous retrouvons le coecient de dtermination de la rgression de conso sur puissance : r2 = (0.01884)2 = 0.00035.

Fig. 3.10.

Graphique de la rgression partielle pour la variable puissance- Donnes CONSO

3.6 Rgressions croises


3.6.1 Principe des rgressions croises
Nous avions mis en avant le critre VIF (variance ination factor - section 3.1.3) pour mesurer la multicolinarit entre les exognes c.--d. la liaison de chaque Xj avec une combinaison linaire des
2 (p 1) autres explicatives. Dans son principe, le critre vj est bas sur le coecient de dtermination Rj

de la rgression de Xj sur les autres. On parle de

rgressions croises. Dans les faits, nous obtenons

directement la valeur de vj sur la diagonale de l'inverse de la matrice des corrlations C 1 . Dans cette section, nous approfondissons cette ide. Nous montrons qu'il est possible de reconstituer les rsultats des rgressions croises partir de la matrice C 1 .
Page: 77 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

78

3 Colinarit et slection de variables

Notons vkj les lments de la matrice C 1 , qui est de dimension (p p) ; vjj = vj est le VIF de la variable Xj lue sur la diagonale de C 1 . Nous nous intressons la rgression

Xl = a0 + a1 X1 + + al1 Xl1 + al+1 Xl+1 + + ap Xp + l

Coecient de dtermination. Comme le VIF vl


dtermination
2 Rl 2 Rl = 1

peut tre exprim en fonction du coecient de

de cette rgression (quation 3.1), l'inverse est aussi vrai, soit :

1 vl

(3.13)

Test de signicativit globale. Il y a (p 1) explicatives dans la rgression, les degrs de libert


doivent tre ajusts en consquence. Pour tester la signicativit globale de la rgression, nous formons la statistique Fl
2 2 Rl /(p 1) Rl /(p 1) = 2 2 (1 Rl )/(n (p 1) 1) (1 Rl )/(n p)

Fl =

(3.14)

Sous H0 , tous les coecients de la rgression sont nuls (hormis la constante), Fl suit une loi de Fisher (p 1, n p) degrs de libert.

Estimation de la variance de l'erreur . La variance de l'erreur de rgression, autre indicateur 2


l

de qualit de l'ajustement, est aussi dduite du VIF. Elle est corrige par la variance de la variable :

j = 2

(n 1)

s2 xl vl

n (p 1) 1

(n 1)

s2 xl vl

np

(3.15)

o s2 l est la variance estime de la variable Xl x

s2 l = x

1 (xil xl )2 n 1 i=1
n

Coecients standardiss de la rgression. Dans un premier temps, nous produisons les coecients standardiss de la rgression. Contrairement aux coecients usuels, ils permettent la comparaison de l'impact des variables indpendantes sur la variable dpendante en les ramenant sur une chelle commune. Leur obtention est immdiate partir de la matrice C 1

vkl kl = vl

(3.16)

Coecients de la rgression.

Les coecients de la rgression sont alors obtenus en les d-

normalisant des cart-types des variables, soit

sx akl = kl l , k = 0 sxk
Page: 78 job: la_regression_dans_la_pratique macro: svmono.cls

(3.17)

date/time: 9-Jul-2011/7:43

3.6 Rgressions croises

79

Pour la constante a0 , nous avons besoin des moyennes

a0l = xl

k=l

akl xk

(3.18)

Corrlations partielles.

Dernier rsultats intressant, il est possible de produire les corrlations

partielles entre les variables, prises deux deux, partir de la matrice C 1 . Pour mesurer la liaison entre les variables Xk et Xj en contrlant l'inuence des autres, nous calculons

vkj rxk ,xj /X{xk ,xj } = vk vj

(3.19)

L'objectif est de mesurer la "vritable" relation entre les variables, en dehors de toute inuence. Un dcalage ventuel (forte rduction en valeur absolue) entre les valeurs de rxk ,xj et rxk ,xj /X{xk ,xj } est rvlateur du caractre articiel de la relation mesure l'aide de la corrlation brute que l'on peut lire dans la matrice C .

3.6.2 Rgressions croises sur les donnes CONSO


Reprenons notre exemple CONSO pour xer les ides, nous avons la matrice des corrlations croises

C (Figure 3.1 - l'ordre des variables est PRIX, CYLINDREE, PUISSANCE, POIDS) 1 0.92 0.93 0.95

0.92 1 0.96 0.86 C= 0.93 0.96 1 0.85 0.95 0.86 0.85 1


Et son inverse C 1 (Figure 3.2)

C 1

19.79 1.45 7.51 11.09 1.45 12.87 9.80 1.36 = 7.51 9.80 14.89 2.86 2.86 1.36 2.86 10.23

Nous souhaitons retrouver les caractristiques de la rgression %

P RIX = a0 + a2 CY LIN DREE + a3 P U ISSAN CE + a4 P OIDS


Nous connaissons le VIF de la variable PRIX, v1 = 19.79 lue dans la matrice C 1 . Nous en dduisons le coecient de dtermination de la rgression
17. Nous avons dcal sciemment les indices pour respecter la position des variables parmi l'ensemble des explicatives.
Page: 79 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

80

3 Colinarit et slection de variables


2 R1 = 1

1 1 =1 = 0.9495 vj 19.79

Le coecient de dtermination est trs lev, la variable PRIX est fortement corrle avec une combinaison linaire des autres variables. On peut vrier la signicativit globale de la rgression en utilisant le test F, avec

F1 =

2 R1 /(p 1) 0.9495/(4 1) = = 144.0716 2 (1 R1 )/(n p) (1 0.9495)/(27 4)

Sachant que la variance de PRIX est gal s2 = 158812189.1, nous calculons l'cart-type de l'erreur prix de la rgression

1 =

(n 1)

s2 x1 v1

np

(27 1) 158812189.1 19.79 = 3011.7605 27 4

Pour obtenir les coecients standardiss de la rgression de PRIX, nous nous intressons la 1ere colonne de la matrice C 1 , nous calculons

v21 1.45 21 = = = 0.0734 v11 19.79 v31 7.51 31 = = = 0.3796 v11 19.79 v41 11.09 41 = = = 0.5601 v11 19.79

Nous les "d-standardisons" en utilisant les carts-type estims s1 = 12602.07, s2 = 634.42, s3 = 32.79 et s4 = 314.21 ; soit :

s1 a21 = 21 = 0.0734 s2 s1 a31 = 31 = 0.3796 s3 s1 = 0.5601 a41 = 41 s4

12602.07 = 1.4572 634.42 12602.07 = 145.9061 32.79 12602.07 = 22.4638 314.21

A l'aide des moyennes des variables xj , nous pouvons produire la constante de la rgression a01 = x1 ak1 xk
k=1

= 28260.56 (1.4572 1802.07 + 145.9061 78.15 + 22.4638 1193.15) = 12570.3173


Toutes ces oprations sont rsums dans une feuille Excel (Figure 3.11). Bien videmment, avec la mme dmarche nous pouvons produire les rgressions des autres exognes versus les (p 1) autres variables. Concernant les corrlations partielles, le logiciel LAZSTATS & nous les fournit directement ' . Si, au regard de la matrice C , les liaisons brutes sont fortes quelles que soient les variables, nous constatons
18. http://statpages.org/miller/openstat/LazStatsPage.htm 19. La rgression croise est galement programme dans la version 1.4.40 (et ultrieures) de TANAGRA -

http://tutoriels-data-mining.blogspot.com/2011/07/tanagra-version-1440.html.
Page: 80 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

3.6 Rgressions croises

81

Fig. 3.11.

Rgressions croises - PRIX = f(CYLINDREE, PUISSANCE, POIDS)

par exemple que la relation entre prix et cylindre (rprix,cylindree = 0.92 - lue dans la matrice C ) est en ralit inuence par puissance et poids (rprix,cylindree/puissance,poids = 0.091) (Figure 3.12). En eet, partir de la matrice C 1 ,

1.45 v12 = rprix,cylindree/puissance,poids = = 0.091 v1 v2 19.79 12.87


En revanche, la liaison entre puissance et cylindre (0.96) reste forte mme aprs avoir retranch l'inuence de prix et poids (0.708).

Fig. 3.12.

Rgressions croises - Corrlations partielles

Vrication avec la rgression explicite. A titre de vrication, nous avons calcul explicitement
sur les donnes le modle PRIX = f(CYLINDREE, PUISSANCE, POIDS) l'aide du logiciel TANAGRA (Figure 3.13). Nous constatons que les rsultats concordent en tous points (R2 , F , , aj ) avec les valeurs issues du post-traitement de la matrice C 1 (Figure 3.11).

Page: 81

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

82

3 Colinarit et slection de variables

Fig. 3.13.

Rgressions croises - Rgression explicite : Prix vs. les autres variables

3.7 Conclusion
La colinarit devient un problme ds lors que l'on veut lire et interprter les rsultats de la rgression. La slection de variables compte parmi les solutions possibles. Nanmoins, il ne faut surtout pas prendre au pied de la lettre les sous-ensembles de variables fournis par les algorithmes de slection. tudier de prs les rsultats intermdiaires en compagnie d'un expert du domaine (ex. un mdecin, un conomiste, etc.) est indispensable pour bien apprhender les interdpendances en jeu et reprer les alas qui peuvent altrer les rsultats.

Page: 82

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4 Rgression sur des exognes qualitatives

La rgression telle que nous l'tudions met en relation des variables exclusivement continues. Si on veut introduire des variables qualitatives nominales, la stratgie consistant procder au simple recodage des variables incrimines, le codage 0/1 dit codage disjonctif complet est certainement la plus connue. Mais il faut vrier la validit des hypothses probabilistes et structurelles lies la technique des MCO. Il faut galement savoir interprter les rsultats. Si c'est l'endogne qui est qualitative, on parle de rgression logistique. Les hypothses lies aux erreurs de la MCO ne sont plus respectes. Nous entrons dans un cadre qui dpasse largement notre propos, nous ne l'aborderons pas dans ce chapitre. Pour les lecteurs intresss par le sujet, je conseille la lecture du document accessible en ligne "Pratique de la Rgression Logistique - Rgression Logistique Binaire et Polytomique" (http://eric.univ-lyon2.fr/~ricco/publications.html). Si ce sont les exognes qui sont qualitatives, nous pouvons procder au codage, mais encore faut-il : 1. dnir le type de codage utiliser ; 2. donner un sens aux rsultats et tester les coecients fournis par la rgression. Le cas des exognes qualitatives nous fait mettre un pied dans le vaste domaine de la comparaison de populations. La technique paramtrique privilgie dans ce cadre est l'analyse de variance (ANOVA). Nous prsentons trs brivement un cas particulier de cette technique  .

4.1 Analyse de variance 1 facteur et transposition la rgression


L'analyse de variance (ANOVA) un facteur est une gnralisation de la comparaison de moyennes dans K populations. Pour xer les ides, travaillons sur un jeu de donnes.
1. La prsentation adopte ici s'appuie en grande partie sur l'excellent document en ligne de D. Mouchiroud,

http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf. Le chapitre 9 fait partie d'un document plus gnral "Probabilit et Statistique", http://spiral.univ-lyon1.fr/mathsv/
Page: 83 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

84

4 Rgression sur des exognes qualitatives

4.1.1 Un exemple introductif


Le chier LOYER (Figure 4.1) dcrit le montant du loyer au m2 de 15 habitations situes dans direntes zones de la ville. On distingue 3 types de lieu d'habitation : banlieue, campagne et centre.

Fig. 4.1.

Loyer au m2 selon le lieu d'habitation - Fichier LOYER

On veut rpondre la question suivante : le loyer au m2 est-il signicativement dirent d'une zone l'autre ?

4.1.2 ANOVA 1 facteur Test d'hypothses


Le problme que nous dcrivons est une comparaison de moyennes de K populations. On peut dcrire le test d'hypothses de la manire suivante

H0 : 1 = 2 = = K = H1 : une des moyennes au moins dire des autres


o k est la moyenne de la variable d'intrt Y pour la population k . Une manire simple de visualiser les dirences est d'acher les botes moustaches de la variable

Y selon le groupe d'appartenance (Figure 4.2). Plus les boxplot seront dcals, plus forte sera la direnciation. Autre information trs importante que nous communique ce graphique, nous pouvons nous faire une ide de la dispersion des valeurs dans chaque groupe. Nous verrons plus loin la porte de cette information.

Remarque 20 (Facteurs xes et facteurs alatoires). On parle de facteurs xes lorsque tous les groupes
sont reprsents dans le chier de donnes, de facteurs alatoires lorsque seulement un chantillon des groupes sont prsents. Dans le cas de l'ANOVA 1 facteur, cette distinction n'a aucune consquence sur les calculs.
Page: 84 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.1 Analyse de variance 1 facteur et transposition la rgression

85

Fig. 4.2.

Botes moustaches des loyers selon le lieu d'habitation - Fichier LOYER

Statistique du test
On passe par l'quation de dcomposition de la variance pour construire la statistique du test. Elle s'crit

K nk k=1 i=1

SCT = SCE + SCR K K nk (yi,k y )2 = nk (k y )2 + y (yi,k yk )2


k=1 k=1 i=1

o yi,k reprsente la valeur de Y pour l'individu i du groupe k ; y est la moyenne globale de Y , yk est la moyenne conditionnelle, la moyenne de Y dans le groupe k . Cette dcomposition se lit comme suit :  SCT est la somme des carrs des carts totaux, elle indique la variabilit totale de Y ;  SCE est la somme des carrs des carts inter-groupes, expliqus par l'appartenance aux groupes ;  SCR est la somme des carrs des carts intra-groupes, rsiduels l'intrieur des groupes. La somme SCT est constante. Par consquent, une valeur de SCE leve indique que l'appartenance aux groupes dtermine la valeur de la variable d'intrt. Nous construisons le tableau d'analyse de variance partir de ces informations Sources de variation Degrs de libert (ddl) Somme des carrs (SC) Carrs moyens (CM) Expliqus (inter) Rsiduels (intra) Totaux Sous H0 , la statistique F =
Page: 85
CM E CM R

K 1 nK n1

SCE SCR SCT

CM E = CM R =
-

SCE K1 SCR nK

suit une loi de Fisher (K 1, n K) degrs de libert.


macro: svmono.cls date/time: 9-Jul-2011/7:43

job: la_regression_dans_la_pratique

86

4 Rgression sur des exognes qualitatives

La rgion critique du test s'crit

R.C. : F > F1 (K 1, n K)
o F1 (K 1, n K) est le quantile d'ordre (1 ) de la loi de Fisher.

Conditions d'applications
L'ANOVA 1 facteur est un test paramtrique, elle est assortie d'un certain nombre de conditions pour tre rellement oprationnelle : les observations doivent tre indpendantes, notamment les K chantillons compars doivent tre indpendants ; la variable d'intrt doit suivre une loi normale ; la variance de Y dans les groupes doit tre homogne (homoscdasticit). Notons 2 points importants : l'ANOVA 1 facteur est assez robuste ; ces conditions, et c'est ce qui nous intresse ici, ne sont pas sans rappeler certaines hypothses de la rgression linaire multiple. Nous y reviendrons plus loin.

Application aux donnes LOYER


Nous appliquons ces calculs sur les donnes LOYER (Figure 4.3), nous procdons selon les tapes suivantes : 1. Recenser les eectifs nj et les moyennes yj conditionnelles ; 2. Calculer la moyenne globale y = 6.88 ; 3. Former SCT = 15.02400 et SCE = 5(6.72 6.8)2 + 3(5.27 6.88)2 + 7(7.69 6.88)2 = 12.48076 ; 4. En dduire SCR = 15.024 12.48076 = 2.54324 ; 5. Calculer la statistique du test F =
12.48076/2 2.54324/12

= 29.44458 ;

6. Obtenir enn la p-value l'aide de la loi de Fisher (2, 12) degrs de libert, p value = 0.00002. Au risque de 5%, l'hypothse d'galit des moyennes peut tre rejete : le lieu d'habitation a une inuence sur le montant du loyer.

Remarque 21 (Analyse des contrastes). On complte gnralement l'ANOVA avec l'analyse des contrastes.
Elle vise dterminer quelle est la moyenne qui dire le plus des autres, ou encore quelles sont les couples (triplets, etc.) de moyennes qui s'opposent le plus. Nous garderons l'esprit cette ide car elle nous aidera mieux comprendre les rsultats de la rgression applique aux exognes qualitatives.

Analogie avec la rgression


Quel est le rapport avec la rgression ? On comprend mieux l'objet de ce chapitre si l'on reformule le test de comparaison de moyennes. Les valeurs prises par la variable d'intrt peut s'crire sous la forme suivante :
Page: 86 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.2 Inadquation du codage disjonctif complet

87

Fig. 4.3.

Tableau de calcul de l'ANOVA 1 facteur - Donnes LOYER

yi,k = + k + i,k
o k est l'eet du facteur k , i,k N (0, ). Il s'agit, ni plus ni moins, d'une droite de rgression que l'on peut rsoudre avec la MCO. Il sut de coder convenablement la variable exogne qualitative. L'hypothse nulle de l'ANOVA devient

H0 : 1 = 2 = = K = 0
qui s'apparente au test de signicativit globale d'une rgression linaire multiple. Il nous faut donc dnir une transformation approprie de la variable exogne qualitative pour que la rgression puisse rsoudre un problme d'ANOVA. Le codage est d'autant plus important qu'il conditionne l'interprtation des coecients de l'quation de rgression. C'est ce que nous allons voir maintenant.

4.2 Inadquation du codage disjonctif complet


4.2.1 Codage disjonctif complet
La mthode la plus simple/connue pour transformer une variable qualitative X K modalits en une variable numrique est le codage disjonctif complet. A chaque modalit k de X , on associe une

indicatrice

variable

Zk telle que Zi,k

1 si X = k i = 0 sinon

Sur l'exemple LOYER, cela nous emmnerait produire un nouveau tableau de donnes (Figure 4.4), et nous dnirions naturellement la rgression de la manire suivante

loyer = a0 + a1 Zbanlieue + a2 Zcampagne + a3 Zcentreville +


2.

Dummy variable en anglais.


job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 87

88

4 Rgression sur des exognes qualitatives

Fig. 4.4.

Codage disjonctif complet de la variable

habitation

Pourtant, eectuer cette rgression provoquerait immdiatement une erreur en raison d'un problme agrant de colinarit. En eet, pour tout individu i

Zi,banlieue + Zi,campagne + Zi,centreville = 1


Il y a interfrence avec la constante de la rgression, la matrice (Z Z) n'est pas inversible car la premire colonne de Z est compose de la valeur 1, la somme des 3 colonnes suivantes est gale 1.

4.2.2 Rgression sans constante et lecture des coecients


Pour viter cet cueil, une solution immdiate serait de dnir une rgression sans constante. L'quation devient

loyer = a1 Zbanlieue + a2 Zcampagne + a3 Zcentreville +

Fig. 4.5.

Rgression sans constante - Donnes LOYER

Nous lanons les MCO pour obtenir les coecients (Figure 4.5).

Page: 88

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.2 Inadquation du codage disjonctif complet

89

Lecture de coecients
Penchons nous sur les coecients. Nous ne sommes pas sans noter une certaine similitude avec les valeurs des moyennes conditionnelles prsentes dans le tableau de l'ANOVA 1 facteur (Figure 4.3). Nous observons que a1 = ybanlieue , a2 = ycampagne et a3 = ycentre .

Remarque 22 (Moyenne conditionnelle). Pour rappel, nous pouvons dnir la moyenne conditionnelle yk
de la manire suivante, selon qu'on utilise ou non la variable recode

yk = =

1 nk

i:zi,k =1

yi

1 yi nk
i:xi =k

Dans la rgression sans constante mettant en jeu des exognes codes 0/1 partir d'une variable qualitative, les coecients s'interprtent comme des moyennes conditionnelles de la variable endogne.
Dcomposition de la variance
La dcomposition de la variance en revanche est incorrecte. Si la SCR = 2.54324 est calcule correctement par DROITEREG, la SCE = 722.49676 est fausse (cf. celle fournie par l'ANOVA un facteur, gure 4.3, o SCE = 12.48076). Tout simplement parce que dans la rgression sans constante, l'quation d'analyse de variance dcomposant la variabilit totale en variabilit explique et rsiduelle n'est plus

Nous ne pouvons donc pas dduire des rsultats de la rgression (sans constante) la solution du test de comparaison des K moyennes conditionnelles.
licite.

4.2.3 Vers des solutions plus gnrales


Malgr son intrt, cette technique n'est pas gnralisable : il n'est pas possible d'introduire plusieurs ( 2) variables qualitatives recodes dans la rgression. Nous devons nous tourner vers d'autres solutions qui peuvent s'appliquer dans un cadre plus large. Pour contourner le problme de la colinarit, une solution simple serait tout simplement d'omettre la dernire modalit dans le codage. Pour une variable qualitative K modalits, nous produisons ainsi

(K1) variables binaires 0/1. Reste savoir comment introduire dans ces nouvelles variables l'information
sur la dernire modalit. Ce point est loin d'tre anodin, il dnit le mode de lecture des coecients de la rgression lorsqu'on introduit les variables exognes recodes dans l'analyse.

Page: 89

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

90

4 Rgression sur des exognes qualitatives

4.3 Codage "Cornered eect" de l'exogne qualitative


4.3.1 Principe
Partant du constat que la dernire modalit K peut tre dduite des autres dans le codage disjonctif complet

Zi,K = 1 (Zi,1 + Zi,2 + + Zi,K1 )


On omet tout simplement la variable ZK dans la rgression. On sait que

Xi = K Zi,1 = Zi,2 = = Zi,K1 = 0


Lorsque la variable X prend la modalit K , toutes les indicatrices Z1 , . . . , ZK1 prennent la valeur zro. L'quation de rgression estime l'aide des MCO pour les donnes LOYER en omettant la variable

Zcentre devient loyer = a0 + a1 Zbanlieue + a2 Zcampagne


Reste interprter les coecients de la rgression. (4.1)

Remarque 23 (Choix de la modalit de rfrence). Le choix de la modalit de rfrence K est trs important. Il faut qu'elle soit bien circonscrite pour que les interprtations subsquentes aient une certaine consistance. Par exemple, prendre la modalit "autres" comme rfrence n'est pas une bonne ide parce qu'on ne sait pas trs bien souvent ce qu'elle recouvre. De fait, la direnciation avec les autres groupes est mal dnie. Prenons le cas des symptmes grippaux, il y a 4 cas possibles : pas de symptmes, toux grasse, toux sche, autres symptmes. Pour l'interprtation, il semble judicieux de prendre comme rfrence l'absence de symptmes. En ce qui concerne les eectifs, il est souhaitable que le groupe de rfrence comporte susamment d'observations pour que l'estimation de la moyenne conditionnelle associe soit prcise.

4.3.2 Lecture des rsultats


Voyons quelques cas particuliers pour mieux apprhender la situation :  Si l'habitation i est en centre-ville, nous savons que Zi ,banlieue = Zi ,campagne = 0. Par consquent

yi = a0 , le loyer prdit est a0 .


 Si l'habitation i est en banlieue, nous savons que Zi ,banlieue = 1, les autres indicatrices sont gales 0. Nous en dduisons la valeur prdite du loyer yi = a0 + a1 . En gnralisant, nous observons les relations suivantes :  a0 = ycentre  a1 = ybanlieue ycentre  a2 = ycampagne ycentre
Page: 90 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.3 Codage "Cornered eect" de l'exogne qualitative

91

Cela nous emmne tirer plusieurs conclusions : 1. Les coecients de la rgression s'interprtent comme une moyenne conditionnelle de l'endogne (la constante) ou comme des carts cette moyenne (les autres coecients). 2. On parle de cornered eect car la constante reprsente la moyenne conditionnelle de l'endogne pour les observations portant la modalit exclue. Elle nous sert de moyenne de rfrence. 3. Du coup, le test de signicativit globale de la rgression correspond

exactement une ANOVA

1 facteur c.--d. tester l'galit globale des moyennes conditionnelles.


4. Pour le cas particulier de (K = 2) groupes, nous avons une rgression simple avec seul indicatrice. Le test de signicativit globale est quivalent au test de signicativit de la pente ([18], section 3.6.1), il correspond un test de comparaison de moyennes dans 2 sous-populations ([18], section 13.3). 5. Nous pouvons mme aller plus loin, les tests de signicativit des coecients aj (j 1) s'apparentent un test de comparaison de la moyenne conditionnelle j avec la moyenne de rfrence K . "S'apparente" car, d'une part, l'estimation de l'cart-type n'est pas la mme, la statistique rduite n'est donc pas exactement la mme ; d'autre part, il y a des dirences entre les degrs de libert. Nous y reviendrons en dtail ci-dessous. 6. De mme, la comparaison des coecients des indicatrices s'apparente une comparaison de moyennes entre 2 groupes quelconques.

4.3.3 Application aux donnes LOYER

Fig. 4.6.

Rgression avec donnes codes "cornered eect" - Donnes LOYER

Nous eectuons la rgression sur notre chier de donnes cod selon la technique "cornered eect" (Figure 4.6). Il y a bien p = 2 variables exognes. Nous obtenons les rsultats de l'quation de rgression (Equation 4.1), nous en dduisons les moyennes conditionnelles :  a0 = ycentre = 7.69 ;

 a1 = 0.97 ybanlieue = 7.69 + (0.97) = 6.72 ;


 a2 = 2.42 ycampagne = 7.69 + (2.42) = 5.27
Page: 91 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

92

4 Rgression sur des exognes qualitatives

Pour tester la signicativit globale de la rgression, nous exploitons toujours les sorties du tableur EXCEL : Indicateur Valeur

SCE SCR ddl1 = p ddl2 = n p 1 F


p-value

12.48076 2.54324 2 12
12.48076/2 2.54324/12

= 29.44458

0.00002

Ces rsultats - la dcomposition de la variance (SCT = SCE + SCR) et les degrs de libert - correspondent exactement ceux de l'ANOVA 1 facteur (Figure 4.3). Les deux approches sont totalement quivalentes.

4.4 Comparaisons entres groupes


4.4.1 Comparaisons avec le groupe de rfrence Principe du test
Les coecients des indicatrices se lisent comme des carts la moyenne de rfrence (la moyenne de

Y pour le groupe de rfrence). De fait, le test H : = 0 j K H1 : j = K


Peut s'crire en termes de test de signicativit des paramtres de la rgression H : a = 0 0 j H1 : aj = 0 La statistique de test s'crit

taj =

aj aj

(4.2)

Elle suit une loi de Student ddl = (n p 1) degrs de libert sous H0 . N'oublions pas que dans notre conguration, p = K 1, ainsi ddl = n K . Le test est bilatral.

Application aux donnes CONSO


Nous souhaitons comparer les moyennes des loyers en banlieue et en centre-ville. Nous disposons de toutes les informations ncessaires via DROITEREG (Figure 4.6) :
Page: 92 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.4 Comparaisons entres groupes

93

abanlieue = 0.9657 abanlieue = 0.2696 0.97 = 3.5825 tabanlieue = 0.27 ddl = 15 3 = 12 p value = 0.0038
Au risque = 5%, nous rejetons l'hypothse nulle. Le loyer moyen en banlieue est dirent de celui du centre-ville.

quivalence avec le test usuel de comparaison de moyennes


Nous avions vu plus haut que le test de signicativit globale de la rgression tait compltement quivalente une ANOVA un facteur. Est-ce que ce rsultat est transposable la comparaison d'un groupe avec la rfrence ? Le test de comparaison de moyennes, avec une hypothse d'galit des variances dans les groupes, est bas sur l'indicateur

D = yj yK
Nous constatons immdiatement que D = aj . La dirence se joue sur l'estimation de la variance. En eet,

( D 2 =s
2

1 1 + nj nK

Avec

s2 =

(nj 1)s2 + (nk 1)s2 j K nj + nK 2

s2 tant l'estimateur sans biais de la variance pour le groupe k . k


Sous H0 , la statistique tD =
t D

suit une loi de Student (nj + nK 2) degrs de libert.

Si l'estimation de l'cart est la mme (j = D), il n'y aucune raison en revanche que les estimations a des variances concident. Les degrs de libert sont dirents. Numriquement, les rgions critiques ne seront pas identiques. Notons un lment trs important, les autres groupes n'interviennent pas dans cette criture de la

comparaison directe. Alors que dans la rgression, ils psent dans le calcul de la variance de la statistique
de test et dans la dnition des degrs de libert.

Application aux donnes LOYER


Nous comparons directement les moyennes des loyers pour le centre-ville et la banlieue, l'exclusion des autres groupes (campagne). Les calculs sont rsums dans une feuille Excel (Figure 4.7) : 1. Avec l'outil "Tableaux croiss dynamiques", nous obtenons

Page: 93

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

94

4 Rgression sur des exognes qualitatives

Fig. 4.7.

Comparaison des moyennes - Loyers en banlieue et en centre-ville

Habitation nk banlieue centre

s2 k

yk

5 0.1220 6.7200 7 0.3014 7.6857

2. Nous en dduisons D = 6.7200 7.6857 = 0.9657, ce qui correspond exactement au coecient de l'indicatrice "banlieue" obtenue dans la rgression. 3. Concernant la variance de D, nous calculons successivement

s2 = 2 D
4. Nous formons le rapport

(5 1) 0.1220 + (7 1) 0.3014 = 0.2297 5+72 ( ) 1 1 = 0.2297 + = 0.0787 5 7 D 0.9657 0.9657 = = = 3.4415 D 0.2806 0.0787

tD =

5. Avec un loi T (5 + 7 2) T (10), nous avons une probabilit critique de 0.0063. 6. Au risque 5%, tout comme avec la rgression, nous rejetons l'hypothse d'galit des moyennes. Les conclusions sont identiques, certes. Mais que cela ne masque pas les disparits au niveau de la variance de la statistique de test et des degrs de libert.

Une autre estimation de la variance commune dans la comparaison de moyennes


A bien y regarder, la divergence entre les deux procdure tient essentiellement une estimation dirente de la variance commune de Y dans les groupes. Dans cette section, on montre que l'on peut retrouver les rsultats de la rgression avec la comparaison de moyennes en utilisant la variance intraclasses de l'ANOVA, prenant en compte tous les groupes. Reprenons la procdure de comparaison de deux moyennes. La statistique D = yj yK ne change pas, elle est en relation directe avec les moyennes confronter.
Page: 94 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.4 Comparaisons entres groupes

95

En revanche, nous utilisons une autre estimation de la variance commune, la variance intra-classes vue dans l'ANOVA (section 4.1), c.--d.

SCR s = = nK
2

k=1 (nk

1) s2 k nK

est la somme des carrs des carts la moyenne intra-groupes. Elle correspond galement la somme des carrs rsiduels de la rgression. Les degrs de libert deviennent
SCR (n K) dans ce contexte.
La variance de la statistique de test est obtenu avec ( ) 1 1 D = s2 2 + nj nK Et au nal, nous avons

D tD = D

Qui, sous H0 suit une loi de Student (n K) degrs de libert.

Application sur les donnes LOYER


Comparons de nouveau la moyenne des loyers en banlieue et en centre-ville. Nous avons dj D =

0.9657. Pour la variance intra-classes, nous reprenons les rsultats de l'ANOVA (Figure 4.3), s2 =
Puis, nous calculons

SCR 2.54324 = = 0.2119 nK 12 ) = 0.2119 ( 1 1 + 5 7 ) = 0.0727

( D = s2 2

1 1 + nj nK

Enn,

D 0.9657 0.9657 tD = = = = 3.5825 D 0.2696 0.0727

Exactement la mme valeur que la statistique tabanlieue , le degrs de libert tant galement identiques. Le test issu de la rgression et le test de comparaison directe des moyennes sont dont quivalents si, et seulement si, nous prenons la variance empirique intra-classes intgrant tous les groupes pour estimer
2 la variance Y de Y dans la seconde procdure ! .

4.4.2 Comparaisons entre deux groupes quelconques Construction du test


Toujours partir des rsultats de la rgression, nous pouvons laborer le test de comparaison de moyennes de Y pour deux groupes l et j quelconques. Il s'crit
3. J'adore ce type de conguration. Un mme et seul problme trait avec deux prismes a priori trs dirents - comparaison de moyennes d'un ct, la rgression de l'autre - et, au nal, nous obtenons un rsultat numrique identique. C'est bon a. Comme quoi, il doit y avoir une certaine forme de vrit derrire toutes ces techniques.
Page: 95 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

96

4 Rgression sur des exognes qualitatives

H : = 0 l j H1 : l = j

Comment transposer cela la rgression ? Nous savons que

al = l K aj = j K
On montre trs facilement que le test de comparaison de moyennes est quivalent au test de comparaison de coecients

H : a = a 0 l j H1 : al = aj

Pour mettre en application ce test, nous formons la statistique E , avec

E = al aj

(4.3)

Jusque l, c'est plutt facile. La vraie gageure est de calculer correctement la variance de E . Elle est dnie comme suit
2 V (E) = E = V (l ) + V (j ) 2 COV (l , aj ) a a a

(4.4)

Nous introduisons une nouvelle notion : la covariance entre les coecients estims. En eet, puisque les variables (les indicatrices) ne sont pas indpendantes, la covariance entre les coecients n'est pas nulle. Elle est lue dans la matrice de variance covariance des coecients qui est estime avec
1 2 a = (Z Z)

O est l'estimation de la variance de l'erreur ; Z est la matrice des indicatrices avec, la premire 2 colonne, le vecteur des valeurs 1 pour matrialiser la constante ([18], section 9.6.2). Rappelons que l'on retrouve sur la diagonale principale de la matrice a les variances estimes des coecients. Sous H0 ,

tE =

E E

suit une loi de Student (n K) degrs de libert. Le test est bilatral. La rgion critique correspond aux valeurs extrmes de tE .

Remarque 24 (Test de contraintes linaire sur les coecients). La comparaison des coecients de la
rgression peut s'inscrire dans un cadre plus gnral, les tests de contraintes linaires. Nous dcrivons en dtail l'approche dans notre premier support ([18], section 11.3). Ainsi, nous pouvons comparer plusieurs ( 2) moyennes, ou encore tester des formes linaires plus gnrales (ex. 1 = 2 2 + 7 3 , etc.). Notre champ d'investigation est considrablement largi.

Page: 96

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.4 Comparaisons entres groupes

97

Fig. 4.8.

Comparaison des moyennes via la rgression - Loyers en banlieue et la campagne

Application aux donnes CONSO


Nous souhaitons comparer la moyenne des loyers en banlieue et en campagne (Figure 4.8) :  A partir des coecients estims via la fonction DROITEREG, nous pouvons calculer E ,

E = abanlieue acampagne = 0.9657 (2.4190) = 1.45333


 Pour aboutir l'estimation de la variance de E , il faut passer par plusieurs tapes. D'abord, il faut disposer de la matrice Z , compose des indicatrices et de la colonne de 1 (en fond jaune dans la gure 4.8).  Nous calculons alors la matrice (Z Z) que nous inversons. Nous avons (Z Z)1 .  Enn, nous la pr-multiplions par l'estimation de la variance de l'erreur fournie par DROITEREG = (0.4604)2 = 0.21194 pour obtenir l'estimation de la matrice de variance covariance des 2 coecients estims

a = (0.4604)2 0.14286 0.34286 0.14286 0.14286

0.14286 0.14286 0.14286

0.14286 = 0.03028 0.07266 0.47619 0.03028 0.03028

0.03028 0.03028 0.03028

0.03028 0.10092

 Nous piochons dans cette matrice les valeurs ncessaires l'estimation de la variance de E ,

a a E = V (campagne ) + V (banlieue ) 2 COV (campagne , abanlieue ) 2 a = 0.10092 + 0.07266 2 0.03028 = 0.11303


 Il nous reste former
Page: 97 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

98

4 Rgression sur des exognes qualitatives

1.45333 1.45333 = = 4.32278 tE = 0.33620 0.11303  Avec la loi T (12), nous avons la probabilit critique p value = 0.00099.
 Au risque 5%, nous rejetons l'hypothse nulle d'galit des loyers moyens en banlieue et la campagne.

quivalence avec la comparaison de moyennes


Curieux comme nous sommes, voyons ce qu'il en est si nous passons par la comparaison directe des moyennes, toujours en utilisant la variance intra-classe s2 = 0.2119 de l'ANOVA comme estimation de la variance de Y . Nous calculons l'cart entre les moyennes

D = ybanlieue ycampagne = 6.72000 5.26667 = 1.45333


Nous obtenons sa variance avec ( ) ( ) 1 1 1 1 2 2 D = s + = 0.2119 + = 0.11303 nbanlieue ncampagne 5 3 Reste former le rapport,

1.45333 tD = = 4.32278 = tE 0.11303

Encore une fois, nous constatons que le test bas sur les rsultats de la rgression et celui bas sur une comparaison directe des moyennes, pour peu que l'on utilise l'estimation s2 de la variance de Y , sont totalement quivalentes.

4.5 Rgression avec plusieurs explicatives qualitatives


Approfondissons l'analyse en ajoutant d'autres variables qualitatives explicatives. Plusieurs questions se posent alors : comme lire les paramtres estims, en eet les variables ne sont pas indpendantes, nous avons des coecients partiels maintenant ([18], section 13.1.2) ; comment tester l'inuence d'une explicative qualitative, reprsente par plusieurs variables indicatrices, dans la rgression ; comment prendre en compte l'eet conjoint, l'interaction, des explicatives sur l'endogne. Nous utilisons un nouveau chier pour illustrer notre propos. Il s'agit de la base Auto Pollution Filter

Noise du serveur DASL " . Il s'agit d'expliquer le niveau de pollution sonore de vhicules (NOISE, en
dcibels) partir de la taille (SIZE, 3 valeurs possibles) et du type de silencieux (TYPE, 2 valeurs). Nous avons choisi d'ignorer la variable SIDE prsente dans la base, elle indiquait le ct du vhicule partir duquel la mesure a t eectue.
4. http://lib.stat.cmu.edu/DASL/Datafiles/airpullutionfiltersdat.html
Page: 98 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.5 Rgression avec plusieurs explicatives qualitatives

99

Fig. 4.9.

Donnes NOISE - Valeurs et moyennes conditionnelles

Premire tape pour xer les ides, nous calculons les moyennes de la variable d'intrt conditionnellement aux valeurs de SIZE et TYPE (Figure 4.9). Dans ce qui suit, nous noterons kl les esprances conditionnelles et ykl les moyennes empiriques ; k. (resp. .l ) est la moyenne de Y conditionnellement aux seules valeurs de la premire explicative (resp. la seconde explicative) ; .. = est la moyenne globale de Y . Dans notre exemple, nous lisons : Moyennes S1 S2 S3 SIZE T1 T2 TYPE

y11 = 825.8333 y12 = 822.5000 y21 = 845.8333 y22 = 821.6667 y31 = 775.0000 y32 = 770.0000

y1. = 824.1667 y2. = 833.7500 y3. = 772.5000

y.1 = 815.5556 y.2 = 804.7222 y.. = y = 810.1389

Par exemple, la moyenne du bruit chez les voitures (SIZE = S1), quel que soit le type de silencieux utilis, est y1. = 824.1667 ; elle est de y21 = 845.8333 chez les vhicules (SIZE = S2) etc.
Page: 99 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

et (TYPE = T1) ;

100

4 Rgression sur des exognes qualitatives

Manifestement, il y a des dirences entre les moyennes conditionnelles. Notre objectif consiste valuer jusqu' quel point et selon que processus ces carts sont signicatifs. Les connaisseurs auront reconnu un problme d'analyse de variance (ANOVA) 2 facteurs. Nous avons donc un double objectif en ralisant les rgressions sur indicatrices : 1. Voir dans quelle mesure la rgression peut rpondre la problmatique de l'analyse de variance c.--d. valuer l'impact des exognes sur la variable d'intrt Y , en faisant la part entre chaque explicative. Mieux mme, est-ce qu'il est possible de retrouver les rsultats numriques de l'ANOVA ? 2. Montrer de quelle manire et quelles conditions nous pouvons retrouver le tableau des moyennes conditionnelles ci-dessus partir des coecients de la rgression.

4.5.1 Rgression sur les indicatrices


A l'aide du logiciel R, nous avons men une analyse de variance sans prise en compte de l'interaction entre les deux explicatives (Figure 4.10). Ce faisant, nous mettons l'hypothse que l'inuence de TYPE (resp. SIZE) sur le bruit des vhicules (NOISE) ne dpend pas de (est la mme quelle que soit) la valeur prise par SIZE (resp. TYPE). Nous constatons que les deux variables impactent signicativement sur le bruit au risque 5%. Ces rsultats nous serviront de rfrence dans cette section.

Fig. 4.10.

Donnes NOISE - ANOVA

sans

interaction entre SIZE et TYPE

Eet global des explicatives


Nous crons les indicatrices adquates pour les variables SIZE et TYPE. Dans les deux cas, nous prenons la premire modalit comme rfrence. Nous avons donc 3 nouvelles colonnes : S1, S2 et T 2. Nous ralisons la rgression sur ces indicatrices

N OISE = a1 T 2 + a2 S3 + a3 S2 + a0
L'opration n'est pas anodine. En introduisant les indicatrices de cette manire, nous considrons que les variables n'interagissent pas dans la dnition de NOISE. DROITEREG nous fournit tous les lments ncessaires l'analyse (Figure 4.11) :
Page: 100 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.5 Rgression avec plusieurs explicatives qualitatives

101

Fig. 4.11.

Donnes NOISE - Rgression sur indicatrices, sans prise en compte des interactions

 La rgression est de bonne qualit avec R2 = 0.90739, elle est globalement signicative avec un

F = 104.51138 et une probabilit critique trs faible < 0.00001.


 La variabilit rsiduelle, non explique par la rgression (SCR = 2766.66667) est identique celle de l'ANOVA sans interaction (Figure 4.10), avec les mmes degrs de libert ddl = 36 3 1 = 32.  Par consquent, la partie explique est cohrente galement SCE = 27107.63889, la dirence que la fonction AOV de R dcompose directement la portion dvolue SIZE (SCEsize = 26051.4) et TYPE (SCEtype = 1056.2). Premire conclusion, notre apprhension du problme est tout fait conforme avec une analyse de variance 2 facteurs sans prise en compte des interactions. A vrai dire, ce n'est pas trop une surprise. En lisant la documentation de R, on se rend compte qu'AOV procde par rgressions dans les sous-groupes "(AOV) Fit an analysis of variance model by a call to lm for each stratum " ; lm() tant la fonction dvolue la rgression.

Page: 101

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

102

4 Rgression sur des exognes qualitatives

Dcomposition de l'eet des variables


Deuxime tape, il faut discerner ce qui revient SIZE et TYPE, comme le fait l'analyse de variance (Figure 4.10).

Cas des variables binaires


Si la variable n'est reprsente que par une indicatrice, on peut passer directement par le test de signicativit du coecient associ. C'est le cas justement de la variable TYPE. Via la fonction DROITEREG (Figure 4.11), nous avons a1 = 10.83333 et a1 = 3.09943. Nous formons la statistique de test

ta1 =

10.83333 = 3.49526 3.09943

Avec un loi de Student 32 degrs de libert, nous avons une probabilit critique de 0.001411. O est l'analogie avec l'analyse de variance sans interaction ? On sait que qu'il y a une relation directe entre la loi de Student et la loi de Fisher, T (ddl) F(1, ddl). Dans notre exemple, on constate aisment que

(ta1 )2 = (3.49526)2 = 12.217


Correspond exactement au carr moyen associ la variable TYPE dans l'ANOVA sans interaction (Figure 4.10). En conclusion : au risque 5%, taille gale des vhicules, on considre que le type de silencieux inue sur leur niveau sonore. La rgression nous fournit une information supplmentaire, le silencieux de type T2 permet de rduire le niveau sonore puisque que a1 = 10.83333 est de signe ngatif.

Cas des variables plus de 2 modalits


Quand la variable est reprsente par (q 2) indicatrices, il faut tester la signicativit simultane des coecients associs. Dans le cas de la variable SIZE, il s'agit de tester

H0 : a2 = a3 = 0 H1 : un des deux au moins est non nul


La manire la plus simple de procder est de raliser deux rgressions : la premire avec l'ensemble
2 des p indicatrices, nous obtenons un coecient de dtermination R1 ; la seconde sans les q indicatrices 2 incrimines, nous avons R0 . La statistique de test s'crit alors ([18], section 10.4) 2 2 (R1 R0 )/q 2 )/(n p 1) (1 R1

F =

(4.5)

Sous H0 , elle suit une loi de Fisher (q, n p 1) degrs de libert.

Page: 102

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.5 Rgression avec plusieurs explicatives qualitatives

103

2 Pour les donnes NOISE, nous disposons dj de R1 = 0.90739 via la rgression sur toutes les indica-

trices (Figure 4.11). Reste raliser la rgression sans les indicatrices de SIZE (Figure 4.12), nous avons
2 R0 = 0.03536. Nous formons la statistique destine valuer la signicativit de SIZE : 2 2 (R1 R0 )/q (0.90739 0.03536)/2 2 )/(n p 1) = (1 0.90739)/(36 3 1) = 150.659 (1 R1

Fsize =

Fig. 4.12.

Donnes NOISE - Tester la signicativit de SIZE (2 indicatrices)

Au risque 5%, en contrlant l'eet de TYPE, on conclut que la taille (SIZE) des vhicules inue sur le niveau sonore puisque la p-value est (largement) infrieure au seuil. Nous retrouvons exactement les valeurs (F, degrs de libert, p-value) fournies par l'ANOVA sans interaction (Figure 4.10).

TYPE seul n'est pas signicatif, TYPE en contrlant SIZE le devient ? ? ?


Notons un rsultat important qui va nous clairer lors de la lecture des coecients que nous aborderons plus bas. La rgression o TYPE intervient seul ( travers l'indicatrice T2, gure 4.12) n'est pas signicative (F = 1.24618, la p-value est 0.2721). En nous rfrant au tableau des moyennes conditionnelles (Figure 4.9), l'cart de 10.83333 (.1 y.2 = 815.5556 804.7222) n'est pas concluant. y Pourtant dans la rgression incluant les deux variables (Figure 4.11), TYPE devient signicative travers son coecient (ta1 = 3.49526, avec une p-value = 0.001411). D'o vient cette contradiction ? L'analyse est en ralit modie par la variable SIZE. En eet, en compilant les carts entre les deux colonnes pour chaque ligne du tableau des moyennes conditionnelles (Figure 4.9) (c.--d. y11 y12 =

825.8333 822.5000 = 3.3333, y21 y22 = 845.8333 821.6667 = 24.1667 et y31 y32 = 775.0000

L'hypothse sous-jacente est que TYPE (resp. SIZE) pse de la mme manire sur NOISE, quelle que soit la valeur de SIZE (resp. TYPE). Ce qui n'est pas tout fait vrai si l'on se rfre au tableau des
770.0000 = 5.0000), on aboutit un indicateur d'cart "moyen" qui devient signicatif.
Page: 103 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

104

4 Rgression sur des exognes qualitatives

moyennes conditionnelles. Nous constatons que cette hypothse simplicatrice n'est pas sans rpercussions sur la lecture des coecients.

Interprtation des coecients


La constante a0 = 829.58333 devrait correspondre la moyenne du groupe de rfrence, savoir (SIZE = S1) et (TYPE = T1), les modalits dont les indicatrices ont t exclues. Or y11 = 825.8333 dans le tableau des moyennes (Figure 4.9). Cette distorsion est la consquence de l'hypothse selon laquelle l'impact de l'une des explicatives ne dpend pas de la valeur prise par l'autre. Pour nous en convaincre, nous avons construit le tableau des moyennes conditionnelles reconstitues

(kl ) partir des rsultats de la rgression (Figure 4.11). Les calculs sont facilits par le fait que nous y

avons des eectifs totalement quilibrs c.--d. nkl = 6, k, l.


Pour rappel, a0 = 829.58 est la constante, a1 = 10.83 le coecient de T 2, a2 = 51.67 celui de S3 et a3 = 9.58 celui de S2.
Moyennes S1 S2 S3 Total
y.1 =

T1
y11 = a0 = 829.58 y21 = a0 + a3 = 839.17 y31 = a0 + a2 = 777.92
829.58+839.17+777.92 3

T2
y12 = a0 + a1 = 818.75 y22 = a0 + a1 + a3 = 828.33 y32 = a0 + a2 + a1 = 767.08
818.75+828.33+767.08 3

Total
y1. = y2. = y3. =
829.58+818.75 2 839.17+828.33 2 777.92+767.08 2

= 824.17 = 833.75 = 772.50

= 815.56 y.2 =

= 804.72

y.. = y = 810.14

Nous rcapitulons les rsultats en confrontant les moyennes calcules et les moyennes reconstitues (Figure 4.13) :

Fig. 4.13.

Donnes NOISE - Moyennes reconstitues, rgression sans interaction

 Une premire information trs importante saute aux yeux : les moyennes marginales sont parfaitement reconstitues, tant pour SIZE (k. = yk. , k) que pour TYPE (.l = y.l , l). y y  Il en est de mme en ce que concerne la moyenne globale y.. = y.. = 810.14  Les divergences apparaissent lorsque nous calculons les moyennes conditionnelles.  Preuve que nous ne tenons pas compte des interactions dans la rgressions, nous constatons que les carts sont constants entre les deux colonnes T 1 et T 2 (colonne carts) quelle que soit la valeur de SIZE (S1, S2 ou S3) c.--d. (k1 yk2 ) = 10.83, k . y
Page: 104 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.5 Rgression avec plusieurs explicatives qualitatives

105

 Pour SIZE, la dmonstration est un peu plus dicile. Il faut calculer la sommes des carrs des carts (variabilit explique) de SIZE selon les valeurs de TYPE, nous avons SCEl = k 6 (kl y.l )2 = y

13025.69, l.
 Ces deux rsultats sont en contradiction avec ceux obtenus via le tableau des moyennes calcules directement partir des donnes, moyennes qui tiennent compte des interactions entre SIZE et TYPE. Les carts ne sont pas constants d'une ligne l'autre, les SCE ne sont pas les mmes d'une colonne l'autre.

4.5.2 Prise en compte des interactions


De nouveau avec R, nous avons ralis une ANOVA en prenant en compte les interactions entre SIZE

nous considrons que l'eet de TYPE (resp. SIZE) sur le bruit peut dpendre de la valeur prise par SIZE (resp. TYPE).
et TYPE cette fois-ci (Figure 4.14). Maintenant, Voyons de quelle manire nous pouvons retrouver ces rsultats l'aide de la rgression.

Fig. 4.14.

Donnes NOISE - ANOVA

avec

interaction entre SIZE et TYPE

4.5.3 Ajout de nouvelles indicatrices


Prendre en compte l'interaction signie que l'impact de TYPE (resp. SIZE) dpend de la valeur prise par SIZE (resp. TYPE). Pour ce faire, nous ajoutons de nouvelles variables explicatives dans la rgression, elles sont formes partir du produit des indicatrices. Concrtement, nous travaillons maintenant sur le modle :

N OISE = b1 S3 T 2 + b2 S2 T 2 + b3 T 2 + b4 S3 + b5 S2 + b0
La variable S3 T 2 (resp. S2 T 2) est aussi une indicatrice. Elle prend la valeur 1 si et seulement si les indicatrices S3 et T 2 (resp. S2 et T 2) prennent simultanment la valeur 1. Elle est gale zro dans tous les autres cas. Voyons deux exemples pour bien situer le rle des coecients. Par rapport la rfrence (S1, T 1) avec un niveau de bruit moyen b0 :  un vhicule (S3, T 1) prsente un niveau de bruit (b0 + b4 ) ;
Page: 105 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

106

4 Rgression sur des exognes qualitatives

 un vhicule (S3, T 2) prsente un niveau de bruit (b0 + b4 + b3 + b1 ). Nous verrons plus loin que notre modle tant satur, c.--d. tous les eets possibles sont pris en compte dans la rgression, il sera possible de reconstituer l'identique le tableau des moyennes conditionnelles partir des coecients du modle.

Fig. 4.15.

Donnes NOISE - Rgression sur indicatrices, avec prise en compte des interactions

Pour l'heure, lanons la fonction DROITEREG pour obtenir les estimations (Figure 4.15) :  La rgression est de trs bonne qualit avec un R2 = 0.93431.  Elle est globalement signicative 5% avec une p-value < 0.00001.  Par rapport l'ANOVA avec interaction (Figure 4.14), nous constatons que la variabilit rsiduelle, non explique par le modle, est la mme : SCR = 1962.50, avec les mmes degrs de libert

ddl = 30. Notre spcication de la rgression semble donc convenir.

4.5.4 Tester la signicativit de l'interaction


L'tape suivante consiste vrier la pertinence de l'introduction du terme d'interaction dans notre analyse (toujours 5%). L'ANOVA l'arme avec Fsize:type = 6.1465 et une p-value de 0.0057915 (Figure 4.14). Voyons si la rgression fournit les mmes rsultats.
Page: 106 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.5 Rgression avec plusieurs explicatives qualitatives

107

Fig. 4.16.

Donnes NOISE - Tester l'interaction entre SIZE et TYPE

Pour tester la pertinence de l'interaction, nous devons tester la signicativit simultane des coecients de (S3 T 2) et (S2 T 2) (Figure 4.16). Nous appliquons une dmarche analogue celle prsente prcdemment pour tester la nullit des coecients de plusieurs indicatrices ( 2) associes une variable qualitative (page 102) :  La rgression sur toutes les variables, y compris les (q = 2) termes d'interaction (S3 T 2, S2 T 2),
2 prsente un coecient de dtermination R1 = 0.93431. 2  La rgression sans les termes d'interaction propose un R0 = 0.90739. 2 2  R1 est forcment suprieur R0 puisque que nous avons des variables additionnelles, mais l'est-il

signicativement ? Pour le savoir, nous utilisons la statistique

Fsize:type =

2 2 (R1 R0 )/q (0.93431 0.90739)/2 2 )/(n p 1) = (1 0.93431)/(36 5 1) = 6.1465 (1 R1

 Avec une distribution de Fisher F(2, 30), nous obtenons une p-value de 0.0057915. Les termes d'interaction sont justis dans la rgression.  Et par la mme occasion, nous constatons que nous avons reproduit l'identique les rsultats de l'ANOVA avec interaction (Figure 4.14). Nous sommes contents.

4.5.5 Interprtation des coecients


Dernire tape de notre exploration, voyons de quelle manire nous pouvons obtenir les "vraies" moyennes conditionnelles partir de la rgression. Cela est possible maintenant parce que nous prenons en compte tous les eets des exognes sur l'endogne. On dit que le modle est satur. Pour viter les renvois rpts vers d'autres pages, rcapitulons les coecients estims de la rgression : Variable S3*T2 S2*T2 T2 2 3 b b b Coecient 1 S3 4 b S2 Constante 5 0 b b 825.83

-1.67 -20.83 -3.33 -50.83 20.00

Premire vrication immdiate, la constante 0 = 825.83 correspond bien la moyenne conditionnelle b de Y pour la combinaison des modalits exclues (S1, T 1). C'est plutt rassurant. Reste reconstituer les
Page: 107 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

108

4 Rgression sur des exognes qualitatives

autres moyennes conditionnelles partir de l'association de ces coecients. Notons la logique d'obtention des moyennes partir des j . b Enn, nous gardons toujours l'esprit que les eectifs sont totalement quilibrs, nkl = 6, k, l ; cela explique les formules simplies utilises pour le calcul des moyennes marginales.

ykl
S1 S2 S3 SIZE y.1 =

T1

y11 = 0 = 825.83 b 0 + 5 = 845.83 y21 = b b 0 + 4 = 775.00 y31 = b b


825.83+845.83+775.00 3

y22 y32

T2 y12 = 0 + 3 = 822.50 b b y1. = 0 + 5 + 3 + 2 = 821.67 y2. = =b b b b 0 + 4 + 3 + 1 = 770.00 y3. = =b b b b


822.50+821.67+770.00 3

TYPE
825.83+822.50 2 845.83+821.67 2 775.00+770.00 2

= 824.17 = 833.75 = 772.50

= 815.56 y.2 =

= 804.72

y.. = y = 810.14

Le tableau des moyennes conditionnelles est parfaitement reconstitu !

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives


Nous avons dtaill l'interprtation des coecients dans le cas d'un mlange d'explicatives qualitatives et quantitatives dans notre support consacr la rgression ([18], section 13.3). Nous y essayions d'expliquer le niveau de salaire partir du genre (homme vs. femme) et du nombre d'annes d'tudes. Nous suivrons la mme dmarche dans cette section. Nous la complterons avec l'tude de l'interaction entre ces variables. Nous utiliserons cependant un autre exemple pour varier les plaisirs. Avec les donnes CARBURANT, nous essayons d'expliquer la consommation des vhicules # (CONSO, en litres par 100 km) en fonction du type de carburant [CARBURANT : gazole (0) ou essence (1)] et la cylindre (en

cm3 ). Le chier reprsente un chantillon de n = 32 observations extrait de la base

Set" $ accessible sur le serveur UCI Machine Learning Repository. 4.6.1 Interprtation des coecients Rgression avec la variable CARBURANT seule

Automobile Data

Dans un premier temps, nous tentons d'expliquer la consommation uniquement l'aide du carburant utilis. Le modle s'crit

CON SO = a1 CARBU RAN T + a0


CARBURANT tant binaire, nous savons dans ce cas que a0 est la moyenne de la consommation des vhicules fonctionnant au gazole ; a1 reprsente alors l'cart entre cette moyenne et celle des vhicules essence. Voyons ce que nous fournit DROITEREG (Figure 4.17) :
5. C'est vrai qu'il adore les voitures le monsieur, j'ai du tre garagiste dans une autre vie. 6. http://archive.ics.uci.edu/ml/datasets/Automobile, les units ont t converties.
Page: 108 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives

109

Fig. 4.17.

Donnes CARBURANT - Rgressions sans prise en compte de l'interaction

 Le modle n'explique que R2 = 42.8% de la variance de l'endogne.  Mais il est globalement signicatif 5% avec un F = 22.428 et une p-value de 4.90725 105 .  La pente de la droite, qui reprsente l'cart entre les moyennes conditionnelles de consommation des vhicules essence et diesel, est signicative galement (ta1 = 4.73585, avec une p-value de

4.90725 105 ). Ce rsultats n'est pas tonnant. Tester le modle dans sa globalit et tester la
pente sont quivalents dans la rgression simple.  Nous pouvons donc dire que les vhicules essence consomment signicativement plus que les diesels. L'cart est estim a1 = 2.49316 litres au 100 km.  Pour obtenir les consommations moyennes conditionnelles, nous formons :

ygazole = a0 = 8.98 yessence = a0 + a1 = 8.98 + 2.49316 = 11.47316

Rgression avec CARBURANT et CYLINDRE


Nous souhaitons approfondir l'analyse en introduisant la variable CYLINDRE. Le modle s'crit maintenant :
Page: 109 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

110

4 Rgression sur des exognes qualitatives

CON SO = b1 CY LIN DREE + b2 CARBU RAN T + b0


L'estimation l'aide de DROITREG fournit de nouveaux rsultats (Figure 4.17) :  La rgression est de meilleure qualit avec un R2 = 0.92838, elle est globalement signicative bien videmment (F = 187.962, p-value = 2.49945 107 ).  Les deux variables CYLINDRE et CARBURANT sont largement signicatives 5%.  La constante 0 = 1.74761 n'est pas trs intressante. Elle correspondrait la consommation b moyenne des vhicules de cylindre nulle fonctionnant au gazole. b  En revanche, le coecient de CARBURANT, 2 = 3.47220, revt une signication trs intressante.

A cylindre gale, les essences consomment 3.47220 litres au 100km de plus que les gazoles.

est que cet cart reste constant quelle que soit la cylindre des vhicules.
consommation de 0.00296 litres au 100 km. On

L'ide

 De mme le coecient de CARBURANT 1 = 0.00296 propose une lecture trs instructive : b

type de carburant gal, l'augmentation de la cylindre d'1 cm3 entrane une augmentation de la

chez les essences et les gazoles.

considre ainsi que la variation est identique

Ces deux hypothses sous-jacentes la rgression sans interactions introduisent une lecture intressante des coecients. Il permettent d'analyser l'impact de chaque explicative en contrlant l'eet des autres variables. Mais elles en limitent la porte galement. Nous n'explorons pas la conguration selon laquelle l'eet de l'une dpend des valeurs prises par l'autre. C'est prcisment l'objet de l'introduction des termes d'interaction.

4.6.2 Prise en compte des interactions


Pour prendre en compte l'interaction, nous introduisons une nouvelle variable forme par le produit de l'indicatrice et de l'explicative quantitative. Si la variable qualitative comporte plus de deux modalits, il faudra former le produit de chaque indicatrice avec la variable quantitative. Dans notre exemple, le modle devient :

CON SO = c1 CARB CY L + c2 CY LIN DREE + c3 CARBU RAN T + c0


Les valeurs prises par les termes d'interactions sont trs particulires (Figure 4.18). Elle sont gales la variable quantitative lorsqu'elle correspond l'indicatrice concerne, 0 dans tous les autres cas. C'est comme si les donnes ont t morceles et, pour chaque morceau, nous analysons de manire (plus ou moins) spare l'impact de l'exogne quantitative. Nous approfondirons cette ide lorsque nous ferons le parallle entre la rgression avec interaction et la comparaison de rgressions spares. Pour l'heure, voyons les rsultats de notre rgression (Figure 4.18) :  Le coecient de dtermination est trs lgrement amlior (R2 = 0.92876).  Attention, le coecient de CARBURANT c3 = 3.10093 correspond au dcalage de consommation lorsque les vhicules sont de cylindre nulle. Dans le cas prsent, sa lecture n'est pas trs intressante.  Parce qu'il y a interaction, le dcalage du niveau de consommation selon le carburant dpend de la

valeur de la cylindre. Par exemple, pour les vhicules de 1500 cm3 , l'cart est de (0.000162 0
Page: 110 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives

111

Fig. 4.18.

Donnes CARBURANT - Rgressions avec prise en compte de l'interaction

1500 + 0.002872 1500 + 3.10093 0 + 1.95224) (0.000162 1 1500 + 0.002872 1500 + 3.10093 1 + 1.95224) = 3.34452 ; il devient 3.42572 si la cylindre passe 2000 cm3 .
 Le coecient de CYLINDREE (2 = 0.002872) correspond l'augmentation de la consommation c conscutive un accroissement de 1 cm3 de la cylindre du moteur pour les vhicules gazole.  Si nous souhaitons obtenir la mme information pour les vhicules essence, il faut former c2 + c1 =

0.002872 + 0.000162 = 0.003034.


 Pour savoir si ce direntiel de comportement entre les essences et les gazoles est bien rel, il faut alors tester la signicativit de c1 . Dans notre exemple, on se rend compte qu'il ne l'est pas avec

tc1 = 0.38516 et une p-value de 0.70303. Les donnes ne contredisent pas l'hypothse (H0 : c1 = 0),
on peut considrer que le surcrot de consommation conscutif une augmentation de cylindre est le mme chez les gazoles et les essences. Nous pouvons nous contenter de la rgression sans interaction dans l'explication de la consommation partir du type de carburant et de la cylindre.

Page: 111

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

112

4 Rgression sur des exognes qualitatives

Remarque 25 (Explicative qualitative plus de 2 modalits). Dans le cas o l'explicative qualitative est
exprime par plusieurs indicatrices, il faudrait tester la nullit simultane des coecients associs tous les termes d'interactions.

4.6.3 Lien avec la comparaison de rgressions


La rgression avec un mix d'exognes qualitatives et quantitatives a de fortes connexions avec la comparaison de rgressions ([18], chapitre 8) et l'analyse des ruptures de structures (chapitre 5). Le rapprochement est facilit par le fait que nous n'avons que deux exognes dans notre exemple illustratif, l'une qualitative et l'autre quantitative. Nous pouvons reprsenter graphiquement les deux rgressions (Figure 4.19) :

Fig. 4.19.

Donnes CARBURANT - Rgressions spares indpendantes - Prise en compte de l'interaction

 Nous avons autant de rgressions que de modalits de l'explicative qualitative. Ici, nous avons 2 modles, l'un pour les vhicules fonctionnant au

gazole avec agazole CY LIN DREE + bgazole ,

Mgazole : CON SO = 0.002872 CY LIN DREE + 1.952237


L'autre pour ceux roulant

l'essence, aessence CY LIN DREE + bessence

Messence : CON SO = 0.003034 CY LIN DREE + 5.053162


 Le deux rgressions ont quasiment la mme pente, c'est le signe de l'absence d'interactions. Dans le cas contraire, l'cart entre les rgressions ne serait pas constant, les droites pourraient mme se croiser.

 Par rapport aux coecients cj de la rgression avec prise en compte des interactions (Figure 4.18),
voyons les relations :

Page: 112

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives

113

1. La constante de Mgazole concide avec la constante de la rgression, soit gazole = c0 = 1.952237. b Son interprtation est purement thorique, elle correspondrait la consommation des vhicules gazole de cylindre nulle. 2. La pente de Mgazole est identique au coecient de CYLINDREE agazole = c2 = 0.002872. Le mcanisme est relativement simple, lorsque CARBURANT = GAZOLE, CARBURANT vaut

0, le terme d'interaction CARB CY L galement. De fait, le coecient c2 revient mesurer


l'impact de la cylindre uniquement chez les vhicules roulant au gazole. 3. Passons la rgression chez les vhicules essence Messence . La constante mesure la consommation pour les vhicules de cylindre nulle, le dcalage entre les deux constantes correspond au coecient de CARBURANT dans la rgression avec interaction : essence gazole = b b

5.053162 1.9552237 = 3.10093 = c3 .


4. Concernant la pente, nous l'avions dj mis en exergue prcdemment, nous constatons que

aessence = c2 + c1 = 0.002872 + 0.000162 = 0.003034.

Fig. 4.20.

Rgressions spares avec contrainte d'galit des pentes - Non prise en compte de l'interaction

5. Le terme d'interaction permet de situer la concomitance entre les pentes. Si le coecient as-

dans la rgression sans terme d'interaction, nous les obligeons explicitement tre parallles. Les rgressions ssoci est nul, l'cart entre les droites serait stable. De fait, pares seraient contraintes par cette exigence (Figure 4.20 ; les coecients sont comparer avec ceux de la rgression sans interaction CON SO = 0.00296 CY LIN DREE + 3.47220

CARBU RAN T + 1.74761, gure 4.17).


Bien videmment, la lecture est moins facile lorsque l'explicative qualitative possde plusieurs (> 2) modalits ou lorsque nous avons plusieurs explicatives quantitatives. Mais fondamentalement, les mcanismes sous-jacents sont identiques.

Page: 113

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

114

4 Rgression sur des exognes qualitatives

4.7 Slection de variables en prsence d'exognes qualitatives


L'introduction d'exognes qualitatives reprsentes par plusieurs indicatrices pose une question cl dans la slection de variables : doit-on traiter ces indicatrices en bloc ou individuellement ?

4.7.1 Traitement group des indicatrices

Fig. 4.21.

Donnes CARDIO - Expliquer le risque de maladie cardio-vasculaire

La premire approche consiste traiter en bloc les indicatrices relatives une exogne tout simplement parce que nous sommes dans un schma de slection de variables. On cherche identier celles qui sont pertinentes pour expliquer l'endogne. Dissocier les indicatrices d'une exogne qualitative ne parat pas judicieux car l'interprtation des coecients qui en dcoulerait devient hasardeux (apparemment, c'est justement sur cet aspect que nous reviendront dans la section suivante). Prenons un schma backward pour xer les ides (section 3.2.2). Pour rappel, il s'agit d'une procdure de retrait pas--pas des variables jusqu' ce qu'elles soient toutes signicatives un risque qui constitue le paramtre de l'algorithme. A chaque tape, on retire la variable la moins signicative c.--d. dont la p-value est la plus leve, et suprieure bien videmment, puis on relance la rgression.
Page: 114 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.7 Slection de variables en prsence d'exognes qualitatives

115

Pour les variables quantitatives, la dcision est base sur le t de Student du test de signicativit ([18], section 10.3). Pour les variables qualitatives, on se base sur le F de Fisher de nullit simultane des coecients associes aux indicatrices ([18], section 10.4). Nous utilisons le chier "CARDIO" pour illustrer la procdure (Figure 4.21, n = 35 observations). On souhaite expliquer le risque de maladie cardio-vasculaire. Il s'agit d'une note comprise entre 0 et 5 attribue par des experts la suite de la lecture du dossier mdical de patients, plus la note est leve, plus le risque de maladie est lev. Les variables explicatives candidates sont : le sexe, code 0 (femme) / 1 (homme) ; l'indice de masse corporelle (IMC, voir http://fr.wikipedia.org/wiki/Indice_de_masse_

corporelle) ; le comportement par rapport au tabac (FUMER), avec 4 valeurs possibles ("jamais",
"ancien", "occasionnel", "rgulier"). Cette dernire a t recode en 3 indicatrices, la modalit "jamais" servant de rfrence. Nous ralisons tous les tests = 10% dans tout ce qui suit.

Fig. 4.22.

Donnes CARDIO - Rgression avec SEXE, IMC, et toutes les indicatrices de FUMER

La rgression avec la totalit des variables fournit une rgression qui n'est pas globalement signicative (F = 1.4502, p-value = 0.236412) et un R2 = 0.200021. Du ct des explicatives, l'IMC et l'indicatrice (FUMER = REGULIER) sont signicatives (Figure 4.22). Ce dernier rsultat n'a pas trop de sens pour nous puisque nous voulons traiter la variable FUMER comme un tout. Nous calculons donc le F-partiel et la p-value associe pour chaque exogne. Pour les variables individuelles (quantitatives ou binaires), il s'agit tout simplement du carr du t de Student. Pour FUMER, il s'agit de confronter le coecient de dtermination de la rgression comprenant toutes les variables avec celui de la rgression avec les seules variables IMC et SEXE (Figure 4.23, R2 = 0.075983).
Page: 115 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

116

4 Rgression sur des exognes qualitatives

Fig. 4.23.

Donnes CARDIO - Rgression avec SEXE et IMC

Nous formons le tableau de F-partiels. Variable SEXE IMC F

ddl1 ddl2 p-value 1 1 29 0.48777 29 0.080553 29 0.235665


2

F = (0.702823)2 = 0.493960 F = (1.810742) = 3.278787


(0.2000210.075983)/3 (10.200021)/29

FUMER F =

= 1.498832 3

Ce sont les rsultats que l'on obtiendrait avec la PROC GLM de SAS par exemple (Figure 4.24). La variable la moins intressante est SEXE, elle n'est pas signicative 10%. Nous la retirons. Nous relanons la rgression avec IMC et toutes les indicatrices de FUMER (Figure 4.25). Nous obtenons

R2 = 0.186395. De nouveau, il nous faut calculer les F-partiels. Pour cela nous avons besoin de la
rgression avec IMC seule (Figure 4.26, R2 = 0.063405). Variable IMC FUMER F = F

ddl1 ddl2 p-value


2

F = (1.837727) = 3.377241
(0.1863950.063405)/3 (10.186395)/30

29 0.076025 29 0.231622

= 1.511667 3

La variable la moins intressante est FUMER, que nous retirons puisque la p-value est plus grande que 10%. Reste donc que la variable IMC qui est limine aussi nalement puisque, seule, elle n'est pas signicative au risque = 10% (Figure 4.26). Finalement, il n'est pas possible d'expliquer le risque cardio-vasculaire avec les variables initialement disponibles.

Page: 116

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.7 Slection de variables en prsence d'exognes qualitatives

117

Fig. 4.24.

Donnes CARDIO - PROC GLM de SAS avec SEXE, IMC, et FUMER

Fig. 4.25.

Donnes CARDIO - Rgression avec IMC et toutes les indicatrices de FUMER

4.7.2 Traitement individuel des indicatrices


Dans ce section, nous renouvelons le processus de slection backward. Mais en ignorant sciemment que les indicatrices F _AN CIEN , F _OCCAS et F _REGU LIER sont relatives la mme variable FUMER. Cela peut paratre trange parce qu'on omet (perd ?) de l'information ainsi. Mais en analysant
Page: 117 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

118

4 Rgression sur des exognes qualitatives

Fig. 4.26.

Donnes CARDIO - Rgression avec IMC

attentivement les sorties du logiciel, on se rend compte que l'on obtient des rsultats qui ne sont pas inintressants. Nous avons utilis la procdure BACKWARD ELIMINATION REG de TANAGRA, toujours avec un seuil = 10%. Dtaillons les informations fournies par le logiciel (Figure 4.27) :  Nous avons un R2 = 0.184447 et, surtout, le R2 ajust qui tient compte des degrs de libert, atteint ici sa valeur la plus leve avec R2 = 0.133475. Nous avons l le modle le plus avantageux - compte tenu du nombre d'explicatives utilises - parmi toutes les tentatives eectues jusqu' prsent.  Le modle est maintenant globalement signicatif 10% avec F = 3.6186 et une p-value de

0.0038303.
 Penchons-nous sur le processus de slection Backward Elimination Process. Initialement le coecient de dtermination ajust de la rgression avec la totalit des explicatives est de R2 = 0.062. 1. La premire variable limine a t l'indicatrice F _OCCAS , avec une p-value de 0.8856. Le R2 ajust de la rgression qui en rsulte est de R2 = 0.093.

2. La seconde est F _AN CIEN , R2 passe 0.118. 3. La troisime est SEXE, R2 passe 0.133.
4. Les deux variables restantes, IMC (p-value = 0.0619) et F _REGU LIER (p-value = 0.0368) sont signicatives 10%. Le processus est stopp.  Les caractristiques de la rgression avec les deux variables retenues sont aches dans la partie haute de la fentre (Figure 4.27).

Comment expliquer ce rsultat ? En s'accordant la possibilit de traiter individuellement les indicatrices, on s'ore une libert supplmentaire dans le processus exploratoire. La contrainte de traitement
Page: 118 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.7 Slection de variables en prsence d'exognes qualitatives

119

Fig. 4.27.

Donnes CARDIO - Rgression

backward, indicatrices traites individuellement

en bloc des indicatrices de variables qualitatives ne pse plus. Nous avons accs des combinaisons plus nes des variables explicatives. Clairement, la solution propose ici est introuvable si nous traitons les indicatrices de FUMER en bloc. Par ailleurs, je me suis rendu compte qu' la sortie, nous obtenons souvent des modles plus performants en prdiction (si on se base sur le critre du PRESS par exemple, section 3.2.1).

Comment interprter les coecients ?

Si les performances sont bonnes, qu'en est-il de l'inter-

prtation ? Est-ce que les rsultats ont un sens ? Le noeud du problme est ici. La lecture du coecient de IMC, explicative quantitative, n'est pas modie. Quand l'IMC augmente d'une unit, le risque est augment de 0.077550. Concernant le comportement tabagique, les modalits de rfrence deviennent maintenant ("jamais", "ancien" et "occasionnel"). Les

indicatrices exclues dsignent les modalits


macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 119

job: la_regression_dans_la_pratique

120

4 Rgression sur des exognes qualitatives

de rfrence. C'est lorsque l'on est un fumeur rgulier qu'il y a un surcrot de risque de maladie. Ici,
nous lisons : fumer rgulirement, par rapport aux 3 autres types comportements (qui sont mis dans le mme panier), entrane un risque de maladie accru de 0.883481.

Quelques commentaires.

Le traitement individuel des indicatrices d'une explicative catgorielle

n'est pas trs usuel. Les praticiens, essentiellement pour des questions d'interprtations, prfrent le traitement en bloc. Pourtant, nous le constatons sur notre exemple, en se donnant la possibilit de traiter individuellement les indicatrices, nous avons accs des solutions (des modles) plus performantes. La seule contrainte est qu'il nous faut reconsidrer les modalits de rfrences pour les variables catgorielles dont les indicatrices auraient t dissocies. L'interprtation est modie. Elle est peut tre aussi un peu plus subtile.

4.8 Codage d'une exogne qualitative ordinale


On parle de variable qualitative ordinale lorsque (1) la variable prend un nombre ni de modalits (de valeurs) ; (2) il y a une relation d'ordre entre ces modalits. L'exemple le plus souvent cit est la satisfaction. On peut imaginer 3 valeurs possibles : mcontent, satisfait, trs satisfait. Manifestement, le passage d'un niveau l'autre implique une amlioration. Mais nous n'avons pas d'indications sur son amplitude. Le codage numrique simple (1, 2, 3) peut nous induire en erreur justement parce qu'il introduit une valorisation de l'amplitude de l'cart qui - peut-tre - n'a pas lieu d'tre. Nous reviendrons en dtail sur ce type de codage plus loin (section 4.11.2). Lorsque l'exogne est qualitative ordinale, l'utilisation d'indicatrices telle que dcrite dans les sections prcdentes remplit son oce. Mais nous perdons le caractre ordonn des modalits. Une information importante est omise. L'algorithme d'apprentissage n'en tient pas compte. L'interprtation en ptit.

4.8.1 (In)adquation du codage disjonctif


Nous utilisons des donnes articielles dans cette section. Nous cherchons expliquer Y partir de

X . Nous disposons de n = 30 observations.


Manifestement, la liaison est non linaire (Figure 4.28). Plutt que de chercher la forme de la liaison la plus approprie, nous prfrons dcouper le domaine de X en 3 intervalles. Cette stratgie est trs pratique pour traiter les problmes de non-linarit. Le premier intervalle est dni sur (X < 10), le second sur (10 X < 20) et le troisime sur (X 20) % (Figure 4.29). Le premier intervalle tant la rfrence, nous crons deux indicatrices :
7. Ce qui correspond

grosso modo la technique des intervalles de largeur gales. Elle a pour mrite de ne pas

modier la distribution des donnes ; elle a pour inconvnient d'tre trs sensible aux points atypiques, certains intervalles peuvent tre vides. Nos donnes tant trs simples, elle donne entirement satisfaction.
Page: 120 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.8 Codage d'une exogne qualitative ordinale

121

Fig. 4.28.

Codage ordinal - Nuage de points

Fig. 4.29.

Codage ordinal - Dcoupage en 3 intervalles

1, si (10 x < 20) i C2i = 0, sinon


Et

1, si (x 20) i C3i = 0, sinon

Le tableau de donnes est transform. Nous pouvons lancer la rgression

Y = a0 + a2 C2 + a3 C3 +
Auscultons les rsultats (Figure 4.30) :  Le coecient de dtermination est R2 = 0.825.  La rgression est globalement pertinente avec F = 63.656, comparer avec un F0.95 (2, 27) = 3.35 pour un test 5%.
Page: 121 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

122

4 Rgression sur des exognes qualitatives

Fig. 4.30.

Codage disjonctif - Tableau de donnes et rgression sur les indicatrices

 La constante a0 = 17.12 correspond la moyenne de Y dans le premier intervalle, l'intervalle de rfrence. Nous l'appellerons moyenne de rfrence y1 = 17.12. Ce rsultat est tout fait conforme au comportement des rgressions sur variables indicatrices.

 Le second coecient a2 = 18.82 indique le dcalage entre la moyenne dans le second intervalle et la
rfrence c.--d. y2 = y1 + a2 = 17.12 + 18.82 = 35.94. L'cart entre les moyennes conditionnelles est signicatif 5% dixit le t de Student du test de signicativit du coecient de la rgression

(ta2 = 10.674).
 Le troisime coecient enn matrialise l'cart entre la moyenne dans le 3-me intervalle et la rfrence. Ainsi, y3 = y1 + a3 = 17.12 + 22.26 = 39.38. Ici aussi la dirence est signicative.  Reprsentes graphiquement, les relations entre les moyennes conditionnelles et les coecients de la rgression prennent tout leur sens (Figure 4.31). Tout cela est cohrent. Il reste pourtant une information importante qui apparat clairement dans le graphique et que la rgression n'a pas mis en vidence. Visiblement, la dirence entre les moyennes du 2-me et 3-me intervalle semble faible, voire non signicatif ( conrmer par les calculs...). Or dans le

Page: 122

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.8 Codage d'une exogne qualitative ordinale

123

Fig. 4.31.

Codage disjonctif - Moyennes conditionnelles et coecients de la rgression

cadre du traitement des variables ordinales, ce n'est pas tant l'cart par rapport la premire modalit qui nous intresse, mais plutt l'tude du passage d'un palier (modalit) un autre (le suivant). Comment coder la variable explicative ordinale pour que la rgression fournisse des coecients propices ce type d'analyse ?

4.8.2 Utilisation du codage cumulatif


Le codage cumulatif est une solution simple ce problme. Il s'agit toujours d'utiliser des indicatrices, mais en intgrant l'information de passage aux paliers suprieurs. Pour notre exemple, nous crerons D2 et D3 telles que :

1, si (x 10) i D2i = 0, sinon


Et

1, si (x 20) i D3i = 0, sinon

Nous introduisons des contraintes supplmentaires dans la construction des indicatrices. Nous notons plusieurs particularits ici :  A l'instar du codage usuel, si un individu appartient la modalit de rfrence (la premire), toutes les indicatrices prennent la valeur 0 (D2i = D3i = 0).  Si un individu appartient au k-me intervalle (k > 2), l'indicatrice associe prend la valeur 1, et toutes les indicatrices de niveau infrieur galement c.--d. Dki = 1 D2i = = D(k 1)i = 1.  Seul le premier intervalle est cod de manire identique dans les deux approches C2i = D2i . Quelles sont les consquences de ce codage dit "cumulatif" sur la rgression ? Nous nous empressons de vrier cela tout de suite. Nous implmentons la rgression
Page: 123 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

124

4 Rgression sur des exognes qualitatives

Fig. 4.32.

Codage cumulatif - Tableau de donnes et rgression sur les indicatrices

Y = b0 + b2 D2 + b3 D3 +
Analysons les rsultats (Figure 4.32) :  Par rapport la rgression prcdente, la qualit globale n'est pas modie (R2 , F test). Ce constat est trs important.

L'introduction du nouveau codage ne dgrade pas les qualits prdictives et explicatives du modle.

 La vraie nouveaut se situe au niveau des coecients. La constante 0 = 17.12 correspond toujours b la moyenne y1 = 17.12 de la modalit de rfrence.  Le coecient de la premire indicatrice 2 = 18.82 constitue toujours au dcalage entre les moyennes b conditionnelles y2 = y1 + 2 = 17.12 + 18.82 = 35.94. b  En revanche, le coecient de

la seconde indicatrice indique le dcalage entre la moyenne conditionnelle du troisime intervalle et la prcdente ! Ici, y3 = y2 + 3 = 35.94 + 3.44 = b

39.38. Et il apparat que cet cart n'est pas signicatif 5% puisque dans la rgression t3 = 1.698 b
avec une p-value de 0.1011.

Page: 124

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.9 Le codage "centered eect" d'une exogne qualitative nominale

125

La gnralisation est immdiate : tous les coecients des indicatrices correspondent au dcalage des moyennes conditionnelles entre les intervalles successifs. Nous mettons bien en vidence l'eet du passage d'un pallier un autre. La reprsentation des moyennes et des coecients dans le nuage de points illustre parfaitement le phnomne (Figure 4.33).

Fig. 4.33.

Codage cumulatif - Moyennes conditionnelles et coecients de la rgression

4.9 Le codage "centered eect" d'une exogne qualitative nominale


4.9.1 Principe
Nous comprenons que le type de codage dnit l'interprtation des coecients. Nous proposons dans cette section une autre approche. Certes nous crons toujours (k 1) variables en excluant la k -me modalit, mais nous attribuons des valeurs direntes. Pour la variable Zj correspondant la modalit j de X (j = 1, . . . , k 1) :

Zi,j

1 si Xi = j = 1 si Xi = k 0 sinon

La modalit k (centre-ville ) sert toujours de rfrence. Mais, cette fois-ci, nous signalons explicitement sa prsence pour l'individu i en attribuant la valeur 1 toutes les variables recodes Zj . Nous estimons les coecients de la rgression : (4.6)

loyer = b0 + b1 Zbanlieue + b2 Zcampagne +


Comment lire ces coecients ?
Page: 125 job: la_regression_dans_la_pratique macro: svmono.cls

date/time: 9-Jul-2011/7:43

126

4 Rgression sur des exognes qualitatives

4.9.2 Lecture des rsultats


Voyons nouveau quelques cas particuliers :  Si l'habitation i est en centre-ville, nous savons que Zi ,banlieue = Zi ,campagne = 1. Par consquent, le loyer prdit est yi = 0 (1 + 2 ). b b b  Si l'habitation i est en banlieue, nous savons que Zi ,banlieue = 1, les autres indicatrices sont gales 0. Nous en dduisons la valeur prdite du loyer yi = 0 + 1 . b b En gnralisant, nous observons les relations suivantes :  ybanlieue = 0 + 1 1 = ybanlieue 0 ; b b b b  ycampagne = 0 + 2 2 = ycampagne 0 b b b b  ycentre = 0 (1 + 2 ) b b b Cela nous emmne tirer plusieurs conclusions :  La constante de la rgression s'interprte maintenant comme une valeur centrale, moyenne nonpondre des moyennes conditionnelles

0 = 1 (banlieue + ycampagne + ycentre ) b y 3 D'o l'appellation "centered eect".


 De manire gnrale, cette valeur centrale ne concide pas avec la moyenne globale de l'endogne 0 = y . Ce sera le cas uniquement si les eectifs dans les groupes taient quilibrs c.--d. b

0 = y si et seulement si nj = n b k  Les autres coecients se lisent comme la dirence entre la moyenne conditionnelle et cette valeur centrale. Pour le cas de la banlieue, 1 = ybanlieue 0 b b
 Le test de signicativit globale de la rgression (tous les coecients excepts la constante sontils tous gaux zro ?) correspond toujours au test d'galit des moyennes conditionnelles. Nous devrions retrouver les rsultats de l'ANOVA 1 facteur.

4.9.3 Application aux donnes LOYER


Nous eectuons la rgression sur les donnes LOYER recodes (Figure 4.34). Nous obtenons les coecients (quation 4.6) et nous en dduisons les moyennes conditionnelles : b  2 = 1.29 ycampagne = 2 + 0 = 1.29 + 6.259 = 5.27 ; b b b 1 = 0.16 ybanlieue = 1 + 0 = 0.16 + 5.56 = 6.72 ;  b b b

b b b  ycentre = 0 (1 + 2 ) = 6.56 (0.16 + (1.29)) = 7.69.


Le test de signicativit globale de la rgression nous fournit un F = 29.44 (2, 12) degrs de libert, la p value < 0.0001, ce qui est conforme avec les rsultats de l'ANOVA 1 facteur (Figure 4.3). Les
Page: 126 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.10 Le codage "contrast eect" d'une exogne qualitative

127

Fig. 4.34.

Rgression avec donnes codes "centered eect" - Donnes LOYER

Le codage n'inue pas sur la qualit de la modlisation. Il pse en revanche sur la lecture des coecients. Ce constat est conrm dans la 3-me solution
tests sont totalement quivalents. propose dans la section suivante.

4.10 Le codage "contrast eect" d'une exogne qualitative


L'utilisation des contrastes est une alternative l'utilisation des indicatrices. L'objectif est de comparer

Les blocs sont construits de manire mettre en vidence les oppositions les plus intressantes.
les moyennes de la variables dpendante par groupes de modalits. Reprenons l'exemple du chier LOYER (Figure 4.1, page 84). Nous souhaitons mener une analyse en deux temps : (1) tout d'abord, vrier que la moyenne des loyers en centre-ville est dirent de la moyenne des loyers la campagne et en banlieue ; (2) puis, dans ce second temps, eectuer la comparaison l'intrieur de ce second groupe c.--d. comparer les loyers en banlieue et la campagne. Nous devons utiliser un codage de type "contrastes" pour raliser cette analyse. Il repose sur une srie de spcications bien prcises ([5], pages 71 75) : (a) si l'explicative nominale possde K modalits, nous crerons (K 1) variables contrastes ; (b) les codes de chaque contraste doit tre dnis de manire crer une opposition entre groupes, la somme des codes du premier bloc doit tre gal 1, la somme pour le second gale 1 (ou vice versa ), la somme totale doit tre nulle ; (c) les codes des variables contrastes doivent tre deux deux orthogonaux c.--d. le produit scalaire doit tre nul. Vite un exemple pour bien comprendre le mcanisme. La variable "lieu d'habitation" est compose de 3 modalits, nous crons donc 2 variables contrastes C1 et C2. Nous adoptons le codage suivant pour raliser l'analyse en deux temps spcie ci-dessus c.--d. opposer centre-ville au couple (campagne, banlieue), puis opposer campagne et banlieue. Lieu Banlieue Centre
Page: 127 job: la_regression_dans_la_pratique

C1 0.5 -1

C2 1 -1 0
macro: svmono.cls date/time: 9-Jul-2011/7:43

Campagne 0.5

128

4 Rgression sur des exognes qualitatives

Notons que :  La somme des codes tant pour C1 [0.5 + 0.5 + (1) = 0] que pour C2 [1 + (1) + 0 = 0] sont nuls.  Pour chaque contraste, la somme des codes positifs est gal 1, celle des codes ngatifs 1.  Les signes sont opposs : ("banlieue", "campagne") d'une part, ("centre") d'autre part pour C1.  Concernant C2, "centre" n'entrant plus en ligne de compte, son code est gal 0. "Campagne" et "banlieue" sont de signes opposs.  Enn, le deux contrastes sont bien orthogonaux puisque [0.5 1 + 0.5 (1) + (1) 0] = 0. Ces vrications faites, nous pouvons construire notre tableau de donnes et lancer la rgression

LOY ER = a2 C2 + a1 C1 + a0

Fig. 4.35.

Rgression avec donnes codes "contrast eect" - Donnes LOYER

Pour faciliter la lecture, nous avons report dans la feuille Excel les moyennes conditionnelles et les rsultats de l'ANOVA (section 4.1). Voyons voir tout cela (Figure 4.35) :  Premire conclusion importante, encore une fois, la qualit globale de l'ajustement n'est pas aecte par le type de codage. La variabilit rsiduelle est exactement la mme SCR = 2.54324 pour la

Le type de codage ne modie pas le pouvoir explicatif du modle. En revanche, il met en lumire des aspects dirents des informations que reclent les donnes. L'intrt est de pouvoir en tirer des interprtations en rapport avec les
rgression et l'analyse de variance. objectifs de notre tude.
Page: 128 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

4.10 Le codage "contrast eect" d'une exogne qualitative

129

 La constante a0 = 6.55746 correspond la moyenne non pondre des moyennes conditionnelles

a0 =

ybanlieue + ycampagne + ycentre 6.72000 + 5.26667 + 7.68571 = = 6.55746 3 3

Ce rsultat rejoint celui du codage "centered eect" (Figure 4.34). Les coecients aj nous permettent d'obtenir les carts entre les moyennes (non pondres des moyennes) des modalits dans les groupes que l'on oppose. Si k1 (resp. k2 ) est le nombre de modalits dans le premier (resp. second) groupe, nous avons :

ej = a j

k1 + k2 k1 k2

(4.7)

 Pour le premier contraste, nous obtenons a1 = 1.12825. Nous avons k1 = 2 (banlieue et campagne) dans le 1er groupe, et k2 = 1 (centre) dans le 2nd . Nous calculons

e1 = 1.12825

2+1 = 1.69238 21

Qui correspond l'cart entre les moyennes (non pondre des moyennes conditionnelles) dans les groupes c.--d.

ybanlieue + ycampagne 6.72000 + 5.26667 ycentre = 7.68571 = 1.69238 = e1 2 2


 Pour le second contraste opposant "banlieue" et "campagne", la modalit "centre" tant mise de ct, nous k1 = 1 et k2 = 2, nous en dduisons

e2 = a 2
Il correspond l'cart

1+1 = 0.72667 2 = 1.45333 11

ybanlieue ycampagne = 6.72000 5.26667 = 1.45333 = e2


Dans les deux cas, les carts sont signicatifs 5% selon la rgression puisque nous avons :

ta1 = 6.99505 p value = 1.4443 105 ta2 = 4.32278 p value = 0.00099124

Conclusion. Certes, l'outil n'est pas trs limpide au premier abord. Il faut proposer un codage qui
rpond des spcications assez restrictives. L'aaire devient complique lorsque le nombre de modalits est lev. Mais une fois que nous avons mis en place le bon schma de codage, les avantages sont apprciables. Nous pouvons dcomposer l'analyse en une cascade d'oppositions entres groupes. Nous obtenons une estimation des carts, et nous pouvons tester de surcrot s'ils sont signicatifs. Tout cela la lecture des rsultats d'une seule rgression. L'eort initial est largement rcompens.

Remarque 26 (Lorsque les eectifs sont quilibrs.). Lorsque les eectifs sont quilibrs c.--d. nous avons
les mmes eectifs dans chaque groupe, une pratique quand mme bien rpandue en statistique, nous opposons bien les moyennes conditionnelles. Ainsi, la procdure n'est pas sans rappeler les schmas de comparaisons multiples que l'on initie la suite d'une ANOVA dtectant des dirences globalement signicatives entre les moyennes conditionnelles.
Page: 129 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

130

4 Rgression sur des exognes qualitatives

4.11 Les erreurs ne pas commettre


Comme nous pouvons le constater, le codage conditionne la lecture des rsultats. Le vritable danger est d'utiliser une transformation qui occasionne une perte d'information, ou qui introduit une information supplmentaire qui n'existe pas dans les donnes. Dans cette section, nous nous penchons sur le codage numrique {1, 2, 3, . . .} des variables qualitatives.

4.11.1 Codage numrique d'une variable discrte nominale


On parle de variable discrte nominale lorsque (1) la variable prend un nombre ni de modalits (de valeurs) ; (2) il n'y a pas de relation d'ordre entre les modalits. On peut apprhender ainsi la variable

habitation du chier LOYER, il n'y a pas de hirarchie entre les zones de rsidence : vivre la campagne
n'est pas mieux que vivre en ville, etc. Dans ce cas, le codage suivant est totalement inappropri

1 si Xi = banlieue Zi = 2 si Xi = campagne 3 si Xi = centre


En eet, nous introduisons dans la variable recode une relation d'ordre qui n'existe pas dans les donnes initiales, information que la rgression va utiliser pour calculer les coecients. Dans ce cas, les dirents codages dcrits plus haut (cornered eect, centered eect, contrastes ) sont plus adapts, charge au statisticien de choisir celui qui convient le mieux au problme trait.

4.11.2 Codage numrique d'une variable discrte ordinale


Une variable ordinale est une variable qualitative dont les modalits sont ordonnes (section 4.8). Parfois, le caractre ordinal repose tout simplement sur un point de vue dirent des mmes donnes. Considrons la variable habitation comme un indicateur d'loignement par rapport au centre-ville o seraient situs la majorit des lieux de travail. Dans ce cas, il y a bien une relation d'ordre dans les modalits prises par la variable et coder

1 si Xi = centre Zi =

2 si Xi = banlieue 3 si Xi = campagne

semble tout fait licite. Notons cependant que ce codage n'est pas totalement innocent, il introduit une information supplmentaire dont tiendra compte la rgression dans le calcul des coecients : l'amplitude de l'cart. Avec ce codage nous sommes en train de dire que

Page: 130

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

4.12 Conclusion

131

 l'cart entre "centre" et "banlieue" est de 1, il en est de mme pour l'cart entre "banlieue" et "campagne" ;  et de plus, nous armons galement que l'cart entre "campagne" et "centre" est 2 fois plus lev que l'cart entre "centre" et "banlieue". En ralit, nous ne savons rien de tout cela. Peut-tre est-ce vrai, peut tre est-ce erron. Quoi qu'il en soit, le pire serait de lancer les calculs sans tre conscient de ce qu'on manipule.

4.12 Conclusion
Il y a 2 ides matresses retenir de ce chapitre : 1. Il est possible d'eectuer une rgression linaire multiple avec des exognes qualitatives, le tout est de produire une transformation approprie des donnes ; 2. Le codage est primordial car il dtermine les informations que nous extrayons des donnes initiales et, par consquent, l'interprtation des coecients fournis par la rgression. L'analyse devient particulirement intressante lorsque nous introduisons plusieurs exognes qualitatives ou un mlange de variables qualitatives et quantitatives. La technique est riche et ses applications multiples. L'tude des interactions, entres autres, se rvle particulirement passionnante (voir [6]).

Page: 131

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 132

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

5 Tester les changements structurels

Le test de changement structurel est dni naturellement pour les donnes longitudinales : l'ide est de vrier qu'au l du temps, la nature de la relation entre l'endogne et les exognes n'a pas t modie. Statistiquement, il s'agit de contrler que les coecients de la rgression sont les mmes quelle que soit la sous-priode tudie. Prenons un cas simple pour illustrer cela. On veut expliquer le niveau de production des entreprises d'un secteur en fonction du temps. En abcisse, nous avons l'anne, en ordonne la production. A une date donne, nous observons que la relation est modie brutalement, parce qu'il y a eu, par exemple, une mutation technologique introduisant une hausse de la productivit (Figure 5.1). Il est vident dans ce cas qu'il n'est pas possible d'eectuer une seule rgression pour toute la priode, la pente de la droite de rgression est modie.

Fig. 5.1.

Rupture de structure : modication de la pente la date t = 11

Mettons maintenant qu' la date t = 11 est survenue une catastrophe dtruisant une partie de l'outil de travail. Dans ce cas, la production connat un recul fort, puis volue de la mme manire que nagure. Dans ce cas, la pente de la rgression reste identique, seule est modie l'origine (la constante) de la rgression (Figure 5.2).

Page: 133

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

134

5 Rupture de structure

Fig. 5.2.

Rupture de structure : modication de l'origine la date t = 11

Extension aux donnes transversales Chercher des points d'inexion.


La notion de rupture de structure est extensible aux donnes transversales. Il sut d'imaginer la relation entre la puissance et la taille du moteur. A partir d'un certain stade, augmenter indniment la cylindre entrane une amlioration inme de la puissance (Figure 5.3). La relation est peut-tre non-linaire. Le test de changement structurel permet de localiser le point d'inexion de la courbe de rgression si l'on triait les donnes selon l'exogne.

Fig. 5.3.

Relation non-linaire ou linaire par morceaux ?

Travailler sur des populations direntes.

Toujours dans le mme domaine, on sait que la

technologie des moteurs fonctionnant au gazole et l'essence est quelque peu dirente. Fractionner les donnes en 2 parties, selon le type de carburant, permet de mettre jour l'existence de 2 populations avec des comportements, ventuellement, dirents. Bref, le test de changement structurel vise avant tout constater statistiquement des modications de comportement dans l'chantillon tudi. A charge au statisticien de caractriser au mieux ce qui permet de dnir les sous-ensembles que l'on confronte (en utilisant des informations externes ou une variable supplmentaire disponible dans les donnes) et dceler la nature du changement survenu (modication des coecients relatifs quelles variables ?).

Pour une tude approfondie de la dtection et de la caractrisation des changements structurels dans la rgression, je conseille la lecture attentive du chapitre 4 de l'ouvrage de Johnston (pages 111 145).
Page: 134 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow

135

C'est une des rares rfrences, en franais, qui explicite avec autant de dtails l'tude des ruptures de structure dans la rgression.

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow


5.1.1 Formulation et test statistique
Les tests de changements structurels reposent sur la confrontation d'une rgression contrainte (a) avec une rgression non-contrainte (b) (ou tout du moins, avec moins de contraintes)  . L'objectif est de dterminer si, sur les deux sous-ensembles (sous-priodes) tudies, certains coecients de la rgression sont les mmes. On peut comparer plusieurs coecients simultanment. La dmarche est la suivante : (a) On eectue la rgression sur l'chantillon complet (n observations). C'est la rgression "contrainte" dans le sens o les coecients doivent tre les mmes quelle que soit la sous-population (sous-priode) tudie.

yi = a0 + a1 xi,1 + + ap xi,p + i , i = 1, . . . , n

(5.1)

(b) On eectue 2 rgressions indpendantes sur les 2 sous-populations. Ce sont les rgressions "noncontraintes" dans le sens o nous n'imposons pas que les coecients soient les mmes sur les 2 sous-populations (sous-priodes).

yi = a0,1 + a1,1 xi,1 + + ap,1 xi,p + i , i = 1, . . . , n1 yi = a0,2 + a1,2 xi,1 + + ap,2 xi,p + i , i = n1 + 1, . . . , n (n2 obs.)

Il y a alors plusieurs manires d'apprhender le test de rupture de structure. 1. Est-ce que la rgression contrainte est d'aussi bonne qualit que les 2 rgressions non-contraintes ? Si oui, cela indiquerait qu'il n'y a pas distinguer les rgressions dans les 2 sous-populations : ce sont les mmes. Pour cela, nous confrontons la somme des carrs des rsidus (qui est un indicateur de qualit de la rgression, plus elle faible, meilleure est l'approximation) (a) Rgression contrainte : SCR (b) Rgressions non-contraintes : SCR1 et SCR2
1. Sur l'ide de confronter 2 rgressions, dont une serait une restriction de l'autre, voir l'excellent document de T. Duchesne, Chapitre 3, Section 3.6 "Le principe de somme de carrs rsiduels additionnelle" ; http://

archimede.mat.ulaval.ca/pages/genest/regression/chap3.pdf. La rexion sur le mode de calcul des degrs


de libert est trs instructive.
Page: 135 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

136

5 Rupture de structure

Par construction,

SCR SCR1 + SCR2


Si SCR est "signicativement" plus grand que SCR1 + SCR2 , il y a bien une dirence. Reste bien sr quantier le "signicativement". 2. On peut y rpondre en apprhender le problme sous forme d'un test d'hypothses. Nous opposons

a0,2 a0,1 a0 a1 a1,1 a1,2 H0 : . = . = . . . . . . . ap,2 ap ap,1 H1 : un des coecients (au moins) dire des autres
La statistique du test de Chow s'appuie sur les sommes des carrs rsiduels des rgressions contraintes (SCR) et non-contraintes (SCR1 et SCR2 ). Elle s'crit :

F =

[SCR (SCR1 + SCR2 )] /ddln (SCR1 + SCR2 )/ddld

Plus que les valeurs gnriques des degrs de libert, voyons en dtail le mcanisme de leur formation an que nous puissions le reproduire dans d'autres congurations. Pour ddld , qui est le plus facile apprhender, nous avons la runion de 2 rgressions indpendantes :

ddld = (n1 p 1) + (n2 p 1) = (n1 + n2 ) 2p 2 = n 2p 2 = n 2(p + 1)


Pour ddln , la situation est un peu plus complexe :

ddln = (n p 1) [(n1 p 1) + (n2 p 1)] = (n p 1) (n 2p 2) = p+1


A posteriori, (ddln = p + 1) semble vident. En eet, nous avions bien (p + 1) contraintes linaires dans l'hypothse nulle de notre test de comparaison des coecients.
2. Gregory C. Chow (1960). Econometrica 28(3) : 591-605.
Page: 136 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Tests of Equality Between Sets of Coecients in Two Linear Regressions. in

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow

137

Sous H0 , la statistique F suit une loi de Fisher (p + 1, n 2p 2) degrs de libert. La rgion critique du test s'crit

R.C. : F > F1 (p + 1, n 2p 2)
o F1 (p + 1, n 2p 2) est le quantile d'ordre (1 ) de la loi de Fisher (p + 1, n 2p 2) degrs de libert.

5.1.2 Un exemple
Nous reprenons un exemple dcrit dans Johnston (pages 134 138). Nous voulons eectuer une rgression linaire simple Y = aX + b + . Les donnes (chier CHOW) peuvent tre subdivises en 2 sous-parties (sous-priodes) correspondant une variable supplmentaire ! (Figure 5.4).

Fig. 5.4.

Donnes pour le test de Chow (Johnston, page 134)

Pour raliser le test global de Chow c.--d. la rgression est-elle la mme dans les 2 sous-parties du chier ?, nous ralisons 3 rgressions : (a) sur la totalit du chier, (b) sur la premire partie, (c) sur la seconde partie. Nous obtenons les rsultats suivants (Figure 5.5) : a : Y = 0.52X 0.07 avec SCR = 6.56 et ddl = 13 ; b : Y = 0.44X 0.06 avec SCR1 = 0.69 et ddl1 = 3 ; c : Y = 0.51X + 0.40 avec SCR2 = 2.47 et ddl2 = 8. Calculons les degrs de libert : ddln = 13 (3 + 8) = 2 et ddld = 3 + 8 = 11. La statistique du test est donc gale

F =

[6.56 (0.69 + 2.47)]/2 = 5.91 (0.69 + 2.47)/11

3. C'est un peu abstrait j'en conviens. Mettons que l'on veut expliquer la consommation (Y) en fonction de la taille du moteur (X). Les donnes regroupent les vhicules fonctionnant au gazole et l'essence.
Page: 137 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

138

5 Rupture de structure

Fig. 5.5.

Test global de Chow

La p-value associe est 0.0181. Au risque de 5%, ces deux sous-parties du chier donnent bien lieu 2 rgressions direntes " .

5.2 Dtecter la nature de la rupture


Il y a 2 types de ruptures dans la rgression : 1. une modication de niveau, la constante n'est pas la mme dans les 2 sous-priodes ; 2. une modication de pente, la relation entre l'endogne et une ou plusieurs exognes a t modie. Nous verrons dans cette section quels tests mettre en place pour caractriser ces situations.

5.2.1 Tester la stabilit de la constante


Dans ce cas, les coecients des exognes sont communs aux deux sous populations, seule la constante est modie. Le test d'hypothses s'crit :

H0 : a0,1 = a0,2 = a0 H1 : a0,1 = a0,2


En pratique, nous construisons deux variables auxiliaires qui permettent de spcier les 2 sous-parties du chier :
4. Au risque de 1%, la conclusion aurait t dirente. Mais au vu de la taille de l'chantillon, prendre un risque critique aussi bas nous conduirait quasi-systmatiquement accepter l'hypothse nulle.
Page: 138 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

5.2 Dtecter la nature de la rupture

139

di,1 =

1 , i = 1, . . . , n

di,2

0 , i = n1 + 1, . . . n 0 , i = 1, . . . , n 1 = 1 , i = n1 + 1, . . . , n

Et nous construisons la rgression suivante (Equation 5.2), c'est la rgression non-contrainte que nous opposons l'quation initiale (Equation 5.1) o la constante est la mme sur les deux priodes.

yi = a0,1 di,1 + a0,2 di,2 + a1 xi,1 + + ap xi,p + i

(5.2)

Attention, nous n'introduisons plus de constante dans cette rgression car di,1 + di,2 = 1, le calcul ne serait pas possible. Bien entendu, nous pourrions eectuer le test d'hypothses (H0 : a0,1 = a0,2 ) directement sur l'quation 5.2 (Voir "Tests de comparaisons de coecients et tests de combinaisons linaires de coecients" ; Bourbonnais, page 69 ; Johnston, pages 95 101). Mais il est plus simple, et plus cohrent avec notre dmarche dans ce chapitre, de procder en opposant le modle contraint et le(s) modle(s) non contraint(s).

Fig. 5.6.

Test de la constante de rgression

Pour illustrer notre propos, nous reprenons notre exemple ci-dessus (Figure 5.4). Rappelons que la rgression contrainte (quation 5.1) a fourni (Figure 5.5) : SCR = 6.56 et ddl = 13. Nous ralisons maintenant la rgression non-contrainte destine tester la stabilit de la constante (quation 5.2), elle nous propose les rsultats suivants (Figure 5.6) :  SCR3 = 3.49 et ddl3 = 12 ;  pour opposer les modles contraints et non-contraints (resp. quations 5.1 et 5.2), nous calculons tout d'abord les degrs de libert : ddln = ddl ddl3 = 13 12 = 1 et ddld = ddl3 = 12 ;  nous formons alors la statistique F =  avec un p-value = 0.0070.
Page: 139 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
(SCRSCR3 )/ddln SCR3 /ddl3

3.07/1 3.49/12

= 10.54 ;

140

5 Rupture de structure

Conclusion : la dirence de structure dtecte par le test global de Chow serait due, au moins en partie, une dirence entre les constantes des rgressions construites dans chaque sous-chantillon. "En partie" car nous n'avons pas encore test l'inuence de la pente de rgression, c'est l'objet de la section suivante.

5.2.2 Tester la stabilit du coecient d'une des exognes Une formulation errone
Il s'agit maintenant de tester si la rupture est imputable une modication de la pente de la rgression c.--d. un ou plusieurs coecients associs des exognes ne sont pas les mmes sur les deux priodes. Nous traitons dans cette section, sans nuire la gnralit du discours, du test du coecient associ la variable x1 de la rgression. Forts des schmas dcrit prcdemment, nous drivons deux variables intermdiaires z1 et z2 partir de la variable x1 avec :

zi,1 =

zi,2

i,1 , i = 1, . . . , n1 0 , i = n1 + 1, . . . n 0 , i = 1, . . . , n 1 = xi,1 , i = n1 + 1, . . . , n

Nous pourrions alors tre tent de proposer comme formulation non-contrainte de la rgression :

yi = a0 + a1,1 zi,1 + a1,2 zi,2 + + ap xi,p + i


Que nous opposerions au modle initial (quation 5.1). En fait, cette formulation du test est errone, principalement pour 2 raisons :

(5.3)

1. Une modication de la pente entrane de facto une modication de l'origine de la rgression. Un exemple ctif, construit sur une rgression simple illustre bien la situation (Figure 5.7). 2. En contraignant les deux quations, contraints et non-contraints, avoir la mme origine, nous faussons les rsultats relatifs au test de la pente (Figure 5.8).

En conclusion, pour tester la stabilit des coecients sur 2 sous-ensembles de donnes, il faut absolument relcher, dans le modle de rfrence, la contrainte de stabilit de la constante.
Page: 140 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

5.2 Dtecter la nature de la rupture

141

Fig. 5.7.

Un changement de pente entrane automatiquement une modication de l'origine

Fig. 5.8.

En imposant la mme origine aux deux rgressions, on fausse l'apprciation des pentes

Tester la pente en relchant la contrainte sur la constante


A la lumire de ces lments, il apparat que le modle de rfrence, le modle contraint, devient maintenant celui o les constantes sont possiblement direntes sur les 2 sous-parties du chier (quation 5.2). Et nous lui opposons le modle :

yi = a0,1 di,1 + a0,2 di,2 + a1,1 zi,1 + a1,2 zi,2 + + ap xi,p + i


L'hypothse nulle du test est naturellement H0 : a1,1 = a1,2 .

(5.4)

Page: 141

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

142

5 Rupture de structure

Fig. 5.9.

Test de la pente de rgression

Reprenons notre chier de donnes et mettons en place ces calculs. Pour notre modle de rfrence (quation 5.2), nous avions obtenu SCR3 = 3.49 et ddl3 = 12. Dans la nouvelle rgression (Equation 5.4), nous avons (Figure 5.9) :  SCR4 = 3.16 et ddl4 = 11 ;  on calcule les degrs de liberts ddln = ddl3 ddl4 = 12 11 = 1 et ddld = ddl4 = 11 ;  la statistique du test s'crit alors F =  avec une p-value = 0.3068. Les dirences dtectes entre les rgressions sur les 2 sous-parties du chier ne sont pas imputables une modication de la pente. En d'autres termes, la pente de la rgression est la mme dans les 2 sous-populations. Moralit de tout ceci, concernant notre chier de donnes : il y a bien une rupture de structure entre les
(SCR3 SCR4 )/ddln SCR4 /ddld

(3.493.16)/1 3.16/11

= 1.15 ;

2 sous-populations, elle est essentiellement due une modication de la constante. A vrai dire, un nuage
de points nous aurait permis de trs vite aboutir aux mmes conclusions (Figure 5.10), la dirence que la dmarche dcrite dans cette section est applicable quelle que soit le nombre de variables exognes.

5.3 Conclusion
L'tude des changements structurels peut tre tendue l'analyse de k sous-populations (ou souspriodes). Il s'agit tout simple de dnir correctement le modle contraint, qui sert de rfrence, et le(s) modle(s) non-contraint(s), qui servent identier la nature de la rupture. Seulement, les tests et la comprhension des rsultats deviennent diciles, voire prilleux, il faut procder avec beaucoup de prudence. Le vritable goulot d'tranglement de cette dmarche est la dtection intuitive du point de rupture. Encore pour les donnes longitudinales, quelques connaissances approfondies du domaine donnent des indications sur les vnements (conomiques, politiques, etc.) qui peuvent inchir les relations entre les variables. En revanche, pour les donnes transversales, deviner le point d'inexion sur une variable

Page: 142

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

5.3 Conclusion

143

Fig. 5.10.

Nuage de points (X,Y) et droites de rgression pour les deux sous-populations de notre chier exemple

(Figure 5.4)

exogne, ou encore dterminer le facteur externe qui vient modier la structure des dpendances, relve du saut dans l'inconnu. Trs souvent, les graphiques, notamment des rsidus, sont d'une aide prcieuse pour airer les ruptures dans les donnes.

Page: 143

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 144

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

6 Dtection et traitement de la non linarit

Nous avions abord le sujet de la non-linarit dans notre support consacr la rgression linaire simple (et multiple) [18](chapitre 6). Nous nous tions surtout intresss aux congurations o, sur la base des connaissances du domaine et de l'interprtation que l'on souhaitait donner aux rsultats, nous choisissions une forme particulire de la relation. Il tait possible de retrouver une forme linaire, dont les coecients pouvaient tre estims avec la mthode des moindres carrs ordinaires, en appliquant les fonctions de transformations idoines. Nous allons plus loin dans ce chapitre. Nous nous basons sur un processus guid par les donnes et non plus par les connaissances du domaine. Il y a toujours une double tape : valuer la compatibilit des donnes avec l'hypothse d'une relation linaire ; si elle est rfute, trouver la transformation de variables la plus approprie de manire amliorer la qualit de l'ajustement. Bien videmment, il y a une limite (trs dicile trouver) ne pas dpasser dans la recherche du meilleur modle. Il s'agit d'exploiter au mieux les informations vhicules par les donnes, sans en ingrer les spcicits qui ne sont pas gnralisables dans la population. En apprentissage supervis, on parlerait du problme de sur-ajustement des modles.

6.1 Non linarit dans la rgression simple


6.1.1 Linarisation par transformation de variables
Dans le cadre de la rgression simple, la dtection graphique est une approche privilgie. Elle permet de dtecter l'ventuelle non-linarit de la relation et, de plus, elle donne une ide sur la transformation oprer pour obtenir un modle satisfaisant. Pour illustrer notre propos, nous reprenons un exemple tir de l'ouvrage de Avazian (pages 148 et 149, donnes "prouvettes"). On tudie la rsistance la rupture des prouvettes de ciment (Y, en kg/m2 ) en fonction de la dure de maintien (X, en jours) (Figure 6.1). Manifestement, la relation est non-linaire. L'ajustement l'aide de la rgression linaire simple n'est pas trs satisfaisante (R2 = 0.6199).

Page: 145

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

146

6 Dtection et traitement de la non linarit

Fig. 6.1.

Liaison linaire - Donnes "prouvettes"

Il nous faut proposer les bonnes transformations de variables. L'aaire est loin d'tre vidente. Dans notre exemple, on voit bien que la relation est logarithmique. Pourtant, en tentant la transformation

Z = ln(X), V = Y n'tant pas modie, la qualit de l'ajustement (V = a Z + b) laisse dsirer avec R2 = 0.8842 (Figure 6.2). Nous constatons galement un autre lment gnant : la dispersion de V selon
les valeurs de Z n'est visiblement pas constante, nous sommes en situation d'htroscdasticit.

Fig. 6.2.

Donnes "prouvettes" - V = f(Z) avec V = Y et Z = ln(X).

Page: 146

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

6.1 Non linarit dans la rgression simple

147

La "bonne" solution nous est fournie par Avazian (pages 149 et 150), il propose les transformations

V = log10 (Y ) 1 Z= X
Bien malin aurait t celui qui y aurait pens. Il faut la fois de l'intuition, de bonnes connaissances du domaine, une certaine pratique, pour proposer rapidement les bonnes formules. Concernant notre exemple, elles sont tout fait justies puisque la qualit de l'ajustement est grandement amliore (R2 = 0.9612) (Figure 6.3).

Fig. 6.3.

Donnes "prouvettes" - V = f(Z) avec V = log10 (Y ) et Z = 1/X .

Bref, la recherche du "bon" modle travers les transformations de variables peut s'avrer trs fructueux. Passer d'un R2 de 0.6199 0.9612 est une avance indniable. Mais il faut tre capable d'introduire les bonnes transformations de variables. La solution n'est pas toujours vidente.

6.1.2 Dtecter numriquement la non-linarit dans la rgression simple


La dtection graphique prsente un double avantage : nous pouvons dceler une ventuelle nonlinarit, nous disposons de pistes sur la "bonne" forme de la relation. Elle n'est pas adapte en revanche pour le traitement automatis d'un grand nombre de variables. Dans ce contexte, rien ne remplace un critre numrique qui permet, au moins dans une premire tape, d'isoler les cas problmes sur lesquels nous devrions nous pencher plus attentivement. Dans cette section, nous prsentons une approche pour dtecter numriquement - avec une procdure statistique, le rsultat est probabiliste - les relations non linaires. Pour ce faire, nous opposerons deux mesures d'associations des variables quantitatives :
Page: 147 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

148

6 Dtection et traitement de la non linarit

le premier, le rapport de corrlation, ne fait aucune hypothse sur la forme de la liaison ; le second, le coecient de corrlation linaire de Pearson, mesure la force d'une liaison linaire. La divergence entre ces indicateurs permet de caractriser la nature non-linaire de la relation.

Le rapport de corrlation
Le rapport de corrlation est une mesure "universelle" de la liaison entre deux variables quantitatives. "Universelle" car elle est valable quelle que soit la forme de la relation, mme si cette dernire est nonmonotone. Le rapport de corrlation est une mesure asymtrique. Il rsulte de la confrontation de deux esprances mathmatiques ([17], section 3.6.) : la moyenne de la variable dpendante, et sa moyenne conditionnellement aux valeurs de X . Plus fort sera l'impact de X sur Y , plus lev sera l'cart entre ces deux quantits. Concrtement, sur un chantillon de taille n pour lequel nous disposons de K valeurs distinctes de

X , et pour chaque valeur de X , nous disposons de nk valeurs de Y, le rapport de corrlation empirique


s'crit :
2 y/x

K y 2 k=1 nk (k y ) = n 2 i=1 (yi y )

(6.1)

On distingue au numrateur la variance inter-classes, la variabilit de Y explique par X ; et au dnominateur, la variance totale de Y . Les habitus de l'analyse de variance ne seront pas dpayss. On peut d'ailleurs utiliser le rapport de corrlation pour mesurer l'inuence d'une variable indpendante qualitative nominale sur une variable dpendante quantitative.
2 Par dnition, le rapport de corrlation varie entre 0 et 1 (0 y/x 1). Il est nul si la liaison n'existe

pas ; il est gal 1 si X explique parfaitement les valeurs prises par Y . Il est possible de mettre en place un test de signicativit ([17], section 3.6.2).

Remarque 27 (Cas des donnes individuelles, non-groupes). Dans le cas des donnes non-groupes c.-d. chaque valeur de X , on dispose d'une seule valeur de Y , nous avons K = n et nk = 1, k . Par
2 construction, y/x est toujours gal 1, laissant croire une liaison parfaite. Dans ce cas, il est judicieux

de procder articiellement des regroupements en dcoupant en intervalles les valeurs de X . On peut, par exemple, utiliser la technique des intervalles d'amplitudes gales  . Le choix du nombre de classes est crucial. Il faut qu'il soit susamment faible pour que l'eectif dans chaque classe permettent d'obtenir des moyennes yk qui aient un sens ; il faut qu'il soit susamment lev pour que la forme de la relation entre Y et X ne soit pas occulte. Il dpend aussi du nombre d'observations disponibles.

Le coecient de corrlation linaire


Le coecient de corrlation de Pearson mesure le degr de liaison linaire entre deux variables Y et

X ([17], chapitre 2). Le coecient de corrlation empirique, calcul partir d'un chantillon, est obtenu
1. http://www.info.univ-angers.fr/~gh/wstat/discr
Page: 148 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

6.1 Non linarit dans la rgression simple

149

de la manire suivante :

ryx =

y )(xi x) 2 2 i (yi y ) i (xi x)


i (yi

(6.2)

On reconnat au numrateur la covariance entre Y et X , elle est normalise au dnominateur par le produit des carts-type. Le coecient est compris entre 1 et +1 (1 ryx +1), le signe tient compte
2 2 du sens de la relation. Nous perdons cette information en passant au carr ryx (ryx 0). Mais nous y

gagnons en interprtation car l'indicateur correspond au coecient de dtermination de la rgression de

Y sur X dans ce cas c.--d. il reprsente la part de variance de Y explique par X .


2 2 Tester la non linarit par comparaison de y/x et ryx 2 2 y/x et ryx se rejoignent en termes d'interprtation, la dirence que l'on introduit une contrainte

de linarit dans le second indicateur. De fait


2 2 y/x ryx

Il y aurait galit si et seulement si la relation est parfaitement linaire. Nous exploitons l'amplitude de la dirence entre ces indicateurs pour caractriser le caractre non linaire de la liaison entre Y et X . Le test de linarit de la relation revient donc tester la signicativit de la dirence entre ces deux indicateurs. Nous utilisons la statistique de test (Avazian, page 121 ; Veysseyre, page 368 ; Dagnelie ! , page 483)

W2 =

2 2 (y/x ryx )/(K 2) 2 (1 y/x )/(n K)

(6.3)

Sous H0 , W 2 suit une loi de Fisher (K 2, n K) degrs de libert. La rgion critique correspond aux valeurs leves de W 2 . Nous pouvons aussi calculer la probabilit critique du test (p-value). Dans ce cas, nous rejetons l'hypothse nulle si la p-value est infrieure au risque du test.

Application aux donnes "prouvettes" (1)


Nous souhaitons vrier la nature de la relation entre Y et X pour les donnes "prouvettes" (Figure 6.1). Nous avions constat graphiquement que l'hypothse de linarit n'tait pas vraiment crdible. Voyons ce que nous dit la procdure numrique. Nous avons mont une feuille Excel pour raliser les calculs (Figure 6.4). Tout d'abord, nous devons calculer le rapport de corrlation :

2. Et de la rgression de X sur Y aussi d'ailleurs. 3. Dagnelie, P., Statistique thorique et applique entre les deux indicateurs.
Page: 149 job: la_regression_dans_la_pratique

2. Infrence statistique une et deux dimensions, de Boeck,

2006 ; la prsentation est un peu dirente mais le principe est le mme : on teste la signicativit de la dirence

macro: svmono.cls

date/time: 9-Jul-2011/7:43

150

6 Dtection et traitement de la non linarit

Fig. 6.4.

Donnes "prouvettes" - Test de linarit - Variables originelles

 Avec l'outil "tableau croiss dynamiques", nous obtenons les moyennes de Y pour chaque valeur
2 distincte de X . Nous calculons le numrateur de y/x : K k=1

nk (k y )2 = 3 (12.70 28.83)2 + 3 (23.70 28.83)2 + = 1561.7387 y

 Au dnominateur, nous avons la somme des carrs des carts la moyenne


n (yi y )2 = (13 28.83)2 + (13.3 28.83)2 + = 1642.5267 i=1

 Ds lors,

K y 2 1561.7387 k=1 nk (k y ) = 0.9508 = n = 2 1642.5267 i=1 (yi y ) Pour obtenir le coecient de corrlation, nous utilisons la fonction COEFFICIENT.CORRELATION
2 y/x

d'Excel. Elle nous fournit ryx = 0.7873, nous la passons au carr


2 ryx = (0.7873)2 = 0.6199

Nous pouvons calculer maintenant la statistique de test

W2 =

(0.9508 0.6199)/(5 2) = 35.8864 (1 0.9508)/(21 5)


macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 150

job: la_regression_dans_la_pratique

6.1 Non linarit dans la rgression simple

151

Avec la loi de Fisher F(52, 215), nous avons une probabilit critique (p-value) largement infrieure au niveau de signication = 5% que nous nous sommes choisis. Les donnes ne sont pas compatibles avec l'hypothse de linarit.

Application aux donnes "prouvettes" (2)


Ritrons l'analyse aprs transformation des variables. Pour rappel, nous avons V = log10 (Y ) et

Z=

1 X.

La structure de la feuille de calcul n'est pas modie par rapport la prcdente. Nous obtenons

prsent (Figure 6.5) :


2 v/z = 0.9683 2 rvz = 0.9612 (0.9683 0.9612)/(5 2) W2 = = 1.1865 (1 0.9683)/(21 5)

Toujours avec un F(3, 16), nous avons une p-value de 0.3462. Aprs transformation judicieuse des variables, l'hypothse de linarit devient licite. L'analyse graphique est conrme (Figure 6.3).

Fig. 6.5.

Donnes "prouvettes" - Test de linarit - Variables transformes

Page: 151

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

152

6 Dtection et traitement de la non linarit

6.1.3 Tester l'adquation d'une spcication


Au-del du test de non-linarit, nous pouvons vrier l'adquation d'une forme choisie avec les donnes disponibles. La procdure repose sur la confrontation entre, d'une part, la prdiction y (xk ) = yk du modle pour chaque valeur observe xk ; et, d'autre part, la prdiction triviale qui consiste calculer la moyenne de Y pour les nk observations associes la valeur xk . La statistique du test s'crit (Avazian, page 120) : K (n K) k=1 nk (k yk )2 y 2 = K nk (K g) k=1 i=1 (yik yk )2 paramtres du modle (g = 2 pour la rgression simple). Au numrateur, la somme correspond la variabilit rsiduelle non explique par le modle, dont la forme est contrainte par la spcication choisie. Au dnominateur, nous avons la variabilit de Y non explique par les X , sans contrainte sur la forme de la relation. Le rapport est forcment suprieur 1 ; s'il s'en carte signicativement, nous pouvons conclure l'inadquation de la spcication choisie. Sous H0 , la forme choisie est compatible avec les donnes, 2 suit une loi de Fisher (K g, n K) degrs de libert. La rgion critique correspond aux valeurs trop leves de 2 .

(6.4)

O n est le nombre d'observations, K est le nombre de valeurs distinctes de X , g est le nombre de

Modle logarithmique pour les donnes "prouvettes"


Prcdemment, nous avions tent le modle logarithmique pour les donnes "prouvettes" (Figure 6.2). Nous reproduisons la courbe de tendance ici en reprsentant les donnes dans leur repre initial

(X, Y ) (Figure 6.6). Manifestement, la courbe d'ajustement n'est pas satisfaisante mme si elle introduit
une amlioration sensible par rapport au modle linaire.

Fig. 6.6.

Donnes "prouvettes" - Modle logarithmique

Voyons si cette intuition est conrme par le test de spcication dvelopp dans cette section.
Page: 152 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

6.1 Non linarit dans la rgression simple

153

Fig. 6.7.

Donnes "prouvettes" - Modle logarithmique - Test de spcication

Nous disposons des valeurs pour les variables X et Y dans une feuille Excel (Figure 6.7)  Nous ajoutons la colonne Z = ln(X) pour former la rgression

Y = 7.3344 Z + 16.9715
 Nous formons alors la colonne de prdiction yi (ex. y1 = 7.3344 ln(1) + 16.9715 = 16.9715).  A l'aide de l'outil "tableaux croiss dynamiques", nous calculons les statistiques intermdiaires pour chaque valeur distincte de X (ces valeurs sont {1, 2, 3, 7, 28}). Nous retrouvons de gauche droite dans la grille :
nk 1 yi (ex. y1 = 12.7) nk i=1

yk =

yk = a ln(xk ) + (ex. y1 = 16.971) b nk = 1 (ex. n1 = 3) s2 = k


 Nous calculons le numrateur de 2
i:xi =xk nk

1 nk

(yi yk )2 (ex. s2 = 0.42) 1

i=1

(n K)

nk (k yk )2 = (21 5) (3 (12.7 16.971)2 + 3 (23.7 22.055)2 + y = 22 109.387 = 1750.2

 Et le dnominateur

Page: 153

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

154

6 Dtection et traitement de la non linarit

(K g)

K K nk (yik yk )2 = (K g) nk s2 k k=1 i=1 k=1

= (5 2) (3 0.42 + 3 1.6267 + ) = 3 80.788 = 242.364


 Il reste former le rapport

2 =

1750.2 = 7.2213 242.364

 Avec un F(3, 16), nous obtenons une probabilit critique (p-value) de 0.0028. Les donnes ne cadrent pas avec un modle logarithmique. Nous devons trouver une spcication plus approprie. Ce que nous avons fait avec les transformations V = log10 (Y ) et Z = pleinement satisfaction (Figure 6.3).
1 X

qui donnent

6.2 Non linarit dans la rgression multiple


L'aaire se corse quand il s'agit de passer la rgression linaire multiple. En eet, nous sommes en prsence de plusieurs variables explicatives. Mme si les nuages de points dans le repre (Xj , Y ) peuvent tre intressants pour analyser le rle de chaque exogne, ils sont fausss parce que les variables ne sont pas indpendantes, il y a interaction lors de la rgression. Nous devons nous tourner vers un outil la porte plus large pour dtecter et traiter la non-linarit.

6.2.1 Lecture des rsidus


Le graphique des rsidus est un outil de diagnostic privilgi dans la rgression linaire multiple. Nous avions dtaill sa lecture dans la section 1.1.1. Pour valuer la (non)linarit par rapport l'exogne, nous crons le graphique avec les rsidus en ordonne et les valeurs de X en abcisse. Les points devraient tre disposs totalement alatoirement. Ds qu'une forme de rgularit quelconque apparat, il faut se mer et approfondir l'analyse. Concernant notre exemple des donnes "prouvettes", nous avons opr une rgression linaire, puis calcul la prdiction et l'erreur. Nous avons alors form le graphique des rsidus (Figure 6.8 ; la prdiction s'crit yi = 0.6597xi +22.5816, et le rsidu i = yi yi ). Manifestement, il y a un problme. La dispersion des rsidus dpend des valeurs de X , c'est le signe d'une htroscdasticit. Pire, leur valeur moyenne dpend galement des valeurs de X , l nous sommes clairement confronts un problme de non-linarit. Malheureusement, cette dmarche n'est pas transposable la rgression multiple, tout simplement parce que nous avons plusieurs exognes, elles sont plus ou moins lies. Nous nous tournons alors vers les rsidus partiels.

Page: 154

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

6.2 Non linarit dans la rgression multiple

155

Fig. 6.8.

Donnes "prouvettes" - Graphique des rsidus de la rgression linaire

6.2.2 Rsidus partiels et rsidus partiels augments Rsidus partiels


Les rsidus partiels permettent d'identier la nature de la relation entre une des exognes Xj et l'endogne Y , sachant qu'il y a d'autres variables explicatives dans le modle " . Dans une rgression linaire multiple

Y = a0 + a1 X1 + + ap Xp +
Les rsidus partiels de la variables exogne Xj sont dnis comme suit

i,j = (yi yi,j ) + aj xi,j


O aj est le coecient estim relatif la variable Xj dans la rgression ci-dessus.

(6.5)

Si la liaison entre Xj et Y est linaire, les n couples de points reprsents dans le repre (xj , j )

le nuage nous donne une indication sur la transformation oprer pour amliorer l'ajustement. C'est son principal atout.
doivent former une droite # . Dans le cas contraire,

Un exemple numrique
Sans restreindre la porte de notre propos, nous dcrivons les calculs pour une rgression simple. Ils sont directement transposables la rgression multiple.
4. http://en.wikipedia.org/wiki/Partial_residual_plot 5. Dans certains logiciels, une rgression permet de souligner l'alignement des points. Ex. la fonction prplot(.) du package "faraway" du logiciel R.
Page: 155 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

156

6 Dtection et traitement de la non linarit

tape 1
Nous disposons de n = 100 observations d'un couple de variables Y et X . Nous ralisons la rgression linaire Y = a X + b. Nous obtenons a = 1218.1841 et = 1865.1907, avec un coecient de b dtermination R2 = 0.9697. La rgression est de trs bonne qualit. Nous en dduisons les prdictions yi = 1218.1841 xi 1865.1907 et les rsidus i = yi yi . Pour valuer la forme de la liaison entre X et Y , nous calculons les rsidus partiels. Nous projetons alors les observations dans le repre (xj , j ) (Figure 6.9).

Fig. 6.9.

Rsidus partiels - Rgression y = ax + b

Les points sont plus ou moins aligns en formant une courbure assez marque. Ce constat apparat clairement lorsque nous ajoutons une courbe de tendance linaire dans le graphique $ . Manifestement, il y a une forme de relation entre X et Y que l'on ne prend pas en compte dans la rgression linaire simple.

tape 2
Sur la base du graphique, nous souhaitons amliorer l'ajustement en ajoutant la variable Z = X 2 dans la base. Nous ralisons maintenant la rgression Y = a0 + a1 X + a2 Z . Dans notre exemple, il ne s'agit pas de substituer Z X car, malgr tout, nous avons constat que la rgression linaire est de trs bonne qualit dj (R2 = 0.9697). Nous voulons vrier que Z = X 2 amne de l'information supplmentaire pertinente dans l'explication de Y . Nous obtenons le modle

Y = 324.9884 + 350.5567 X + 84.1142 Z


Avec un R2 = 0.99861. X et Z sont tous deux largement signicatifs (ta1 = 17.63 et ta2 = 44.89). Le modle s'est boni, l'introduction de Z = X 2 dans la rgression est totalement justi.
6. Nous avons utilis l'outil "courbe de tendance" d'Excel.
Page: 156 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

6.2 Non linarit dans la rgression multiple

157

Voyons ce que nous en annonce les rsidus partiels. De nouveau, nous ralisons la prdiction yi =

324.9884 + 350.5567 xi + 84.1142 x2 . Avec la mme dmarche, nous calculons les rsidus partiels i i,x = (yi yi ) + 350.5567 xi et nous construisons le graphique (Figure 6.10).

Fig. 6.10.

Rsidus partiels - Rgression y = a0 + a1 x + a2 x2

La situation est incontestablement meilleure, sauf pour les petites valeurs de X proches de 0 o il reste une distorsion par rapport la droite. Il faut la prendre en compte. Pour ce faire, nous introduisons la variable supplmentaire W = ln(X).

Remarque 28 (Rsidus partiels par rapport la variable modie). Nous aurions pu galement calculer le
rsidu partiel

i = (yi yi ) + 84.112 x2 i
La conclusion aurait t du mme ordre c.--d. la ncessit d'introduire une variable de type W = ln(X).

tape 3
Nous introduisons la variable W = ln(X) dans la rgression Y = b0 +b1 X +b2 Z +b3 W , nous obtenons :

Y = 18.4623 + 109.0188 X + 98.8254 Z + 317.4565 W


Tous les coecients sont signicatifs 5%, avec respectivement t1 = 3.30, t2 = 43.06, t3 = 8.24. La b b b rgression est d'excellente qualit avec un coecient de dtermination gal R2 = 0.9919. A partir de cette quation, nous calculons les nouvelles prdictions yi et les rsidus partiels

i,x = (yi yi ) + 109.0188 xi


Il nous reste construire le graphique (xi , i,x ) (Figure 6.11). Les points forment une droite. Nous avons puis les direntes formes de X qui permettent d'expliquer linairement les valeurs de Y .

Page: 157

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

158

6 Dtection et traitement de la non linarit

Fig. 6.11.

Rsidus partiels - Rgression y = b0 + b1 x + b2 x2 + b3 ln(x)

Pour tre tout fait honnte, les situations sur donnes relles ne sont pas toujours aussi idylliques. Nous avons travaill sur des variables gnres articiellement dans cette section et, eectivement, nous avons utilis X , X 2 et ln(X) pour obtenir Y . Il est heureux que l'on retrouve le bon rsultat en nous appuyant sur les rsidus partiels.

Rsidus partiels augments


Dans certains ouvrages, on conseille de passer par les rsidus partiels augments. Il s'agit simplement d'introduire toutes les expressions de la variable dans le calcul du rsidu. Ainsi, l'tape 2 de notre exemple prcdent, nous avons introduit Z = X 2 dans la rgression. Les rsidus partiels augments correspondraient alors

i = i + a1 X + a2 X 2

(6.6)

L'intrt de ce nouvel indicateur n'est pas dterminant dans notre contexte de recherche des direntes transformes possibles des variables exognes introduire dans la rgression. L'usage des rsidus partiels est amplement susant.

6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R


Tournons-nous maintenant vers des donnes "ralistes" pour montrer l'intrt des rsidus partiels. Nous utilisons la base

mtcars livre en standard avec le logiciel R.

Nous la chargeons l'aide des commandes suivantes :

> data(mtcars) > print(mtcars)

Page: 158

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

6.2 Non linarit dans la rgression multiple

159

Fig. 6.12.

Donnes

mtcars

- Logiciel R

Elle comporte n = 32 observations et 11 variables (Figure 6.12). Dans notre contexte, nous n'utiliserons que 3 variables. Nous essayons d'expliquer la consommation (mpg ), le nombre de miles que l'on peut parcourir l'aide d'un galon de carburant, l'aide de la puissance (ht) et le poids (wt). Nous obtenons les rsultats la rgression.

> modele <- lm(mpg ~ hp + wt, data = mtcars) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 37.22727 hp wt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.593 on 29 degrees of freedom Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148 F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Page: 159 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

1.59879 23.285 < 2e-16 *** 0.00903 -3.519 0.00145 ** 0.63273 -6.129 1.12e-06 ***

-0.03177 -3.87783

160

6 Dtection et traitement de la non linarit

Le modle est plutt de bonne qualit avec un coecient de dtermination corrig % R2 = 0.8148. La
rgression est globalement signicative 5%, les deux variables le sont galement, largement mme. Voyons maintenant ce qu'il en est des rsidus partiels. Nous utilisons le package mandes adquates sont

faraway. Les com-

#librairie pour les rsidus partiels > library(faraway) #rsidus partiels > par(mfrow=c(1,2)) > prplot(modele,1) > prplot(modele,2)
Les deux graphiques des rsidus partiels sont achs dans la mme fentre (Figure 6.13). Ici commence les choses dlicates. En eet, il faut choisir la transformation approprie partir d'informations purement visuelles. Il y a quand mme une certaine part de subjectivit l-dedans.

Fig. 6.13.

Donnes

mtcars

- Rsidus partiels mpg = f (hp, wt)

Compte tenu des formes plus ou moins curvilinaires des nuages de points, nous tentons les deux transformations suivantes : zhp = hp2 et zwt = ln(wt). Nous les ajoutons parmi les explicatives. Nous lanons de nouveau la rgression.

> zhp <- mtcars$hp^2 > zwt <- log(mtcars$wt) > modele.bis <- lm(mpg ~ hp + wt + zhp + zwt, data = mtcars)
7. Nous privilgions cet indicateur car il tient compte des degrs de libert. Et nous aurons comparer des modles avec un nombre d'explicatives dirent par la suite.
Page: 160 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

6.2 Non linarit dans la rgression multiple

161

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.217e+01 1.911e+00 22.072 < 2e-16 *** hp wt zhp zwt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.101 on 27 degrees of freedom Multiple R-squared: 0.8941, Adjusted R-squared: 0.8785 F-statistic: 57.01 on 4 and 27 DF, p-value: 8.922e-13
Le modle est meilleur que le prcdent avec un R2 = 0.8785. Les deux variables additionnelles zhp
et zwt sont signicatives, wt ne l'est plus en revanche. En passant aux rsidus partiels,

-9.777e-02 3.110e-02 -3.143 0.00403 ** 2.384e+00 1.887e+00 1.806e-04 7.893e-05 1.263 0.21741 2.287 0.03023 *

-1.793e+01 5.935e+00 -3.022 0.00545 **

#rsidus partiels > par(mfrow=c(2,2)) > for (i in 1:4)prplot(modele.bis,i)


Nous constatons que les modications introduites ont permis de rduire les problmes de non-linarit. Les formes plus ou moins curvilinaires constates prcdemment ont t rsorbes (Figure 6.14) & . Reste retirer la variable wt rendue inutile.

> modele.ter <- lm(mpg ~ hp + zhp + zwt, data = mtcars) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.179e+01 1.906e+00 21.920 < 2e-16 *** hp zhp zwt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8. Ca apparat plus clairement maintenant, il y a aussi un mchant point atypique sur hp (et zhp). On passera outre. Mais il est clair que dans une tude relle, il faudra se pencher attentivement sur ce quidam avant de poursuivre l'analyse.
Page: 161 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

-9.736e-02 3.143e-02 -3.098 0.00441 ** 1.809e-04 7.977e-05 2.268 0.03122 * -1.082e+01 1.886e+00 -5.737 3.73e-06 ***

162

6 Dtection et traitement de la non linarit

Fig. 6.14.

Donnes

mtcars

- Rsidus partiels mpg = f (hp, wt, hp2 , ln(wt))

Residual standard error: 2.123 on 28 degrees of freedom Multiple R-squared: 0.8879, Adjusted R-squared: 0.8759 F-statistic: 73.91 on 3 and 28 DF, p-value: 2.034e-13
La rgression 3 explicatives donne amplement satisfaction, R2 = 08759 est quivalente la rgression
prcdente (on ne va pas commencer gloser pour une dirence la 3eme dcimale). Toutes les variables sont signicatives maintenant. Concernant les rsidus partiels,

> #rsidus partiels > par(mfrow=c(1,3)) > for (i in 1:3)prplot(modele.ter,i)


Nous constatons que l'adjonction d'une transformation supplmentaire ne parat pas ncessaire. Dans aucun des nuages nous observons une distorsion vidente par rapport une droite (Figure 6.15). Le modle 3 variables explicatives est celui que nous utiliserons pour les interprtations et les prdictions.
Page: 162 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

6.2 Non linarit dans la rgression multiple

163

Fig. 6.15.

Donnes

mtcars

- Rsidus partiels mpg = f (hp, hp2 , ln(wt))

Page: 163

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 164

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

A Table de Durbin Watson

http://www.jourdan.ens.fr/~bozio/stats/dw.pdf

Fig. A.1.

Table de Durbin-Watson

Page: 165

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 166

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

B Gestion des versions

Premire version
La premire version de ce document a t mis en ligne en septembre 2007. Elle n'a pas t numrote.

Version 2.0
La seconde version, 2.0, a t mise en ligne n juin 2011. Elle se distingue (et celles qui suivront) par les graphiques en couleur (h oui, on apprend tout ge...). Plus srieusement, un chapitre a t ajout, d'autres ont t complts. Je distinguerais volontiers :  

Chapitre 3 - Colinarit et slection de variables. Deux sections ont t ajoutes : rgressions


partielles (section 3.5), rgressions croises (section 3.6).

Chapitre 4 - Rgression sur des exognes qualitatives.


remani. Je confesse avoir t normment inuenc 

Ce chapitre a t profondment

par la lecture de l'extraordinaire ouvrage

de M.A. Hardy, Regression with dummy variables [5]. Mon travail a surtout consist reprendre les parties qui me paraissaient les plus intressantes, en l'inscrivant dans mon propre canevas de prsentation et en utilisant mes propres exemples. Le chier LOYER, entres autres, est mis toutes les sauces dans ce chapitre. 

Chapitre 6 - Dtection et traitement de la non linarit. Ce chapitre fait cho une premire
approche de la non-linarit concernant la rgression simple dvelopp dans mon premier volume sur la rgression ([18], chapitre 6). Des approches plus gnriques sont mises en avant dans ce document, dans un premier temps pour la rgression simple, dans un second temps pour la rgression multiple. Ce chapitre doit beaucoup l'extraordinaire ouvrage de Avazian [1]. Je l'ai depuis plus de 20 ans. A chaque fois que je l'ouvre, je (re)dcouvre des choses intressantes. Je l'ai galement beaucoup mis contribution dans mon fascicule consacr la corrlation [17].

1. Comme je le dis toujours, reprendre en citant, c'est faire honneur au travail des collgues, reprendre sans citer, c'est du plagiat.
Page: 167 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

Page: 168

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

C Fichiers associs ce support

Un certain nombre de jeux de donnes ont servi illustrer ce support. Ils ont t traits. De nombreuses copies d'cran sont prsentes tout le long du texte. Pour que le lecteur puisse accder aux dtails des calculs et, s'il le dsire, les reproduire, ces chiers sont accessibles en ligne. Les chiers peuvent tre classs en 3 principales catgories : 1. Les classeurs EXCEL contiennent, dans la premire feuille, les donnes ; dans les feuilles suivantes, les traitements associs aux problmes statistiques. Ils ont contribu l'laboration des copies d'cran de ce support de cours. 2. Les chiers au format CSV contiennent les donnes destines tre traits avec le logiciel R. 3. Les scripts R dcrivent les traitements relatifs chaque chapitre du support. Concernant l'utilisation

du logiciel R pour la rgression, nous conseillons vivement la lecture du didacticiel de J. Faraway qui est rellement d'une qualit exceptionnelle : il est aussi intressant pour l'apprentissage de la rgression que pour l'apprentissage du logiciel R (Voir la rfrence en bibliographie).
Les chiers et les thmes rattachs sont dcrits dans "_description_des_chiers.txt", intgr dans l'archive "chiers_pratique_regression.zip", accessible sur le net - http://eric.univ-lyon2.fr/~ricco/

cours/exercices/fichiers_pratique_regression.zip.

Page: 169

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Page: 170

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

D Tutoriels

Mes tutoriels relatifs la pratique de la rgression sont sur le site http://tutoriels-data-mining.

blogspot.com/. Sauf mention contraire, j'utilise principalement les logiciels TANAGRA (http://eric. univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html) et R (http://www.r-project.org/).
Plutt que d'intgrer dans ce fascicule la description de la mise en oeuvre des techniques l'aide des logiciels, j'ai prfr crire des tutoriels dans des documents part. L'ide est de pouvoir construire une histoire complte autour d'une base de donnes analyser, en partant de l'importation des donnes jusqu'au dploiement et l'interprtation des rsultats. Chaque tutoriel peut ainsi couvrir plusieurs thmes de la pratique de la rgression. Dans ce qui suit, je recense les sujets abords dans chacun d'entre eux. 1.

Rgression linaire - Lecture des rsultats, http://tutoriels-data-mining.blogspot.com/


2011/02/regression-lineaire-lecture-des.html. Logiciels : Tanagra, R. Thmes : tests gnraliss, tests de conformit, tests de comparaison.

2.

Diagnostic de la rgression avec R, http://tutoriels-data-mining.blogspot.com/2009/05/


diagnostic-de-la-regression-avec-r.html. Logiciel : R. Thmes : analyse des rsidus, points
atypiques, points aberrants, points inuents, colinarit, critre VIF, slection de variables.

3.

Points aberrants et inuents dans la rgression, http://tutoriels-data-mining.blogspot.


com/2008/04/points-aberrants-et-influents-dans-la.html. Logiciels : Tanagra, R, SAS. Thmes :
points inuents, points aberrants, points atypiques, rsidus standardiss, rsidus studentiss, levier (leverage), dts, distance de cook, covratio, dfbetas.

4.

Colinarit et rgression,
http://tutoriels-data-mining.blogspot.com/2008/04/colinarit-et-rgression.html. Logiciels :
Tanagra, R. Thmes : colinarit, slection de variables, analyse en composantes principales, rgression pls1.

5.

Slection forward - Crime dataset, http://tutoriels-data-mining.blogspot.com/2008/03/


slection-forward-crime-dataset.html. Logiciel : Tanagra. Thmes : slection de variables, slection forward, stepwise, colinarit, corrlation partielle.

6.

REGRESS dans la distribution SIPINA,

http://tutoriels-data-mining.blogspot.com/

2011/05/regress-dans-la-distribution-sipina.html. Logiciel : REGRESS (via la distribution


Page: 171 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

172

D Tutoriels

SIPINA - http://sipina.over-blog.fr/). Thmes : points aberrants, points atypiques, points inuents, normalit des rsidus, test de Jarque-Bera, droite de Henry, q-q plot. 7.

Rgression avec le logiciel LazStats (OpenStat), http://tutoriels-data-mining.blogspot.


com/2011/05/regression-avec-le-logiciel-lazstats.html. Logiciel : LazStats (http://www. statprograms4u.com/ - Malheureusement, je viens de me rendre compte - aujourd'hui 20 juin 2011,
que le logiciel est devenu du jour au lendemain commercial. Thmes : slection de variables, forward, backward, stepwise, rgressions croises.

8.

Rgression - Dploiement de modles, http://tutoriels-data-mining.blogspot.com/2011/


03/regression-deploiement-de-modeles.html. Logiciel : Tanagra. Thmes : dploiement, rgression pls, support vector regression, SVR, arbres de rgression, cart, analyse en composantes principales, rgression sur axes factoriels.

Page: 172

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43

Littrature

Ouvrages
1. Avazian, S.,

tude statistique des dpendances, dition de Moscou, 1978. Economtrie. Manuel et exercices corrigs, Dunod, 2 dition, 1998. Analyse de rgression applique, Dunod, 2 dition, 2004. Economtrie, Presses Universitaires de France (PUF), 1989.

2. Bourbonnais, R.,

3. Dodge, Y, Rousson, V., 4. Giraud, R., Chaix, N., 5. Hardy, M.A.,

Regression with dummy variables, Sage University Paper series on Quantitative Applications in Interaction Eects in Multiple Regression (2nd ed), Sage University Paper series on Mthodes Economtriques, Economica, 4 dition, 1999.

the Social Sciences, series no. 07-093, Newbury Park, CA : Sage, 1993. 6. Jacquard, J., Turrisi, R., Quantitative Applications in the Social Sciences, series no. 07-072, Newbury Park, CA : Sage, 2003. 7. Johnston, J., DiNardo, J., 8. Labrousse, C., 9. Saporta, G.,

Introduction l'conomtrie. Matrise d'conomtrie, Dunod, 1983. Mthodes Statistiques en Gestion, Dunod, 1996.

Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006. Aide mmoire - Statistique et probabilits pour l'ingnieur, Dunod, 2006.

10. Tenenhaus, M., 11. Veysseyre R.,

Supports en ligne
12. Confais, J., Le Guen, M.,

Premier pas en rgression linaire avec SAS, Revue Modulad, numro 35, 2006 ; et infrence en conomtrie, traduction franaise de Estimation

http://www-rocq.inria.fr/axis/modulad/numero-35/Tutoriel-confais-35/confais-35.pdf
13. , Davidson, R., MacKinnon, J.G., Estimation 14. Faraway, J., 15. Genest, C.,

and inference in econometrics, http://russell.vcharite.univ-mrs.fr/EIE/ Practical Regression and ANOVA using R, July 2002, http://cran.r-project.org/doc/
contrib/Faraway-PRA.pdf

Modle de rgression linaire multiple, sur http://archimede.mat.ulaval.ca/pages/genest/ regression/chap3.pdf. Voir aussi le chapitre 2 (chap2.pdf), Rgression linaire simple, et le chapitre 4 (chap4. pdf), Critres de slection de modle. Modle de rgression linaire, sur http://ecolu-info.unige.ch/~haurie/mba05/ Analyse de corrlation. tude des dpendances - Variables quantitatives, http://eric.

16. Haurie, A.,

17. Rakotomalala, R.,

univ-lyon2.fr/~ricco/publications.html
Page: 173 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43

174

Littrature

18. Rakotomalala, R., 19. 20.

Economtrie - La rgression linaire simple et multiple, http://eric.univ-lyon2.fr/

~ricco/publications.html

Rgression Linaire Multiple, sur http://fr.wikipedia.org/wiki/Rgression_linaire_multiple Xycoon Online Econometrics Textbook, sur http://www.xycoon.com/index.htm#econ

Page: 174

job: la_regression_dans_la_pratique

macro: svmono.cls

date/time: 9-Jul-2011/7:43