Vous êtes sur la page 1sur 144

PREMIERS PAS en REGRESSION LINEAIRE avec SAS Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSEUMR8174) e-mail : confais@ccr.jussieu.

fr e-mail : monique.leguen@univ-paris1.fr

Rsum Ce tutoriel accessible par internet montre de faon intuitive et sans formalisme excessif, les principales notions thoriques ncessaires la comprhension et l'interprtation des rsultats danalyses de rgression linaire, simple et multiple, produits par la procdure REG de SAS et par le menu FIT de SAS/INSIGHT1 . Ce document est issu dun cours enseign par les auteurs dans diffrentes formations : ISUP, DEA & DESS de Paris 1, formation permanente du CNRS, au CEPE de lINSEE. Il fait suite un premier document de travail publi lUnit Mthodes Statistiques de lINSEE. Nous avons ajout de nombreux graphiques et affichages de SAS/INSIGHT, qui par ses possibilits de visualisation et dinteractivit, facilitent la comprhension la fois des donnes et des techniques. Nous avons profit des possibilits dinternet pour ajouter des liens vers des applets ou dautres documents accessibles sur le web. Nous insistons dans ce tutoriel, sur limportance des graphiques exploratoires, et sur les limites des rsultats obtenus par une rgression linaire, si ltape de vrification des suppositions nest pas systmatiquement entreprise.

SAS et SAS/INSIGHT sont les marques dposes de SAS Institute Inc., Cary, NC, USA

Revue MODULAD, 2006

- 220-

Numro 35

1.

SENSIBILISATION A LA REGRESSION LINEAIRE SIMPLE ........................................................................... 224 1.1. O se place la rgression linaire ?............................................................................................ 224 1.2. Ajustement affine ou Rgression Simple...................................................................................... 225
1.2.1. Comment trouver la droite qui passe au plus prs de tous les points?............................................... 227 1.2.2. Mthode destimation des paramtres 0 et 1 ...................................................................................... 228 1.2.3. Effet dun point observation sur la droite de rgression ......................................................................... 230 1.2.4. Dcomposition de l'cart entre Yi et la moyenne de Y ........................................................................... 230 1.2.5. Analyse de la variance ............................................................................................................................ 231 Ce que le modle explique et ce qu'il n'explique pas......................................................................................... 231 Standard de prsentation de l'Analyse de la Variance ....................................................................................... 232 Comment apprcier globalement la rgression.................................................................................................. 234 Exemple : Rgression de la Taille en fonction du Poids ................................................................................... 235 1.2.6. Reprsentations gomtriques ................................................................................................................ 238 Rgression simple de Y sur X ........................................................................................................................... 238 Distribution en un point fix de X..................................................................................................................... 240 Reprsentation de X fix et Y alatoire............................................................................................................. 241

1.3.
1.3.1. 1.3.2. 1.3.3. 1.3.4.

Glissement fonctionnel de la mthode des Moindres Carrs Ordinaires la Rgression. ......... 242
De l'Astronomie...................................................................................................................................... 243 Aux Sciences Sociales ....................................................................................................................... 243 Galton Diagram Regression.................................................................................................................... 243 Formalisation des Suppositions .............................................................................................................. 245

1.4.

Confiance accorder aux rsultats............................................................................................. 246

1.4.1. Test de la signification globale de la rgression ..................................................................................... 246 1.4.2. Statistiques lies au paramtre 1 ........................................................................................................... 247 Calcul de la variance de b1................................................................................................................................ 248 Test portant sur le paramtre 1 ........................................................................................................................ 249 Calcul de l'intervalle de confiance de 1 ........................................................................................................... 250

1.4.3. Statistiques lies au paramtre 0 ........................................................................................................... 250 Calcul de la variance de b0................................................................................................................................ 250 Calcul de l'intervalle de confiance de 0 .......................................................................................................... 252 Exemple destimation des paramtres avec Proc REG...................................................................................... 253 1.4.4. Prcision sur l'estimation de Y................................................................................................................ 254 Intervalle de confiance autour de l'estimation de la droite de rgression........................................................... 255 Intervalle de prvision de Y sachant X.............................................................................................................. 257 Exemple avec les options CLI CLM de la Proc REG....................................................................................... 258 Test portant sur le paramtre 0 ........................................................................................................................ 251

2.

LA REGRESSION LINEAIRE MULTIPLE ..................................................................................................... 260 2.1. Le critre des moindres carrs.................................................................................................... 260 2.2. Formalisation de la rgression linaire multiple ........................................................................ 261 2.3. Exemples de rgression linaire multiple avec Proc REG.......................................................... 263
2.3.1. 2.3.2. Prsentation des donnes ........................................................................................................................ 263 Rgression linaire multiple avec Proc REG sans options...................................................................... 264

2.4.
2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5.

TYPE I SS et TYPE II SS de Proc REG ....................................................................................... 267


Dfinition de TYPE I SS et TYPE II SS................................................................................................. 267 Interprtations conjointes de TYPE I SS et TYPE II SS......................................................................... 270 Options SS1 et SS2 de linstruction model de Proc REG ....................................................................... 270 Tester la nullit de r paramtres pour tester un sous modle .................................................................. 272 Exemple de test partiel avec PROC REG ............................................................................................... 273

2.5. 2.6. 3.

Ce qu'il faut retenir des 'SS' ........................................................................................................ 275 Les rsidus................................................................................................................................... 276
Conclusion ........................................................................................................................................................ 277

QUAND LES RESULTATS D'UNE REGRESSION NE SONT PAS FORCEMENT PERTINENTS.............................. 278 3.1. Exemples en rgression simple.................................................................................................... 278
3.1.1. Une mme valeur pour des situations diffrentes ................................................................................... 278 3.1.2. Pondrations et rgression linaire par morceaux................................................................................... 280 Thorie de la rgression pondre..................................................................................................................... 283 3.1.3. Transformation des donnes ................................................................................................................... 283 3.1.4. Mthode non paramtrique du LOWESS ............................................................................................... 287

3.2.

Exemples en rgression multiple................................................................................................. 289

3.2.1. Y explique par la corrlation entre deux rgresseurs....................................................................... 289 3.2.2. Instabilit des coefficients de la rgression, en cas de multicolinarit .................................................. 291 Exemple sur donnes relles ............................................................................................................................. 291

Revue MODULAD, 2006

- 221-

Numro 35

Exemple sur donnes avec modle thorique connu et rgresseurs corrls ..................................................... 293

3.3.
3.3.1. 3.3.2. 3.3.3.

Conditions d'utilisation de la rgression, les diagnostics ........................................................... 295


Modle Inadapt ..................................................................................................................................... 296 Linfluence de certaines donnes, les donnes atypiques -Outliers- ....................................................... 296 Corrlation et colinarit entre les rgresseurs ....................................................................................... 297

4.

VALIDATION DUNE REGRESSION .......................................................................................................... 298 4.1. Introduction................................................................................................................................. 298


4.1.1. 4.1.2. Modle et notations................................................................................................................................. 298 Problmes tudier................................................................................................................................. 299

4.2.

Vrification des suppositions de base sur les erreurs ................................................................. 299

4.2.1. Esprance nulle....................................................................................................................................... 299 4.2.2. Indpendance .......................................................................................................................................... 299 Cas particulier o les observations sont apparentes (cas des chroniques) :...................................................... 300 4.2.3. Egalit des variances (homoscdasticit)................................................................................................ 301 4.2.4. Normalit des erreurs.............................................................................................................................. 303 4.2.5. Exemple.................................................................................................................................................. 303 Modle .............................................................................................................................................................. 303 Dessin des rsidus contre les 4 rgresseurs (avec SAS/INSIGHT) ................................................................... 304 Test dhomoscdasticit et trac du QQ-PLOT avec PROC REG. ................................................................... 306

4.3.

Influence d'observations.............................................................................................................. 307

4.3.1. Hat matrice et leverages.......................................................................................................................... 307 4.3.2. Rsidus studentiss internes.................................................................................................................... 309 4.3.3. Rsidus studentiss externes................................................................................................................... 309 4.3.4. Mesure globale de l'influence sur le vecteur des coefficients: Distance de COOK................................ 309 4.3.5. Influence sur chacun des coefficients : DFBETAS................................................................................. 310 4.3.6. Prcision des estimateurs : COVRATIO ................................................................................................ 310 4.3.7. Influence sur la valeur ajuste: DFFITS ................................................................................................. 310 4.3.8. Coefficient global PRESS....................................................................................................................... 311 4.3.9. Comment obtenir les mesures dinfluence dans SAS ............................................................................. 311 Dans PROC REG .............................................................................................................................................. 311 Dans SAS/INSIGHT ......................................................................................................................................... 312 4.3.10. Tableau rcapitulatif.......................................................................................................................... 312 4.3.11. Exemple............................................................................................................................................. 314

4.4.

Colinarit des rgresseurs......................................................................................................... 318

4.4.1. Mthodes bases sur l'tude de la matrice X'X ....................................................................................... 319 Etude de la matrice de corrlation des rgresseurs ............................................................................................ 320 4.4.2. Variance Inflation Factor ........................................................................................................................ 320 4.4.3. Condition index et variance proportion .................................................................................................. 321 Les indices de colinarit .................................................................................................................................. 322 4.4.4. Remdes en cas de multi-colinarit....................................................................................................... 323 4.4.5. Exemple.................................................................................................................................................. 324 Regression RIDGE............................................................................................................................................ 325

4.5.

Choix des rgresseurs ................................................................................................................. 326

4.5.1. Utilisation des sommes de carrs............................................................................................................ 326 Rappel sur les somme de carrs apports par un rgresseur .............................................................................. 327 Tests des apports SSModle dune variable ....................................................................................................... 327 Exemple dlimination progressive ................................................................................................................... 328 4.5.2. Diffrentes mthodes bases sur les sommes de carrs .......................................................................... 330 Mthode FORWARD (ascendante)................................................................................................................... 330 Mthode BACKWARD (descendante) ............................................................................................................. 331 Mthode STEPWISE (progressive)................................................................................................................... 331 Exemples de slection STEPWISE ................................................................................................................... 332 4.5.3. Amlioration de R ................................................................................................................................. 334 Maximum R 2 Improvement (MAXR)............................................................................................................... 334 Minimum R 2 Improvement (MINR)................................................................................................................. 335 4.5.4. Autres mthodes bases sur R : RSQUARE et ADJRSQ ...................................................................... 335 4.5.5. Coefficient CP de Mallows..................................................................................................................... 335 Slection suivant le coefficient CP.................................................................................................................... 336 Utilisation du coefficient CP dans une slection de rgresseurs........................................................................ 336 4.5.6. Critres AIC et BIC ................................................................................................................................ 336 4.5.7. Exemple de slection RSQUARE........................................................................................................... 337

CONCLUSION.................................................................................................................................................. 339 ANNEXES ..................................................................................................................................................... 341 ANNEXE 1......................................................................................................................................................... 342

Revue MODULAD, 2006

- 222-

Numro 35

SYNTAXE SIMPLIFIEE DE LA PROCEDURE REG DE SAS.................................................................. 342 PROC REG options ;................................................................................................................................. 342 MODEL dpendante = rgresseurs / options ;.......................................................................................... 343 Instructions BY FREQ ID WEIGHT :........................................................................................................ 344 REWEIGHT expression / WEIGHT = valeur ;......................................................................................... 344 TEST equation(s) ;..................................................................................................................................... 344 RESTRICT equation(s);............................................................................................................................. 344 Options RIDGE et PCOMIT des instructions PROC REG ou MODEL ................................................... 346 ANNEXE 2......................................................................................................................................................... 347 MODE DEMPLOI TRES SUCCINCT DE SAS/INSIGHT......................................................................... 347 Le lancement de SAS/INSIGHT ................................................................................................................. 347 Rle statistique des variables dans SAS/INSIGHT .................................................................................... 348 Menu principal de SAS/INSIGHT.............................................................................................................. 349 Graphiques standard en SAS/INSIGHT..................................................................................................... 349 Les Analyses Statistiques avec SAS/INSIGHT ........................................................................................... 351 Impression et Sauvegarde.......................................................................................................................... 352 Pour plus dinformation sur les graphiques .............................................................................................. 354 ANNEXE 3......................................................................................................................................................... 355 STATISTIQUES RELATIVES A LANALYSE DE LA VARIANCE ........................................................ 355 STATISTIQUES SUR LES PARAMETRES .............................................................................................................. 356 ANNEXE 4......................................................................................................................................................... 357 RELATIONS ENTRE LA LOI NORMALE ET LES STATISTIQUES DE LOIS .................................... 357 ANNEXE 5......................................................................................................................................................... 358 CONSTRUCTION DUN QQ-PLOT.............................................................................................................. 358 PRINCIPE DE LA DROITE DE HENRY ................................................................................................................. 358 GENERALISATION............................................................................................................................................ 359 QQ-PLOT AVEC SAS....................................................................................................................................... 359

Revue MODULAD, 2006

- 223-

Numro 35

1. Sensibilisation la rgression linaire simple


Cette sensibilisation la rgression prsente de manire dtaille la logique et les calculs permettant la comprhension de la rgression simple. On montre tout d'abord la dmarche algbrique qui conduit un ajustement affine, puis par un dtour oblig l'Histoire, on glisse vers la modlisation en s'appuyant sur la Statistique.

1.1.

O se place la rgression linaire ?

La rgression linaire se classe parmi les mthodes danalyses multivaries qui traitent des donnes quantitatives. C'est une mthode d'investigation sur donnes d'observations, ou dexprimentations, o l'objectif principal est de rechercher une liaison linaire entre une variable Y quantitative et une ou plusieurs variables X galement quantitatives. Cest la mthode la plus utilise pour deux raisons majeures :

cest une mthode ancienne, cest l'outil de base de la plupart des modlisations plus sophistiques comme la rgression logistique, le modle linaire gnralis, les mthodes de traitement des sries temporelles, et surtout des modles conomtriques, etc.

A l'aide du tableau 1.1, on peut reprer les mthodes les plus courantes d'analyses statistiques et les procdures SAS utiles pour rechercher des liaisons, selon le type (nominal, ordinal, intervalle, ratio) des variables Y et X. Le lecteur peu familiaris avec la terminologie des variables SAS pourra voir sur le site de MODULAD, le tutoriel2 La Proc FREQ de SAS, Tests dindpendance et dassociation , de J. CONFAIS, Y. GRELET, M. LE GUEN.

http://www-rocq.inria.fr/axis/modulad/archives/numero-33/tutorial-confais-33/confais-33-tutorial.pdf , page 5-7.

Revue MODULAD, 2006

- 224-

Numro 35

Tableau 1.1 Procdures SAS adaptes selon le type des variables (nominal, ordinal, intervalle, ratio)

X intervalle/ratio Y intervalle/ratio Rgression linaire PROC REG Y ordinale/nominale Si Y est ordinale ou 2 modalits Rgression logistique PROC LOGISTIC

X ordinale/nominale Modles linaires gnraliss PROC GLM PROC ANOVA Analyses de tableaux de contingence PROC FREQ Rgression logistique PROC LOGISTIC Traitements des variables catgorielles PROC CATMOD

Analyse de la variance

Pour la rgression linaire la procdure REG est la plus complte. Cependant le module SAS/INSIGHT, qui est la fois un tableur, un grapheur et un analyseur, est particulirement adapt pour tudier des donnes dans une problmatique de rgression linaire couple une analyse exploratoire des donnes. Dans les exemples nous utiliserons lune ou lautre de ces possibilits. En annexe 2, on trouvera un mode demploi trs succinct de SAS/INSIGHT.

1.2.

Ajustement affine ou Rgression Simple

Exemple Soient les 2 mesures de poids (variable X) et taille (variable Y) releves sur un chantillon de 20 objets.

Revue MODULAD, 2006

- 225-

Numro 35

Tableau 1.2 Donnes Taille et Poids


identifiant
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

poids (X)
46 78 85 85 85 85 95 95 100 100 100 103 105 105 115 115 115 130 135 150

taille (Y)
152 158 160 162 158 159 165 165 166 159 166 168 163 164 168 166 162 165 167 172

Le graphique du nuage de points, dabscisse le poids et dordonne la taille montre quil existe une relation linaire entre ces deux variables. Lorsque le poids augmente, la taille a tendance crotre galement.

Figure 1.1 Taille*Poids

Les points du nuage sont approximativement aligns sur une droite (y=ax+b) une erreur prs. Taille = 0 + 1 Poids + erreur La variable Taille (Y) est appele la variable rponse, ou selon les domaines disciplinaires, variable expliquer, ou encore variable dpendante. La variable Poids (X) est la variable rgresseur, encore appele variable explicative, ou variable indpendante. 0 est lordonne lorigine. Revue MODULAD, 2006 - 226Numro 35

1 est la pente de la droite dajustement. Note : Dans ce document nous nutiliserons que les termes rponse et rgresseurs , pour viter toutes confusions smantiques trs dommageables lors des interprtations des rsultats, et particulirement lors de la communication des rsultats un tiers. Par exemple, la variable dite explique nest pas forcment explique par les variables dnommes explicatives. Quand aux variables dites indpendantes, elles sont, dans le cas de donnes relles, rarement indpendantes. 1.2.1. Comment trouver la droite qui passe au plus prs de tous les points? Pour trouver la droite qui passe au plus prs de tous les points il faut se donner un critre dajustement.
Y
M1 P2 P1 M2 P3 M4 M3 P4
droite Y=

0+1

Figure 1.2 Projection des points M1...M4 sur la droite.

On projette les points M1 M4 paralllement l'axe des Y. Sur la droite on obtient les points P1 P4, comme le montre la figure 1.2. Le critre retenu pour dterminer la droite D passant au plus prs de tous les points sera tel que : La somme des carrs des carts (SCE) des points observs Mi la droite solution soit minimum. La droite solution sera appele droite de rgression de Y sur X. Le critre est le critre des Moindres Carrs Ordinaires (MCO, Ordinary Least Squares en anglais), appel aussi par les statisticiens critre de Norme L. Les carts sont calculs en projetant les points M paralllement laxe des Y. On pourrait aussi projeter les points M paralllement laxe des X, on aurait alors une autre droite solution (rgression de X sur Y). Dans ces deux rgressions Y et X ne jouent pas le mme rle.

Revue MODULAD, 2006

- 227-

Numro 35

On pourrait aussi projeter les points M perpendiculairement la droite solution. Y et X joueraient dans ce cas le mme rle. Cest la situation que l'on rencontre dans une Analyse en Composantes Principales3, illustre dans la figure 1.3.

Y e1 Yi e2 d
Y = O + 1 X

Xi

Figure 1.3 Trois projections possibles du point (Xi, Yi)

1.2.2. Mthode destimation des paramtres 0 et 1 La Somme des Carrs des Ecarts (SCE) est donne par :

S =

i=1

2 i

(Y
i=1

2 i

0 1X i )

La valeur de cette fonction S est minimum lorsque les drives de S par rapport O et 1 s'annulent. La solution est obtenue en rsolvant le systme :

S = 0 et 0 Les drives par rapport 0 et 1 sont :

S =0 1

n S = 2 ( Yi O 1 X i ) 0 i=1 n S = 2 X i ( Yi O 1 X i ) 1 i=1

Ces drives sannulent pour deux valeurs b0 et b1 solutions des 2 quations 2 inconnues :

On pourrait encore prendre comme critre la somme des valeurs absolues des carts des points observs la droite, ce serait alors un critre de norme L1, et pourquoi pas prendre un exposant non entier appartenant p lintervalle [1,2], ce serait une norme L .

Revue MODULAD, 2006

- 228-

Numro 35

quation 1 :

(Y b
i=1 n i i i

b1 X i ) = 0

quation 2 :

X (Y b
i=1

b1 X i ) = 0

Ce systme de 2 quations 2 inconnues dterminent les quations normales. Dveloppons ces 2 quations normales : l'quation 1 donne :

Y nb
i

b1 X i = 0 et en divisant par n Y = b 0 + b1 X .

On remarque que la droite solution passe par le centre de gravit du nuage X i Yi . ( X, Y ) = i , i n n L'quation 2 donne

YX
i

b 0 X i b1 X i = 0
2

dans laquelle on remplace b0

YX
i

( Y b1 X) X i b1 X i = 0
2

Solution :
b1 =

X Y ( X Y ) / n X ( X ) / n
i i i i 2 i 2 i

en divisant numrateur et dnominateur par n on retrouve les expressions de la covariance et de la variance empiriques : b1 =

( X X)( Y Y ) = Cov( X, Y ) Var ( X) ( X X)


i i 2 i

formule n 1
Y = b 0 + b1 X

Les points qui sont sur la droite de rgression ont pour ordonne:

Le coefficient b1 dpend au numrateur de la covariance entre X et Y, et de la variance de X pour le dnominateur.


Terminologie

Y est lestimation de Y obtenue partir de lquation de rgression. Y se prononce Y chapeau. b0 et b1 sont les estimateurs des moindres carrs des paramtres inconnus 0 et 1. On appelle estimations les valeurs particulires (solutions) prises par les estimateurs b0 et b1.
Revue MODULAD, 2006 - 229Numro 35

Dans la suite du document on ne fera pas de diffrence de notations entre les estimateurs b0 ou b1 et leurs estimations. 1.2.3. Effet dun point observation sur la droite de rgression

Avec cet applet java http://www.stat.sc.edu/~west/javahtml/Regression.html on peut voir leffet de levier (leverage) sur le calcul de la droite de rgression en ajoutant un point -rouge- par un simple clic de souris. Ici le point rouge est un point influent dans la liaison (X,Y). Plus le point est loign de la tendance plus son levier sera grand. Il peut aussi exister des points atypiques -Outliers- seulement en direction des X, ou dans la direction des Y (voir le chapitre 4).

1.2.4. Dcomposition de l'cart entre Yi et la moyenne de Y

En un point d'observation (X i , Yi ) on dcompose l'cart entre Yi et la moyenne des Y en ajoutant puis retranchant Y la valeur estime de Y par la droite de rgression.
i

Cette procdure fait apparatre une somme de deux carts : ( Yi Y ) = ( Yi Yi + Yi Y ) (Y Y) = (Y Y ) + (Y Y)


i i i i

Ainsi l'cart total (Yi Y ) peut tre vu comme la somme de deux carts : un cart entre Y observ et Y la valeur estime par le modle
i

un cart entre Yi la valeur estime par le modle et la moyenne Y .

Le graphique suivant montre l'explication gomtrique de cette dcomposition. Cet artifice de dcomposition aura un intrt fondamental dans l'analyse de la variance aborde au paragraphe suivant.

Revue MODULAD, 2006

- 230-

Numro 35

(Yi Y )

Yi

( Yi Yi )
( Yi Y )

Yi

.
Y

. .

Y = b 0 + b1X

.
X

Xi
Figure 1.4 Dcomposition des diffrents carts

Ecart total (Yi Y ) = cart d au model (Yi Yi ) + cart rsiduel ( Yi Y )


1.2.5. Analyse de la variance Ce que le modle explique et ce qu'il n'explique pas

A partir de lquation de la droite de rgression (modle retenu), on peut pour tout point i d'abscisse X i calculer son estimation (ordonne) Yi Y = b + b X avec b = Y b X
i 0 1 i 0 1

ce qui donne : Yi = Y + b1 (X i X) ou encore Yi Y = b1 (X i X)


formule n 2

En un point i lcart ou rsidu est : Yi Yi = ( Yi Y ) ( Yi Y ) On lve les deux membres au carr et on somme sur les observations i :
(Y Y )
i i i 2

= ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y )( Yi Y )
i i i

En utilisant la formule n2 : (Y Y )
i i i 2

= ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y ) b1 ( X i X)
i i i

En utilisant une transformation de la formule n1 : b1 ( X i X) 2 = ( X i X)( Yi Y ) on obtient


Revue MODULAD, 2006

- 231-

Numro 35

(Y Y )
i i i

= ( Yi Y ) 2 + ( Yi Y ) 2 2 b1
i i

(X
i

X)

En utilisant la formule n 2 :
(Y Y )
i i i 2 2 = ( Yi Y ) 2 + ( Yi Y ) 2 2 ( Yi Y ) i i i

On aboutit enfin lgalit fondamentale :

(Y Y)
i i

= ( Yi Y ) 2 + ( Yi Yi ) 2
i i

La SCE (Somme des Carrs des Ecarts) totale est gale la somme des carrs des carts dus au modle augmente de la somme des carrs des carts dus aux erreurs SCE totale = SCE modle + SCE erreur . Cette formule montre que : Les variations de Y autour de sa moyenne, cest--dire SCE Totale (SS Total pour Sum of Squares en anglais) peuvent tre expliques par : le modle grce SCE Modle (SS Model en anglais) ; et ce qui ne peut tre expliqu par le modle, est contenu dans SCE Erreur (SS Error en anglais). L'erreur est aussi appele le rsidu .
Standard de prsentation de l'Analyse de la Variance

On a l'habitude de reprsenter l'analyse de la variance sous forme d'un tableau, faisant apparatre les 3 sources de variation : le total en 3ime ligne qui se dcompose en la partie modle et la partie erreur. A chaque source de variation (Total, Modle, Erreur) correspond un nombre de degrs de libert (ddl) respectivement gal n-1, p, n-p-1, n : nombre d'observations p : nombre de variables rgresseurs (la variable X0 , constante gale 1, correspondant au paramtre 0, n'est pas comprise). Nous prsentons le tableau gnral de lanalyse de variance pour p rgresseurs. Pour la rgression simple, p=1 (une seule variable rgresseur).

Revue MODULAD, 2006

- 232-

Numro 35

Tableau 1. 3 Analyse de variance (version anglaise)

Source MODEL

DF

Sum of Squares

Mean Square

(Yi Y )2
i=1 n

(Y Y )
i=1 i

/p

ERROR

n-p-1

(Y Y )
i=1 n i i

(Y Y )
i =1 i i

/(n p 1)

TOTAL Abrviations:

n-1

(Y Y )
i=1 i

DF : Degrees of Freedom se traduit par degrs de libert (ddl). Ils vrifient : DF total=DFmodel +DF erreur SS : Sum of Squares se traduit par Somme des Carrs des Ecarts (SCE) MS : Mean Square, est le rapport SS/DF, relatif soit au modle soit l'erreur MSE : Mean Square Error = moyen rsiduel. Tous ces indicateurs SS, MS, MSE, vont jouer un rle important dans lapprciation du modle calcul partir des observations. Yi
Y SS Total

(Y Y )
i i i=1

/(n p 1) reprsente le carr de l'cart

SS error

. .

. . .

SS model

Y = b 0 + b1 X

Figure 1.5 Dcomposition des SS Sums of Squares

La figure 1.5 montre les liens entre SS total, SS model et SS error lorsque lon somme les carrs des carts sur tous les points i.

Revue MODULAD, 2006

- 233-

Numro 35

Il est remarquable que la formule de dcomposition de l'cart total en un point i, vu au 1.2.4. ( Yi Y ) = ( Yi Y ) + ( Yi Yi ) prennela mme forme pour la somme des carrs.

(Y Y) = (Y Y) + (Y Y )
2 2 i i i i i i i

Comment apprcier globalement la rgression

Les deux quantits SCE totale (SS total) et SCE modle (SS model) sont des sommes de carrs donc toujours positives ou nulles et telles que SCE Modle SCE Totale . Le rapport SCE Modle est donc compris entre 0 et 1. SCE Totale

On appelle ce rapport le coefficient de dtermination SCE Modle SS mod el = R2 = SCE Totale SS Total
Cas particulier : Si tous les points Yi observs sont aligns sur la droite de rgression, le modle est parfaitement adapt et SCE Erreur = 0,

Dans ce cas:

SCE Modle =1 SCE Totale

Interprtation de R2

R2 qui varie entre 0 et 1, mesure la proportion de variation totale de Y autour de la moyenne explique par la rgression, cest--dire prise en compte par le modle. Plus R2 se rapproche de la valeur 1, meilleure est l'adquation du modle aux donnes. Un R2 faible signifie que le modle a un faible pouvoir explicatif. On dmontre que R2 reprsente aussi le carr du coefficient de corrlation linaire entre Y et Y estim:

R2 = Corr2 ( Y, Y)
Dans le cas de la rgression simple, R est aussi la valeur absolue du coefficient de corrlation linaire entre Y et X.

R = Corr (Y, X)
Revue MODULAD, 2006
- 234Numro 35

Lien entre coefficient de corrlation de 2 variables et le cosinus de leur angle Soient 2 vecteurs X1 et X2 dfinis dans un espace Rn (espace des n observations), le coefficient de corrlation entre X1 et X2 est aussi le cosinus de langle entre ces 2 vecteurs. En utilisant les conventions de notation, le produit scalaire de 2 vecteurs X1 et X2 se note < X1, X 2 > = X1 * X 2 Cos() On a :
Cos( X1, X 2 ) = ( X X)( X1,i X) < X 1, X 2 > 1 = * 1,i = Corrlation ( X1, X 2 ) s1 * s 2 (< X1, X1 >< X 2 , X 2 > )1/ 2 n i=1,n

s 1 * s 2 tant le produit des carts-type des 2 vecteurs.

Linterprtation dun coefficient de corrlation comme un cosinus est une proprit importante. Comme le remarque TOMASSONE (1992), les variables X ntant pas des variables alatoires, il est plus correct de parler de cosinus des angles forms par les vecteurs associs, en rservant le terme coefficient de rgression pour sa similitude avec lestimation de ce coefficient partir dun chantillon.
Exemple : Rgression de la Taille en fonction du Poids

Sur les donnes du tableau 1.2, la premire tape consiste regarder les donnes pour vrifier quune liaison linaire est envisageable (Proc GPLOT). Puis en deuxime tape on calcule le coefficient de corrlation (Proc CORR). Cette deuxime tape non indispensable en rgression simple deviendra essentielle en rgression multiple. Enfin on effectue une rgression linaire (Proc REG).
Programme SAS

Proc gplot data=libreg.tailpoid; plot Y*X; title ' Graphique taille en fonction du Poids '; Proc corr data=libreg.tailpoid; title 'Corrlation '; var Y X; Proc REG data=libreg.tailpoid; title 'Rgression de la Taille en fonction du Poids '; model y=x; run;

Revue MODULAD, 2006

- 235-

Numro 35

Le coefficient de corrlation CORR entre Y et X vaut 0.83771.


Sortie standard de la Proc REG sans options

Dans la sortie de Proc REG on obtient dabord le tableau danalyse de la variance, puis les estimations des paramtres.

Revue MODULAD, 2006

- 236-

Numro 35

Lecture de lAnalyse de la Variance

SS Model =
n

(Y Y )
i=1 i

= 280.52918

SS Error = (Yi Yi ) 2 = 119.22082


i=1

SS Total = = 399.75 Mean Square Model = Mean Square Error = Root MSE = (Y Y )
i=1 i n 2

/ p = 280.52918

(Y
i =1

Yi ) 2 /(n p 1) = 6.62338

MS ERROR = 2.57359

Dependant Mean = Y = 163.25 R-Square =


Autres indicateurs

SS Model = 0.7018 = CORR(X,Y)2 = (0.83771)2. SS Total

Root MSE 100 Dep Mean Le CV est un indicateur sans dimension -exprim en %- permettant de comparer l'cart moyen rsiduel la moyenne de la variable dpendante Y. Ce pourcentage est plutt utilis pour comparer 2 modles (donc 2 CV) portant sur le mme jeu de donnes.
CV =1.57647 Cest le Coefficient de Variation = Le coefficient R2 ajust , Adj R-sq Le R2 ajust (utilis en rgression multiple) tient compte du nombre de paramtres du modle.
R 2 ajust = 1 ( n intercept )( 1 R ) n p

Avec Intercept=0, si il n'y a pas de constante b0 l'origine4 sinon Intercept =1. Le reproche fait au coefficient de dtermination est qu'il peut approcher la valeur 1, interprt comme un ajustement parfait, si on ajoute suffisamment de variables rgresseurs. Le R2 ajust tient compte du rapport p/n entre le nombre de paramtres du modle et le nombre d'observations. Selon certains auteurs ce coefficient permet de comparer des modles de rgression sur diffrents ensembles de donnes, mais il ne fait pas l'unanimit.
Attention : Adj R-sq peut prendre des valeurs infrieures zro !
4

S'il n'y a pas de constante b0 l'origine, les statistiques relatives l'analyse de la variance n'ont pas la mme interprtation.

Revue MODULAD, 2006

- 237-

Numro 35

Lecture du tableau des paramtres Intercept = b0 = 145.98 donne la valeur de la constante lorigine. On peut remarquer que dans cet exemple, cette valeur na pas de signification dans le monde physique. On ne peut concevoir qu un poids de valeur nulle corresponde une taille de 145.98.

La pente de la droite (coefficient de X) = b1 = 0.1703. On linterprte comme augmentation de la taille lorsque le poids augmente de une unit. Equation de la droite : Taille = 145.98 + 0.1703 * Poids L encore il faut se prserver de toute interprtation causale. Peut-on agir et augmenter le poids en esprant faire augmenter la taille ? Nous verrons les autres indicateurs dans la suite du chapitre. Pour mieux comprendre la technique de la rgression, voyons certaines reprsentations gomtriques.
1.2.6. Reprsentations gomtriques Rgression simple de Y sur X

Afin d'avoir une ide gomtrique de la rgression prenons un exemple avec n=3 observations (y1,x1), (y2,x2) et (y3,x3). Le vecteur rponse Y = (y1,y2,y3), et le vecteur rgresseur X = (x1,x2,x3) peuvent se reprsenter dans l'espace 3 dimensions des observations. On nomme 1,2,3 les axes de ce repre. Dans lespace des observations reprsent figure 1.6 5, la droite des constantes a pour vecteur directeur (1,1,1).

La figure 1.6 est une synthse des graphiques de DRAPER & SMITH (1966) pp112-113 et SAPORTA (2006) p208

Revue MODULAD, 2006

- 238-

Numro 35

Q est la projection orthogonal e de Y sur de coordonn es ( Y, Y, Y ) P est la projection orthogonal e de Y sur le plan (X,) et reprsente Y = ( Y1 , Y2 , Y

3 Y
Corr (Y , Y )

X Rsidu 0 P Q 1 2

Figure 1.6 Rgression de Y sur (X, ) dans l'espace des 3 observations.

L'interprtation gomtrique de la rgression est la suivante :


Rgresser Y sur ( et X) consiste projeter orthogonalement Y sur le plan (,X) ce qui donne le point P. Si d'autre part on projette Y sur la droite , on obtient le point Q. Par le thorme des 3 droites perpendiculaires Q est aussi la projection orthogonale de P sur .

Dans le triangle YQP, rectangle en P, on peut appliquer le thorme de Pythagore :

YQ 2 = YP2 + PQ 2

(Y Y)
i i

= ( Yi Yi ) 2 + ( Yi Y ) 2
i i

La longueur YQ 2 reprsente la somme des carrs corrige SCE Totale (SS Total). La longueur YP 2 reprsente la somme des carrs non explique par le rgression SCE Erreur (SS error) . La longueur PQ 2 reprsente la somme des carrs explique par la rgression soit SCE Modle (SS model). C'est l'quation fondamentale de l'analyse de la variance vue prcdemment :

SS Total = SS Model + SS Error


Revue MODULAD, 2006 - 239Numro 35

PQ 2 . YQ 2 R2 reprsente donc le carr du cosinus de l'angle (YQ, QP), c'est dire l'angle entre Y et Y . Le coefficient de dtermination R2 est le rapport Plus l'angle entre Y et Y est faible, meilleur est le pouvoir explicatif du modle. Et maintenant il suffit de gnraliser mentalement l'ordre n cette reprsentation 3 dimensions.
Remarque en rgression multiple Si au lieu d'avoir une seule variable rgresseur X, on avait plusieurs variables X1,.XP, alors le plan de projection (X,) serait remplac par lhyperplan form par les vecteurs X1,.Xp, . Rgresser Y sur les p variables rgresseurs consisterait projeter orthogonalement Y sur l'hyperplan dtermin par X1,.Xp, . Distribution en un point fix de X

Jusqu'ici, on ne s'est appuy que sur des calculs algbriques et sur des notions de gomtrie, sans faire appel des notions de statistique. On ne cherchait que la droite d'ajustement sur l'chantillon. Aucune supposition n'a t ncessaire dans toutes les dmonstrations. Si maintenant, on souhaite utiliser les rsultats obtenus partir des observations, vues comme un chantillon, pour infrer sur la population, il faut faire appel des notions de probabilit, et de statistique puisque dans les relevs de donnes (exemple : Poids et Taille) notre disposition on n'a qu'un chantillon de valeurs et non toute la population. Sur la figure 1.7, on remarque que pour une mme valeur du Poids, par exemple 85, il y a plusieurs valeurs possibles de la Taille (158, 159, 160 et 162).
172 170 168 166 164 Taille 162 160 158 156 154 152 0 20 40 152 60 80 Poids 100 120 140 160 162 160 159 158 158 168 166 165 164 163 159 168 166 162 167 165 172

Figure 1.7 Taille en fonction du Poids

Revue MODULAD, 2006

- 240-

Numro 35

Il n'y a pas de valeur unique associe une valeur Xi mais une distribution de valeurs.

Pour chaque valeur du poids (X) existe une distribution thorique des tailles (Y). Les valeurs de centrage sont les esprances des tailles de la population correspondant chaque poids Xi. Lesprance (moyenne thorique i) de chaque distribution de Y, est appele statistiquement parlant l'esprance de Yi sachant Xi que l'on note E(Yi/Xi). L'hypothse de la rgression linaire est que les i sont aligns sur la vraie droite de rgression qui est inconnue.
Remarque : pour simplifier l'criture on note E(Yi) au lieu de E(Yi/Xi), soit :

i = E(Yi ) = 0 + 1 Xi
Reprsentation de X fix et Y alatoire
Distribution de Y pour X fix p(Yi | Xi)

Droite estime

^ Y= b0+b1X

Y1

vraie droite de rgression E(Y)= 0+1 X

Y2

Y3 <--- observations y3

3 X

X1

X2

X3

Figure1.8 Distributions de Y pour X fix

Pour un mme poids X1 fix on a une distribution de taille Y1, dont on a observ une ralisation y1, ou plusieurs. Par exemple sur le graphique Taille*Poids de la figure 1.7, on remarque que pour X=46 on a une seule valeur observe Y=152, tandis que pour X=85 on observe plusieurs valeurs de Y (158, 159, 160 et 162). Chaque Yi est une variable alatoire qui a une distribution de probabilit de Yi sachant Xi note p(YiXi). Des hypothses sur la rgularit de ces distributions devront tre faites :

Revue MODULAD, 2006

- 241-

Numro 35

les distributions, pour tous les points Xi, sont supposes normales les esprances des distributions sont centres sur la droite de rgression les variances de chaque Yi conditionnellement Xi sont toutes gales.

De plus les variables alatoires Yi ne doivent pas tre relies entre elles, elles sont supposes indpendantes. Ces suppositions se rsument ainsi : Les variables alatoires Yi sont indpendantes, d'esprance et de variance : E( Yi ) = 0 + 1 X
variance( Yi ) = 2

Il faut avoir lesprit que E(Yi) est une esprance conditionnelle. De mme lorsque lon parle de variance de Y, cest sous-entendu, variance conditionnellement X.
Vraie droite de rgression et droite estime par la rgression

La figure1.8 montrant les distributions de Y pour X fix est une illustration du modle de rgression linaire. Toujours en supposant que le modle linaire postul est le vritable modle, on obtiendrait le vraie droite de rgression E( Y ) = 0 + 1 X , si on avait notre disposition toute la population. Comme on n'a qu'un chantillon d'observations, on n'a qu'une estimation Y = b 0 + b 1 X ou droite estime par la rgression.
A propos des erreurs

L'erreur thorique i reprsente l'cart entre Yi observ et l'esprance E(Yi) non observable. On notera que i non plus n'est pas observable. Ce qui est observable c'est l'erreur ei correspondant l'cart entre Yi observ et Yi , son estimation par le modle. Le rsidu observ ei est une estimation de l'erreur inobservable i .

1.3.

Glissement fonctionnel Ordinaires la Rgression.

de

la

mthode

des

Moindres

Carrs

De la thorie des erreurs en astronomie l'tude des moyennes en sciences sociales, un sicle les spare.

Revue MODULAD, 2006

- 242-

Numro 35

1.3.1. De l'Astronomie...

Historiquement la mthode des moindres carrs d'abord t dveloppe par LEGENDRE en 1805, pour rpondre une question pose par les astronomes et les spcialistes de la godsie comme le rapporte DESROSIERES (1993) :
"Comment combiner des observations effectues dans des conditions diffrentes, afin d'obtenir les meilleures estimations possibles de plusieurs grandeurs astronomiques ou terrestres lies entre elles par une relation linaire?".

Ces grandeurs sont mesures par des instruments imparfaits, et par des observateurs qui ne sont pas tous identiques. Il y a des erreurs de mesures dans les observations. De l provient le vocabulaire : observation, cart, erreur ou rsidu. Vous pouvez trouver sur internet une traduction anglaise de ce premier article scientifique de Legendre sur les moindres carrs (Least Squares) http://www.stat.ucla.edu/history/legendre.pdf.
1.3.2. Aux Sciences Sociales

En s'appuyant sur : 1. Le thorme central limite (LAPLACE 1810) montrant que mme si la distribution de probabilit des erreurs ne suit pas une loi normale, celle de la moyenne tend vers une loi normale, quand le nombre des observations s'accrot indfiniment, 2. La synthse opre par Laplace et Gauss vers 1810 entre: comment combiner au mieux des observations imparfaites ? Rponse : en utilisant le milieu (la moyenne), comment estimer le degr de confiance que mrite une estimation ? Rponse : en terme de probabilit,

Galton inventeur de la "rgression" et PEARSON inventeur de la "corrlation" appliqurent l'ajustement des moindres carrs des donnes sociales dans les annes 1880. Nous reproduisons ci-aprs le graphique6 de GALTON, rvlateur dune Reversion , et accessible surinternet : http://www.stat.ucla.edu/history/regression.gif .
1.3.3. Galton Diagram Regression

En 1885 GALTON ralisa le tableau qui croise la taille de 928 enfants (devenus adultes) ns de 203 parents, en fonction de la taille moyenne de leurs parents (la taille de la mre tant pralablement multiplie par un coefficient 1.8).

F GALTON, Regression towards mediocrity in hereditary statur", Journal of the Anthropological Institute 15 (1886), 246-263.

Revue MODULAD, 2006

- 243-

Numro 35

En prsentant ce tableau sous forme dun graphique, GALTON remarqua que lon pouvait voir des ellipses de densits. Si les parents sont plus grands que la moyenne, les enfants seront galement plus grands que la moyenne mais avec une taille plus proche de la moyenne que celle de leurs parents. Si les parents sont de petites tailles, leurs enfants seront galement plus petits que la moyenne, mais avec une taille plus proche de la moyenne que celle de leurs parents. Il y a rgression vers la moyenne. Do le terme de rgression . Ce n'est que vers les annes 1930 que le formalisme de la mthode des moindres carrs associ une interprtation probabiliste est devenu la Rgression (ARMATTE (1995)). Revue MODULAD, 2006 - 244Numro 35

Le glissement des mthodes d'analyse, des erreurs en Astronomie vers des estimations de moyennes en Sciences Sociales, a conduit appeler erreur ou perturbation ou encore ala, l'cart de Y par rapport sa moyenne. Le modle s'crit : Yi = 0 + 1 X i + i o les erreurs i sont des alas indpendants desprance =0 de variance 2
1.3.4. Formalisation des Suppositions

L'ensemble des suppositions ncessaires pour laborer les tests statistiques se rsume ainsi: l' erreur i est une variable alatoire desprance nulle et de variance constante 2. E( i ) = 0 et Var ( i ) = 2 l' erreur i est non corrle j. Cov( i , j ) = 0 pour i j les erreurs i sont normalement distribues i N(0, 2 ) On rsume souvent ces 3 suppositions par l'expression "i i d selon une loi normale" qui signifie
Indpendantes et Identiquement Distribues selon une loi normale

Il faut de plus que les variables alatoires Y conditionnellement X soient indpendantes, et que les rgresseurs Xj soient non alatoires et non corrls. Lorsque ces suppositions sont vrifies, lestimateur MCO est non biais et efficace (de variance minimum). En anglais on utilise lacronyme BLUE (BEST Linear Unbiased Estimator) Nous verrons au paragraphe suivant, comment interviennent ces suppositions sur les alas dans les raisonnements statistiques.

Revue MODULAD, 2006

- 245-

Numro 35

1.4.

Confiance accorder aux rsultats

Pour infrer de l'chantillon la population dont sont issues les observations, la logique statistique nous conduit effectuer des tests d'hypothses, et dterminer des intervalles de confiance autour des valeurs estimes. Successivement on va chercher : tester la signification globale de la rgression, tester l'hypothse nulle 1=0 et calculer l'intervalle de confiance de 1, tester l'hypothse nulle 0=0 et calculer l'intervalle de confiance de 0, calculer la prcision de l'estimation de Y pour la moyenne et pour une observation individuelle.
1.4.1. Test de la signification globale de la rgression

Ce test a surtout un intrt dans le cadre de la rgresssion multiple, c'est dire avec p rgresseurs. En anticipant sur le chapitre 2, qui prsente la rgression multiple, on gnralise le modle de rgression un rgresseur au cas d'un modle p rgresseurs X 1 , X 2 L X p : i = E(Yi ) = 0 + 1 X1 + L + p X p Ce test permet de connatre l'apport global de l'ensemble des variables X1,,...,Xp la dtermination de Y. On veut tester l'hypothse nulle: H0: 1 = L = p = 0 contre Ha: Il existe au moins un j parmi 1 ,L, p non gal 0. On calcule la statistique de test F= MS model MS error

SS error SS model et MSerror = reprsentant respectivement p n p 1 une somme de carrs des carts moyens respectivement pour le modle et pour l'erreur. avec MSmodel =
Si H0 est vraie et sous rserve des suppositions suivantes, ce rapport F est une valeur observe d'une variable qui suit une loi de Fisher-Snedecor p et n-p-1 degrs de libert.

Si les i sont indpendants et suivent une loi normale de mme variance i N(0, 2 ) Revue MODULAD, 2006 - 246Numro 35

Alors la statistique F suit une loi de Fisher-Snedecor F= MS model F(p, n p 1) MS error

Rgle de dcision

Si F observ F1 (p, n p 1) Alors H0: 1 = L = p = 0 doit tre rejete au niveau o F1 (p, n p 1) reprsente le quantile d'ordre (1 ) de la loi de Fisher-Snedecor (p) et (n-p-1) degrs de libert.
Note: Dans SAS, la fonction de rpartition inverse pour une loi de Fisher-Snedecor est donne par la fonction FINV. F = FINV(1 , p, n p 1) Instruction SAS Avec n= nombre d'observations et p = nombre de rgresseurs (non compris la constante).

Pour viter de raisonner sur F, SAS fournit la p-value associe au F observ. La pvalue est le niveau de significativit du test de Fisher-Snedecor, c'est--dire la probabilit de dpasser le F observ si l'hypothse nulle est vraie. On compare la p-value au risque choisi (par exemple =0.05).
Raisonnement sur la p-value Si p-value Alors on rejette l'hypothse nulle 1 = L = p = 0 Interprtation On dit que la rgression est significative au niveau . Le modle retenu amliore la prvision de Y par rapport la simple moyenne des Y. Pour la rgresssion simple, ce test porte uniquement sur le paramtre 1 . Ce test fournit un moyen d'apprcier la rgression dans son ensemble, ce qui ne signifie pas que chacun des coefficients de la rgression soit significativement diffrent de 0. 1.4.2. Statistiques lies au paramtre 1

Pour s'assurer de la significativit du paramtre 1, on va dans une premire tape calculer la variance de b1, puis en deuxime tape tester l'hypothse nulle 1=0, en troisime tape on pourra alors dterminer un intervalle de confiance pour 1 autour de b1. Revue MODULAD, 2006 - 247Numro 35

Calcul de la variance de b1

On a vu que b1 est le rapport de la covariance entre X et Y divis par la variance de X: b1 = On dveloppe le numrateur b1 =

( X X)( Y Y ) ( X X)
i i 2 i

(X

X)Yi Y ( X i X)

(X

X) 2

Comme le 2ime terme du numrateur est nul, par dfinition de la moyenne ( Xi X) =0, il ne reste que le 1er terme.
b1 = (( X1 X)Y1 + L + ( X n X)Yn ) ( X i X) 2

On ne peut calculer la variance de b1 que si on fait des suppositions sur les Xi et sur les liaisons entre les Yi.
Suppositions pour calculer la variance de b1

Si les Xi sont non alatoires Si les Yi sont non corrls et de mme variance 2 Et comme par construction Cov( Y, b ) = 0 1 Alors : 2 2 Var (b1 ) = a1 Var ( Y1 ) + L + a n Var ( Yn ) avec
ai = ( X i X) assimils des constantes ( X i X) 2 2 ( X i X) 2

Ce qui permet d'aboutir : Var (b1 ) =

2 reprsente la variance inconnue de Y. Il faut de nouveau faire une supposition.


Supposition

Si le modle postul est le modle correct Alors 2 peut tre estim par les erreurs entre les Yi observs et Y
i

Revue MODULAD, 2006

- 248-

Numro 35

Mean Square Error= MSE = s 2 =

(Y Y )
i i

n2

n p 1 Compte tenu de toutes ces suppositions, l'estimateur de l'cart-type de b1 devient :

Note : Pour la rgression multiple : MSE = s

(Y Y ) =
i i

s(b1 ) =

(X

X) 2

Remarques: La variance de b1 est inversement proportionnelle la dispersion des Xi autour de la moyenne. Donc, si on veut amliorer la prcision de b1 il faut, si possible, augmenter la variance empirique des Xi. La variance de b1 est inversement proportionnelle (n-2), n tant la taille de l'chantillon. Donc, si on veut amliorer la prcision de b1 il faut augmenter la taille de l'chantillon. Test portant sur le paramtre 1

On s'intresse au test de l'hypothse nulle: H0 : paramtre 1= 0 contre Ha : paramtre 10 On calcule la statistique de test
Tobserv = b1 s(b1 )

Si 1=0 la statistique Tobserv suit une loi de Student, sous l'hypothse que les erreurs soient indpendantes et identiquement distribues selon la loi Normale.
Suppositions

Si 1 = 0 Si i N(0, 2 ) Alors T observ suit une loi de Student n-1 degrs de libert
Raisonnement On compare la p-value associe T observ, au risque choisi (par ex:=0.05). Si p-value Alors on rejette l'hypothse 1 = 0

Conclusion : 1 est significativement diffrent de zro au niveau

Revue MODULAD, 2006

- 249-

Numro 35

Calcul de l'intervalle de confiance de 1

On peut calculer un intervalle de confiance (IC de niveau 1-) autour de b1, ce qui permet de statuer sur le paramtre 1 : IC1 (1 )=[b1 t 1 / 2 s(b1 );b1 + t 1 / 2 s(b1 )] o t 1 / 2 reprsente le quantile d'ordre 1-/2 de la loi de Student (n-2) degrs de libert.
Note Dans SAS, la fonction de rpartition inverse pour une loi de Student est donne par la fonction TINV. T = TINV(1 / 2, n 2) Instruction SAS avec n= nombre d'observations

Dans le cas de la rgression multiple avec p=nombre de rgresseurs, la formule prcdente devient: T = TINV (1 / 2, n p 1) Instruction SAS

En pratique : si =5% et si n est assez grand (n>30), pour approcher la loi de Student par la loi Normale, Alors IC 0.95 (1 )=[b1 1.96 s(b1 );b1 + 1.96 s(b1 )]

Interprtation Si la valeur 0 est dans l'intervalle de confiance de 1, alors l'introduction de la variable X dans le modle n'apporte aucun pouvoir explicatif sur Y. 1.4.3. Statistiques lies au paramtre 0

La premire tape consiste calculer la variance de b0, puis en deuxime tape tester l'hypothse nulle 0=0, en troisime tape on pourra alors dterminer un intervalle de confiance pour 0.
Calcul de la variance de b0

On a vu que b0 vaut : b 0 = Y b1 X la variance vaut: Var (b 0 ) = Var ( Y b1 X)


Raisonnement pour calculer la variance de b0

Pour pouvoir calculer la variance il faut faire des suppositions sur les termes de cette expression. On suppose que les Xi sont non alatoires.

Revue MODULAD, 2006

- 250-

Numro 35

Seuls la moyenne des Yi et le coefficient b1 sont des variables alatoires. On peut montrer de plus que la covariance entre Y et le coefficient b1 est nulle7 .
Suppositions pour calculer la variance de b0

Si les Xi sont non alatoires Si les Yi sont non corrls et de mme variance 2 Et comme par construction Cov( Y, b ) = 0 1

Alors :
Var (b ) = Var ( Y ) + X 2 Var (b ) = 0 1 2 2 X 2 2 2 i = +X = 2 n ( X X)2 n ( Xi X) i 2 reprsente la variance inconnue de Y. Il faut de nouveau faire une supposition.
Supposition

Si le modle postul est le modle correct Alors 2 peut tre estim par les erreurs entre les Y observs et Y ( Yi Yi )2 = MSE 2 s = n2 L'estimateur de la variance de b0 devient :
s (b 0 ) =
2

n ( X i X) 2

s2 Xi

Remarque: La variance de b0 est proportionnelle la somme des carrs des Xi. Si le plan d'exprience est tel que les valeurs des Xi sont trs grandes, la variance de b0 sera trs grande, et l'estimation de b0 n'aura aucune signification. Test portant sur le paramtre 0

Test de l'hypothse nulle H0 : paramtre 0= 0 On calcule la statistique de test


Tobserv =

contre Ha : paramtre 00

b0 s(b 0 )

voir dmonstration dans NETER, WASSERMAN, KUTNER pp75-77.

Revue MODULAD, 2006

- 251-

Numro 35

Si 0=0 la statistique Tobserv suit une loi de Student n-2 degrs de libert, sous l'hypothse que les erreurs sont indpendantes et identiquement distribues selon la loi Normale.
Supposition

Si i N(0, 2 ) Alors T observ suit une loi de Student

Raisonnement On compare la p-value associe T observ, c'est--dire la probabilit de dpasser le T observ en valeur absolue, au risque choisi (par exemple =0.05).

Si p-value Alors on rejette l'hypothse 0 =0


Conclusion

0 est significativement diffrent de zro au niveau

Calcul de l'intervalle de confiance de 0

On peut assigner un intervalle de confiance autour de b0, ce qui permet de statuer sur le paramtre 0: IC1 ( 0 )=[b 0 t 1 / 2 s(b 0 );b 0 + t 1 / 2 s(b 0 )]

o t 1 / 2 reprsente le quantile d'ordre 1-/2 de la loi de Student n-2 degrs de libert.


Note Dans SAS, la fonction de rpartition inverse pour une loi de Student est donne par la fonction TINV. T = TINV(1 / 2, n 2) avec n= nombre d'observations Instruction SAS

Dans le cas de la rgression multiple avec p=nombre de rgresseurs, la formule prcdente devient: T = TINV(1 / 2, n p 1) Instruction SAS

En pratique si on choisit le risque =5% et si n est assez grand (n>30) pour approcher la loi de Student par la loi Normale, alors l'intervalle de confiance de 0 95% est donn par : IC 0.95 ( 0 )=[b 0 1.96 s(b 0 );b 0 + 1.96 s(b 0 )]

Revue MODULAD, 2006

- 252-

Numro 35

Interprtation Si la valeur 0 est dans l'intervalle de confiance de 0, alors la droite de rgression passe par l'origine. Exemple destimation des paramtres avec Proc REG

Sur lexemple de la Taille en fonction du Poids


Programme SAS

Proc REG data=libreg.tailpoid outest=TableSortie; title 'Rgression de la Taille en fonction du Poids '; model y=x ; proc Print;title "Table de l'option outest"; run;

Sortie de Proc REG

Interprtation du test de la signification globale de la rgression

La statistique

F=

MS model 280.529 = = 42.35 MS error 6.62

indique que globalement le modle avec le

rgresseur Poids amliore la prvision de la Taille, par rapport la moyenne seule dans le modle.

Revue MODULAD, 2006

- 253-

Numro 35

Interprtation des estimations des paramtres

Lestimateur de 0 a pour valeur 145.98994. Son cart type vaut 2.71384. La statistique de Test t value = 145.9894 = 53.79 et sa p value associe est bien 2.71384

infrieure au seuil 0.05. On rejette lhypothse que O = 0 avec une grande confiance. Mme raisonnement pour lestimateur de 1 qui a pour valeur 0.17030.
Note Dans le cas de la rgression simple la statistique de test de lestimateur de 1 et li F : F = ( t value ) 2

Dans la table en sortie par loption outest=, SAS enregistre RMSE et les valeurs des paramtres. SAS nimprime pas en standard les intervalles de confiance des paramtres mais on peut les rcuprer dans cette table en sortie, en utilisant loption outest= et le mot cl Tableout.
Programme SAS

Proc REG data=libreg.tailpoid outest=TableSortie Tableout; title 'Rgression de la Taille en fonction du Poids '; model y=x ; proc PRINT data=TableSortie; title "Table produite par l'option outest avec le mot cl Tableout"; run;

Les lignes L95B et U95B donnent les intervalles de confiance 95% des paramtres.
1.4.4. Prcision sur l'estimation de Y

On a vu que pour chaque valeur X i fixe, la vraie droite de rgression tait le lieu de l'esprance (i.e. la valeur moyenne) de Y et que les Y devaient thoriquement se distribuer selon une loi normale centre sur cette droite avec une variance thorique 2. Revue MODULAD, 2006 - 254Numro 35

Pour valuer la prcision sur l'estimation de Y on aura deux optiques considrer, soit on s'intressera l'intervalle de confiance autour de l'estimation de la droite de rgression, soit on sintresse l'intervalle de prvision de Y en fonction de X.
Intervalle de confiance autour de l'estimation de la droite de rgression

Soit Xk reprsentant un niveau particulier de X pour lequel nous voulons estimer la valeur moyenne de Y. Xk peut tre une valeur connue dans l'chantillon, ou une autre valeur de la variable rgresseur non repre dans l'chantillon. La rponse moyenne quand X=Xk est note E(Yk). L'estimateur de E(Yk) est not Yk . Il faut voir la distribution d'chantillonnage de Y , comme la distribution que l'on
k

obtiendrait si on effectuait des mesures rptes en Xk.


Calcul de l'erreur-type sur Yk On a vu que l'estimation de E(Yk) est donne par :

Yk = Y + b1 (X X k ) Plaons-nous en un point Xk et calculons la variance de Yk : Var (Yk ) = Var ( Y + b1 (X k X)) Pour pouvoir calculer la variance il faut faire des suppositions sur les termes de cette expression. Comme prcdemment on suppose que les Xi sont non alatoires. Seuls la moyenne des Yi et le coefficient b1 sont des variables alatoires. On peut montrer de plus que la covariance entre Y et le coefficient b1 est nulle 8 . Suppositions pour calculer la variance de Yk Si les Xi sont non alatoires Si les Yi sont non corrls et de mme variance 2 Et comme par construction Cov( Y, b ) = 0 1 Alors : Var ( Yk ) = Var ( Y ) + ( X k X) 2 Var (b1 ) =
= 2 + ( X k X) 2 n 2 ( X i X) 2

Comme prcdemment, on ne connat pas la variance thorique 2 de Y. Il faut l'estimer.

voir dmonstration dans NETER, WASSERMAN, KUTNER pp75-77.

Revue MODULAD, 2006

- 255-

Numro 35

Supposition

Si le modle postul est le modle correct Alors 2 peut tre estim par les erreurs entre les Y observs et Y ( Yi Yi )2 = MSE 2 s = n2 devient : s( Yk ) = s 1 + L'estimateur de l'erreur-type de Yk n Calcul de l'intervalle de confiance de Yk On montre que pour un modle de rgression la statistique ( X k X) 2 ( X i X)
2 1/ 2

Yk E( Y ) suit une s( Y )
k

distribution de Student (n-2) degrs de libert. La vraie valeur moyenne k de Y pour un Xk a une probabilit gale (1-) dappartenir l'intervalle de confiance : IC1 (E( Yk )) = Yk t 1 / 2 .s( Yk );Yk + t 1 / 2 .s( Yk )

L'intervalle de confiance de Yk se matrialise par deux lignes courbes, des hyperboles, comme le montre la figure 1.9.

Figure 1.9 Intervalle de confiance 95% de la moyenne des Tailles selon les valeurs des Poids

A propos de la largeur de l'intervalle de confiance, on peut faire les remarques suivantes :

Revue MODULAD, 2006

- 256-

Numro 35

La largeur varie en fonction de (X k X )

La largeur est minimum au point X k = X C'est dire que la prcision est la meilleure, au centre de gravit du nuage des points La largeur crot lorsqu'on s'loigne du centre de gravit. La prcision est la plus mauvaise aux extrmits du nuage de points.

Intervalle de prvision de Y sachant X

Ici on s'intresse la prvision d'une nouvelle observation individuelle de Y pour une valeur X k , de la variable X et non pas la valeur moyenne de Y. Dans ce cas, la variance de Y a deux composantes : 1. la variance de la position centrale de la distribution d'chantillonnage de Yk , cf. calcul ralis au paragraphe prcdent 2. la variance 2 de la distribution de Y autour de sa position centrale au point X = X k . Comme prcdemment, on estime 2 par s2. Pour une explication visuelle de cette dcomposition9 voir la figure 1.10.
limite de prvision Si E(Yk) est ici limite de prvision Si E(Yk) est ici

Yk

limite de confiance pour E(Yk)

Figure 1.10 Illustration de la prdiction d'une nouvelle observation individuelle de Y

L'estimateur de l'erreur-type de Y sachant X devient : 1 s 2 + s 2 ( Yk ) = s 2 1 + + n ( X i X) 2 ( X k X) 2

L'intervalle de confiance d'une prvision de Y sachant X se matrialise l aussi par deux lignes courbes dcales d'une distance "s" par rapport l'intervalle de confiance calcul pour la moyenne de Yk.
9

Source : NETER, WASSERMAN et KUTNER, p82.

Revue MODULAD, 2006

- 257-

Numro 35

Les remarques faites prcdemment sur l'estimation de la moyenne de Yk sont les mmes que celles faites pour une observation individuelle. A savoir, la largeur de l'intervalle de confiance varie en fonction de ( X k X) , c'est au centre de gravit du nuage de points que la prcision est la meilleure, et aux extrmits du nuage de points que cette prcision est la plus mauvaise.

Figure 1.11 Intervalle de confiance 95% des prvisions individuelles des Tailles

Sur la figure 1.11 on voit que lintervalle de confiance des prvisions individuelles est videmment plus grand que lintervalle de confiance des moyennes thoriques.
Attention En prvision et dans un cadre temporel, on cherche estimer aux extrmits de la plage de variation de X, or c'est justement l que la prcision est la moins bonne! Exemple avec les options CLI CLM de la Proc REG

Les options CLI (Confidence Limit Individual) et CLM (Confidence Limit Mean) de linstruction model de Proc REG donnent ces intervalles de confiance. Pour sauvegarder ces valeurs dans une table SAS il faut utiliser linstruction Output.
Programme SAS

Proc REG data=libreg.tailpoid ; title 'Rgression de la Taille en fonction du Poids '; model y=x /CLI CLM ; Output Out=Table2 Predicted=Pred residual=Residu LCL=Borne_Inf_ind UCL=Borne_Sup_Ind LCLM=Borne_Inf_Moy UCLM=Borne_Sup_Moy; proc PRINT data=Table2 ;title "Table produite par l'instruction OUTPUT"; run;

Revue MODULAD, 2006

- 258-

Numro 35

Sortie de PROC REG

Lecture :

Les options CLM CLI donne pour chaque observation, les valeurs : Dependant variable : Y Predicted Value : Y Std Error mean predict : erreur-type au point Xi 95% CL Mean : les 2 colonnes suivantes donnent les bornes infrieure et suprieure de lintervalle de prdiction 95% de la moyenne. 95% CL Predict : les 2 colonnes suivantes donnent les bornes infrieure et suprieure de lintervalle pour une prdiction individuelle. Residual : rsidu Linstruction Output avec les mots cls LCL UCL LCLM UCLM permettent de rcuprer ces statistiques dans une table SAS:

Revue MODULAD, 2006

- 259-

Numro 35

2. La rgression linaire multiple


Dans ce chapitre nous reprenons les concepts de la rgression linaire simple pour les formaliser et les tendre la rgression multiple. Nous prsentons les diffrentes formes de dcomposition de sommes de carrs (Sum of Squares) et commentons les rsultats obtenus avec la procdure REG.

2.1.

Le critre des moindres carrs

Tout comme en rgression linaire simple; la rgression linaire multiple cherche approximer une relation fonctionnelle trop complexe en gnral, par une fonction mathmatique simple telle qu'une quation de la forme: Y = 0 + 1 X1 + 2 X 2 + L + p X p + Reprenons le rsum des concepts de la rgression linaire prsent au chapitre 1. L'quation de rgression ou modle postul, met en relation: Y : variable rponse ( expliquer ou variable dpendante). Xj : variables rgresseurs (explicatives ou variables indpendantes). Cette quation est linaire par rapport aux paramtres (coefficients de rgression) O , 1 ,L, p . Le modle est dit linaire. Ces paramtres sont inconnus, on les estime en minimisant le critre des moindres carrs (MCO ou Ordinary Least Squares). Le critre des moindres carrs correspond la minimisation de la somme des carrs des carts (SC Erreur en franais, SS Error en anglais) entre Y observ et Y estim par l'quation de rgression. Y estim est not Y . Yi = b 0 + b1 X1i + ... + b p X pi avec: Y : variable rponse Xj : p variables rgresseurs, j=1,p i indice de l'observation courante, i=1,n n le nombre d'observations. Les valeurs qui minimisent ce critre sont des estimations b0,b1,....bp des paramtres O , 1,L, p inconnus.
Estimation des paramtres du modle
^

Dans le cas d'un modle p variables rgresseurs le critre des moindres carrs s'crit:

Revue MODULAD, 2006

- 260-

Numro 35

S( 0 ,... p ) = ( Yi Yi ) 2 = i2 = ( Yi 0 1 X1i ... p Xpi )


i =1 i=1 i=1

Les valeurs des qui minimisent ce critre seront les solutions b0, b1, bp du systme linaire de (p+1) quations (p+1) inconnues. S 11b 1 + S 12 b 2 + .... + S1p b p = S1y .... S p1b 1 + S p 2 b 2 + .... + S pp b p = S py Avec S kj = ( X ki X k )(X ji X j ) pour k,j=1,2,p
i=1,n

S ky = ( X ki X k )(Yi Y ) pour k=1,2,,p


i=1,n

Pour rsoudre un tel systme linaire les mathmaticiens ont dvelopp le calcul (algbre) matriciel qui permet une prsentation et des traitements compacts de grands tableaux de donnes. La notation matricielle est donc devenue l'unique moyen d'apprhender la rgression multiple. Cependant cette prsentation cache bien des difficults du point de vue des rsolutions numriques sur donnes relles. Les estimateurs des moindres carrs estiment les paramtres inconnus O , 1,L, p avec une certaine prcision. Sous les suppositions que les erreurs sont indpendantes et identiquement distribues selon une loi normale, les estimateurs MCO sont centrs sur une valeur laquelle est associ un intervalle de confiance. Lintervalle de confiance dpend de l'adquation du modle aux donnes, adquation qui dpend des erreurs inconnues i :
i = Yi E( Yi )

2.2.

Formalisation de la rgression linaire multiple

En notation matricielle :

Y est le vecteur colonne des n observations de la variable rponse X(n,p) la matrice des observations des p vecteurs Xi , chacun de dimension (n,1).

A cette matrice on ajoute en premire colonne un vecteur constitu uniquement de 1. Ce vecteur correspond la constante X0. La matrice X est alors de dimension (n,p+1). Cette reprsentation permet de traiter la constante X0 comme une variable explicative.

Revue MODULAD, 2006

- 261-

Numro 35

est le vecteur colonne des (p+1) coefficients de rgression ou paramtres inconnus i.

reprsente le vecteur des erreurs.


Y1 Y2 Y = Y3 L Yn
1 1 X= 1 L 1 X n1 X n2 L X np X11 X12 L X1p 0 1 = 2 L p

1 2 = 3 L n

le modle s'crit: Y = X + Y estim par le modle de rgression s'crit: Y = X = XB Le vecteur colonne (not aussi B) reprsente le vecteur des estimateurs bi des moindres carrs des paramtres inconnus . Les notations matricielles permettent d'crire simplement le systme rsoudre pour trouver les coefficients bi qui minimisent le critre des moindres carrs: ( X' X)B = ( X' Y ) X' dsignant la matrice transpose de X. Le vecteur B des coefficients solution s'obtient en inversant la matrice ( XX) : B = ( XX) 1.( XY ) La rsolution de ce systme n'est pas toujours possible. Cette rsolution est lie la possibilit d'inversion de la matrice ( XX) . Supposons que 2 variables Xi et Xj soient corrles entre elles c'est--dire qu'il existe une relation linaire permettant de passer de Xi Xj on a alors 2 lignes de la matrice ( XX) qui sont proportionnelles et lorsque l'on veut rsoudre le systme il ne reste plus que p quations indpendantes et toujours (p+1) inconnues trouver. Le systme est indtermin, il existe une infinit de solutions. Les variances des estimateurs (b) sont les lments diagonaux de la matrice de variance-covariance des X inverse multiplis par la variance des erreurs 2 . 2 (b) = 2 ( XX) 1 Comme pour la rgression simple 2 est estim par MSE = Revue MODULAD, 2006 - 262SS error n p 1 Numro 35

Les variances des estimateurs dpendent des lments diagonaux de la matrice inverser. Si des rgresseurs sont corrls, les variances des estimateurs des paramtres sont leves, et les estimations sont instables (non robustes). Un exemple de cette instabilit sera donn au chapitre 4.
La matrice H A partir de l'expression du vecteur B des estimateurs des coefficients on peut calculer l'estimation de Y:

Y = XB Y = X ( X X ) 1 X Y Y = HY avec H = X ( X X ) 1 X

Cette matrice H - H comme Hat matrice- qui ne comporte que des donnes relatives aux variables rgresseurs va jouer un rle important, et son usage sera dvelopp chapitre 4.

2.3.

Exemples de rgression linaire multiple avec Proc REG

2.3.1. Prsentation des donnes

Pour prsenter la rgression multiple avec quelques options de Proc REG, nous avons repris lexemple de la chenille processionnaire du pin trait dans louvrage de TOMASSONE & al. Cet exemple est frquemment analys dans la littrature franaise (voir FOUCART, AZAIS-BARBET). On pourra ainsi, avec leurs ouvrages, poursuivre des analyses plus complexes de ces donnes. Le fichier de donnes est compos de 33 placettes o sont plants des arbres infects par des nids de chenille procesionnaire du pin , une variable rponse (X11 et sa transforme en Log et dix variables rgresseurs potentiels (X1-X10). Les exprimentateurs souhaitent connatre linfluence de certaines caractristiques de peuplements forestiers (variables rgresseurs X1-X10) sur le dveloppement de la chenille processionnaire du pin (variable rponse X11 ou son logarithme ) . X11 : Nombre de nids de processionnaires par arbre dune placette. Log = Log(X11), transformation de la variable X11 par son logarithme X1 : Altitude (en mtre) X2 : pente (en degr) X3 : nombre de pins dans une placette de 5 ares X4 : hauteur de larbre chantillonn au centre de la placette X5 : diamtre de cet arbre

Revue MODULAD, 2006

- 263-

Numro 35

X6 : note de densit de peuplement X7 : orientation de la placette (1 orientation vers le sud, 2 autre) X8 : Hauteur (en m) des arbres dominants X9 : nombre de strates de vgtation X10 : mlange du peuplement (1 pas mlang, 0 mlang)
Donnes de base

2.3.2. Rgression linaire multiple avec Proc REG sans options Nous tudions le modle linaire de la variable Log en fonction des 4 rgresseurs X1, X2, X4, X5.

Etape 1 : Graphique de la matrice de diagrammes de dispersion (Scatter Plot avec SAS/INSIGHT) Etape 2 : Analyse des corrlations entre les variables Etape 3 : Rgression multiple Nous utilisons SAS/INSIGHT qui est beaucoup plus efficace pour obtenir des graphiques exploratoires, (voir en annexe 2 le mode demploi succinct de SAS/INSIGHT).
Programme SAS /* tape 2 */ proc CORR data=libreg.chenilles; X4 X5 avec Log'; var X1 X2 X4 X5 Log; run;

title 'Corrlation de

X1 X2

Revue MODULAD, 2006

- 264-

Numro 35

/*tape 3 */ proc REG data=libreg.chenilles; title 'Rgression de LOG avec X1 X2 X4 X5 sans options'; model Log=X1 X2 X4 X5; run;

Figure 2.1: Matrice des diagrammes de dispersion des variables croises 2*2. Sur la diagonale sont affiches les valeurs min et max pour chaque variable.

Sortie SAS de PROC CORR

Le graphique des diagrammes de dispersion de la figure 2.1, donne une image des liaisons entre toutes les variables X1, X2, X4, X5, Log. On voit dun coup dil que les variables X4 et X5 sont trs lies. Le coefficient de corrlation vaut 0.90466. Dautre part la variable rponse Log est lie ngativement tous les rgresseurs.

Revue MODULAD, 2006

- 265-

Numro 35

La matrice de Scatter Plot est un complment utile lanalyse de la matrice des coefficients de corrlation. Elle permet aussi de reprer les points atypiques (outliers) en X et en Y.
Sortie SAS de PROC REG sans options

Cette sortie est analogue celle de la rgression simple, on retrouve les mmes informations explicites au chapitre1.
Lecture du test global dans le tableau de lAnalyse de Variance F value = 12.83 avec p value <0.001 rejet de H0 tous les paramtres ne sont pas tous nuls

R2 = 0.6471

64% de la variabilit de Y est explique par le modle.

Lecture des paramtres


Intercept Coefficient de X1 Coefficient de X2 Coefficient de X4 Coefficient de X5

b0 = 7.73214 b1=-0.00392 b2=-0.05734 b4= -1.35614 b5= 0.28306

s(b0)=1.48858 s(b1)=0.00115 s(b2)=0.01939 s(b4)=0.31983 s(b5)=0.07626

Toutes les p-value associes aux estimateurs des paramtres sont <0.05, on rejette lhypothse de nullit pour chacun des coefficients de la rgression. Cependant le coefficient de X5 est positif alors que la corrlation (X5, Log) est ngative. Peut-on alors parler dun effet positif de cette variable X5 sur la variable rponse Log ? La corrlation entre X4 et X5 provoque une instabilit des valeurs des coefficients.

Revue MODULAD, 2006

- 266-

Numro 35

2.4.

TYPE I SS et TYPE II SS de Proc REG

Nous verrons dabord la dfinition des statistiques Type I SS et Type II SS relatif un paramtre puis les tests partiels relatifs plusieurs paramtres.
2.4.1. Dfinition de TYPE I SS et TYPE II SS

Reprenons l'quation fondamentale de l'analyse de la variance :


SS Total = SS Model + SS Error SS total qui reprsente la somme des carrs des carts entre Y et sa moyenne est invariant quel que soit le nombre de variables rgresseurs p dans le modle. Lorsqu'on introduit une nouvelle variable rgresseur dans un modle SS Model augmente et donc SS Error diminue de la mme quantit. Pour juger de la contribution d'une variable rgresseur la rduction de SS Error, la Proc REG calcule pour chaque variable du modle, deux sortes de SS Error. TYPE I SS : reprsente la rduction de SS Error lie la variable lorsqu'elle est introduite squentiellement dans le modle. TYPE II SS : reprsente la rduction de SS Error lie la variable lorsqu'elle est introduite la dernire dans le modle. TYPE I SS Soit le modle complet dfinit avec les p rgresseurs de l'instruction MODEL de Proc REG :

IC 0.95 ( i )=[b i 1.96 s(b i );b i + 1.96 s(b i )] Soit d'autre part le modle restreint aux k premiers rgresseurs : Y = 0 + 1 X 1 + 2 X 2 + L + k X k + Pour la "k"me variable, TYPE I SS correspond la diffrence entre SSerror du modle (k-1) rgresseurs et SSerror du modle k rgresseurs.
Attention : Le TYPE I SS d'une variable dpend de l'ordre de la variable dans l'instruction MODEL de Proc REG.

A TYPE I SS peut tre associe une statistique de test, la F Value ou F de FisherSnedecor, et sa p-value, niveau de significativit du test. Le calcul de la F value et de sa p value associe n'est pas ralis dans Proc REG10.
F VALUE : statistique de Fisher-Snedecor TYPE I SS Cette statistique de test vaut : F VALUE = MS Error

10

La statistique de Fisher-Snedecor F value et son niveau de significativit p-value pour Type I SS et TYPE II SS sont disponibles dans Proc GLM et dans SAS/INSIGHT.

Revue MODULAD, 2006

- 267-

Numro 35

Le numrateur TYPE I SS correspond la rduction de SS error lorsque l'on passe du modle (k-1) rgresseurs -la variable tudie tant exclue- au modle k rgresseurs. Le dnominateur MS Error correspond au modle complet p rgresseurs . La statistique de test F value ainsi dfinie permet de tester l'hypothse nulle de la kime variable.
Hypothse tester On veut tester si le paramtre k = 0 . H0 : k = 0 contre Ha : k 0

La statistique de test F value est sous H0 une valeur observe d'une variable F de Fisher-Snedecor 1 et (n-p-1) degrs de libert. L'hypothse nulle doit tre rejete au niveau lorsque : Fobserv F1 (1, n p 1) o F1 (1,n p 1) reprsente le quantile d'ordre ( 1 ) de la loi de Fisher-Snedecor (1) et (n-p-1) degrs de libert.
Rgle de dcision

Si Fvalue F1 (1, n p 1) Alors H0: k = 0 doit tre rejet au niveau


Raisonnement Au seuil % la valeur maximum atteinte par F sous l'hypothse nulle H0 : k = 0 est F1 (1, n p 1) , si donc F value est suprieure on rejette l'hypothse nulle. La variable contribue significativement la rduction de SS Error, lorsqu'elle est entre en dernier dans le modle k rgresseurs. Prob > F C'est la p-value associe F value. On compare la p-value, au risque choisi (par exemple =0.05). Raisonnement sur la p-value

Si p-value Alors on rejette l'hypothse nulle k = 0


Interprtation : Si la probabilit (Prob>F) est faible (<0.05) la variable contribue significativement la rduction de SS Error dans le modle k rgresseurs. TYPE II SS Soit le modle complet dfinit avec p rgresseurs dans l'instruction MODEL de Proc REG :

Revue MODULAD, 2006

- 268-

Numro 35

IC 0.95 ( i )=[b i 1.96 s(b i );b i + 1.96 s(b i )] Pour la kime variable, TYPE II SS correspond la diffrence entre SSerror du modle (p-1) rgresseurs (le kime rgresseur tant exclu) et SSerror du modle complet p rgresseurs. A TYPE II SS peut tre associe une statistique de test, la F value ou F de FisherSnedecor, et sa p-value, niveau de significativit du test.
Remarque : Par construction TYPE I SS et TYPE II SS de la dernire variable du modle ont la mme valeur.

Le calcul de la F value et de sa p value associe n'est pas ralis dans Proc REG, il faut faire le calcul la main, ou utiliser l'option de Proc REG, SELECTION= FORWARD ou BACKWARD qui donne les F value de TYPE II chaque pas .
F VALUE : statistique de Fisher-Snedecor TYPE II SS Cette statistique de test vaut : F VALUE = MS Error

Le numrateur TYPE II SS correspond la rduction de SS error lorsque l'on passe du modle (p-1) rgresseurs le rgresseur tudi tant exclu- au modle complet p rgresseurs. Le dnominateur MS Error correspond au modle complet, avec les p rgresseurs . La statistique de test F value ainsi dfinie permet de tester l'hypothse nulle du "k"me rgresseur, lorsquil entre en dernier dans le modle. Cest un F dit partiel.
Hypothse tester On veut tester si le paramtre k = 0 . H0 : k = 0 contre Ha : k 0

La statistique de test F value est sous H0 une valeur observe d'une variable F de Fisher-Snedecor 1 et (n-p-1) degrs de libert. L'hypothse nulle doit tre rejete au niveau lorsque : Fobserv F1 (1, n p 1) o F1 (1, n p 1) reprsente le quantile d'ordre ( 1 ) de la loi de Fisher-Snedecor (1) et (n-p-1) degrs de libert.
Rgle de dcision

Si Fvalue F1 (1, n p 1) Alors H0 : k = 0 doit tre rejete au niveau

Revue MODULAD, 2006

- 269-

Numro 35

Raisonnement Au seuil % la valeur maximum atteinte par F sous l'hypothse nulle H0 : k = 0 est F1 (1, n p 1) , si donc F value est suprieure on rejette l'hypothse nulle. Le rgresseur contribue significativement la rduction de SS Error, lorsqu'il est entr en dernier dans le modle. Remarque : F value = T2, avec T reprsentant la valeur du test de Student associ au paramtre.

Prob > F C'est la p-value associe F value. On compare la p-value, au risque choisi (par ex : =0.05). Raisonnement sur la p-value

Si p-value Alors on rejette l'hypothse nulle k = 0


Interprtation : Si la probabilit (Prob>F) est faible, le rgresseur contribue significativement la rduction de SS Error, mme lorsqu'il est entr en dernier dans le modle complet p rgressseurs. 2.4.2. Interprtations conjointes de TYPE I SS et TYPE II SS

Lorsque le modle ne comporte qu'une seule variable rgresseur : TYPE I SS = TYPE II SS = SS modle Lorsque le modle comporte plus d'une variable rgresseur : le TYPE I SS (li au F squentiel) dpend de lordre dapparition des variables rgresseurs dans linstruction MODEL, tandis que TYPE II SS (li au F partiel) n'en dpend pas. Si pour un rgresseur Xi, le F squentiel et le F partiel sont plus grands que ceux des autres rgresseurs, alors Xi a une contribution plus grande puisqu'il rduit plus la variation de SS Error, que la variable soit entre en squence dans le modle ou en dernier. Si pour un rgresseur Xi, le F squentiel est significatif et le F partiel ne lest plus cest quil y a des colinarits entre les rgresseurs. Linformation apporte par ce rgresseur est redondante par rapport linformation apporte par les prcdents rgresseurs dj introduits dans le modle.
2.4.3. Options SS1 et SS2 de linstruction model de Proc REG

Les options SS1 et SS2 de linstruction model de PROC REG permettent dobtenir les statistiques Type I SS et Type II SS.

Revue MODULAD, 2006

- 270-

Numro 35

Programme SAS

proc REG data=libreg.chenilles; title 'Rgression de Log avec X1 X2 X4 X5 avec Options SS1 SS2 '; model Log=X1 X2 X4 X5/ SS1 SS2; run;

Sortie de Proc REG de SAS

Lecture Exemple pour X1 : Type I SS = 14.12216 est la rduction de SS error lorsque la variable X1 est entre la premire dans le modle (elle est alors la seule variable rgresseur). Type II SS =7.30671 est la rduction de SS error lorsque la variable X1 est entre la dernire dans le modle.

Pour tester si cette rduction est significative il faut faire le calcul la main, car dans cette sortie, Proc REG ne fournit pas les F value et les proba associes pour TYPE I SS et TYPE II SS :
F value = TYPE I SS 14.1222 = = 22.59 MS Error 0.62512 TYPE II SS 7.30671 = = 11.69 MS Error 0.62512

F value =

On peut vrifier ces F value avec les sorties de SAS/INSIGHT.

Revue MODULAD, 2006

- 271-

Numro 35

Sortie avec SAS Insight

Note : SAS/ INSIGHT nomme TYPE III tests ce quon a appel TYPE II SS dans la Proc REG

On retrouve bien les calculs faits la main (cf. F Stat =22.59 pour la F value de Type I SS et F Stat=11.69 pour la F value de Type II SS). La variable X4 a un comportement bizarre, lorsquelle est entre en 3me rang dans le modle elle est limite au niveau significativit (pvalue =0.0490), alors que son apport est trs significatif lorsquelle est entre la dernire (p value =0.0002)
La liaison entre X4 et X5 nous joue des tours ! 2.4.4. Tester la nullit de r paramtres pour tester un sous modle

Ce type d'analyse est d'usage courant en Economtrie. L'ide est de mettre l'preuve une approche thorique par une validation empirique. L'intrt porte non sur l'estimation des paramtres mais sur la spcification du modle. Par spcification on entend la recherche des variables-rgresseurs intervenant dans la dtermination de la variable expliquer Y. On veut tester la nullit de r (indices k q) paramtres parmi les p, c'est dire l'hypothse nulle H0 : k = L = q = 0 contre Ha : il y a parmi les k L q des coefficients non gaux 0) (not all k L q equal to
0).

Le modle sans les r variables est appel le modle restreint par opposition au modle complet p variables. Ici aussi on raisonne sur les rductions de SS error. On note : RRSS (Restricted Residual Sum of Squares) = Somme des carrs des rsidus du modle restreint URSS (Unrestricted Residual Sum of Squares)=Somme des carrs des rsidus du modle complet. Revue MODULAD, 2006 - 272Numro 35

L'hypothse est teste en valuant la statistique F dite partielle11 F= (RRSS URSS) / r (RRSS URSS) / r = URSS /(n p 1) MSE

La statistique de test F est sous H0 une valeur observe d'une variable F de FisherSnedecor r et (n-p-1) degrs de libert. L'hypothse nulle doit tre rejete au niveau lorsque : Fobserv F1 (r, n p 1) o F1 ( r , n p 1) reprsente le quantile d'ordre (1 ) de la loi de Fisher-Snedecor (r) et (n-p-1) degrs de libert.
Rgle de dcision

Si Fvalue F1 (r, n p 1) Alors H0 : k = L = q = 0 doit tre rejete au niveau L'instruction TEST de la Proc REG ralise ces tests en fournissant la statistique de Fisher-Snedecor F value et son niveau de significativit p-value associ, not Prob>F.
2.4.5. Exemple de test partiel avec PROC REG

On veut tester si les 2 coefficients de X4 et X5 sont nuls. H0 : 4 = 5 = 0


Programme SAS proc REG data=libreg.chenilles; title "Test de l'Hypothse nulle X4=0 et X5=0"; model Log=X1 X2 X4 X5; test X4=0, X5=0;

instruction SAS

test X4=0, X5=0;

Pour le modle restreint (sans X4 et X5) on a :

La statistique de test F ainsi calcule est appele F partiel quand elle ne porte que sur un sous-ensemble de paramtres, pour la distinguer de la statistique F, qui porte sur l'ensemble des paramtres du modle complet.

11

Revue MODULAD, 2006

- 273-

Numro 35

RRSS = 28.76434

Pour le modle complet :

URSS = 17.50338

avec DF=(n-p-1)=28

d'o F= (RRSS URSS) / r (RRSS URSS) / r (28.76434 17.50338 ) / 2 5.63048 = = = = 9.01 URSS /(n p 1) MSE 17.80338 / 28 0.62512

Sortie SAS pour le test partiel

On trouve bien la valeur F Value = 9.01 avec un niveau de significativit Prob >F de 0.0010.
Conclusion Le niveau de significativit (0.0010) tant bien infrieur 0.05, on rejette l'hypothse nulle H0 : 4 = 5 = 0 Il existe au moins un effet de X4 et/ou de X5 sachant X1 et X2 introduit dans le modle.

Revue MODULAD, 2006

- 274-

Numro 35

2.5.

Ce qu'il faut retenir des 'SS'

Dcomposition des SS : Sum of Squares

SS error SS Total

SS model

Lorsqu'on introduit une nouvelle variable dans un modle :


SS model augmente de la mme quantit que SS error dcrot

Donc le coefficient de dtermination R-square augmente toujours. Cependant on n'amliore pas ncessairement la prcision de l'estimation de Y. SS Error peut crotre donc En effet SS Error dcrot mais s 2 = MSError = n p 1 augmenter la largeur de l'intervalle de confiance de Y estim qui est proportionnel MSE. A la limite si le nombre de variables p + 1 (le 1 correspond la variable constante X0) est gal au nombre d'observations (n), l'quation de rgression passera exactement par tous les points du nuage, l'ajustement sera parfait. Dans ce cas SS Error vaut 0, et le coefficient de dtermination R2 vaut 1. Ce n'est plus de la statistique mais de la rsolution d'quations ! Dautre part les colinarits entre les rgresseurs rendent les rsultats instables. En augmentant le nombre de rgresseurs on augmente les risques de colinarits. Le chapitre 4 traitera de ce problme.
Modles "parcimonieux" Par sagesse, les statisticiens parlent de modles parcimonieux , pour signifier qu'un modle doit comporter un nombre limit de variables par rapport au nombre d'observations, si on veut que le modle ait une porte prvisionnelle et/ou explicative.

Revue MODULAD, 2006

- 275-

Numro 35

2.6.

Les rsidus

En un point d'observation i, l'cart entre Y observ et Y estim par le modle est le rsidu au point i:
e i = Yi Yi

Ces rsidus e i sont vus comme les erreurs observes des vraies erreurs inconnues i :
i = Yi E( Yi )

Nous avons vu que les suppositions faites sur les i pour laborer les tests statistiques se rsument ainsi les erreurs doivent tre indpendantes et identiquement distribues selon une loi normale . Si le modle est appropri aux donnes, les rsidus observs e i doivent reflter les proprits des vraies erreurs inconnues i. C'est donc par le biais de l'analyse des rsidus que l'on cherchera valider le modle de rgression postul. Pour cela on effectuera diffrents graphiques des rsidus en fonction de: Y la variable rponse Y estim ( Y ) Xi les variables rgresseurs la variable temporelle, si l'analyse statistique porte sur des sries chronologiques etc. De mme on tudiera la normalit des rsidus, leur indpendance. En effet, les rsidus contiennent d'une part un ala desprance nulle et de variance 2, et d'autre part une information concernant l'inadquation du modle aux donnes (c'est--dire l'cart entre le modle postul et le modle correct inconnu). Ce que l'on veut c'est que l'importance de cette deuxime partie soit moindre que celle due l'ala. Pour cela on devra rechercher si dans les rsidus il n'existe pas une structure organise ou un contenu informationnel qui prouverait que le modle postul se diffrencie significativement du modle correct. Tous les tests sont faits en supposant que le modle postul est le modle correct, si donc l'analyse des rsidus prouve l'inadquation du modle postul, les tests ne sont plus valables, ou sont biaiss. Des orientations pour l'analyse critique des rsidus seront donnes dans le chapitre 4.

Revue MODULAD, 2006

- 276-

Numro 35

Conclusion

Au cours des chapitres 1 et 2 nous avons prsent la majeure partie des concepts thoriques ncessaires la comprhension d'un modle de rgression. Les dmonstrations ont t limites l'essentiel. Le lecteur se reportera la bibliographie pour avoir plus de prcision et de rigueur mathmatique. Louvrage de TOMASSONE & al., en particulier, est vivement conseill. Dans le chapitre 3, nous analyserons partir d'exemples de la littrature, les difficults de la rgression linaire lorsquon tudie des donnes relles, qui prennent un malin plaisir ne pas se comporter comme la thorie le suppose. Pour aider aux diagnostics, de nombreuses options sont disponibles dans la procdure REG, ce que nous verrons au chapitre 4.

Revue MODULAD, 2006

- 277-

Numro 35

3. Quand les rsultats d'une rgression ne sont pas forcment pertinents


Dans ce chapitre nous montrons sur quelques exemples les difficults rencontres dans lapplication de la rgression linaire simple et la rgression linaire multiple sur donnes relles ou simules, lorsque les suppositions ne sont pas vrifies. Nous prsentons quelques aides trs utiles. Ce nest quun petit survol de la littrature sur le sujet de la robustesse qui ncessite lui seul plusieurs ouvrages. Ce chapitre a pour objectif de vous sensibiliser limportance des diagnostics proposs dans Proc REG, qui seront vus au chapitre 4. La majorit des rsultats dune rgression sont prsents avec les sorties de SAS/INSIGHT, pour montrer lapport de linteractivit, et limportance des graphiques dans la comprhension des analyses.

3.1.

Exemples en rgression simple

3.1.1. Une mme valeur pour des situations diffrentes

Cet exemple est deTOMASSONE & al. (1986). Ds 1973 ANSCOMBE, neveu et collaborateur de J.W TUKEY (1977) avait propos un exemple similaire dans Graphs in Statistical Analysis . Soient les 5 couples de 16 observations (X,Ya),(X,Yb),(X,Yc),(X,Yd),(Xe,Ye) sur lesquels on effectue 5 rgressions linaires simples.
OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X 7 8 9 10 12 13 14 14 15 17 18 19 19 20 21 23 Ya 5,535 9,942 4,249 8,656 10,737 15,144 13,939 9,450 7,124 13,693 18,100 11,285 21,365 15,692 18,977 17,690 Yb 0,113 3,770 7,426 8,792 12,688 12,889 14,253 16,545 15,620 17,206 16,281 17,647 14,211 15,577 14,652 13,947 Yc 7,399 8,546 8,468 9,616 10,685 10,607 10,529 11,754 11,676 12,745 13,893 12,590 15,040 13,737 14,884 29,431 Yd 3,864 4,942 7,504 8,581 12,221 8,842 9,919 15,860 13,967 19,092 17,198 12,334 19,761 16,382 18,945 12,187 Xe 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 13,715 33,281 Ye 5,654 7,072 8,491 9,909 9,909 9,909 11,327 11,327 12,746 12,746 12,746 14,164 15,582 15,582 17,001 27,435

Revue MODULAD, 2006

- 278-

Numro 35

Les estimations des Y sont les suivantes :


OBS Ya_est Yb_est 1 6,18 6,18 2 6,99 6,99 3 7,80 7,80 4 8,61 8,61 5 10,22 10,23 6 11,03 11,03 7 11,84 11,84 8 11,84 11,84 9 12,65 12,65 10 14,27 14,27 11 15,07 15,08 12 15,88 15,89 13 15,88 15,89 14 16,69 16,69 15 17,50 17,50 16 19,12 19,12 Yc_est 6,18 6,99 7,80 8,61 10,22 11,03 11,84 11,84 12,65 14,27 15,08 15,89 15,89 16,69 17,50 19,12 Yd_est Ye_est 6,18 11,61 6,99 11,61 7,80 11,61 8,61 11,61 10,22 11,61 11,03 11,61 11,84 11,61 11,84 11,61 12,65 11,61 14,27 11,61 15,08 11,61 15,89 11,61 15,89 11,61 16,69 11,61 17,50 11,61 19,12 27,43

Les ajustements par les 5 droites de rgressions sont donns figure 3.1 ; ils sont identiques, mmes estimations, mmes statistiques pour R=0.617, mmes coefficients b0=0.520, b1=0.809, mmes erreurs-types sur les coefficients, et pourtant les situations sont bien diffrentes.
Analyse des rsultats

Sur le 1er graphique on peut voir que le modle semble bien adapt. Sur le 2ime graphique le modle linaire est inadapt, un modle quadratique de la forme Y = X 2 serait prfrable. Sur le 3ime graphique un point est suspect et entrane la droite de rgression vers le haut. Sur le 4ime graphique la variance des erreurs varie. Il y a un phnomne d'htroscdasticit (variance de Y sachant X non constante). Sur le 5ime graphique le plan exprimental dfini par les valeurs de Xe est particulirement mauvais. Un seul point extrme dtermine la droite. Que se passe-t-il entre X=13.715 et X=34.281 ? La liaison est-elle linaire ?

Un simple diagramme cartsien (Scatter plot) permet dans chacun des 5 cas de vrifier si les suppositions de la rgression linaire sont respectes, et de porter un diagnostic.

Revue MODULAD, 2006

- 279-

Numro 35

Figure 3.1 : 5 droites de rgression

3.1.2. Pondrations et rgression linaire par morceaux

Cet exemple inspir de J.P. BENZECRI & F.BENZECRI (1989), Calculs de corrlation entre variables et juxtaposition de tableaux , est totalement artificiel. Revue MODULAD, 2006 - 280Numro 35

L'objectif de cet exemple est double : montrer d'une part l'effet d'une pondration des observations sur les rsultats d'une analyse de rgression et d'autre part de sensibiliser par des graphiques, l'usage abusif de la rgression lorsque l'hypothse de linarit sur tout l'intervalle n'est pas valide.
Tableau des donnes 101 observations (variables X et Y) sont gnres par programme de la manire suivante : X varie de -50 +50 avec un pas de 1 et chaque pas Y est calcul selon les formules linaires suivantes :
Si X < -10 alors Y = X + 20 Si - 10 X < 11 alors Y = - X Si X 11 alors Y = X 20

X est la variable rgresseur, Y est la variable rponse. X et Y sont donc rigoureusement lies par une fonction linaire par morceaux. Les 3 parties ont des pentes (paramtre 1 ) respectives de +1 pour les 40 premires observations, -1 pour les observations 41 61, et +1 pour les observations 62 101. On effectue une premire rgression sans pondration, sur toutes les observations (figure 3.2), puis deux rgressions pondres, en pondrant par 100 les observations de la partie centrale, les autres observations ayant une pondration de 1, puis une 3ime rgression avec une pondration par 1000. On utilise l'instruction "Weight "de la Proc Reg.
Programme SAS de gnration des observations et analyse de rgression Lappel de Proc REG se fait par une macro. data ligne ; do x=-50 to 50; p1=1 ; p100=1; pmil=1; if x <-10 then y=x+20; else if x < 11 then do; y=-x ; p100=100; pmil =1000; end; else y=x-20; output; end; %macro reg(poids=); proc reg data=ligne; model y=x ; %if &poids ^= %then weight &poids ; %str(;); title " Avec ponderation &poids"; %mend; %reg(poids=p1) %reg(poids=p100) %reg(poids=p1000) quit;

Revue MODULAD, 2006

- 281-

Numro 35

a) Observations (X,Y) gnres sans ala

b) Rgression sans pondration

c) Rgression avec pondration de 100

d) Rgression avec pondration de 1000

Figure 3.2 Droite de rgression selon les pondrations utilises (1, 100 , 1000)

Analyse des rsultats En pondrant de 3 faons diffrentes la partie centrale on obtient des F value, des coefficients de dtermination, des estimations de 1 droite de rgression- totalement diffrents et cependant toujours significatif (cf. Tableau 3.1) Tableau 3.1 P value R2 estimation de 1

Pondration sans pondration par 100 par 1000

F value

T Student

261.433 11.740 389.810

<0.0001 <0.0009 <0.0001

0.7253 0.1060 0.7985

0.0255 -0.2512 -0.8580

16.169 -3.427 -19.744

En fonction de la pondration, la droite de rgression tourne jusqu' s'adapter la pente de la partie centrale, comme on le voit dans les figures 3.2 (b, c, d). Si la modlisation devient correcte pour la partie centrale, il n'en va pas de mme pour les deux autres parties. Si, par contre on ralise 3 tudes spares sur les 3 intervalles o l'hypothse de linarit entre X et Y est exacte, on obtient des coefficients de dtermination R=1 (corrlation parfaite) et des droites de rgression totalement adaptes aux donnes (SS Error=0). Lexemple met en lumire les questions que l'on doit se poser avant d'effectuer une rgression : lhypothse de linarit est elle plausible sur tout lintervalle ?. Revue MODULAD, 2006 - 282Numro 35

Thorie de la rgression pondre L'instruction Weight de Proc REG L'instruction Weight de Proc REG, minimise la somme des carrs rsiduels pondrs : w i ( Yi Yi )2
i

w i : valeur de la variable spcifie dans l'instruction Weight, Yi : valeur observe de la variable expliquer, Y : valeur prdite pour l'observation i.
i

Les quations normales utilises sont dans ce cas : = ( XWX ) 1 ( XWY ) W : matrice diagonale constitue des poids.
Quand utiliser l'instruction Weight ? Lorsque l'hypothse de variance constante des erreurs n'est pas vrifie (htroscdasticit des erreurs), la littrature statistique propose d'utiliser la rgression pondre en prenant comme pondration l'inverse des variances thoriques i2 .

1 i2 En gnral les variances thoriques des erreurs ne sont pas connues, elles sont estimes. wi =
Conclusion

Lartifice de pondration des donnes doit tre utilis avec discernement. En particulier il faut au pralable contrler si les observations sont homognes, c'est-dire si dventuels groupes aux comportements diffrents peuvent tre diffrencis. Une approche par analyse de donnes ou analyse exploratoire des donnes peut savrer ncessaire. On utilisera avec profit des marqueurs de couleurs (SAS/INSIGHT et sa bote outils Tools) pour reprer si une variable de groupe ne fait pas apparatre des mlanges de populations. Il existe des mthodes robustes pour pondrer les observations mais elles sortent du cadre de cet ouvrage. La lecture de louvrage de ROUSSEEUW et al. (2003) est fortement recommande.
3.1.3. Transformation des donnes

Lorsque sur un graphique, la liaison entre X et Y napparat pas linaire, on peut essayer de transformer les donnes, pour tenter de linariser la liaison.

Revue MODULAD, 2006

- 283-

Numro 35

Exemple : Liaison entre Produit National Brut et taux durbanisation La table SAS Paysniv3 porte sur 173 pays des 5 continents (figure 3.3).

Figure 3.3 Effectifs par Continent

Sur la Figure 3.4 a, sont reprsentes la variable PNB, Produit national brut en fonction du taux durbanisation URBA, et la droite de rgression, pour 173 pays. Bien que les rsultats statistiques soient significatifs (R2=0.4358, F=122.06, p value <0.0001, T de Student = 11,05, p value <0.0001) cette analyse nest pas satisfaisante. La supposition de liaison linaire nest pas vrifie, confirm par le graphique des rsidus (figure 3.3 b). La variance des erreurs nest pas constante, elle augmente en fonction de URBA. Il y a un effet dentonnoir caractristique de lhtroscdasticit des erreurs.

a) rgression linaire PNB en fonction de URBA

b) graphique des rsidus R_PNB en fonction de URBA

Figure 3.4

Les couleurs des points observations correspondent aux couleurs des continents de la Figure 3.3. On peut noter grce aux couleurs que lAfrique (point rouge) se diffrencie totalement de lEurope (point bleu), on a faire des mlanges de population. Cependant pour notre dmonstration sur les transformations on passera sous silence cette remarque. Pour dilater les valeurs faibles et en mme temps compresser les valeurs leves du PNB on transforme la variable en son logarithme. Revue MODULAD, 2006 - 284Numro 35

En SAS/INSIGHT il suffit de cliquer sur le nom de la variable PNB sur le graphique et Edit # Variables # Log, la transformation de la variable de demander par le menu PNB en son logarithme Log (L_PNB). Tous les affichages sont modifis (figures 3.5 a et b).

a) Avant transformation

b) Aprs transformation par le logarithme

Figure 3.5 Liaison entre le taux durbanisation et le Produit National Brut

La transformation a eu un double effet (figure 3.5). Dune part elle a symtris la distribution du PNB, visible sur les Box-plots, et dautre part elle a linaris la liaison entre Log(PNB) et URBA Les indicateurs statistiques de la rgression sont nettement amliors. (R2=0.6468, F=289.39, pvalue<0.0001, T de Student = 34,05, pvalue <0.0001).

a) rgression Log(PNB) fonction de URBA

b) Graphique des rsidus fonction de URBA

Figure 3.6

Les rsidus (figure 3.6 b) se trouvent maintenant bien repartis dans la bande (-2, +2), lexception de 2 pays atypiques, Oman et Equatorial Guinea, sur lesquels il faut sinterroger.

Revue MODULAD, 2006

- 285-

Numro 35

Echelle de Tukey Ladder of Power

Les transformations de variables occupent une place importante dans la littrature. On a vu prcedemment, que la transformation Log du PNB, permettait de linariser la liaison entre Y et X. Pour choisir une transformation approprie, J.W. TUKEY (1977) a propos ce quon appelle maintenant lchelle de transformation de TUKEY12.
4 3 2 1 1/2 0 -1/2 -1 -2

Y4 Y3 Y2 Y1
Y

Monter lchelle

brut

Log(Y)
1/ Y
1/ Y

Descendre lchelle

1/ Y2
Echelle de Tukey

Selon la forme des courbes dfinies par les points (Xi,Yi) on pourra soit monter lchelle, c'est--dire transformer X ou Y en ses puissances ( Y 2 , Y 3 etc.) soit descendre lchelle, en prenant Y , Log( Y ) , 1/ Y , 1/ Y etc.
Astuce de lecture propose par J. Vanpoucke et E. Horber 13

La forme des courbes du tableau 3.2 dessine un arc, et la flche indique selon son orientation sil faut monter ou descendre lchelle. Ainsi pour PNB en fonction de URBA, les donnes formaient une courbe dallure n3, il faut donc soit monter lchelle en X, soit descendre lchelle en Y. Comme la distribution de URBA est symtrique (voir figure 3.5 a), cest plutt sur PNB quil faut agir (distribution non symtrique, voir le Box plot de PNB). Cette procdure raisonne permet dviter dagir compltement par essaiserreurs , cependant pour trouver le bon choix on nvite pas de faire quelques essais, grandement facilits par linteractivit de SAS/INSIGHT.
12 13

TUKEY utilise le mot re-expression et non le mot transformation dune variable. JACQUES VANPOUCKE de lUniversit Sabatier de Toulouse et EUGENE HORBER de lUniversit de Genve, sont les fondateurs de lAssociation MIRAGE, Mouvement International pour le dveloppement de la recherche en Analyse Graphique et Exploratoire, http://www.unige.ch/ses/sococ/mirage/assoc.htm

Revue MODULAD, 2006

- 286-

Numro 35

Tableau 3.2 Transformations appropries selon la forme des courbes

Forme de Courbes

Description de laction Descendre lchelle en X ou Monter lchelle en Y Descendre lchelle en X ou Descendre lchelle en Y Monter lchelle en X ou Descendre lchelle en Y Monter lchelle en X ou Monter lchelle en Y

Transformation sur X
X , Log( X) , 1/ X etc.

Transformation sur Y

Y 2 , Y 3 etc.

X , Log( X) , 1/ X etc.

Y , Log( Y ) , 1/ Y etc.

X 2 , X 3 etc.

Y , Log( Y ) , 1/ Y etc.

X 2 , X 3 etc.

Y 2 , Y 3 etc.

Pour vous familiariser avec les transformations aller voir cet applet sur internet http://noppa5.pc.helsinki.fi/opetus/sd/sdt0.html. Dvelopp par JUHA PURANEN de lUniversit de Helsinski, cet applet montre leffet de diffrentes transformations sur la liaison entre 2 variables, Y= Distance de freinage et X=Vitesse du vhicule, dont tout conducteur sait que la liaison nest pas linaire. Il montre galement la technique de lissage de courbes par LOWESS.
3.1.4. Mthode non paramtrique du LOWESS

La mthode non paramtrique du LOWESS - Locally WEighted Smoothing Scatterde Cleveland (1979, 1993, 1994) permet de lisser une courbe. Cette technique combine une technique de rgression linaire ou polynomiale locale avec la flexibilit de la rgression non linaire. Le lissage obtenu permet lil de reprer des points atypiques, de voir dventuelles structures, de dtecter des non linarits etc. Le principe repose sur des rgressions locales dfinies sur des fentres glissantes. Chaque point observation est estim, par une droite ventuellement un polynome, partir des points de son voisinage, situs dans une fentre. Chaque point du voisinage est pondr en fonction de sa distance au point estim. Les paramtres sur lesquels on peut agir sont la largeur de la fentre (Bandwith) et la fonction de pondration des points. Le principe est analogue celui des moyennes mobiles, plus la largeur de la fentre est grande plus la srie sera lisse. Pour la fonction de poids, on utilise gnralement la fonction tri-cube.

Revue MODULAD, 2006

- 287-

Numro 35

W ( x ) = (1 x ) 3 pour x < 1 W(x) = 0 pour x >= 1

SAS/INSIGHT permet dutiliser cette technique. Lexemple14 porte sur les tempratures quotidiennes maximum de Melbourne de janvier 1981 dcembre 1990 (Source : Australian Bureau of Meteorology ,3650 observations). Dans le menu Fit de la rgression, on demande une rgression simple de la variable Temprature en Y en fonction de la variable Date en X. Lorsque lanalyse de Curves # Loess rgression est affiche, on choisit le menu

Figure 3.6 Technique du LOWESS applique des donnes de tempratures

La droite de rgression est strictement horizontale avec une temprature moyenne de 2104 sur les 10 annes (figure 3.6).

La technique du LOWESS (parfois dnomme LOESS) permet le lissage de la srie. Elle ncessite beaucoup de calculs, ce qui ne pose plus de problmes avec les ordinateurs actuels si la technique est bien programme. Cest une des techniques modernes les plus attractives puisquelle ne ncessite pas de prciser la forme dun modle, elle laisse parler les donnes Cette technique est trs utile dans la phase exploratoire des donnes mais elle a son revers, elle ne fournit pas de fonction analytique comme la rgression linaire.

14

Les donnes proviennent de la banque de donnes de Rob J ; Hyndman sur des sries temporelles http://www-personal.buseco.monash.edu.au/~hyndman/TSDL/

Revue MODULAD, 2006

- 288-

Numro 35

Tableau 3.3

En cliquant sur le curseur Alpha (paramtre du LOWESS li la largeur de bande bandwith) on peut agir sur la largeur de la fentre et voir leffet sur le filtrage. Avec un coefficient Alpha de 0.005, on fait apparatre un lissage moins rgulier.

Figure 3.7 aprs modification du parmtre de filtarge Alpha

Pour connatre la technique du LOWESS programme dans SAS, il suffit de cliquer sur un mot cl (par exemple Alpha voir Tableau 3.3) et de demander laide en ligne par le menu Help # Help on Selection. Il existe aussi dans SAS une procdure LOESS dans le module SAS/ETS.

3.2.

Exemples en rgression multiple

3.2.1. Y explique par la corrlation entre deux rgresseurs

Cet exemple, montre linfluence sur le coefficient de dtermination lorsque les rgresseurs sont corrls. Les donnes sont issues du cours de Georges Monette de York University.
Data HWH; input Weight Height Health; cards; 68 94 120 137 114 60 94 104 123 121 107 94 100 118 104 93 91 117 76 123 139 102 73 100 122 112 91

Revue MODULAD, 2006

- 289-

Numro 35

89 78 91 69 61 103 123 150 131 33 60 128 207 193 107 135 153 141 ; proc reg; ModHW: model health=weight; ModHH: model health=Height; ModHWH: model health=weight Height; run ;

Pour le premier modle, rgression simple de HEALTH en fonction de WEIGHT, le coefficient de dtermination vaut 0.0738. Aucune liaison entre sant et poids. Pour le deuxime modle, rgression simple de HEALTH en fonction de HEIGHT, le coefficient de dtermination vaut 0.0367. Aucune liaison entre sant et taille. Pour le troisime modle du tableau 3.4, donnant les rsultats de la rgression multiple de HEALTH en fonction de WEIGHT et HEIGHT, le coefficient de dtermination vaut 0.6551. La statistique F et les T de student sont tous significatifs. Si on sarrte ces seules indications le modle explique 65 % de la variation de Health, voir le tableau 3.4.
Tableau 3.4 Rgression de Health en fonction de WEIGHT et HEIGHT

Cette fausse explication de la sant par le Poids et le Taille est due la corrlation entre les rgresseurs (0.8357). Ce qui est visible sur la matrice de corrlation et sur la matrice de scatter plot.

Revue MODULAD, 2006

- 290-

Numro 35

Matrice de corrlation et Scatter Plot

3.2.2. Instabilit des coefficients de la rgression, en cas de multicolinarit Exemple sur donnes relles

Cet exemple est de D. LADIRAY 15. On dispose de 44 observations et on cherche expliquer le taux d'urbanisation, variable URBA, en fonction de 10 variables rgresseurs, POP87 ESPER.
Tableau 3.5 Tableau des donnes
OBS URBA POP87 1 81 0.4 2 53 0.7 3 79 0.6 4 68 17.0 5 90 4.4 6 60 3.7 7 80 1.9 8 80 3.3 9 9 1.3 10 86 0.3 11 72 14.8 12 49 11.3 13 46 51.4 14 81 1.4 15 15 6.5 16 40 2.4 17 16 14.2 18 13 107.1 19 5 1.5 20 25 800.3 21 51 50.4 22 26 0.2 23 7 17.8 24 28 104.6 25 22 16.3 26 64 0.2 NAT 32 20 47 46 23 45 34 30 47 34 39 47 30 30 53 47 48 44 38 33 45 48 42 44 25 30 MORT 5 9 8 13 7 8 3 8 14 4 7 9 9 4 19 17 22 17 18 12 13 10 17 15 7 4 ACCR DOUB FERTI MORTI AGE15 AGE65 ESPER CCR_CAL 2.8 25 4.6 32.0 41 2 67 2.7 1.1 63 2.5 12.0 25 11 74 1.1 4.0 18 7.4 59.0 50 3 64 3.9 3.3 21 7.2 80.0 49 4 62 3.3 1.7 41 3.1 12.3 33 9 75 1.6 3.7 19 7.4 54.0 51 3 67 3.7 3.2 22 4.4 19.0 40 1 72 3.1 2.2 32 3.8 52.0 38 5 65 2.2 3.3 21 7.1 117.0 44 3 52 3.3 3.0 23 5.6 42.0 34 2 69 3.0 3.1 22 6.9 79.0 37 2 63 3.2 3.8 18 7.2 59.0 49 4 63 3.8 2.1 33 4.0 92.0 36 4 62 2.1 2.6 27 5.9 38.0 30 1 68 2.6 3.4 20 7.8 137.0 49 3 47 3.4 3.0 23 7.3 135.0 48 3 48 3.0 2.6 27 7.6 182.0 46 4 39 2.6 2.7 26 6.2 140.0 44 4 50 2.7 2.0 34 5.5 142.0 40 3 46 2.0 2.1 33 4.3 101.0 38 4 55 2.1 3.2 21 6.3 113.0 44 3 57 3.2 3.8 18 7.1 68.0 45 2 51 3.8 2.5 28 6.1 112.0 41 3 52 2.5 2.9 24 6.6 125.0 45 4 50 2.9 1.8 38 3.7 29.8 35 4 70 1.8 2.6 26 3.6 12.0 38 3 62 2.6

15

Ladiray D.(1990) Autopsie d'un rsultat: L'exemple des procdures Forecast, X11, Cluster. Club SAS 1990

Revue MODULAD, 2006

- 291-

Numro 35

OBS URBA POP87 27 24 38.8 28 12 0.7 29 22 174.9 30 11 6.5 31 16 3.8 32 32 16.1 33 40 61.5 34 100 2.6 35 17 53.6 36 19 62.2 37 32 1062.0 38 92 5.6 39 76 122.2 40 64 21.4 41 65 42.1 42 97 0.4 43 51 2.0 44 67 19.6

NAT 34 48 31 39 41 31 35 17 29 34 21 14 12 30 20 23 37 17

MORT 13 23 10 18 16 7 7 5 8 8 8 5 6 5 6 6 11 5

ACCR DOUB FERTI MORTI AGE15 AGE65 ESPER CCR_CAL 2.1 33 4.4 103.0 39 4 53 2.1 2.5 28 5.8 183.0 35 3 40 2.5 2.1 33 4.2 88.0 40 3 58 2.1 2.1 33 4.7 160.0 35 3 43 2.1 2.5 28 5.8 122.0 43 3 50 2.5 2.4 28 3.9 30.0 39 4 67 2.4 2.8 25 4.7 50.0 41 3 65 2.8 1.1 61 1.6 9.3 24 5 71 1.2 2.1 33 3.5 57.0 36 3 63 2.1 2.6 27 4.5 55.0 40 4 63 2.6 1.3 53 2.4 61.0 28 5 66 1.3 0.9 77 1.6 7.5 24 7 75 0.9 0.6 124 1.8 5.5 22 10 77 0.6 2.5 28 4.0 33.0 39 4 65 2.5 1.4 51 2.1 30.0 31 4 67 1.4 1.7 41 3.7 12.0 34 8 68 1.7 2.6 26 5.1 53.0 42 3 62 2.6 1.2 59 1.8 8.9 30 5 73 1.2

Dans le tableau 3.5, deux valeurs de la variable NAT (taux de natalit) pour OBS=11 et OBS=30 sont lgrement modifies (39 est remplac par 40 ) Les rgressions effectues avant et aprs modifications donnent les rsultats suivants pour les coefficients de rgression :
Tableau 3.6

Rsultat 1 (valeur 39) Avant URBA = URBA=

Rsultat 2 (valeur 40) Aprs

25.541 -0.026 POP87


-6.661 NAT +2.681 MORT +64.506 ACCR

20.689 -0.026 POP87


-4.047 NAT -0.005 MORT +39.832 ACCR

+0.019 +7.834 +0.101 -1.132 +2.709 +0.910

DOUB FERTI MORTI AGE15 AGE65 ESPER

+0.015 +7.307 +0.128 -1.157 +2.848 +0.969

DOUB FERTI MORTI AGE15 AGE65 ESPER

Les rsultats "Avant" et "Aprs" (tableau 3.6) sont particulirement instables pour les estimations des coefficients des 3 variables, NAT (taux de natalit), MORT (taux de mortalit) et ACCR (taux d'accroissement de la population).

Revue MODULAD, 2006

- 292-

Numro 35

Explication Ces 3 variables ne sont pas indpendantes, elles sont lies entre elles par une relation quasi-linaire ACCR= (NAT-MORT)/10. Dans le tableau 3.5, on peut comparer ACCR avec la variable ACCR_CAL, en dernire colonne, calcule avec la formule exacte. Lors de l'inversion de la matrice X'X, il y a une valeur propre qui est presque nulle. Consquence une lgre perturbation des donnes entrane de grands changements dans les estimations des paramtres. Exemple sur donnes avec modle thorique connu et rgresseurs corrls

Cet exemple est de T. Foucart (2007). Pour tudier leffet des corrlations entre les rgresseurs sur les estimations des paramtres, T. Foucart a gnr 100 observations dun vrai modle thorique : Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + 4 X 4 + Les vraies valeurs des paramtres du modle thorique sont :
1 = 0 1 = 2 = 0. 5

3 = 4 = 0.5

Les 4 rgresseurs X1 X4 suivent des lois normales centres et rduites. Lerreur suit une loi normale N(0, 2 ) , On impose de plus des contraintes sur la matrice des corrlations entre les rgresseurs. Tableau 3.7 Corrlations imposes
X1 1 0.5 0.5 -0.5 X2 X3 X4

X1 X2 X3 X4

1 0.5 0.4

1 0.3

Et on impose la valeur du coefficient de dtermination R 2 = 0.5 . Les donnes gnres RIDGE1 sont disponibles sur le site de T. Foucart16.
Rsultats avec SAS/INSIGHT

la matrice de corrlation
Analyze # Mutivariate avec les 5 variables X1, X2, X3, X4, Y dans le rle

Menu Y

On la trouve dans le (tableau 3.8) ci-dessous.

16

http://foucart.thierry.free.fr/StatPC/.

Revue MODULAD, 2006

- 293-

Numro 35

Tableau 3.8 Statistiques univaries et matrice de corrlation

On vrifie sur le tableau 3.8 que la matrice de corrlation a bien les valeurs imposes du Tableau 3.7.

la matrice de scatter plot

Analyze# Scatter Plot avec les 5 variables (X1, X2, X3, X4, Y) dans le rle Menu X et les mmes dans le rle Y
2.8081

X 1
-2.9987
2.7650

X 2
-2.9509
2.6579

X 3
-2.6484
2.0666

X 4
-2.9459
3.4373

Y
-4.1021

Figure 3.6 Matrice de diagrammes de dispersion

La matrice de diagrammes de dispersion permet de reprer les liaisons entre les rgresseurs et la variable Y. Y est li X1, X2, avec un coefficient positif, et Y est li X3, X4 avec un coeffcient ngatif.

La rgression linaire

Analyze#Fit avec les 4 variables X1, X2, X3, X4, dans le rle de X et Y Menu dans le rle de Y

Revue MODULAD, 2006

- 294-

Numro 35

Avec la mthode des moindres carrs, le coefficient de dtermination R2=0.4907 est bien calcul (le thorique vaut 0.50), par contre les coefficients sont trs diffrents de ceux du modle thorique. Les estimations MCO sont respectivement : 1.6339, -0.1482, -1.0375, 0.4439 au lieu des vraies valeurs : 0.5, 0.5, -0.5, -0.5. Mmes les signes ne sont pas respects. Conclusion Les consquences des colinarits entre les variables rgresseurs sont les suivantes : Les coefficients de rgression sont instables ; Leur signe peuvent changer (positif ngatif) rendant les interprtations fausses, ce qui a de graves consquences lors de la recherche des effets dune variable rgresseur ; Les variances des estimateurs sont leves. La technique de la rgression borne (Ridge Regression) a t propose dans les annes 1970, pour pallier ces inconvnients. On en trouvera un exemple au chapitre 4 (4.4.5). Larticle de T. FOUCART (2007) Evaluation de la rgression borne 17, montre que l encore on ne peut systmatiquement y recourir. Il faut bien connatre les donnes et le domaine pour en faire bon usage.

3.3.

Conditions d'utilisation de la rgression, les diagnostics

Les diffrents exemples prsents dans ce chapitre montrent l'importance des analyses et diagnostics effectus avant et aprs les premiers traitements. Pour raliser les tests dhypothses de la rgression on a suppos, en pure thorie, que le modle linaire postul est correct, que les suppositions, a priori sur les variables et sur les erreurs, sont vraies. Ces suppositions sont ncessaires pour

17

Site http://foucart.thierry.free.fr/colreglin/Regression_bornee.pdf,

Revue MODULAD, 2006

- 295-

Numro 35

dfinir les tests comme on la vu au Chapitre 1, car on ne peut calculer les variances que dans des cas gaussiens et sous certaines conditions.
Suppositions sur les variables Les observations Yi sont supposes indpendantes Les variables Xj sont non alatoires. Suppositions sur les erreurs les erreurs sont desprance nulle ce qui est vrifi par construction si la constante 0 existe dans le modle. les erreurs sont de variance constante les erreurs suivent une distribution normale les erreurs sont indpendantes

Les erreurs sont inconnues, elles sont approches par les rsidus, si le modle est correct. Aprs examen des rsidus, on peut conclure: les suppositions semblent ou ne semblent pas tre violes. Ce qui ne signifie pas que les suppositions soient correctes. Cela veut dire que sur la base des donnes que l'on a tudie, on n'a aucune raison de dire que les suppositions sont fausses.
3.3.1. Modle Inadapt

C'est par l'examen des rsidus que l'on peut voir si le modle postul est vraisemblablement correct, ou s'il est inadapt. Les rsidus contiennent la fois des erreurs de mesure et des erreurs de spcification du modle, comme des variables omises, ou des liaisons non linaires. On peut avoir des tests satisfaisants, de bonnes prcisions sur les estimateurs des paramtres, alors que le modle est inadapt ltude. En dehors de certaines visualisations il n'y a que le bon sens et la prconnaissance du problme qui permettent de reprer l'inadquation du modle aux donnes.
3.3.2. Linfluence de certaines donnes, les donnes atypiques -Outliers-

Certaines donnes atypiques peuvent fausser les rsultats. Les visualisations graphiques permettent parfois de les identifier. Le livre de BELSLEY, KUH et WELSH (BKW) a popularis une mthode rigoureuse de recherche des observations influentes. Loption INFLUENCE de Proc REG permet cette analyse. On peut alors tre amen retirer ces points atypiques des analyses, ou procder des techniques robustes (voir ROUSSEEUW et al. (2003)). La procdure ROBUSTREG de SAS disponible en V9 reprend ces techniques.

Revue MODULAD, 2006

- 296-

Numro 35

3.3.3. Corrlation et colinarit entre les rgresseurs

La colinarit est un gros problme, lot quotidien du statisticien praticien lorsquil analyse des donnes relles, principalement en sciences conomiques et sociales. Cest galement le trio "BKW" qui a propos des indicateurs de dtection de colinarits. Les options TOL, VIF et COLLIN, COLLINOINT de Proc REG sont des aides aux diagnostics de colinarit. Tous ces complments la rgression, reprsentations graphiques, indicateurs techniques de BKW, etc., ncessitent de faire appel aux nombreuses options de Proc REG, qui seront prsentes au chapitre 4 Validation dune rgression .

Revue MODULAD, 2006

- 297-

Numro 35

4. Validation dune rgression


Dans ce chapitre, on prsente les diffrents lments ncessaires la validation dune rgression, cest--dire la vrification des suppositions de base du modle, ltude de la robustesse au niveau des observations (dtection des observations influentes et atypiques) et au niveau des variables (colinarits, choix dun sousensemble de rgresseurs). Les sorties de SAS-version 9 illustrant ce chapitre sont raliss avec le mme exemple que pour le chapitre 2 (2.3.1), issu du livre de Tomassone et al. (1992).

4.1.

Introduction

Un principe de base doit tre appliqu : explorer les donnes par des graphiques et/ou des calculs numriques. Les calculs pralables des caractristiques des variables Y et des Xj, ainsi que des histogrammes et des tracs Box-Plot de ces diffrentes variables permettent en effet de mettre en vidence des problmes. Bien sr le calcul des corrlations entre Y et les Xj est ncessaire. Il faut tudier les variables, et donc en particulier faire des graphiques, par exemple de Y contre les rgresseurs Xj pour contrler la linarit des liaisons. Pour cela, on utilisera la procdure GPLOT, ou le menu Scatter-Plot de SAS/INSIGHT. Dans PROC REG, linstruction PLOT permet de faire des graphiques des variables entrant dans la rgression, mais aussi des variables cres comme les valeurs rsiduelles et ajustes. De plus, une Analyse en Composantes Principales des rgresseurs, avec Y en variable supplmentaire, peut aussi tre utile pour visualiser comment Y se reconstruit partir de lensemble des X.
4.1.1. Modle et notations

Si on postule un modle avec n observations (i) et p variables rgresseurs (j) et une constante, on note : Y rponse ou variable dpendante X matrice des variables rgresseurs coefficients de rgression erreurs. Le modle linaire scrit : Yi = 0 + 1Xi1 + 2 Xi2 + 3 Xi3 + ... + p Xip + i . Do lajustement: Revue MODULAD, 2006 - 298Numro 35

Yi = b 0 + b1 X i1 + b 2 X i2 + .... + b p X ip

et les rsidus e i = Yi Yi .

Suppositions sur les erreurs : i sont des alas, indpendants, desprance nulle, de variance constante, et de mme loi (cf. chapitre 1). on dit IID avec loi normale N(0,). 4.1.2. Problmes tudier Vrification des suppositions sur les erreurs ; Robustesse de la rgression : dtection des observations influentes, et de la colinarit des rgresseurs ; Choix d'un sous-ensemble de rgresseurs.

4.2.

Vrification des suppositions de base sur les erreurs

Les suppositions sur les erreurs (inconnues) doivent tre vrifies partir de leurs observations (les rsidus).
4.2.1. Esprance nulle

Il faut vrifier que les rsidus sont de moyenne nulle. Or les rsidus construits par les moindres carrs sont centrs par construction, si la constante est dans le modle (ce que l'on suppose ici).
4.2.2. Indpendance

Il faudrait vrifier que le vecteur des rsidus forme un chantillon tir de n variables alatoires indpendantes

On obtient Y par projection du vecteur Y sur le sous-espace engendr par les rgresseurs : il en rsulte que les n composants du vecteur e des rsidus, e i = Yi Yi , sont relis par des relations ainsi que le montre la figure 4.1 :

Revue MODULAD, 2006

- 299-

Numro 35

Figure 4.1 : Projection de Y dans lespace des rgresseurs

Dans la reprsentation gomtrique dans lespace Rn, le vecteur des n rsidus est situ dans le sous-espace orthogonal celui des rgresseurs ; celui-ci tant de dimension (p+1), le vecteur des rsidus est alors situ dans un espace de dimension (n-(p+1)). Lindpendance na donc de sens que si n est grand par rapport p.
Remarque : De faon gnrale, pour tester lindpendance, on met en uvre des tests non paramtriques (qui ne sont proposs dans SAS) bass sur des squences : squence des signes des diffrences successives (ei+1 - ei), ou squence des signes des diffrences la mdiane (ei - Mediane). Cas particulier o les observations sont apparentes (cas des chroniques) :

Alors le test de Durbin-Watson permet de vrifier si le rsidu en i est non-corrl au rsidu en (i+1) : on parle dauto-corrlation dordre 1. Il est obtenu par loption DW de linstruction MODEL de Proc REG. On calcule ainsi le coefficient de Durbin-Watson partir des rsidus e i = Yi Yi ,

(e e ) DW = e
i+1 i i 2 i i

e i+1.e i , si les rsidus forment un processus autorgressif dordre En notant = e2 i 1, c'est--dire suivent le modle e i+1 = .e i + i , alors DW vaut peu prs 2(1 ) , Revue MODULAD, 2006 - 300Numro 35

e i+1.e i . o DW 2.1 ei2


Liens entre les valeurs et DW:

Si 0 < < 1 DW compris entre 0 et 2 Si 0 > > -1 DW compris entre 2 et 4 Sil ny a pas dauto-corrlation dordre 1 proche de 0, donc DW proche de 2. Il existe des tables dites de Durbin-Watson permettant de tester labsence d'autocorrlation d'ordre 1 en fonction du niveau de confiance , et de n (nombre d'observations) et p (nombre de variables). On y lit deux valeurs d1 et d2:

Les causes de l'auto-corrlation sont une mauvaise spcification du modle, ou l'absence d'une variable importante. Les remdes sont soit de travailler sur les diffrences premires en Y c'est--dire (Yi - Yi-1), soit d'appliquer la mthode de Cochran-Orcutt (voir les livres spcialiss en Economtrie). PROC AUTOREG, du module SAS/ETS, ralise des rgressions o le problme de lauto-corrlation des rsidus est rsolu. Remarque : Beaucoup de logiciels donnent systmatiquement cette statistique DW, mais interprter le test de Durbin-Watson sur les rsidus na aucun sens si les donnes ne sont pas apparentes. 4.2.3. Egalit des variances (homoscdasticit)

Les graphiques des rsidus contre les diffrents rgresseurs Xj, permettent de visualiser si les rsidus sont rpartis dans une bande de valeurs horizontale autour de 0, cest dire sil y a homoscdasticit. Sinon on peut alors dtecter quelle est la variable responsable de l'htroscdasticit.
e . . . . . . . . . . . . . . Xj . Var(e) grandit avec Xj

Figure 4.2 : Graphique typique des rsidus contre Xj rvlant une htroscdasticit

Revue MODULAD, 2006

- 301-

Numro 35

Ces graphiques peuvent tre tracs par la procdure GPLOT si on a stock les rsidus dans une table, mais peuvent aussi tre faits lintrieur de la procdure REG, laide de l'instruction PLOT, avec R. comme nom de variable en ordonne car le rsidu est stock en interne dans la variable ayant le nom R. Dans SAS/INSIGHT, un graphique des rsidus (dnomm R_Y) contre X est trac si le modle est une rgression un rgresseur ; sinon cest le trac de R_Y contre lestimation Y (dnomme P_Y) qui est trac par dfaut. Ces deux variables sont automatiquement cres dans la table SAS active. Il est possible de raliser les autres graphiques laide de la variable R_Y. Linstruction MODEL de Proc REG possde une option SPEC pour tester s'il y a un problme d'htroscdasticit : l'hypothse nulle homoscdasticit est teste l'aide d'une statistique suivant une loi du Chi2 (cf. White H., (1980)). Le test est global, et donc en cas de rejet de H0, on ne sait pas quelle est la variable responsable de l'htroscdasticit. D'autres tests, comme ceux de Goldfeldt et Quandt, ou de Breush et Pagan (voir les publications spcialises en Economtrie, par exemple Green (2005)), permettent de mettre en vidence l'htroscdasticit de aux diffrentes variables. Mais ils sont assez lourds mettre en uvre, et ne sont pas faits par des procdures SAS. Une mthode plus simple peut permettre d'avoir une ide pralable sur l'existence d'un problme. Celle-ci sapparente au test de Chow(1960) pour une srie chronologique, o on teste lgalit des variances des rsidus de 2 sous priodes de la chronique. Ici, on trie les rsidus selon les valeurs croissantes de la variable Xj suspecte (par PROC SORT), ensuite on partage le vecteur des rsidus tris en 2 paquets (premiers, derniers) dont on calcule les variances. Puis on teste l'hypothse nulle d'galit de ces 2 variances c'est dire la possibilit d'homoscdasticit, l'aide de la procdure TTEST de SAS.
Quelques remdes en cas d'htroscdasticit :

transformer Y ou Xj par une fonction racine carre, ou Log, ou carr, etc. pour aplatir les variances : lchelle de Tukey donne au chapitre 3 (3.1.3), peut aider au choix de la transformation ; mettre en uvre une rgression pondre avec linstruction WEIGHT, en 1 si la variance est une fonction connue f de prenant comme poids f (X j ) Xj ; mettre en uvre les moindres carrs gnraliss, ce qui peut se faire par PROC GLM .

Revue MODULAD, 2006

- 302-

Numro 35

4.2.4. Normalit des erreurs

Supposition : Les i sont indpendant, et suivent une loi N(0,). Cette supposition de normalit est ncessaire pour effectuer les tests sur les coefficients et les tests sur les sommes de carrs l'aide des statistiques de Student ou de Fisher vues aux chapitres 1 et 2. Comme tout test, le test dadquation une loi ncessite lindpendance. Or les rsidus sont lis. Donc raliser un test de normalit une loi N(0, ) sur ces rsidus na pas de sens. Dans SAS, un trac QQ-Plot 18 pour les rsidus permet de vrifier graphiquement ladquation la loi normale (0,s) ou s est estim par MSE (Mean Square Error du modle). Le QQ-Plot est obtenu dans la procdure REG avec linstruction PLOT : on demande le trac de R (variable interne des rsidus) contre NQQ (variable interne contenant les quantiles de la loi normale) : voir lexemple ci-dessous (4.2.5). Dans SAS/INSIGHT, une fois que lon a excut le modle, on peut ajouter aux sorties standards un graphique QQ-Plot appel Residual Normal QQ dans le menu Graphs (penser cocher Reference lines dans le menu contextuel du graphique pour tracer la droite).
4.2.5. Exemple

On utilise les donnes Processionnaire du pin issu du livre de Tomassone et al..(1983), dj traites au chapitre 2. On se limite dans ce paragraphe au modle Y = log = f(X1 X2 X4 X5), dont on verra que cest un bon modle. On trouvera au 2.3.2 les caractristiques des variables, la matrice de corrlation et les graphiques de dispersion des variables.
Modle proc reg data=libreg.chenilles; title 'Modle Y = X1 X2 X4 X5 '; LOG : model LOG=X1 X2 X4 X5 ; run ; quit;

18

On trouvera en annexe 5 le principe de construction des QQ-Plot pour ladquation certaines lois.

Revue MODULAD, 2006

- 303-

Numro 35

Dessin des rsidus contre les 4 rgresseurs (avec SAS/INSIGHT)

On y affiche le numro de certaines observations, qui ont des rsidus un peu grands, ou qui seront dtects plus loin comme atypiques (4.3.11)

Revue MODULAD, 2006

- 304-

Numro 35

Remarque : instruction de trac des rsidus dans PROC REG /* dessin des residus contre les X dans PROC REG */ plot R.*X1='1' R.*X2='2' R.*X4='4' R.*X5='5' / vref = 0 ; QQ-Plot (avec SAS/INSIHT)

Le trac QQ-Plot montre un assez bon ajustement la loi normale.

Revue MODULAD, 2006

- 305-

Numro 35

Test dhomoscdasticit et trac du QQ-PLOT avec PROC REG.

/*option SPEC + dessin QQ_Plot */ proc reg data=libreg.chenilles; title 'Modle Y = X1 X2 X4 X5 '; LOG : model LOG=X1 X2 X4 X5 / SPEC ; run ; /* QQ Plot */ plot R.* NQQ. ; quit;

Lhomoscdasticit des rsidus nest pas rejete.

Revue MODULAD, 2006

- 306-

Numro 35

4.3.

Influence d'observations

Dans le but d'avoir une rgression plus robuste, il faut dtecter les observations influentes, dtection qui commence l-aussi par des graphiques soit de Y contre les Xj, soit des rsidus contre les Xj. Dans la figure 4.3, ei est nul car lobservation i est influente cause de son caractre atypique.

Y . .. . . .. . ei = 0 !

. . . . .. . .. X

Figure 4.3 : Exemple dobservation fort effet de levier

SAS calcule une srie d'indicateurs par les 2 options R et INFLUENCE de l'instruction MODEL. L'ouvrage Regression Diagnostics de Belsley D.A., Kuh K. et Welsh R.E. (1980) en est la rfrence de base. Ces indicateurs sont bass sur des dtections de linfluence selon des mesures diffrentes, donc dtecteront des influences de nature diffrente : on distinguera donc des observations influentes sur la rgression, ou suspectes, ou atypiques, ce dernier terme tant plutt recommand. Les mesures peuvent tre classes en 3 groupes :
dtection dun effet de levier de lobservation, donnant un rsidu petit : leverage ; dtection de rsidu grand donc observation atypique ; dtection dun grand effet sur lajustement, ou les coefficients, ou la prcision.
4.3.1. Hat matrice et leverages

On utilise ici le modle sous sa forme matricielle : Y1 Y2 Y = Y3 L Yn


Revue MODULAD, 2006
1 1 X= 1 L 1 X n1 X n2 L X np X11 X12 L X1p 0 1 = 2 L p

1 2 = 3 L n Numro 35

- 307-

Lestimation des moindres carrs est le vecteur B = (XX ) XY . 1 Do l'ajustement Y = X(XX ) XY


1

1 En notant H = X(XX ) X , on obtient Y = HY et e = (I H)Y

Cette matrice est nomme H pour Hat matrice car hat se traduit par chapeau, et Y se dit Y chapeau. Dans lespace Rn, H est la matrice de la projection de Y sur l'espace engendr par les variables rgresseurs X (espace de dimension (p+1)) : cest donc la matrice dun projecteur, dont deux proprits sont : H' = H, et trace(H) = p+1. H est une matrice carre (n,n), dont la diagonale comporte les n coefficients hii .De 1 lexpression matricielle de H, on dduit hii = x (XX ) x i . i Les coefficients hii ne comportent donc que des donnes relatives aux variables explicatives Xj . Les leverages (leviers) des observations sont ces n valeurs hii. Un levier reprsente l'influence de l'observation i sur la valeur ajuste Yi , cause des valeurs xi prises par les variables en i. 1 On peut montrer que h ii = ( 1n ) + (x i x c ) (X X c ) (x i x c ) , o (xi - xc) est la c diffrence entre le vecteur des valeurs des variables pour l'observation i, et le vecteur des valeurs moyennes, et Xc la matrice de taille (n,p) des valeurs centres. Le levier en i est donc une distance entre les valeurs des X prises en i et les valeurs moyennes calcules sur les n observations Des diffrentes proprits de H, on dduit:
h ii =

j=1,n

2 ij

2 2 = h ii + h ij ji p

trace(H) = p + 1 h ii = p + 1
i =1

1 n

h ii 1

et aussi des formules concernant les variances : var( Yi ) = hii et var(ei) = (1hii). On en conclut que hii est toujours plus petit ou gal 1.
Rgle (colonne Hat Diag H): Si les leviers taient tous gaux, la valeur commune serait (p+1)/n. De faon empirique, un levier suprieur 2(p+1)/n est suspect.

Revue MODULAD, 2006

- 308-

Numro 35

4.3.2. Rsidus studentiss internes

Ils sont appels en anglais Standardized Residuals ou STUDENT.


2 On connat la variance de chaque rsidu : var (e i ) = (1 hii ) . Dans cette formule, ei2 2 i = MSE; donc le rsidu standardis est : on estime par s = n (p + 1) ri = e i . s 1 h ii

Bien que numrateur et dnominateur ne soient pas indpendants, on considre que cette quantit ri suit une loi de Student (n-1-(p+1)) = (n-p-2) ddl, do le nom STUDENT.
Rgle (colonne Student) : ri sera suspect si |ri| > 2 (quantile de la loi de Student (1/2), pour le seuil =5%, avec lapproximation par une loi normale si n grand). 4.3.3. Rsidus studentiss externes

Ils sont appels en anglais Studentized Residuals ou RSTUDENT. On remplace dans l'expression de ri l'estimation s par s(-i) qui est lestimation de s obtenue en refaisant l'ajustement du modle sans l'observation i, ce qui rend ei indpendant de s(-i) : ceci donne r( i ) = e i s (i ) 1 h ii
Rgle (colonne RStudent) : r(-i) suit aussi une loi de Student (n-1-(p+1)) ddl et sera donc aussi suspecte si |r(-i)| > 2. Certains auteurs prconisent d'autres quantiles un seuil fix pour r(-i) : quantile 1-/2n plutt que 1-/2 . 4.3.4. Mesure globale de l'influence sur le vecteur des coefficients: Distance de COOK

Pour chaque observation i, on calcule une distance entre le vecteur B des coefficients de la rgression et le vecteur B(-i) obtenu en refaisant la rgression sans lobservation i : la distance se mesure laide de (XX) et est norme par s, estimation de .

(COOKD)i =

B B( i) (XX ) B B( i)

(p + 1)s 2

ri2 h ii = (p + 1)(1 hii )

Rgle : (colonne Cook's D) : La distance de COOK tant norme, une valeur suprieure 1 est suspecte 19.
19

Certains auteurs suggrent une limite de 4/(n-p-1), la calibration 1 pouvant laisser passer des valeurs influentes

Revue MODULAD, 2006

- 309-

Numro 35

4.3.5. Influence sur chacun des coefficients : DFBETAS

Pour chaque variable, on calcule la diffrence entre le coefficient estim bj et celui obtenu avec l'estimation sans l'observation i, bj(-i). Avec standardisation, on obtient pour chaque variable explicative j :

(DFBETAS)ij =

(b

b j ( i))
1

s( i) (XX ) j, j

Rgle : Empiriquement, un DFBETAS dont la valeur absolue est plus grande que 2 est suspect. n

Utilisation conjointe COOKD et DFBETAS : S'il y a beaucoup de variables, on regarde d'abord les observations globalement influentes (COOKD lev), puis pour cette observation quelle(s) variable(s) cause(nt) cette influence (DFBETAS).
4.3.6. Prcision des estimateurs : COVRATIO

La quantit Mean Square Error (MSE) mesure la prcision globale de lestimation : MSE petit indique une bonne prcision. MSE est aussi la variance des rsidus. Ici, on mesure la prcision en utilisant une variance gnralise , value par : s|| (X'X)-1 || calcule avec et sans l'observation i ((la notation || (..)|| dsigne le dterminant de la matrice) :

(COVRATIO)i =

s 2 ( i) (X' X )( i )
1

s 2 (X' X )

Donc (COVRATIO)i plus grand que 1 indique que le fait de mettre l'observation i augmente la prcision, alors qu'une valeur plus petite que 1 indique une diminution de la prcision.
Rgle : Belsley, Kuh et Welsh suggrent qu'un cart l'unit dpassant 3(p+1)/n est grand. 4.3.7. Influence sur la valeur ajuste: DFFITS

Pour chaque observation i, (DFFITS)i donne la diffrence entre la valeur ajuste pour l'observation i et la valeur prdite de Y pour i dans le modle estim sans cette observation i. Un grand cart indiquera une forte modification dans la valeur ajuste par le modle quand l'observation i est retire. Avec une standardisation s(-i):

(DFFITS)i = Yi Yi ( i) = r ( i) s( i) h ii

h ii 1 hii

Rgle : DFFITS est dclar suspect s'il est en valeur absolue plus grand que 2 (p +1)n .

Revue MODULAD, 2006

- 310-

Numro 35

4.3.8. Coefficient global PRESS

Predicted Residuals Sum of Squares = PRESS=

i=1,n

(Y Y ( i))
i i

Ce coefficient (unique) est calcul en faisant n estimations Yi ( i) obtenues en enlevant une observation. Il devrait donc tre gal la somme des carrs des rsidus du modle avec toutes les observations (SSResidus) si aucune observation ne pose problme.
2 Des coefficients PRESS individuels Yi Yi ( i) peuvent tre obtenus uniquement dans la table SAS cr par l'instruction OUTPUT. Ces coefficients peuvent tre compars aux coefficients DFFITS, comme le montre la figure 4.4 ci-dessous :

Figure 4.4 : Illustration de PRESS et DFFITS

4.3.9. Comment obtenir les mesures dinfluence dans SAS Dans PROC REG

Elles sont affiches en sortie par des options de linstruction MODEL. Option R pour toutes les observations, le rsidu et son cart-type, les rsidus standardiss STUDENT, la distance de COOK et un dessin indiquant la position du rsidu par rapport lintervalle [-2 ; +2] ; Option INFLUENCE pour toutes les observations, levier, rsidu studentis externe RSTUDENT, COVRATIO, DFFITS et DFBETAS de chaque coefficient. Certaines mesures peuvent tre stockes dans une table de sortie SAS (table possdant n lignes au moins), laide de linstruction OUTPUT : on cre des variables en utilisant les mots-clefs R, STUDENT, RSTUDENT, H, COOKD, DFFITS et PRESS. Loption PRESS de linstruction MODEL permet dobtenir le coefficient PRESS global , qui sera affich en sortie, et stock dans la table de linstruction OUTPUT si cette instruction existe.
Revue MODULAD, 2006

- 311-

Numro 35

Dans SAS/INSIGHT

Une fois que lon a excut le modle, on peut ajouter la table SAS sur laquelle on travaille, des variables laide du menu Vars. Les variables ajoutes ont alors le nom indiqu entre parenthses ci-dessous (o Y est le nom de la variable rponse du modle) :

Hat Diag, Residual Standardized residual Studentized residual Cooks D Dffits Covratio Dfbetas
4.3.10.

(H_Y) (R_Y) (RS_Y) (RT_Y) (D_Y) (F_Y) (C_Y) (BY_Intercept, BY_X1, BY_X2, etc.)

Tableau rcapitulatif Std Err Residual Student Residual Rstudent Hat Diag H

signifiant

estimateur de l'erreur-type du rsidu i permet de calculer l'intervalle de confiance autour du rsidu i

rsidus studentiss internes, appels standardized residual dans SAS-Insight test de significativit du rsidu i 2
Student residual > 2

objet valeurs critiques Rgle de dcision Option de PROC REG

rsidus studentiss externes, appels levier de l'obs. i studentized residual dans SAS- Insight comparer avec mesure l'influence Student Residual de l'obs.i cause cart-type calcul des valeurs xi en retirant lobs. i 2(p + 1) 2 n
RStudent > 2

alors le rsidu i est significativement 0


R R

alors l'observation i ncessite une investigation !


Influence

2(p + 1) n ncessite une investigation hii >


Influence

Revue MODULAD, 2006

- 312-

Numro 35

Df betas DFBETAS relatif signifiant distance de Cook chaque coefficient j

Cook's D

Cov Ratio Ratio de MSE sans et avec l'observation i

Dffits

statistique DFFITS mesure normalise du changement dans la valeur prdite, avec et sans l'obs. i
2 (p + 1) n

objet

valeurs critiques

mesure le changement en retirant l'obs. i, sur les estimations de lensemble des coefficients 4 1 ou (n p 1)

mesure normalise de l'effet de l'obs. i sur l'estimation, pour chaque coefficient j 2 n Dfbetas > 2

mesure l'effet de l'obs. i sur la prcision

3(p + 1) n

(p + 1) 3(p + 1) Dffits > 2 n CookD > 1 Covratio 1 > n Rgle de alors l'observation indique une n indique une dcision influence de l'obs. i est influente ncessite une influence de l'obs. i sur l'estimation globalement investigation i sur Yi de j

Option de PROC REG

R, Influence

Influence

On trouvera dans le programme SAS ci-dessous une macro CRITIQUE (avec comme paramtres : n nombre dobservations, p nombre de rgresseurs, et b0 indicateur de la prsence dune constante) permettant dafficher les valeurs critiques des diffrentes mesures dinfluence.

Revue MODULAD, 2006

- 313-

Numro 35

%MACRO CRITIQUE

(n= , p= , b0=1 );

/* nombre d'observations*/ /* nombre de rgresseur */ /* bo=1 si constante

(intercept) */ data seuil; n=&n; p=&p; b0=&b0; dcook=4/(&n-&p-&b0); hat_diag=2*(&p+&b0) / &n; covratio=3*(&p+&b0) / &n; dffits=2*sqrt((&p+&b0) / &n); dfbetas=2/sqrt(&n); proc print data=seuil; %mend; /*_________________________________________________________*/ *exemple appel de la macro ; %critique(n= 44 ,p= 4 ,b0=1); run; 4.3.11. Exemple

On utilise les donnes Processionnaire du pin issu du livre de Tomassone et al.(1983) et on se limite de nouveau au modle Y = log = f(X1 X2 X4 X5).
/* appel de la macro */ Title 'Valeurs critiques pour n = 33 et p = 4'; %critique(n= 33 ,p= 4 ,b0=1); run; title ' influence des observations '; proc reg data=libreg.chenilles;; LOG : model LOG=X1 X2 X4 X5 /R influence ; run; /* exemple de stockage des criteres */ output out=influence H=levier COOKD=dcook STUDENT = rsi RSTUDENT = rse ; quit;

Voici les valeurs limites pour les coefficients dinfluence :

La table des valeurs des coefficients dinfluence de toutes les observations est donne ci-aprs. Mais plutt que de rechercher les valeurs limites dans cette table, de simples Box-Plot permettent de les reprer rapidement.
Revue MODULAD, 2006

- 314-

Numro 35

Dessins BOX-PLOT des coefficients dinfluence : Ce type de reprsentation est trs riche en information sur la forme dune variable, et lexistence de valeurs diffrentes des autres (outliers). On en trouvera lexplication dtaille dans Le Guen (2001) 20.

20

http://matisse.univ-paris1.fr/leguen/leguen2001b.pdf - 315Numro 35

Revue MODULAD, 2006

Rsidus standardiss Internes Externes

Leviers

CovRatio

Dffits

DCook

Revue MODULAD, 2006

- 316-

Numro 35

Dfbetas

La distribution des leviers ne rvle pas doutliers, mais au vu des valeurs, on constate que quelques observations ont cependant un levier un peu trop grand (> 0.23) : 8, 10, 12, 21 et 32. Les observations 20 et 33 ont des rsidus grands (|STUDENT| et |RDSTUDENT| > 2) et donc un grand effet sur la prcision (COVRATIO -1) > 0.34 car quand on les enlve de la rgression, SSE diminue fortement. Et elles influent galement sur |DFFITS| >> 0.67. Les observations 10 et 21 ont une forte incidence sur lensemble des coefficients (DCOOK > 0.10) et donc sur certains coefficients (DFBETAS > 0.30), ceux de X1 et X2 pour les 2 observations, celui de X4 pour lobservation 10. Pour rsumer, les observations 10 20 21 et 33 seraient atypiques. Cependant, au vu des donnes, o ces observations sont des placettes issues dun plan dexprience, on peut penser quil nest pas judicieux de les retirer de la rgression. Le dessin humoristique de la figure 4 .5 ci-dessous (publi dans le manuel du logiciel OSIRIS, mais lauteur nous est inconnu) illustre le mauvais rflexe que pourrait avoir le statisticien au vu de donnes atypiques !

Revue MODULAD, 2006

- 317-

Numro 35

Figure 4.5 : Que faire en prsence de donnes atypiques ?

4.4.

Colinarit des rgresseurs

Diffrents symptmes sont rvlateurs de problmes de colinarit : De grandes corrlations entre les rgresseurs ; Un grand changement dans les coefficients quand on ajoute ou enlve un rgresseur ; Des coefficients non significatifs alors que le test global danalyse de variance sur tous les coefficients est significatif ; La non significativit et/ou une trs grande variance pour le coefficient dun rgresseur thoriquement important dans le modle ; Un coefficient de signe oppos celui auquel on sattendait. Ce sont des problmes d'inversion de X'X, qui entrainent une augmentation des variances des coefficients, et donc leur instabilit car Var () = 2 ( X' X) 1 . Et la noninversion de XX se rencontre quand il existe des combinaisons linaires entre les colonnes de X.

Revue MODULAD, 2006

- 318-

Numro 35

Lexemple simple de la figure 4.6 illustre le phnomne dinstabilit d la liaison entre deux rgresseurs.
Y

X1 ^ Y O X2

Figure 4.6 : Projection de Y dans lespace de 2 rgresseurs corrls

Dans lespace Rn, les cosinus dangle entre variables sont les corrlations (voir chapitre 1, 1.2.5): Ici X1 et X2 tant trs corrles, langle entre les 2 vecteurs est petit, ce qui rend le sous-espace (X1,X2), et donc la projection, instables21.
4.4.1. Mthodes bases sur l'tude de la matrice X'X

La matrice X possde n lignes et (p+1) colonnes :


1 x 11 1 x 21 X = (x ij ) = M. M 1 x n1 x 12 x 22 M x n2 x 1p x 2p M x np

La matrice (X'X) est une matrice carre (p+1), symtrique, dont les lments sont calculs ainsi : (XX)11 = n
2 (XX)kk = x ik , k 1 i=1,n

(XX)kh = x ik x ih , k,h 1 (XX)k1 = x ik


i=1,n i=1,n

= n.moyenne (X k ) , k 1

En tudiant les leviers au 4.3.1, on a utilis les variables rgresseurs centres. Si on considre la matrice Xc de taille (n,p ) ayant en colonnes les p rgresseurs centrs, alors (Xc'Xc) = n . COV o COV est la matrice de variance-covariance des variables Xj. Quand les variables sont non-corrles, alors (X'c Xc) est une matrice diagonale puisque toutes les covariances sont nulles.

21

Le site de Chong Ho Yu illustre de faon trs amusante ce problme dinstabilit

http://creative-wisdom.com/computer/sas/collinear_subject_space.html

Revue MODULAD, 2006

- 319-

Numro 35

Donc XX est gal n.R si on travaille sur des rgresseurs centrs et rduits, o R est la matrice carre symtrique des coefficients de corrlation entre les p rgresseurs.
Etude de la matrice de corrlation des rgresseurs

Cette tude se rvle intressante.


Si les rgresseurs ne sont pas corrls entre eux, cette matrice, note R, na que des 1 sur sa diagonale, et 0 ailleurs : cest la matrice identit. La matrice R est symtrique dfinie et positive, et de rang p. Les valeurs propres de R sont donc en nombre de p, elles sont positives et leur somme vaut p (trace de R). Quand il ny a aucune liaison entre les rgresseurs, elles sont toutes gales 1 car R est la matrice identit. Sinon, on aura des valeurs propres plus petites et mmes proches de 0 : lexamen des valeurs propres rvlera donc les problmes de liaison entre les rgresseurs. R(-1), matrice inverse de R, est galement riche en informations. En effet on peut montrer que ses lments diagonaux R (j 1) sont gaux 1/(1 - Rj) o

Rj est le coefficient de corrlation multiple de la rgression avec constante de Xj sur les (p-1) autres variables.
Si on dfinit un modle avec les rgresseurs centrs et rduits, en remplaant lexpression de (XX) dans lestimateur des moindres carrs, on montre (cf. Woolridge (2000)) que le vecteur des coefficients Bc de ce modle est 1 2 1 B c = R 1 XY , et la matrice de variance-covariance vaut Var (B c ) = R . n n

Une tude pralable de la matrice de corrlation des rgresseurs, complte ventuellement par une Analyse en Composantes Principales, simpose donc et permet de visualiser les liaisons entre variables. REG possde des options TOL, VIF et COLLIN, COLLINOINT pour dtecter des problmes de colinarit selon deux optiques diffrentes. SAS/ INSIGHT donne les indices TOL et VIF par dfaut, et affiche la table COLLIN uniquement.
4.4.2. Variance Inflation Factor

On a vu au 4.4.1 que la matrice de variance covariance des coefficients du modle o les rgresseurs sont centrs et rduits est R-1, un facteur prs. Donc llment diagonal j de cette matrice mesure comment la variance du coefficient de Xj sera augmente par la colinarit. Pour chaque variable Xj , on nomme cet lment VIFj (Variance Inflation Factor ou inflation de variance) : VIFj = 1/(1 - Rj) o Rj est le coefficient de corrlation multiple de la rgression avec constante de Xj sur les (p-1) autres variables.

Revue MODULAD, 2006

- 320-

Numro 35

S'il y a colinarit, alors Rj est proche de 1, donc VIFj est grand. Comme la loi de ce coefficient nest pas connue, Belsley et al. ont dfini un seuil limite de faon empirique.
Rgle : une valeur de VIF plus grande que 10 rvle un problme.

Tomassone (1983) propose de calculer un indice global de colinarit dfini 1 p comme la somme des VIF de tous les rgresseurs : I = VIFj p j=1 Remarque: la tolrance (option TOL) est dfinie comme l'inverse de la variance inflation TOLj = 1/VIFj

4.4.3. Condition index et variance proportion

On a signal au 4.4.1 que ltude les valeurs propres de la matrice de corrlations rvle les problmes de liaisons entre les rgresseurs. Cette tude se fait aussi par lanalyse en composantes principales (ACP), qui consiste transformer des variables pour obtenir dautres variables orthogonales, qui sont des combinaisons linaires des premires, appeles composantes principales (cf. Saporta (2006) ou Tenenhaus (1994)). Plus prcisment si Z est la matrice (n,p) des variables initiales centres et rduites , on construit la matrice W (n,p) des variables orthogonales avec la relation W = Z U. En ACP, on dmontre que la matrice U est la matrice des vecteurs propres norms de R, associs aux p valeurs propres ( k , k = 1 2,..., p) , , qui sont positives car R est symtrique dfinie positive. On les ordonne de la plus grande la plus petite : une liaison parfaite entre les variables Z entraine une nullit des dernires valeurs propres. On montre galement que la variance dune composante W k est gale k. Si on construit le modle avec les variables W 22, on trouve donc la solution des ) ) moindres carrs Y = W c + e , avec c = ( W 'W ) 1 W ' Y . ) 1 Et la matrice de variance-covariance des coefficients est Var (c ) = 2 (W ' W ) ; pour ) 2 un coefficient : var (c k ) = . n k Comme les variables sont orthogonales et de variance gale la valeur propre, on 1 ) ,.., en dduit Y = W c + e = 1 W ' Y , avec 1 = Diag n , k = 1 p matrice k diagonale.

22

On trouvera dans le chapitre 6 du livre Tomassone et al (1992), le principe de cette mthode quil appelle rgression orthogonalise

Revue MODULAD, 2006

- 321-

Numro 35

) ) ) ) ) ) ) On passe facilement de c car Y = W c + e = ZUc + e = Z + e , et donc = Uc . ) ) La matrice de variance-covariance est Var ( ) = U Var (c )U' ; pour le coefficient du
2 p U jk ) rgresseur j, var ( j ) = : des valeurs propres faibles entrainent donc de n k =1 k grandes variances des coefficients.
2

Les indices de colinarit

A - Tout dabord, ldition des valeurs propres donnera des informations sur lexistence de colinarit. De faon gnrale, on calcule les valeurs propres de la matrice (XX) du modle, pralablement transforme pour avoir uniquement la valeur 1 sur les lments diagonaux. Il y a donc (p+1) valeurs propres : cest loption COLLIN. Si on travaille sur un modle avec les rgresseurs centrs comme ci-dessus, il y aura p valeurs propres : cest loption COLLINOINT. On dite ces valeurs propres de la plus grande 1 la plus petite L, (L=p ou p+1). Une valeur propre nulle rvle lexistence dune dpendance linaire entre les colonnes de X, donc une colinarit. On nomme Condition Index le rapport CI =
1 , appel aussi indice de k

conditionnement . Le dernier de ces rapports CI = Condition Number .

1 (L=p ou p+1) est nomm L

Comme la loi de ce coefficient nest pas connue, Belsley et al. ont dfini un seuil limite de faon empirique :
Rgle (colonne Condition Index) : une valeur grande met en vidence un problme ; empiriquement CI > 30 avec l'option COLLINOINT, ou CI > 100 avec COLLIN.

Remarque : On peut dfinir une indice de multicolinarit en calculant la moyenne des inverses des valeurs propres (cf. Foucart 2006, 2007) : Cet indice 1 1 serait calcul comme I = si on considre que les rgresseurs sont p k k centrs et rduits (p valeurs propres). B Ensuite, pour chaque valeur propre et donc chaque CI, sont donnes des VARiance PROPortions , qui indiquent quelles variables sont responsables de la colinarit rvle par cette valeur propre. ) En effet, on a vu que la matrice de variance-covariance des coefficients de la ) ) rgression sur les variables centres et rduites est Var ( ) = U Var (c )U' et que
2 ) pour un coefficient j, var ( j ) = n

k =1

U2 jk
k

. - 322Numro 35

Revue MODULAD, 2006

La colonne proportion de variance pour le coefficient dune variable j est le U2 jk , k = 1 p ou (p + 1) , norm pour que la somme de ses ,.., vecteur Var. Prop. = k composantes soit gale 1.
Rgle : d'aprs Belsley, Kuh et Welsh, si les proportions de variance de plusieurs variables sont plus grandes que 0.50 pour un condition index grand, les variables correspondantes ont un problme de colinarit entre elles. Remarque : l'option COLLINOINT exclut la constante des estimateurs de coefficients; les p variables sont centres et rduites et (X'X) est donc, un coefficient prs, la matrice de corrlation entre les p variables explicatives. L'option COLLIN inclut la constante dans les estimations de coefficients. X contient donc la variable constante gale 1. La matrice X'X, de taille (p+1), est norme pour avoir 1 sur la diagonale, mais les variables ne sont pas centres. Belsley, Kuh et Welsh recommandent de n'utiliser l'option COLLIN que si la constante a une interprtation physique. Centrer les variables (option COLLINOINT) consiste supposer que la constante n'a pas d'effet sur la colinarit des autres variables rgresseurs. De plus, ceci est cohrent avec les calculs du Variance Inflation Factor . On trouvera dans larticle dHlne Rousse-Erkel (1990) des prcisions et des prolongements aux travaux de Belsley et al. sur la colinarit. 4.4.4. Remdes en cas de multi-colinarit

Retirer certains rgresseurs, principaux responsables de la colinarit ; Les transformer par des ratios si on identifie le facteur commun de liaison ; Augmenter la taille n de l'chantillon avec le recueil d'autres observations ; Slectionner les rgresseurs, si p est trop grand par rapport n ; Faire une Ridge-Regression 23 (transformer (X'X) en (X'X + kI)) (Hoerl et Kennard (1970)) ; Travailler sur les composantes principales issues des rgresseurs 24 ; Faire une rgression PLS ; Utiliser les mthodes de type LASSO de Tibshirani (1996) ; Etc. .

La rgression RIDGE et la rgression sur composantes principales peuvent tre ralises laide des options RIDGE et PCOMIT de linstruction Proc REG (voir lannexe 1 pour la syntaxe).
Remarques : - Quelques unes de ces mthodes sont dcrites dans les articles de la R.S.A. de P.Cazes (1975) ou de R. Palm et A.F.Iemma (1995). - La rgression PLS (Partial Least Square) semble une mthode plus efficace que la rgression Ridge ou la rgression sur composantes principales en cas de

23 24

Voir lexemple au 4.4.5. Cest la rgression orthogonalise de Tomassone ( 4.4.3.)

Revue MODULAD, 2006

- 323-

Numro 35

colinarit, et s'applique aussi au cas o p est trs grand par rapport n (voir les publications de Tenenhaus (1995,1998)). PROC ORTHOREG de SAS propose dautres solutions pour raliser une rgression sur donnes mal conditionnes , cest dire en cas de colinarits des variables.
4.4.5. Exemple

On utilise les donnes Processionnaire du pin issu du livre de Tomassone et al.(1983), avec le modle Y = log = f(X1 X2 X4 X5).
proc reg data=libreg.chenilles ; title 'option TOL VIF'; LOG : model log=X1 X2 X4 X5 /tol vif collinoint; run; quit;

Aucune des valeurs VIF ne sont trop grandes, et tous les coefficients sont significatifs.

Dans la colonne condition Index (traduit dans la version franaise de SAS par Index de condition ) il ny a pas de grandes valeurs. Sur la 4ime et dernire ligne (cest celle de condition number ), en regardant les proportions de variance, on constate que les 2 variables X4 et X5 sont les responsables de la faiblesse de la 4ime valeur propre : on avait vu au chapitre 2 (2.3.2) que cest le couple de rgresseurs le plus corrl. Revue MODULAD, 2006 - 324Numro 35

Regression RIDGE

Cette mthode, due Hoerl et Kennard (1970), consiste modifier (XX) pour la rendre inversible. Pour cela on ajoute un terme constant k la diagonale (0 k 1) . La solution des moindres carrs sera donc obtenue en inversant (X'X + kI) : les coefficients obtenus sont appels coefficients ridge . On trace ensuite la variation des coefficients ridge en fonction de k : cest la Ridge Trace . On dtermine la valeur de k partir de laquelle les coefficients se stabilisent : ce sera la valeur choisie.
title 'Ridge-regression sur le modele a 4 variables' ; proc reg data=libreg.chenilles ridge = 0 to 1 by 0.05 outest = coeff_ridge ; LOG: model log=X1 X2 X4 X5 ; plot / ridgeplot ; run; quit; proc print data = coeff_ridge ; run ;

Ici les coefficients ridge se stabilisent pour k 0.3. Les valeurs des coefficients sont alors lus dans la table coeff_ridge. Dans cette table, la premire ligne est le modle habituel, et la deuxime correspond k=0, ce qui est le mme modle. Pour _RIDGE_ = 0.3 , b1 = -0.003281930, b2 = -0.047532; b4 = -0.40556 ; b5 =0.05207.

Revue MODULAD, 2006

- 325-

Numro 35

4.5.

Choix des rgresseurs

Ce choix s'avre ncessaire en particulier si le nombre d'observations est petit par rapport au nombre de rgresseurs, cause du rang de X'X qui peut devenir plus petit que p. Ceci peut entrainer une instabilit des coefficients comme on la vu au paragraphe prcdent. Soit un modle avec n observations et p rgresseurs ; on slectionne dans les cas suivants (cette liste est non exhaustive) : 1. n petit par rapport p ; 2. colinarit des rgresseurs ; 3. choix dun modle plus simple pour la prvision (principe de PARCIMONIE). (1 et 2 entranent des problmes dinversion de XX). Proc REG permet ce choix par l'option SELECTION = method , de l'instruction MODEL. Il ny a pas de slection dans SAS/INSIGHT.
4.5.1. Utilisation des sommes de carrs

La formule de base est : SSTotale = SSModle + SSErreurs

Revue MODULAD, 2006

- 326-

Numro 35

Rappel sur les somme de carrs apports par un rgresseur

Les sommes de carrs apports par les rgresseurs peuvent tre obtenues par les options SS1 SS2 de l'instruction MODEL de REG, ce qui a dj t vu dans le chapitre 2 (2.4.1), ou bien par les Type III Tests dans SAS/INSIGHT. SS1(Xj) = somme des carrs apporte par la variable Xj introduite en squence dans la rgression, la rgression contenant uniquement les variables qui la prcdent dans la liste de variables explicatives de l'instruction MODEL. SS2(Xj) = somme des carrs apporte par la variable Xj, lorsque l'ensemble des (p-1) autres rgresseurs est dj dans la rgression. Ce sont les sommes de carrs donnes par la table Type III Tests de SAS/INSIGHT. SS2(Xj) correspond au calcul du carr de la diffrence entre la valeur de Y estime par la rgression avec les p variables et celle estime dans la rgression (p-1) variables, sans Xj. Pour le choix de rgresseurs, le deuxime calcul dapport de somme de carrs est le plus intressant, car il ne dpend pas de lordre dintroduction des variables dans le modle. On notera SSapport par j cette quantit SS2(Xj).
Tests des apports SSModle dune variable

Les tests dcrits dans le chapitre 2 (2.4.3), ne sont pas faits par l'option SS2 de l'instruction MODEL de REG, mais sont donns dans la table Type III Tests de SAS/INSIGHT. Plus gnralement, comme on la vu au 2.4.4, un modle sans r variables est appel modle restreint par opposition au modle complet p variables. RRSS (Restricted Residual Sum of Squares) = Somme des carrs des rsidus du modle restreint URSS (Unrestricted Residual Sum of Squares)=somme des carrs des rsidus du modle complet. (RRSS URSS) / r La valeur de la statistique du test est F = . URSS /(n p 1) Dans le cas dune seule variable, r vaut 1, et donc en passant aux sommes de carrs du modle :
F= (RRSS URSS) / 1 SS Modle complet SS Modle sans j = . URSS /(n p 1) MSE

F=

SSapport par j MSE

Les tests de significativit de ces sommes de carrs sont donc raliss laide dune statistique F, obtenue en divisant SS par la quantit MSE (Mean Square Error) du modle avec constante contenant tous les rgresseurs. De plus, la valeur Revue MODULAD, 2006 - 327Numro 35

de F associ SS est aussi le carr du t de Student du coefficient de la variable j dans la rgression p rgresseurs.
Exemple dlimination progressive On analyse les donnes Processionnaire du pin issu du livre de Tomassone et al..(1983). On va calculer les apports de sommes de carrs pour liminer progressivement les variables partir du modle complet 10 variables. On utilise les sorties de SAS/INSIGHT, qui permet dans le tableau Type III Tests de tester la validit de lapport des sommes de carrs. Modle 10 variables

l og

= +

10. 9984 1. 2936 X 4 0. 1811 X 8

M odel E quat i on 0. 0044 X 1 0. 0538 X 2 + + 0. 2316 X 5 0. 3568 X 6 1. 2853 X 9 0. 4331 X 10

0. 0679 X 3 0. 2375 X 7

S our ce M odel E r or r C T al ot

D F 10 22 32

A nal ysi s of V i ance ar ean S quar e S um of S quar es M 3. 4466 34. 4662 0. 6877 15. 1299 49. 5960

F S at t 5. 01

P > F r 0. 0008

V i abl e ar I nt er cept X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10

D F 1 1 1 1 1 1 1 1 1 1 1

E im e st at 10. 9984 - 0. 0044 - 0. 0538 0. 0679 - 1. 2936 0. 2316 - 0. 3568 - 0. 2375 0. 1811 - 1. 2853 - 0. 4331

P am er E i m es ar et st at P > t| r | t S at t S d E r or t r 0. 0016 3. 59 3. 0603 0. 0094 - 2. 85 0. 0016 0. 0223 - 2. 46 0. 0219 0. 5017 0. 68 0. 0995 0. 0317 - 2. 29 0. 5638 0. 0371 2. 22 0. 1044 0. 8219 - 0. 23 1. 5665 0. 8156 - 0. 24 1. 0060 0. 4525 0. 76 0. 2367 0. 1514 - 1. 49 0. 8648 0. 5616 - 0. 59 0. 7349

T er ance ol . 0. 5327 0. 8400 0. 0239 0. 0624 0. 1066 0. 0170 0. 6064 0. 0693 0. 0895 0. 6057

V ar I nf l at i on 0 1. 8774 1. 1904 41. 8708 16. 0219 9. 3845 58. 7558 1. 6491 14. 4226 11. 1686 1. 6509

Cest un modle globalement bon (F danalyse de variance significatif), mais les coefficients des rgresseurs X3 X6 X7 X8 X9 et X10 sont non significatifs . De plus, linflation de variance est plus grande que 10 pour les rgresseurs X3 X4 X6 et X9. Le modle nest donc pas un bon modle : il faut liminer des rgresseurs. Pour cela on effectue les tests sur les apports de sommes de carrs

Revue MODULAD, 2006

- 328-

Numro 35

S our ce X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10

D F 1 1 1 1 1 1 1 1 1 1

T ype I I I T est s ean S quar e S um of S quar es M 5. 5717 5. 5717 4. 1551 4. 1551 0. 3208 0. 3208 3. 6205 3. 6205 3. 3869 3. 3869 0. 0357 0. 0357 0. 0383 0. 0383 0. 4023 0. 4023 1. 5190 1. 5190 0. 2389 0. 2389

F S at t 8. 10 6. 04 0. 47 5. 26 4. 92 0. 05 0. 06 0. 59 2. 21 0. 35

P > F r 0. 0094 0. 0223 0. 5017 0. 0317 0. 0371 0. 8219 0. 8156 0. 4525 0. 1514 0. 5616

Les variables X3, X6, X7, X8, X9, et X10 ont un apport non significatif : on limine la variable X6 dont lapport est le plus petit. 0.0529 = (-0.23) (cf. chapitre Remarque : on peut vrifier ici que F(X6) = t(X6) 1, 1.3.4)

S our ce X 1 X 2 X 3 X 4 X 5 X 7 X 8 X 9 X 10

D F 1 1 1 1 1 1 1 1 1

T ype I I I T est s ean S quar e S um of S quar es M 5. 5373 5. 5373 4. 1218 4. 1218 0. 9909 0. 9909 4. 0339 4. 0339 3. 5100 3. 5100 0. 0871 0. 0871 0. 3742 0. 3742 1. 8513 1. 8513 0. 2063 0. 2063

F S at t 8. 40 6. 25 1. 50 6. 12 5. 32 0. 13 0. 57 2. 81 0. 31

P > F r 0. 0081 0. 0200 0. 2327 0. 0212 0. 0304 0. 7196 0. 4589 0. 1074 0. 5813

On limine X7
S our ce X 1 X 2 X 3 X 4 X 5 X 8 X 9 X 10 D F 1 1 1 1 1 1 1 1 T ype I I I T est s S um of S quar es M ean S quar e 6. 3925 6. 3925 4. 0447 4. 0447 0. 9455 0. 9455 4. 9416 4. 9416 4. 7047 4. 7047 0. 3782 0. 3782 1. 7752 1. 7752 0. 2984 0. 2984 F S at t 10. 06 6. 36 1. 49 7. 78 7. 40 0. 60 2. 79 0. 47 P > F r 0. 0041 0. 0187 0. 2344 0. 0102 0. 0119 0. 4480 0. 1076 0. 4997

On limine X8
S our ce X 1 X 2 X 3 X 4 X 5 X 9 X 10 D F 1 1 1 1 1 1 1 T ype I I I T est s ean S quar e S um of S quar es M 7. 0905 7. 0905 4. 1181 4. 1181 1. 1435 1. 1435 5. 0418 5. 0418 4. 5410 4. 5410 1. 4670 1. 4670 0. 4195 0. 4195 F S at t 11. 34 6. 59 1. 83 8. 06 7. 26 2. 35 0. 67 P > F r 0. 0025 0. 0166 0. 1884 0. 0088 0. 0124 0. 1381 0. 4205

On limine X10

Revue MODULAD, 2006

- 329-

Numro 35

S our ce X 1 X 2 X 3 X 4 X 5 X 9

D F 1 1 1 1 1 1

T ype I I I T est s S um of S quar es M ean S quar e 6. 6711 6. 6711 4. 2645 4. 2645 0. 9272 0. 9272 4. 7457 4. 7457 4. 3079 4. 3079 1. 4451 1. 4451

F S at t 10. 81 6. 91 1. 50 7. 69 6. 98 2. 34

P > F r 0. 0029 0. 0142 0. 2314 0. 0101 0. 0138 0. 1381

On limine X3
T ype I I I T est s S our ce X 1 X 2 X 4 X 5 X 9 D F 1 1 1 1 1 S um of S quar es 5. 8582 4. 0243 6. 2247 5. 6406 0. 5259 M ean S quar e 5. 8582 4. 0243 6. 2247 5. 6406 0. 5259 F S at t 9. 32 6. 40 9. 90 8. 97 0. 84 P > F r 0. 0051 0. 0176 0. 0040 0. 0058 0. 3685

On limine X9
T ype I I I T est s S our ce X 1 X 2 X 4 X 5 D F 1 1 1 1 S um of S quar es 7. 3067 5. 4683 11. 2389 8. 6123 M ean S quar e 7. 3067 5. 4683 11. 2389 8. 6123 F S at t 11. 69 8. 75 17. 98 13. 78 P > F r 0. 0019 0. 0062 0. 0002 0. 0009

On a obtenu un modle dont les apports de toutes les variables sont tous significatifs : on arrte donc le processus. La procdure ralise donne donc comme modle final Y = f(X1 X2 X4 X5); qui est le modle dj tudi et qui sest rvl tre un modle correct , vrifiant les suppositions de base sur les erreurs (4.2.5), o 4 observations sont atypiques (4.3.11), et dans lequel les 4 rgresseurs nont pas de problme de colinarit (4.4.5).
4.5.2. Diffrentes mthodes bases sur les sommes de carrs Mthode FORWARD (ascendante)

On introduit les variables une par une : on commence par un modle une variable, et on ajoute chaque tape une variable. Les SSModle augmentent forcment (gain) et le principe est de faire entrer chaque pas la variable qui apportera l'augmentation la plus significative de la somme des carrs du modle. Donc, la variable qui est introduite est celle qui a SSapport par j maximum, donc qui possde le F le plus grand, et significatif avec une probabilit par dfaut associe au F de 0.5 : ce seuil s'appelle le seuil pour entrer SLE de REG. Il y a au plus p modles slectionns, qui sont affichs par ordre croissant de k (k=1 L, L p. Revue MODULAD, 2006 - 330Numro 35

Mthode BACKWARD (descendante)25

On part de la rgression p rgresseurs, et on limine chaque pas la variable la moins significative, c'est--dire qu'on limine la variable ayant SSapport par j minimum, c'est--dire le F ou le t de Student le plus petit (probabilit par dfaut associe au F de 0.10 : seuil pour sortir SLS de REG). Il y a au plus p modles slectionns, qui sont affichs par ordre dcroissant de k (k=p L, L 1.
Mthode STEPWISE (progressive)

Cst une combinaison FORWARD/BACKWARD : on effectue une slection FORWARD, en laissant la possibilit de faire sortir du modle chaque pas une des variables devenue non significative (seuils de probabilit pour entrer 0.15, pour sortir 0.15 par dfaut dans REG).
Remarque : les mthodes FORWARD, BACKWARD et STEPWISE ne donnent pas forcment le meilleur sous-ensemble k variables. On peut le voir sur lexemple ci-dessous, extrait de Brenot, Cazes et Lacourly (1975). On considre un modle 3 rgresseurs. La figure 4.6 illustre graphiquement les liaisons dans Rn :

Figure 4.6 : reprsentation gomtrique dans Rn de y et x1 x2 x3

Dans lespace Rn, y, x1 et x3 sont coplanaires, et x1, qui nappartient pas au plan, est telle que son coefficient de corrlation avec y est le plus fort des coefficients de corrlations de y avec les 3 rgresseurs. La meilleure rgression avec 2 variables est donc y=f(x1). La meilleure rgression 2 variables est donc y=f(x2, x3). Les mthodes de slection donneront les choix successifs : BACKWARD : (x1, x2, x3) (x2, x3) FORWARD : x1 (x1, x2) ou (x1, x3) STEPWISE : x1 (x1,x 2) ou (x1, x3) (x2, x3) x2 ou x3 (x1, x2, x3) (x1, x2, x3)

Les modles 1 ou 2 variables trouvs par ces mthodes sont diffrents, et ne sont pas forcment les meilleurs : BACKWARD trouve le meilleur modle 2 variables, mais pas celui 1 ; FORWARD et STEPWISE trouvent le meilleur modle 1 variable mais pas celui 2 ; la mthode STEPWISE effectue un pas de plus que FORWARD.

25

Cest la mthode ralise au 4.5.1.

Revue MODULAD, 2006

- 331-

Numro 35

Exemples de slection STEPWISE

On slectionne parmi les 10 variables candidates dans les donnes Processionnaire du pin issu du livre de Tomassone et al.(1983). Tout dabord, on conserve les seuils par dfaut SLE = SLS = 0.15 de la mthode.
title 'regression STEPWISE '; proc reg data =libreg.chenilles ; log10 : model log = x1--x10 / selection = stepwise; run ; quit;

Revue MODULAD, 2006

- 332-

Numro 35

Rsultats : La slection se fait en 4 tapes. A chaque tape, des rsultats globaux sur le modle sont donnes (R, CP, analyse de variance). Pour vrifier si les rgresseurs nont pas de colinarit pathologique , le Condition Number (cf. 4.4.3) est born : ici par exemple au 4ime pas, Condition Number a une borne suprieure trs grande (52.20) donc on peut souponner lexistence dune colinarit entre les 4 rgresseurs.

Le modle trouv en 4 tapes est le modle LOG=f(X9, X1, X2, X3).

Revue MODULAD, 2006

- 333-

Numro 35

Puis on fixe les seuils SLE et SLS 5% par les options SLE= 0.05 et SLS = 0.05.
title 'regression STEPWISE avec seuils 0.05 '; proc reg data =libreg.chenilles ; log10 : model log = x1--X10 / selection = stepwise SLE = 0.05 SLS = 0.05; run ; quit;

Dans ce cas, 2 pas seulement sont effectus et le modle est LOG= f(X9, X1).

Remarque On peut raisonner soit avec les sommes de carrs comme on vient de le faire aux SS Modle 4.5.1 et 4.5.2, soit avec R = , ce qui est quivalent compte-tenu de SS Total lquation danalyse de variance : SSTotale = SSModle + SSErreurs Do les autres mthodes prsentes ci-dessous. 4.5.3. Amlioration de R

Maximum R 2 Improvement (MAXR)

Cest une mthode qui procde par tape comme les prcdentes. Elle tente de trouver le meilleur modle au sens du R pour chaque valeur k du nombre de rgresseurs. La mthode MAXR commence par choisir la variable donnant le plus grand R (cest dire celle qui est la plus corrle avec Y). Puis est ajoute celle qui provoque la plus grande augmentation du R. Une fois ce modle 2 variables obtenu, tous les changes possibles entre une des 2 variables prsentes dans le modle et une variable extrieure sont examins, c'est Revue MODULAD, 2006 - 334Numro 35

-dire que le R de la rgression est calcul, et lchange qui est fait est celui qui fournit laccroissement maximum de R. La comparaison recommence alors avec 3 variables dans le modle. Ce processus continue jusqu ce quaucune permutation naugmente R. La diffrence entre les mthodes STEPWISE et MAXR est que toutes les permutations possibles sont values dans MAXR avant le changement. Dans STEPWISE, seul le moins bon rgresseur est retir, sans vrifier si on pourrait ajouter la meilleure variable. En contre partie, MAXR demande videmment beaucoup plus de calculs.
Minimum R 2 Improvement (MINR)

Il sagit du mme processus que le prcdent sauf que la procdure dechange fait appel au couple de variables associ au plus petit accroissement du R. Lobjectif est ainsi dexplorer plus de modles que dans le cas MAXR et donc, ventuellement, de tomber sur un meilleur optimum.
4.5.4. Autres mthodes bases sur R : RSQUARE et ADJRSQ

Ces mthodes ne fonctionnent pas par tapes. Elles affichent pour toute valeur de k, le meilleur sous-ensemble de k rgresseurs au sens de R ou Radj (dfini au chapitre 1 1.2.5), ce que n'assurent pas les mthodes STEPWISE ou MAXR/MINR. Elles demandent beaucoup plus de calculs car il faut examiner toutes les rgressions possibles, mais les puissants moyens informatiques actuels rendent ces mthodes trs rapides. Pour k=1 p, les modles sont affichs dans lordre dcroissant de R (ou Radj). Pour limiter le volume des sorties quand le nombre de variables est grand, loption BEST = q limite laffichage aux q premiers modles pour chaque valeur de k. Ceci permet dexplorer rapidement les sous-ensembles de variables, mais les modles slectionns, optimaux au sens R (ou Radj.), ne le sont pas forcment au niveau des donnes. Aussi il est recommand dafficher des critres supplmentaires de qualit comme les critres CP, AIC et BIC prsents ci-dessous. Il faudra aussi valider les modles, comme on la vu dans ce chapitre aux 4.2, 4.3, 4.4.
4.5.5. Coefficient CP de Mallows

Ce coefficient propos par Mallows en 1973, est bas sur la recherche des rgresseurs ayant le meilleur pouvoir prdictif, cest dire lerreur totale moyenne la plus petite. Il permet ainsi de choisir entre plusieurs rgressions diffrant la fois par le nombre de rgresseurs et la prcision atteinte. En effet, si on ajoute des rgresseurs on diminue, en gnral, le biais des estimations mais on risque d'augmenter les variances des estimations et l'erreur totale moyenne, car on a pu ajouter des variables trs lies aux variables initialement introduites.

Revue MODULAD, 2006

- 335-

Numro 35

La prcision tant mesure par MSE ou bien SSE, on calculera le coefficient ainsi : - Si q < p , CP(q) =[ SSE(q)/MSE] - [n - 2(q + 1)] o SSE(q) = somme des carrs des erreurs de la rgresssion avec q rgresseurs et constante, et MSE = prcision s calcule avec les p rgresseurs (soit SSE(p)/(n(p+1)). - Si q = p, alors CP(p) = p+1. Si le bon modle est choisi, lestimation est sans biais, et alors CP(q) est proche de (q+1) : voir plus de dtails dans Daniel et Wood (1980). Dans le cas o CP vaut (p+1), on a la mme prcision que la rgression globale.
Slection suivant le coefficient CP

En plus du R, REG affiche les sous-ensembles de rgresseurs par ordre croissant de CP. A partir du modle complet, on choisit le premier sous-ensemble dont le CP approche la valeur (p+1): c'est le meilleur sous-ensemble de rgresseurs. On peut aussi faire le graphique de CP(q) en fonction de q (q=1 p) et regarder la position de l'optimum ainsi que Mallows recommande:
Utilisation du coefficient CP dans une slection de rgresseurs

On demande afficher le coefficient de chaque modle obtenu par la mthode de slection choisie, en ajoutant loption CP linstruction MODEL de REG. Pour un nombre k donn de rgresseurs, il est conseill de choisir le sous-ensemble de k variables ayant une valeur de CP la plus grande.
4.5.6. Critres AIC et BIC

Ces critres ne sont pas des critres de slection des rgresseurs, mais des indicateurs de la qualit du modle. De manire gnrale, ces critres mesurent la qualit dun modle statistique bti sur k paramtres sur un chantillon de taille n, partir de la fonction de vraisemblance L. Akaike Information Criterion (1969) : AIC = 2 Log(L ) + 2k

Sawa's Bayesian information criterion (1978) : BIC = 2 Log(L ) + kLog(n) Le critre BIC est dun autre critre utilis nomm critre de Schwartz . Dans le cas dun modle de rgression p rgresseurs avec constante :
SSE AIC = n Log + 2(p + 1) n SSE BIC = n Log + 2(p + 3)q n

avec

q=

n s SSE

Revue MODULAD, 2006

- 336-

Numro 35

Ces indicateurs sont utiliss comme la rgle habituelle consistant choisir le modle ayant la meilleure prcision (SSE petit).
4.5.7. Exemple de slection RSQUARE

On slectionne parmi les 10 variables candidates dans les donnes Processionnaire du pin issu du livre de Tomassone et al.(1983). On demande laffichage des 2 meilleurs modles pour chaque nombre de rgresseurs par loption BEST = 2.
title 'regression RSQUARE '; proc reg data =libreg.chenilles ; log10 : model log = X1--X10 / selection = RSQUARE AIC BIC CP BEST = 2 ; run ; quit;

Revue MODULAD, 2006

- 337-

Numro 35

Dans le tableau des modles, on constate que, parmi les modles 4 variables, celui qui a le meilleur R, et les plus petites valeurs de AIC et BIC est Y = f(X1 X2 X4 X5), qui est le modle tudi aux paragraphes 4.2.5, 4.3.11 et 4.4.5. Par contre le critre CP est plus petit que celui 2ime modle slectionn Y = f(X1 X2 X3 X9), qui pourrait donc tre galement un modle tudier : cest dailleurs le modle final trouv par la mthode STEPWISE (4.5.2) avec les seuils par dfaut de15 %.

Revue MODULAD, 2006

- 338-

Numro 35

Conclusion
Arriv au terme de ce tutoriel nous voulons insister sur deux points non abords par la technique de la rgression : la qualit des donnes et les difficults dinterprtation. Ces deux points sont du ressort du spcialiste du domaine dtudes sur lequel le statisticien applique la rgression. La qualit de l'information apporte par les donnes (observations) intervient dans la validit et la robustesse d'un modle de rgression. Mais cette qualit nest pas apprhendable par le statisticien-praticien. Ce sont des connaissances externes la statistique mais internes ltude qui doivent intervenir. Ces connaissances sont aussi indispensables pour dterminer le plan d'chantillonnage. Cette tape qui se situe au niveau de la collecte des donnes et donc en amont de l'analyse statistique des donnes mriterait elle seule un long dveloppement. Une fois rgles toutes les difficults reste un dernier point et non des moindres, linterprtation. Prenons un exemple concret : parmi des enfants, on effectue une enqute permettant de mesurer ltendue du vocabulaire et la taille de leurs pieds. La corrlation entre ces deux variables est nettement significative ! Le bon sens permet dviter den tirer des conclusions aberrantes. Sous cette corrlation se cache linfluence de la variable ge. Autre exemple, dans un tat des U.S.A on a corrl sur les 20 dernires annes, le taux de criminalit et le taux de frquentation dans les glises. L aussi la corrlation obtenue est trs leve, mais le bon sens ne vient que peu en aide. La variable cache est limmigration italienne et irlandaise. A la lumire de ces deux exemples, gardons-nous de toutes interprtations htives.
Avoir toujours lesprit que sous une corrlation peut se cacher leffet dune autre variable, ou dun autre facteur.

On peut cependant utiliser le modle identifi, s'il est correct, dans un but de prvision mais surtout pas dans un but de "contrle" (action sur les variables explicatives dans l'espoir d'agir sur Y) ou dexplication. Sinon, on pourrait augmenter lintelligence de nos enfants en augmentant la taille de leurs pieds! Lerreur qui perdure dans la littrature, est de donner le nom de variable dpendante ou variable explique Y et de variables indpendantes ou variables explicatives X, ce qui amne dduire logiquement quil existe une ide de cause effet entre X et Y. Mcaniquement , ce nest pas lobjet de la rgression. La rgression sur donnes dobservations ne permet pas de dduire une quelconque relation de cause effet de X sur Y et/ou de Y sur X. Il faut dautres pratiques mthodologiques pour expliquer la causalit qui peut avoir des formes multiples. Revue MODULAD, 2006 - 339Numro 35

La liaison entre 2 variables X et Y peut se rencontrer dans 5 situations: X cause Y Y cause X X et Y inter-agissent l'une sur l'autre, problme de circularit, ou de rtro-action X et Y voluent ensemble sous l'effet d'une mme variable X et Y sont lies par hasard La causalit peut tre valide par loutil rgression que si on peut faire des comparaisons sur des groupes comparables. C'est un dbat historique qui est de plus en plus d'actualit. Les conomtres tentent de pallier la faiblesse des techniques de rgression appliques des donnes dobservations, en essayant de se rapprocher des techniques exprimentales. Ils ont introduit la mthode des variables instrumentales, avec lide de pouvoir comparer des individus qui ne diffrent que sur une seule dimension : le traitement. Ils ont galement propos de traiter des donnes issues dexpriences naturelles et dexpriences contrles , cest un premier pas vers des interprtations causales (voir BEHAGHEL (2006). Terminons sur ce constat, les mthodes de rgression sont des mthodes trs puissantes, mais qui doivent tre utilises avec beaucoup de discernement et de prudence. En toute honntet il ne faut pas se contenter d'un seul modle et d'une seule procdure REG, il faut en tester plusieurs. C'est un travail d'explorateur et de dtective. Cest ce que nous avons tent de mettre en lumire.

Revue MODULAD, 2006

- 340-

Numro 35

ANNEXES
ANNEXE 1......................................................................................................................................................... 342 SYNTAXE SIMPLIFIEE DE LA PROCEDURE REG DE SAS.................................................................. 342 PROC REG options ;................................................................................................................................. 342 MODEL dpendante = rgresseurs / options ;.......................................................................................... 343 Instructions BY FREQ ID WEIGHT :........................................................................................................ 344 REWEIGHT expression / WEIGHT = valeur ;......................................................................................... 344 TEST equation(s) ;..................................................................................................................................... 344 RESTRICT equation(s);............................................................................................................................. 344 Options RIDGE et PCOMIT des instructions PROC REG ou MODEL ................................................... 346 ANNEXE 2......................................................................................................................................................... 347 MODE DEMPLOI TRES SUCCINCT DE SAS/INSIGHT......................................................................... 347 Le lancement de SAS/INSIGHT ................................................................................................................. 347 Rle statistique des variables dans SAS/INSIGHT .................................................................................... 348 Menu principal de SAS/INSIGHT.............................................................................................................. 349 Graphiques standard en SAS/INSIGHT..................................................................................................... 349 Les Analyses Statistiques avec SAS/INSIGHT ........................................................................................... 351 Impression et Sauvegarde.......................................................................................................................... 352 Pour plus dinformation sur les graphiques .............................................................................................. 354 ANNEXE 3......................................................................................................................................................... 355 STATISTIQUES RELATIVES A LANALYSE DE LA VARIANCE ........................................................ 355 STATISTIQUES SUR LES PARAMETRES .............................................................................................................. 356 ANNEXE 4......................................................................................................................................................... 357 RELATIONS ENTRE LA LOI NORMALE ET LES STATISTIQUES DE LOIS .................................... 357 ANNEXE 5......................................................................................................................................................... 358 CONSTRUCTION DUN QQ-PLOT.............................................................................................................. 358 PRINCIPE DE LA DROITE DE HENRY ................................................................................................................. 358 GENERALISATION............................................................................................................................................ 359 QQ-PLOT AVEC SAS....................................................................................................................................... 359

Revue MODULAD, 2006

- 341-

Numro 35

Annexe 1

Syntaxe simplifie de la Procdure REG de SAS


La procdure REG est une procdure interactive permettant dtudier plusieurs modles en un seul appel de PROC REG. On donne ici son utilisation pour ltude dun seul modle.
PROC REG options ; MODEL dpendante = rgresseurs / options ; BY nom_var ; FREQ nom_var ; ID nom_var ; WEIGHT nom_var ; REWEIGHT expression / option ; RUN ; TEST quation(s) ; RESTRICT quation(s) ; OUTPUT OUT = data_sas mot_clef = nom_var ; PLOT yvar*xvar='symbol' / options ; QUIT ;

PROC REG options ; DATA=NOMTAB data_set_option OUTEST = TAB

option commune toutes les procdures

permet de crer des tableaux de rsultats utiles, comme les coefficients estims, et des rsultats crs dans des options.

Autres options : ALL CORR NOPRINT SIMPLE USSCP ALL CORR NOPRINT SIMPLE USSCP

Demande beaucoup d'impressions (induit l'option SIMPLE, USSCP, et CORR). Imprime la matrice de corrlation de toutes les variables du modle. Supprime les impressions. Imprime somme, moyenne, variance, cart-type et somme des carrs non corrige pour les variables utilises dans REG. Imprime les sommes de carrs non corriges et la matrice des produits croiss pour toutes les variables utilises dans REG. Permet dobtenir dans la table OUTEST le coefficient PRESS

PRESS

RIDGE et PCOMIT pour les rgressions Ridge et sur composantes principales (voir la fin de cette annexe).

Revue MODULAD, 2006

- 342-

Numro 35

MODEL dpendante = rgresseurs / options ; dpendante : nom de la variable dpendante rgresseurs : liste des noms des p variables rgresseurs

Remarque : on peut donner un label linstruction MODEL, label qui sera alors affich dans les sorties.
Quelques options de linstruction MODEL: Slection de rgresseurs Option sous la forme SELECTION = nom (o nom est un des mots-clefs de la liste ci-aprs) :

NONE FORWARD BACKWARD STEPWISE MAXR, MINR RSQUARE, ADJRSQ ajust CP

pas de slection (choix par dfaut) slection ascendante slection descendante slection progressive ascendante slection base sur gain maximum/minimum en R slection du meilleur sous-ensemble au sens de R, R slection base sur CP de Mallows

Autres options associes SELECTION : INCLUDE = n inclure les n premires variables explicatives dans les modles explors (n<p) SLE = valeur seuil de significativit pour entrer SLS = valeur seuil de significativit pour rester STOP = s arrte l'exploration au meilleur sous-ensemble de s variables (avec s < p); STOP = p par dfaut. BEST = k arrte l'exploration aprs k modles. Attention aux valeurs par dfaut des seuils : SLE = 0.50 en FORWARD et SLE = 0.15 en STEPWISE SLS = 0.10 en BACKWARD et SLS = 0.15 en STEPWISE Remarque : les diffrentes valeurs du critre de slection choisi sont stockes dans la table OUTEST, o on trouve aussi les 2 variables : _IN_ nombre de rgresseurs hors constante _P_ nombre de rgresseurs y compris la constante si elle existe dans le modle

Autres options de l'instruction MODEL:


Dfinir un modle sans constante : NOINT Afficher: des rsultats complmentaires pour les observations :

Revue MODULAD, 2006

- 343-

Numro 35

P (prvisions) CLI CLM (intervalles de prvision 95 % individuels et sur la moyenne) R(rsidus) INFLUENCE (indices de dtection des observations influentes) des coefficients: DW (Durbin-Watson), CP (Cp de Mallows), BIC, AIC, etc.; les sommes de carrs SS1 SS2 (carrs de type I ou II)
Diagnostiquer des problmes particuliers: heteroscdasticit: SPEC (et ACOV) colinarit: TOL VIF et COLLIN COLLINOINT

Instructions BY FREQ ID WEIGHT :

Ce sont des instructions communes toutes les procdures. En particulier, WEIGHT permet de dfinir une rgression pondre.

REWEIGHT expression / WEIGHT = valeur ;

Cette instruction permet de redfinir les poids, et en particulier d'omettre une observation de la rgression. est une comparaison sur une variable (on peut utiliser la variable OBS. qui contient le numro de l'observation), WEIGHT = valeur donne cette valeur de poids aux observations vrifiant l'expression .
expression

Exemple :

pour supprimer l'observation numro 20, on crit REWEIGHT obs. = 20 / WEIGHT = 0 ;

TEST equation(s) ;

Cette instruction permet de tester une ou des hypothses sur les estimations des paramtres (les quations doivent tre spares par des virgules). Chaque quation est une fonction linaire forme de coefficients et de noms de variables (ici, INTERCEPT est le nom de la constante). Exemples: TEST X1 = 0 , INTERCEPT = 0 ; TEST X3-X4 = 0 ;
tester (1=0) et (0=0) tester (3= 4)

RESTRICT equation(s);

Elle permet de fixer des contraintes sur les coefficients, avec des quations identiques TEST.

Revue MODULAD, 2006

- 344-

Numro 35

Exemple:

RESTRICT X1-X3 = 0 ;

modle avec contrainte (1= 3)

OUTPUT OUT = nomtab mot_clef = nom_var ;

Cette instruction permet de crer un tableau de donnes SAS contenant certaines des variables cres par la rgression. Ce tableau contiendra aussi les variables du modle (rponse et rgresseurs).
Liste des mots_clefs pour les variables cres par la rgression (ces mots_clefs sont utilisables aussi pour les instructions PLOT et PRINT, sauf PRESS):

PREDICTED (ou P) valeur prdite L95M U95M limites des intervalles 95% sur la moyenne des valeurs prdites L95 U95 limites des intervalles 95% sur une valeur prdite STDP cart-type de la valeur moyenne prdite STDI cart-type de la valeur prdite RESIDUAL (ou R) rsidu STDR cart-type du rsidu NQQ quantile normal (pour le dessin QQPLOT) STUDENT rsidu studentis interne RSTUDENT rsidu studentis externe H levier PRESS coefficient Press (individuel) COOKD DFFITS COVRATIO mesures d'influence des observations
PLOT Yvar1*Xvar1='s' Yvar2*Xvar2='s' / options ;

Cette instruction permet de tracer des graphiques en dsignant les variables ordonne Yvar et abscisse Xvar, et le symbole associ. Diffrentes options sont possibles pour dfinir les caractristiques des graphiques (cf. la documentation SAS). Attention : on peut utiliser une des variables cres par la rgression, dfinies plus haut dans la liste des mots-clefs de linstruction OUTPUT, condition de faire suivre son nom par un point : par exemple P. ou R. On peut aussi utiliser la variable OBS. pour dsigner le numro de lobservation. Remarque : loption RIDGEPLOT permet de tracer le dessin des coefficients RIDGE (voir plus loin la description de loption RIDGE).
PRINT mots-clefs;

Cette instruction permet d'imprimer certaines des variables cres avec la liste des mots-clefs vue plus haut.

Revue MODULAD, 2006

- 345-

Numro 35

Options RIDGE et PCOMIT des instructions PROC REG ou MODEL

On peut effectuer une rgression Ridge ou une rgression sur composantes principales, par une option de PROC REG ou de MODEL. La procdure travaille alors sur les donnes centres (loption NOINT est ignore).
RIDGE = liste

liste est une liste de valeurs qui peut tre dfinie par la syntaxe kd to kf by p, o lintervalle de variation du coefficient ridge est [kd,kf], la variation se faisant par pas de p.

Chaque valeur donne une estimation des coefficients Ridge, qui est place dans une table SAS dfinir avec loption OUTEST = table de PROC REG. La colonne _TYPE_ indique quelle mthode on a employ : pour la mthode Ridge, _TYPE_=RIDGE, et les valeurs de la liste sont stockes sous le nom de variable _RIDGE_. On trouve ensuite les valeurs des coefficients Ridge de chaque rgresseur.
PCOMIT = k

k est un entier positif ou nul.

La procdure calcule alors les paramtres estims en utilisant les composantes principales lexclusion des k dernires ; Lestimation des coefficients est place dans une table SAS dfinir avec loption OUTEST = table de PROC REG, avec ici _TYPE_ = IPC. Remarque : k peut aussi tre une liste dentiers non ngatifs, pour permettre de faire plusieurs essais dlimination de composantes.
Autres options de PROC REG tilisables en association avec les options RIDGE et PCOMIT :

OUTSTB pour avoir les estimations standardiss des coefficients estims par RIDGE ou IPC ; OUTSEB pour avoir les erreurs standardises des coefficients ; OUTVIF pour avoir les Variance Inflation Factor des coefficients.
Dessin Ridge Trace

Le dessin des coefficients Ridge en fonction des valeurs du paramtre (dfinies par loption RIDGE = liste) est obtenu par linstruction PLOT avec loption RIDGEPLOT, condition que les coefficients soient stocks dans une table par loption OUTEST. On crit alors simplement linstruction : PLOT / RIDGEPLOT ;

Revue MODULAD, 2006

- 346-

Numro 35

Annexe 2

Mode demploi trs succinct de SAS/INSIGHT


Le module de SAS/Insight est la fois un tableur un grapheur et un analyseur. Il permet de faire de lAnalyse Exploratoire des Donnes et de lanalyse confirmatoire dans lesprit de TUKEY. Il est particulirement bien adapt la rgression linaire couple lAED, grce ses possibilits de visualisation et dinteractivit.
Tableau des Grandes Fonctions de SAS/INSIGHT

Nous ne prsentons que quelques manipulations essentielles de SAS/INSIGHT. Pour une prsentation plus complte voir louvrage de DESTANDAU S. & LE GUEN M..

Le lancement de SAS/INSIGHT

dans la barre de commande de SAS, taper : INSIGHT puis entre

1. Si la table de donnes nexiste pas encore Dans la bote de dialogue, cliquer sur le bouton-poussoir New

Revue MODULAD, 2006

- 347-

Numro 35

Bote de dialogue de SAS/INSIGHT

Un tableau de donnes vide souvre. Saisissez vos donnes.

2. Si la table existe Dans la bote de dialogue slectionner la bibliothque : Library et la table SAS Data set , et cliquer sur le bouton Open.

Affichage de la table SAS dans un tableur (cf. ci-dessous cran gauche) et menu droulant (cf. cran droite).

La Table TAILPOID a 3 variables et 20 observations indiqu par . En cliquant sur la petit flche en haut gauche le menu droulant pop menu ou encore menu contextuel- saffiche avec les actions possibles sur le tableur.

Rle statistique des variables dans SAS/INSIGHT

Dans SAS/INSIGHT toute variable SAS dfinit en caractre est forcment une variable nominale. Par dfaut une variable numrique nest pas nominale, elle est dintervalle. Cest lutilisateur de choisir le type dchelles de mesures (Interval/Nominal) souhait, en cliquant et cochant la zone au dessus du nom de la variable

Revue MODULAD, 2006

- 348-

Numro 35

Ce rle statistique dterminera les types de graphiques 1 dimension, 2 dimensions ou 3 dimensions et les types danalyses.

Menu principal de SAS/INSIGHT

Graphiques standard en SAS/INSIGHT


Graphiques pour les variable nominales : Bar Chart (1D) , Mosaic Plot (1D) Graphiques pour les variables dintervalle : Histogram (1D) , Box Plot (1D) , Line Plot(2D), Scatter Plot (2D) , Contour Plot (3D), Rotating Plot (3D).

Pour raliser un graphique il y a 2 possibilits : en utilisant les options par dfaut, ou en passant par une bote de dialogue pour modifier les options par dfaut. Cest un principe gnral dans SAS/INSIGHT. Choix 1 avec options par dfaut Dans le tableur : Cliquer sur le nom de la variable dintervalle Y menu : Analyze# Box Plot/Mosaic Plot(Y) Laffichage est immdiat avec les options par dfaut.

Revue MODULAD, 2006

- 349-

Numro 35

Sur le graphique, en cliquant sur la flche en bas gauche un menu droulant saffiche pour modifier les options. Par exemple, ajouter la moyenne avec Means, ajouter les valeurs des quantiles avec Values etc. Choix 2 avec options modifiables menu : Analyze# Box Plot/Mosaic Plot(Y)

Dans la bote de dialogue qui saffiche slectionner la variable Y (dans la liste gauche) puis cliquer sur le bouton-poussoir Y, pour que la variable choisie Y soit slectionne. Les boutons poussoirs Method et Output permettent de modifier les options par dfaut.

Revue MODULAD, 2006

- 350-

Numro 35

Pour plus dinformation sur les graphiques voir les articles en ligne sur les sites internet donns en fin de cette annexe (page 354)

Les Analyses Statistiques avec SAS/INSIGHT

menu : Analyze # Distribution Etude dune distribution (quivalent Proc Univariate) menu : Analyze # Fit Analyse de rgression linaire, GLM , Rgression logistique, Probit, Logit, ANOVA menu : Analyze # Multivariate canonique, Analyse discriminante. Analyse en Composantes Principales, Analyse

Mme principe que pour les graphiques : - Soit on slectionne la ou les variables puis le menu Analyze #..... Les analyses sont ralises avec les options par dfaut, - Soit on choisit le menu Analyze #.... , une bote de dialogue saffiche pour slectionner la ou les variables, et choisir les nouvelles options.

Exemple de Rgression linaire sur la Table SAS : Chenille (processionnaire du pin du 2.3.1.)

Revue MODULAD, 2006

- 351-

Numro 35

Slectionner dans la liste de gauche la variable Rponse (Log) puis cliquer sur le bouton de rle Y, idem pour les variables rgresseurs (X4,X2,X4,X5), en cliquant sur le bouton de rle X. Si on veut la constante 1 ( 0) dans le modle, cocher Intercept. Cliquer sur le bouton poussoir Method :

Pour la rgression linaire les options cocher sont :


Response Dist : Normal Link Function : Canonical Scale : MLE

Impression et Sauvegarde

Nous prsentons seulement quelques possibilits, pour imprimer un ou des lments affichs, puis les sauvegarder dans un fichier externe, et enfin les insrer dans un document Word.
Pour imprimer

Slectionner avec la souris, le graphique ou le tableau imprimer, ou choisir Menu : Edit# Windows # Select all pour slectionner tous les lments affichs File # Print
Pour sauvegarder les rsultats graphiques ou tableaux dans un fichier

Slectionner avec la souris la bordure du graphique ou le tableau sauvegarder, ou choisir Menu : Edit# Windows # Select all pour slectionner tous les lments affichs File # save # Graphics File puis renseigner la bote de dialogue en choisissant par exemple le format .bmp et en suffixant le nom du fichier par .bmp (SAS ne le fait pas).

Revue MODULAD, 2006

- 352-

Numro 35

Le fichier sera sauvegard dans le rpertoire courant qui est affich en bas de lcran de SAS

Pour modifier lemplacement, il suffit de double cliquer dessus et de changer le rpertoire (fentre Change Folder).
Pour insrer un fichier externe .bmp dans Word

Dans un document Word :

insertion # image # partir dun fichier..

Revue MODULAD, 2006

- 353-

Numro 35

Pour plus dinformation sur les graphiques Consulter les articles en ligne sur les sites internet :

DESTANDAU S., LADIRAY D., M. LE GUEN, (1999), AED mode demploi , Courrier des Statistiques, INSEE, n 90, http://www.insee.fr/fr/ffc/docs_ffc/cs90e.pdf LE GUEN M. (2001), La bote moustaches de Tukey, un outil pour initier la Statistique, Statistiquement Vtre, n 4, 14 pages. http://matisse.univ-paris1.fr/leguen/leguen2001b.pdf LE GUEN M. (2004), L'Analyse Exploratoire des Donnes et SAS/Insight, Visualisation Dynamiques des Donnes , Cahiers de la Maison des Sciences Economiques, Matisse, Srie rouge, n2004.01,13 pages, ftp://mse.univ-paris1.fr/pub/mse/cahiers2004/R04001.pdf CONFAIS J. & LE GUEN M., (2003), Graphiques conventionnels et Graphiques moins conventionnels. Importance de la visualisation Interactive, Document de travail ISUP-MATISSE, n2003, 21 pages. http://matisse.univ-paris1.fr/doc2/leguen1490.pdf

Revue MODULAD, 2006

- 354-

Numro 35

Annexe 3

Statistiques relatives lanalyse de la variance


Statistique Formule Signification

Cest le rapport dune somme des carrs des carts (SS) divise par le nombre de degrs de libert (DF).
Mean Square

MS =

SS DF

pour SS model DF=p pour SS error DF=n-p-1

La statistique Mean Square Error donne l'estimation s de la vraie valeur inconnue de la variance des erreurs 2. F Value F= MS Model MS Error Statistique de Fisher-Snedecor pour tester si tous les paramtres sont nuls. C'est la p-value ou niveau de significativit du test, associe F Value. La p-value est calcule en utilisant la fonction SAS : Probf. Prob>F
Probf (F Value, ndf , ddf )

Probf : fonction SAS de la fonction de rpartition d'une variable de Fisher-Snedecor ndf : nombre de degrs de libert du numrateur de F Value ddf : nombre de degrs de libert du dnominateur de F Value. Standard Deviation, soit lcart moyen rsiduel. Cest lestimation de "s", lcart-type des erreurs F et Rsquare (R) sont lis par la relation F= n p 1 Rsquare p 1 Rsquare

Root MSE

MS Error

R2 = R-square

SS Model = SS Total SS Total SS Error = SS total Y = Yi / n


i=1,n

Dep Mean

moyenne de la variable rponse Y

Revue MODULAD, 2006

- 355-

Numro 35

Statistique

Formule
(( n intercept )(1 R 2 )) 1 np

Signification

Adj R-sq

R2 ajust en fonction du nombre de rgresseurs du modle. Intercept=0 s'il n'y a pas de constante26 sinon intercept =1. Coefficient de variation exprim en %

CV

Root MSE 100 Dep Mean

Statistiques sur les paramtres

Pour chaque paramtre j, SAS donne : lestimation du paramtre avec son erreurtype, le test de lhypothse nulle ( i = 0 ) et la p-value associe. Remarque : La variable note Intercept correspond la variable constante X 0 = 1.
Statistique Formule solution de : ( X' X) * b = ( X' Y ) Signification

Estimate

estimation du paramtre j erreur-type de lestimateur du paramtre j calcul partir du jime lment de la diagonale de la matrice ( XX) 1 statistique T de Student pour tester lhypothse nulle: H0 : paramtre j =0 contre Ha : paramtre j 0 Remarque T 2 = Fvalue partiel C'est la p-value ou niveau de significativit du test de Student.

Standard Error

( XX)ii .MSE

T for H0 : Parameter=0

T=

Estimate Std Error of Estimate

Prob > !T!

Probt(T, df )

La p-value est calcule en utilisant la fonction SAS : Probt. Probt : fonction SAS de la fonction de rpartition d'une variable de Student df (Degree of Freedom) degrs de libert.

S'il n'y a pas de constante b0 l'origine, les statistiques relatives l'analyse de la variance n'ont pas la mme interprtation.

26

Revue MODULAD, 2006

- 356-

Numro 35

Annexe 4

Relations entre la loi normale et les statistiques de lois


Chi2, T de Student et F de Fisher-Snedecor

Normale Chi2

si

X ~ N(0,1)

2 alors Z = X suit une loi de 2 1 degr de libert (ddl) 2 2 et Z = X i suit un n ddl, si les X i sont indpendants et

i=1,n

N(0,1)
T de Student n ddl
2 Si Z suit une loi de n ddl et si Z est indpendant de X

alors

T=

X Z n

suit une loi de Student n ddl.

F de Fisher-Snedecor

Si Z1 et Z2 sont des variables alatoires indpendantes suivant chacune une loi de 2 1 et 2 ddl Z1 alors F = 1 Z2 2

suit une loi de Fisher-Snedecor ( 1, 2 ) ddl.

Revue MODULAD, 2006

- 357-

Numro 35

Annexe 5

Construction dun QQ-Plot


Ce graphique permet une visualisation de ladquation une loi. Dans le cas de la loi normale, il est appel droite de Henry

Principe de la droite de Henry 1. Soit une variable X dont on veut vrifier ladquation une loi normale (m, )

On dispose de n observations de X : (x i ) pour i =1 n . On note F(x i ) la fonction de rpartition empirique en (x i ) :


X m xi m F(x i ) = prob(X x i ) = prob

de mme fonction de rpartition : u i tel que (u i ) = F(x i ) u i = 1 (F(x i )) .


2. Si X suit une loi normale (m,) alors :

Soit la fonction de rpartition de la loi normale (0,1) : on peut trouver une valeur ui

X m x i m x i m F(x i ) = prob(X x i ) =prob = x m x i m u i = 1 (F(x i )) = 1 i =

Donc les points (xi, ui ) sont aligns sur la droite dquation ui = (xi - m) / .
3. En pratique, on ordonne les valeurs xi : on note x(i) les valeurs ordonnes.

Bien sr, on a alors F(x(i) ) = i /n . Le nuage de points reprsenter est donc dfini ainsi : [ui =
-1

(i/n) ; x(i) ]

Attention : pour faire les mmes reprsentations que SAS, on mettra les valeurs de X en ordonnes.

Revue MODULAD, 2006

- 358-

Numro 35

La droite dquation Y = (X-m)/ est celle dont les points du nuage doivent se rapprocher en cas dadquation la loi normale : on la reprsente donc galement sur le mme plan.
Remarque : Proc UNIVARIATE du module SAS/Base, ainsi que le menu Distribution de SASINSIGHT, utilise un calcul lgrement diffrent de celui expos ici :

On cherche

r3 u i = 1 i 8 o ri est le rang de lobservation i (ri = i en gnral). n+ 1 4

Ceci permet en particulier de ne pas perdre les points extrmes.

Gnralisation

Si on veut visualiser ladquation une autre loi que la loi normale, il suffit de connatre la fonction de rpartition G de cette loi, et que celle-ci soit inversible. On remplace alors par G dans les formules du 2.

QQ-Plot avec SAS

SAS permet de reprsenter des QQ-Plot pour les lois suivantes : Normale, LogNormale, Exponentielle et Weibull.
Dans le module SAS/Base, la procdure UNIVARIATE possde une instruction QQPLOT (voir la documentation SAS pour son utilisation un peu complexe). Dans SAS/INSIGHT, on les trouve dans le menu Distribution , rubrique Graphs QQ-Plot . Pour tracer la droite de rfrence, dans le menu Curves demander QQ ref line . Lorsque lon a excut une rgression linaire avec le menu Fit , on peut ajouter aux sorties standards un graphique QQ-Plot appel Residual Normal QQ dans le menu Graphs (penser cocher Reference lines dans le menu contextuel du graphique pour tracer la droite).

Revue MODULAD, 2006

- 359-

Numro 35

Bibliographie

AKAIKE, H., (1969), Fitting Autoregressive Models for Prediction, Annals of the Institute of Statistical Mathematics, 21, 243 - 247. ARMATTE M., (1995), Histoire du modle linaire, Formes et Usages en Statistique et Economtrie jusqu'en 1945, Thse de Doctorat, EPHE le 24/01/1995 ANSCOMBE F., Graphs in Statistical Analysis , The American Statistician ; February 1973, Vol.27, n1, p17-21. BEHAGHEL L. ,(2006), Lire lconomtrie, Collection Repres, Editions La Dcouverte. BELSLEY D.A., KUH E., WELSH R.E,. ,(1980), Regression diagnostics, Wiley. BENZECRI J.P., BENZECRI F., (1989), Calculs de corrlation entre variables et juxtaposition de tableaux , Les cahiers de l'analyse de donnes, 1989, n 3, pp347354. BRENOT J., CAZES P ., LACOURLY N. ,(1975) Pratique de la rgression : Qualit et protection , cahiers du BURO n 23, pp 1-81 CAZES P., (1975), Protection de la rgression par utilisation de contraintes linaires et non linaires , Revue de Statistique Applique, volume XXIII, numro 3. CAZES P., (1976), Rgression par Boule et par l'Analyse des Correspondances , Revue Statistiques Appliques, Vol XXIV n4, pp5-22. CHATTERJEE S., HADI A. S., (1988), Sensitivity analysis in linear regression, Wiley.
CHOW, G.C., (1960), Tests of Equality between Sets of Coefficients in Two Linear Regressions, Econometrica, 28, 591-605.

CLEVELAND W. S., (1979), Robust Locally Weighted Regression and Smoothing Scatterplots, Journal of the American Statistical Association, Vol. 74, pp. 829-836. CLEVELAND W. S., (1993), Visualizing Data , Hobart Press, Summit, New Jersey, USA 1993. CLEVELAND W. S., (1994), The Elements of Graphing Data, Hobart Press, Summit, New Jersey, USA 1994. CONFAIS J., LE GUEN M., (2003), La rgression linaire sous SAS , Document de travail nF9605 de la Direction des Statistiques Dmographiques et Sociales de lINSEE CONFAIS J., LE GUEN M., (2003), Graphiques conventionnels et Graphiques moins conventionnels. Importance de la visualisation Interactive , Document de travail ISUP-MATISSE, n2003, 21 pages. http://matisse.univ-paris1.fr/doc2/leguen1490.pdf
Revue MODULAD, 2006

- 360-

Numro 35

COOK R.D., WEISBERG S., (1994), An Introduction to Regression Graphics, Wiley Series in Probability and Statistics. DESJARDINS D., (1998), Outliers, Inliers, and Just Plain LiarsNew Graphical EDA + (EDA Plus) Techniques for Understanding Data , SUGI 26, SAS. http://www2.sas.com/proceedings/sugi26/p169-26.pdf DESTANDAU S., LE GUEN M., (1995), Analyse exploratoire des donnes avec SAS/INSIGHT, INSEE GUIDES N7-8. DANIEL, C.,WOOD, F. ,(1980), Fitting Equations to Data, Revised Edition, New York: John Wiley & Sons, Inc. DESROSIERES A., (1993), La politique des grands nombres, histoire de la raison statistique, Editions la Dcouverte DESTANDAU S., LADIRAY D., M. LE GUEN, (1999), AED mode demploi , Courrier des Statistiques, INSEE, n 90, http://www.insee.fr/fr/ffc/docs_ffc/cs90e.pdf DRAPER N.R., SMITH H., (1966), Applied regression analysis, Wiley. ERICKSON B.H. & NOSANCHUK T.A., (1995-2d dition), Understanding Data, Open Universit Press, 381 pages. ERKEL-ROUSSE H., (1990), Dtection et effets de la multicolinarit dans les modles linaires ordinaires , Document de travail n 9002 du dpartement des tudes conomiques densemble de lINSEE. ERKEL-ROUSSE H., (1995), Dtection de la multicolinarit dans un modle linaire ordinaire: quelques lments pour un usage averti des indicateurs de BELSEY, KUH ET WELS , Revue Statistiques Appliques, volume XLIII, numro 4. FOUCART F., (2006), Colinarit et rgression linaire , Math. & Sciences. Humaines, ~ Mathematics and Social Sciences, 44e anne, n 173, 2006(1), p. 5-25. http://www.ehess.fr/revue-msh/pdf/N173R963.pdf FOUCART F., (2007) Evaluation de la rgression borne en cours de publication dans la Revue des Nouvelles Technologies de l'Information. Article consultable sur le site : http://foucart.thierry.free.fr/colreglin/Regression_bornee.pdf FREUND Editor.
R.J.,

LITTELL

R.C.,

(1991), SAS System for regression, 2nd edition, SAS-

GALTON F., (1886), Regression towards mediocrity in hereditary stature, Journal of the Anthropological Institute 15 (1886), p246-263. http://www.stat.ucla.edu/history/regression.gif Greene W., (2005), LEconomtrie, Pearson Education , 5me Edition

Revue MODULAD, 2006

- 361-

Numro 35

HOERL A.E., KENNARD R.W., (1970), Ridge Regression: (1) biased estimation for nonorthogonal problems ; (2) applications to nonorthogonal problems, Technometrics, 12, pp. 55-67; pp. 68-82. INDJEHAGOPIAN J.P., (1993), Cours d'conomtrie, polycopi ISUP. LADIRAY D., (1990), Autopsie d'un rsultat : L'exemple des procdures Forecast, X11, Cluster , Club SAS 1990 LADIRAY D.,(1997 et suivantes), Analyse Exploratoire des donnes , Cours polycopi de lENSAE. LE GUEN M., (2001), La bote moustaches de TUKEY, un outil pour initier la Statistique , Statistiquement Vtre, n 4, 14 pages. http://matisse.univ-paris1.fr/leguen/leguen2001b.pdf LE GUEN M., (2004), L'Analyse Exploratoire des Donnes et SAS/Insight, Visualisation Dynamiques des Donnes , Cahiers de la Maison des Sciences Economiques, Matisse, Srie rouge, n2004.01, 13 pages, ftp://mse.univ-paris1.fr/pub/mse/cahiers2004/R04001.pdf MALINVAUD E., (1966), Mthodes Statistiques de l'conomtrie, Dunod MOLES A., (1990), Les sciences de limprcis, Seuil NETER J., WASSERMAN W., KUTNER M. H., (1990), Applied Linear Statistical Models, Irwin 3me Edition PALM R., IEMMA A.F., (1995), Quelques alternatives la rgression classique dans le cas de la colinarit , Revue Statistiques Appliques, volume XLIII, numro 2. ROUSSEEUW P.J., LEROY A.M., (2003 -2ime edition), Robust regression and outlier detection, Wiley. SAPORTA G., (2006), Probabilits, analyse des donnes et statistique, Technip. S.A.S , (1981), Technical Report A102, SAS Regression Applications S.A.S , (1990), Stat User's Guide version 6 S.A.S , (1991), FREUND R.J., LITTELL R.C., SAS System for regression, (2me dition) SAUTORY O., (1995), La Statistique Descriptive avec le Systme SAS, INSEE GUIDES numros 1-2. SAWA, T., (1978), Information Criteria for Discriminating Among Alternative Regression Models, Econometrica, 46, 1273 - 1282. SAVILLE J.D., WOOD G. R., (1990), Statistical Methods: The Geometric Approach, Springer-Verlag
Revue MODULAD, 2006

- 362-

Numro 35

SEN A., SRIVASTAVA M., (1990), Regression Analysis, Theory, Methods, and Applications, Springer-Verlag STIGLER S. M. ,(1986), The history of Statistics, The measurement of uncertainly before 1900, The Belknap Press of Harvard University Press. TENENHAUS M., (1994), Mthodes statistiques en gestion, Dunod-Entreprise. TENENHAUS M., (1998), La rgression PLS : Thorie et pratique, Editions Technip. TENENHAUS M., GAUCHI J. P., MENARDO C., (1995) Rgression PLS et applications, R.S.A., volume XLIII, numro 1. TIBSHIRANI R., (1996), Regression shrinkage and selection via the lasso, J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288, http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf TOMASSONE R., ANDRAIN S., LESQUOY E., MILLIER C., (1992), La Rgression Nouveaux regards sur une ancienne mthode statistique, INRA-Masson, 2 dition. TOMASSONE R., DERVIN C., MASSON J. P., (1993), Biomtrie, modlisation de phnomnes biologiques, Masson. TUKEY J.W., (1977), Exploratory Data Analysis, Addison Wesley Publishing Company, Reading, Massachusetts. WHITE H., (1980), Econometrics, volume 48, pages 817-838 WOOLDRIDGE J.M., (2000), Introductory Econometrics : A Modern Approach, South Western WONNACOTT T.H., WONNACOTT R.J., (1991), Statistique, 4me dition, Economica. YU CH. H0, animation sur le problme des multicolinarits, http://www.creativewisdom.com/multimedia/collinear.html, puis cliquer sur PC Version (17 megas) pour dcharger la vido.

Revue MODULAD, 2006

- 363-

Numro 35