Académique Documents
Professionnel Documents
Culture Documents
Diagnostic 1
Diagnostic 1
Tests diagnostics
Steve Ambler∗
Hiver 2018
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos sug-
gestions pour les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en
envoyant un message à ambler.steven@uqam.ca.
1
Table des matières
1 Introduction 4
2 Diagnostics informels 7
2.1 Résidus versus valeurs prédites . . . . . . . . . . . . . . . . . . . 8
2.2 Graphique Q–Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Diagramme de variable ajoutée . . . . . . . . . . . . . . . . . . . 10
2.4 Diagramme de résidus partiels . . . . . . . . . . . . . . . . . . . 12
2.5 Résidus Normalisés . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 La Matrice H . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Résidus studentisés de façon externe . . . . . . . . . . . . . . 19
2
5 Tests diagnostics formels 27
5.1 Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Test Reset de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Indépendance des erreurs . . . . . . . . . . . . . . . . . . . . . . 33
6 Multicollinéarité 33
7 Endogénéité 37
7.1 Tests d’endogénéité . . . . . . . . . . . . . . . . . . . . . . . . . 40
3
1 Introduction
4
peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas,
le fait de laisser tomber des observations devrait faire partie du rapport qui est
rédigé pour expliquer le modèle estimé et les résultats d’estimation.
Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les données
utilisées en économétrie appliquée les termes d’erreur ne suivent pas forcément
une distribution normale avec variance constante. Par contre, ils mettent peu
d’accent sur des méthodes qui permettraient de vérifier les hypothèses nulles de
normalité ou d’homoscédasticité. Il n’y a pas beaucoup, d’ailleurs, sur les façons
d’évaluer un modèle de régression donné ou de détecter des problèmes avec un
modèle de régression donné. (à part le chapitre 9 dans la version en anglais sur la
validité interne et la validité externe).
Ce chapitre est basé sur les articles de Boomsma (2014) et de Fox (2009), et
surtout sur le quatrième chapitre de Kleiber et Zeileis (2008). Voir le chapitre de
références pour plus de détails.
J’ai aussi utilisé quelques articles utiles provenant de Wikipedia :
1. Breusch-Pagan Test
2. Cook’s Distance
3. Errors-in-Variables Models
4. Hat Matrix
5. Heteroscedasticity
6. Leverage (Statistics)
7. Multicollinearity
5
8. Normality Test
Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement
de deux types (pas forcément exclusifs).
2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de
détecter des observations qui ont une influence démesurée sur les résultats
de l’estimation (sur les valeurs des coefficients estimés, les valeurs
prédites de la variable dépendante, sur la variance estimée de l’erreur ou
des coefficients, etc.).
6
1. Des tests de l’hypothèse nulle de l’homoscédasticité.
5. Une courte sous-section sur l’indépendance des erreurs (un sujet plus
pertinent dans le cadre des séries chronologiques).
2 Diagnostics informels
7
2.1 Résidus versus valeurs prédites
• Nous avons déjà vu qu’un graphique avec les ûi ou les û2i sur l’axe
vertical et les Ŷi sur l’axe horizontal peut être une façon de détecter la
présence de l’hétéroscédasticité.
• Au lieu de mesurer les valeurs des résidus sur l’axe vertical, il est aussi
possible de mesurer les valeurs des résidus au carré afin de détecter de
manière visuelle l’hétéroscédasticité.
• Un problème potentiel avec ces méthodes informelles est que même si les
erreurs du modèle de régression sont homoscédastiques et indépendantes
(autrement dit les données proviennent d’un échantillon i.i.d.), les résidus
du modèle de régression auront une variance non constante et ne seront
pas indépendants les uns par rapport aux autres. Pour cette raison, on
travaille souvent avec les résidus normalisés, un concept auquel nous
allons revenir plus tard.
8
graphique.
• Notez que si φ(·) est la fonction de distribution normale cumulée, la
fonction φ−1 donne les quantiles de la normale cumulée.
• Si les deux distributions sont identiques, les points se retrouveront sur une
droite avec une pente de 45 degrés.
• S’il y a une relation linéaire entre les deux distributions, les points se
retrouveront sur une droite.
• La fonction en R qqnorm(x) où x est un vecteur de réalisations d’une
variable aléatoire crée un graphique qui compare x à une distribution
normale théorique.
• Deux distributions normales peuvent différer dans leurs moyennes et dans
leurs variances, et donc il doit y avoir une relation linéaire entre les deux.
Pour cette raison, si on compare la distribution empirique des résidus
avec une normale centrée réduite théorique, les points devraient se
retrouver sur une droite.
• La fonction en R plot(model,which=2) fait la même chose pour les
résidus d’un modèle estimé avec la commande model < − lm(·).
Nous allons voir plus loin que la fonction plot(·) avec le nom d’un
modèle estimé pourra sortir automatiquement plusieurs graphiques
intéressants pour détecter des problèmes potentiels associés à un modèle
estimé.
9
2.3 Diagramme de variable ajoutée
3. On crée un graphique avec ûy sur l’axe vertical et ûj sur l’axe
10
horizontal.
ûyi = γ0 + γ1 ûji + i .
11
2.4 Diagramme de résidus partiels
• Il s’agit d’un graphique avec ûi + β̂j Xji sur l’axe vertical et Xji sur l’axe
horizontal.
• Notez que la pente de la relation entre ces deux variables est donnée par
β̂j .
• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour
détecter les non-linéarités, tandis que les diagrammes de variable ajoutée
sont plus utiles pour détecter les observations aberrantes et influentes.
Partial residual plots are better for the detection of linearity, added
variable plots are better for the detection of outliers and influential data
points.
• Dans R, la commande prplot(·,x) qui provient du package faraway
permet de générer automatiquement des graphiques de résidus partiels
pour un modèle estimé. Le premier argument de la commande est le nom
du modèle estimé. Le deuxième argument est le nombre de la variable
explicative.
12
satisfaire les restrictions suivantes :
X 0 Û = 0.
≡ (I − H) Y
−1
H ≡ X (X 0 X) X 0.
13
La matrice (I − H) est symétrique et idempotente, ce qui veut dire
(I − H)0 = (I − H)
et
(I − H) (I − H) = (I − H) ,
où ces deux propriétés sont faciles à vérifier (je laisse ceci comme un
exercice).
Nous voulons maintenant calculer la variance (conditionnelle) du vecteur
des résidus Û . Puisque Û est un vecteur de dimensions n × 1, il s’agit
d’une matrice variance-covariance de dimensions n × n. Nous avons
E Û Û 0 |X = E ((I − H) Y Y 0 (I − H) |X)
= E (I − H) (Xβ + U ) (Xβ + U )0 (I − H) |X
= (I − H) Xββ 0 X 0 (I − H)
+E ((I − H) U β 0 X 0 (I − H) |X)
+ (I − H) E (U U 0 |X) (I − H) .
= (I − H) Xββ 0 X 0 (I − H)
14
+ (I − H) E (U U 0 ) (I − H)
= (I − H) E (U U 0 ) (I − H)
E Û Û 0 |X = (I − H) σ 2 I (I − H)
= σ 2 (I − H) (I − H)
= σ 2 (I − H) ,
ûi
ri ≡ √
σ̂ 1 − hii
n
2 1 X
σ̂ ≡ û2
n − k − 1 i=1 i
15
et les hii sont les éléments sur la diagonale de H. On parle de
studentisés de façon interne puisqu’on utilise toutes les observations
de l’échantillon pour estimer l’écart type de la régression, par opposition
aux résidus studentisés de façon externe . Nous reviendrons à ce
dernier sujet un peu plus tard.
• Puisque (même dans le cas de l’homoscédasticité) la variance des résidus
n’est pas constante, l’idée ici est de normaliser les résidus en divisant par
un estimé de leurs écarts types.
• De cette façon, un graphique avec les résidus normalisés ou avec les
résidus normalisés au carré sur l’axe vertical et avec la variable
dépendante ou avec une des variables explicatives sur l’axe horizontal
peut faire ressortir mieux si l’hypothèse de l’homoscédasticité tient ou
non.
• On peut calculer les résidus normalisés en R à l’aide de la commande
rstandard(·). L’argument de la commande est l’objet utilisé pour
sauvegarder les résultats d’estimation d’un modèle de régression linéaire.
• Si les hypothèses statistiques derrière le modèle tiennent (y compris
l’homoscédasticité des erreurs), il devrait être le cas que Var (ri |X) = 1
et il devrait aussi être le cas que Corr (ri , rj |X) a tendance à être faible
(Kleiber et Zeileis 2008).
• Dans les sections qui suivent, la plupart des mesures utilisées sont basées
sur les résidus normalisés et non sur les résidus eux-mêmes.
16
2.6 La Matrice H
n
X
Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn = hij Yi .
i=1
−1
Ŷ ≡ X β̂ = X (X 0 X) X 0 Y = HY,
17
• On peut montrer que
n
X
hii = hij 2 ,
j=1
• On peut aussi montrer que la valeur moyenne des hii est donnée par
n
1X k+1
hii ≡ h̄ = .
n i=1 n
2
1 Xi − X̄
hii = + Pn 2 ,
n Xj − X̄
j=1
18
2.7 Résidus studentisés de façon externe
û
ri(i) ≡ √ i
σ̂(i) 1 − hii
avec
2 1 X
σ̂(i) ≡ û2j .
n − k − 2 j6=i
19
• L’idée de base est d’analyser ce qui arrive si on laisse tomber une seule
observation de l’échantillon.
• On peut mesurer l’impact ou bien sur les coefficients estimés ou bien sur
la valeur prédite de la variable dépendante.
• Définissons β̂(i) comme le vecteur de paramètres estimés après avoir
laissé tomber l’observation i de l’échantillon, et Ŷ(i) le vecteur de valeurs
prédites de la variable dépendante après avoir laissé tomber l’observation
i de l’échantillon.
0 ≤ hii ≤ 1,
n
X
trace (H) ≡ hii = k + 1,
i=1
20
3.2 DFFITSi
• Définition :
DFFITi ≡ Ŷi − Ŷ(i) .
où comme nous avons vu dans la section 2.7 σ̂(i) est l’écart type de la
régression estimé sans l’observation i :
2 1 X
σ̂(i) ≡ û2 ,
n − k − 2 j6=i j
21
• L’interprétation est l’impact normalisé d’omettre l’observation i sur la
valeur prédite de la variable dépendante.
q
k+1
• Comme règle approximative, les points où la mesure dépasse 2 × n
3.3 DFBETASj,(i)
β̂j − β̂j,(i)
DFBETASj,(i) ≡ q
σ̂ (X 0 X)−1 jj
où (X 0 X)−1 e e
jj est l’élément dans la j colonne et la j rangée de l’inverse
22
type.
√
• Une valeur supérieure à 2/ n est considérée suspicieuse .
3.4 COVRATIO(i)
23
3.5 Distances de Cook
0
Ŷ − Ŷ(i) Ŷ − Ŷ(i)
Di =
(k + 1)σ̂
û2i
hii
Di = ,
(k + 1)σ̂ (1 − hii )2
0
β̂ − β̂i (X 0 X) β̂ − β̂i
Di =
(1 + k + 1)σ̂ 2
24
l’observation i de l’échantillon.
• Définition :
û
ti ≡ √ i
σ̂(i) 1 − hii
(où σ̂(i) a la même définition que dans la sous-section sur DFFIT), qui a
l’interprétation de l’écart type estimé de l’erreur en excluant l’observation
i.
• La justification de cette mesure (par rapport aux résidus normalisés
définis plus haut) est que si on veut juger si l’observation i est une
observation aberrante ou non, il est mieux d’exclure cette observation de
l’estimation de la variance.
• La commande en R rstudent(·) où comme d’habitude l’argument est
le nom du modèle estimé va calculer les résidus studentisés
automatiquement.
influence.measures(·) et influence(·)
25
estimation d’un modèle de régression linéaire par la commande lm(·).
• Une autre commande très utile : influence.measures(·) (une
commande dans le package stats), qui calcule entre autres les distances
de Cook et les mesures DFFITS et DFBETAS.
• La commande summary(influence.measures(·)), où
l’argument est un modèle estimé, va indiquer toutes les observations
influentes selon au moins un des critères. Donc, une seule commande en
R peut être utilisée pour repérer les observations potentiellement
influentes ou aberrantes.
• La commande influence(·), toujours où l’argument est un modèle
estimé va calculer les résultats suivants :
1. hat : un vecteur dont les éléments sont les hii , les éléments sur la
diagonale de la matrice H.
26
manuel pour plus de détails.
• J’ai fait allusion ci-dessus à des valeurs qui sont indicatives de problèmes
potentiels. Voici un résumé qui provient de Liu, Milton et McIntosh (sans
date).
• Comme nous avons vu, avec la commande en R
summary(influence.measures(·)), le logiciel va signaler toutes
les valeurs qui sont à surveiller selon au moins une des mesures.
5.1 Hétéroscédasticité
27
• Les deux tests les plus fréquemment utilisés par les économètres sont les
tests Breusch-Pagan et White. Pour d’autres tests, voir l’article Wikipedia
Heteroscedasticity .
• Test Breusch-Pagan. Il s’agit d’un test de significativité de tous les
coefficients (sauf la constante) dans la régression
Û 2 = Xγ +
28
5.2 Test Reset de Ramsey
29
• On utilise une statistique F pour tester la significativité des coefficients δ.
• Le choix de l’ordre du polynôme en Ŷi est arbitraire. On utilise souvent
seulement Ŷi au carré.
• Notez que l’hypothèse nulle est que tous les termes non linéaires dans les
valeurs prédites sont non significatifs. Donc, l’hypothèse nulle est que la
spećification initiale de l’équation est adéquate.
• Puisque le test porte sur toutes les puissances de Ŷi , la multicollinéarité
entre les puissances différentes ne devrait pas être un problème.
• L’utilisation du test Reset ne devrait pas remplacer un examen détaillé par
d’autres moyens (graphiques ou autres).
• Dans R, la commande resettest(model, power = ·) effectue le
test. Il faut fournir le nom du modèle estimé (premier argument) et aussi
les degrés du polynôme dans les valeurs prédites Ŷi (deuxième argument).
• La commande fait partie du package lmtest.
5.3 Normalité
Pn 2
i=1 ai x(i)
W ≡ Pn
i=1 (xi − x̄)2
où x(i) est l’observation i de l’échantillon où les observations ont été
classées dans l’ordre (c’est donc l’ie statistique d’ordre) et les ai sont
30
définis par
m0 V −1
a = (a1 , . . . , an ) ≡
(m0 V −1 V −1 m)1/2
où
m = (m1 , . . . , mn )0
n 2 1 2
JB ≡ S + (K − 3)
6 4
31
où (dans le contexte des résidus d’un modèle de régression)
Pn
µ̂3 1
n
(ûi )3
i=1
S≡ 3 =
σ̂ 1
Pn 2 3/2
n i=1 (ûi )
et
1
Pn 4
µ̂4 n i=1 (ûi )
K≡ 4 = 2 2
,
σ̂ 1
Pn
(û i )
n i=1
où µ̂3 et µ̂4 sont des estimés des troisième et quatrième moments centrés
des résidus et σ̂ 2 est un estimé de la variance des résidus. Notez que dans
tous ces cas nous sommes en train d’utiliser des moments centrés
puisque de toute façon la somme des résidus d’une régression est par
construction égale à zéro.
• La statistique JB suit (approximativement ou en grand échantillon) une
distribution chi-carré avec deux degrés de liberté. L’hypothèse nulle est la
normalité.
• Une grande valeur de la statistique calculée mène au rejet.
• En R, le test Jarque-Bera peut être effectué avec la commande
jarque.bera.test(·) provenant du package tseries, où
l’argument de la commande est une série de données. La commande
calcule automatiquement la p-value du test.
32
5.4 Indépendance des erreurs
• Ce sujet est beaucoup plus pertinent dans le cas où les données sont des
séries chronologiques. Il s’agit de tests pour détecter la présence
d’autocorrélation dans les erreurs.
• Sans une etude du chapitre sur les séries chronologiques il est difficile
d’élaborer sur ce sujet.
• Les tests clés dans cette sous-section sont le test Durbin-Watson, la
statistique h de Durbin, et le test Breusch-Godfrey.
• Pour des précisions sur le test Durbin-Watson et le test Breusch-Godfrey,
voir la documentation du package lmtest. Pour des précisions sur la
statistique h de Durbin, voir la documentation du package ecm.
6 Multicollinéarité
33
de variables explicatives différentes.
• Comme nous avons déjà vu, la multicollinéarité (lorsqu’elle n’est pas
parfaite) est une propriété de l’échantillon de données qui est à notre
disposition. Tel que suggéré par Giles et Goldberger, puisque c’est une
propriété de l’échantillon que nous avons, il n’y pas forcément un remède
au problème.
• Détection de la multicollinéarité :
1
VIF ≡
1 − Rj2
34
qu’il y a un problème potentiel.
• Conséquences de la multicollinéarité.
• Remèdes possibles.
35
3. Ne rien faire. Les données sont ce qu’elles sont, et essayer de faire
parler les données lorsqu’elles sont muettes sur la question que nous
leur posons.
−1
β̃ ≡ (X 0 X + Γ0 Γ) X 0 Y,
Γ ≡ αI
36
l’estimateur. Pour cette raison, le résultat dans certains cas peut être
un estimateur avec une erreur quadratique moyenne inférieure à celle
de l’estimateur MCO (qui est un cas spécial de cet estimateur avec
α = 0). En général, la taille du biais de l’estimateur augmente avec la
valeur de α et la variance diminue (voir la section 1.4.3 de van
Wieringen 2018). Il y a donc un arbitrage entre biais et variance.
Malheureusement, il est impossible de connaı̂tre a priori la valeur
exacte de α qui va minimiser l’erreur quadratique moyenne.
9. Si les variables explicatives qui sont corrélées sont des retards (dans le
contexte de données qui sont des séries chronologiques), on peut
utiliser la technique des retards distribués qui impose une
structure sur les coefficients à estimer.
7 Endogénéité
37
• C’est une façon générale de résumer tout ce qui peut causer une
corrélation non nulle entre les variables explicatives du modèle et le
terme d’erreur. Nous avons déjà vu en détail le problème de variables
omises. Il y a d’autres sources possibles du problème.
• Causes possibles de l’endogénéité.
38
l’équation suivante (où l’échantillon d’observations porte sur la
quantité de café vendue dans des supermarchés différents à des prix
possiblement différents) :
Y i = β0 + β1 Xi + u i
où Yi est la quantité de café et Xi est le prix par unité du café. Est-ce
que ceci est une courbe d’offre ou une courbe de demande ? En fait, Yi
et Xi dépendent en principe de facteurs exogènes et l’équation est ce
que l’on observe sont des combinaisons de quantités et de prix à
l’équilibre, l’équation est ce qu’on appelle une forme réduite et non
une équation structurelle. Pour estimer la courbe d’offre, il faut
trouver un facteur qui fait déplacer la courbe de demande (comme,
par exemple, le prix du thé, un bien qui est substitut pour le café). Si
les seuls changements exogènes sont des variations du prix du thé, on
pourra observer des combinaisons différentes de prix du café et de
quantités vendues de café qui résultent de déplacements de la courbe
de demande le long de la courbe d’offre. Ici, l’impact du prix du thé
sur la quantité vendue du café est indirect. Il affecte la quantité
vendue du café parce qu’il affecte la demande pour le café. On verra
dans la section suivante sur les estimateurs à variables instrumentales
qu’une variable comme le prix du thé serait un bon instrument à
utiliser pour estimer l’équation ci-dessus.
39
7.1 Tests d’endogénéité
0 †
DHW ≡ β̂ − β̂IV Σ̂β̂IV − Σ̂β̂ β̂ − β̂IV
40
où Σ̂β̂IV est l’estimateur convergent de la matrice variance-covariance
des paramètres estimés par la méthode IV et † dénote l’inverse
généralisée Moore-Penrose (qui généralise la notion d’inverser une
matrice).
où on sait que les variables W ne sont pas corrélées avec le terme
d’erreur u tandis que la variable X est possiblement corrélée avec le
terme d’erreur.
41
(W1 , W2 , . . . , Wk ) plus possiblement d’autres variables.
42
variable qui est potentiellement endogène dans le modèle initial.
Y = Xβ + U.
E (U |X) = 0.
43
des variables parmi les variables dans X qui ne sont pas conditionnellement
corrélées avec U , ces variables peuvent être incluses dans W .
R0 W 0 Y = R0 W 0 Xβ + R0 W 0 U
où R est une matrice de pondérations (nous reviendrons sur cette matrice un
peu plus tard). Nous pouvons pour l’instat considérer R comme une matrice
de constantes.
R0 W 0 Y = R0 W 0 Xβ
−1
β̂IV = (R0 W 0 X) R0 W 0 Y.
(R0 W 0 X) β̂IV − β
−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 Y − (R0 W 0 X) β
−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 (Xβ + U ) − (R0 W 0 X) β
44
= R0 W 0 U.
1 0 0 p
RW U →
− 0
n
1 0 0
p
⇒ (R W X) β̂IV − β →− 0
n
p
⇒ β̂IV − β → − 0.
Notez que dans le cas de l’estimateur IV, nous ne pouvons pas monter
l’absence de biais. Nous avons
−1
β̂IV = (R0 W 0 X) R0 W 0 Y
−1
= (R0 W 0 X) R0 W 0 (Xβ + U )
−1
= β + (R0 W 0 X) R0 W 0 U.
−1
E β̂IV = β + E (R0 W 0 X) R0 W 0 U
−1
= β + E E (R0 W 0 X) R0 W 0 U |W .
45
Le problème à ce stade-ci est la présence de X dans l’expression
(R0 W 0 X)−1 R0 W 0 . Même étant données les valeurs des W , le terme
(R0 W 0 X)−1 R0 W 0 est encore stochastique. Nous ne pouvons pas traiter
l’expression comme une matrice de constantes et, pour cette raison, l’écrire
du côté gauche de l’opérateur d’espérance (conditionnelle).
Justification alternative
Y = Xβ + U
= E ((R0 W 0 X) β) + E (R0 W 0 U )
= E (R0 W 0 X) β + E (R0 W 0 U )
= E (R0 W 0 X) β + E (E (R0 W 0 U |W ))
= E (R0 W 0 X) β
−1
⇒ β = (E (R0 W 0 X)) (E (R0 W 0 Y )) .
46
Comme dans la section sur la justification alternative de l’estimateur MCO.
les vraies valeurs des β sont une fonction des espérances de R0 W 0 X et de
R0 W 0 Y , Un estimateur naturel serait de remplacer les moments dans la
population par leurs équivalents calculés avec notre échantillon de données.
Nous avons tout de suite
−1
1 1
β̂IV = (R0 W 0 X) (R0 W 0 Y )
n−1 n−1
−1
= (R0 W 0 X) R0 W 0 Y.
C’est une autre exemple d’un estimateur dans la classe de la méthode des
moments : on remplace les moments dans la population par les moments
échantillonnaux.
−1
R = (W 0 W ) W 0 X,
47
du théorème Gauss-Markov.) Autrement dit, si on a
X = W ρ + ,
alors
−1
R ≡ ρ̂ = (W 0 W ) W 0 X.
De cette façon
W ρ̂ = W R ≡ X̂
Dans ce cas, on a
−1
−1 −1
β̂IV = X 0 W (W 0 W ) W 0 X X 0 W (W 0 W ) W 0 Y.
−1
≡ X̂ 0 X X̂Y.
48
Quelques qualifications
Je donne ici un exemple très simple de calculs que l’on peut effectuer rapidement
et facilement avec R.
L’exemple est basé sur le quatrième chapitre dans Kleiber et Zeileis (2008). Voir
le livre pour des explications plus détaillées.
49
R> # Charger les packages nécessaires en mémoire.
R> library("stats")
R> library("car")
R> library("sandwich")
R> library("faraway")
R> # Les données proviennent du package sandwich.
R> # Charger les données en mémoire.
R> data("PublicSchools")
R> # Permettre d’appeler les variables directement
R> # sans utiliser le nom de la base de données.
R> attach(PublicSchools)
R> # Calculer des statistiques descriptives.
R> summary(PublicSchools)
R> # Il y a une observation manquante. L’enlever.
R> ps <- na.omit(PublicSchools)
R> attach(ps)
R> # Renormaliser la variable Income.
R> Income <- Income/10000
R> # Recalculer les statistiques descriptives.
R> summary(ps)
R> # Estimer le modèle de régression simple.
R> ps lm <- lm(Expenditure ∼ Income)
50
R> # Sortir les résultats principaux.
R> summary(ps lm)
R> # Faire un graphique de la ligne de régression.
R> plot(Expenditure ∼ Income,ylim=c(230,830))
R> abline(ps lm)
R> # Ajouter 3 noms d’état au graphique.
R> id <- c(2,24,48)
R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE)
R> # Calculer un certain nombre de statistiques.
R> # diagnostiques.
R> # D’abord, calculer les "hatvalues".
R> ps hat <- hatvalues(ps lm)
R> # Sortir un graphique avec les hatvalues.
R> plot(ps hat)
R> # Ajouter des lignes pour la moyenne
R> # et pour trois fois la moyenne.
R> abline(h=c(1,3)*mean(ps hat),col=2)
R> # Identifier les observations aberrantes
R> # sur le graphique.
R> id <- which(ps hat>3*mean(ps hat))
R>
text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)
51
R> # Utiliser "plot(ps lm)" pour créer une
R> # série de graphiques.
R> plot(ps lm,which = 1:6)
R> # Utiliser "influence.measures(ps lm)" pour
R> # identifier les observations abberrantes
R> # ou influentes.
R> summary(influence.measures(ps lm))
R> # Réestimer en enlevant les 3 observations.
R> plot(Expenditure ∼ Income, data = ps, ylim =
c(230, 830))
R> abline(ps lm)
R> id <-
which(apply(influence.measures(ps lm)$is.inf, 1,
any))
R> text(ps[id, 2:1], rownames(ps)[id], pos = 1, xpd
= TRUE)
R> ps noinf <- lm(Expenditure ∼ Income, data =
ps[-id,])
R> abline(ps noinf, lty = 2)
R> # Utiliser avPlots(ps lm).
R> avPlots(ps lm)
R> # Utiliser prplot(ps lm).
52
R> prplot(ps lm,1)
R> # Estimer le modèle non linéaire avec
R> # Expenditure2 dans le modèle.
R> ps lm2 <- lm(Income Expenditure +
I(Expenditureˆ2))
R> summary(ps lm2)
R> plot(ps lm2,which=1:6)
R> summary(influence.measures(ps lm2))
R> avPlots(ps lm2)
R> prplot(ps lm2,1)
R> prplot(ps lm2,2)
R> # Estimer un autre modèle de régression
R> # multiple.
R> # Les données proviennent du package faraway.
R> # Les données contiennent des taux d’épargne
R> # dans 50 pays.
R> data(savings)
R> # Permettre d’appeler les variables directement
R> attach(savings)
R> summary(savings)
R> m1 <- lm(sr ∼ pop15 + pop75 + dpi + ddpi)
R> summary(m1)
53
R> plot(hatvalues(m1))
R> # Générer des graphiques de variables ajoutées.
R> avPlots(m1)
R> # Générer des graphiques de résidus partiels.
R> prplot(m1,1)
R> prplot(m1,2)
R> prplot(m1,3)
R> prplot(m1,4)
Références
Voir ce lien :
http:
//www.steveambler.uqam.ca/4272/chapitres/referenc.pdf
54