Académique Documents
Professionnel Documents
Culture Documents
Ricco RAKOTOMALALA
Université Lyon 2
Laboratoire ERIC 1
PLAN
Université Lyon 2
Laboratoire ERIC 2
Points atypiques et points influents
Repérer les observations qui jouent un rôle anormal dans la régression
Université Lyon 2
Laboratoire ERIC 3
Points atypiques
Détection univariée
Règles de détection
LIF = Q1 – 1.5 x IQ
INNER FENCE
UIF = Q3 + 1.5 x IQ
LOF = Q1 – 3 x IQ
OUTER FENCE
UOF = Q3 + 3 x IQ Dernières valeurs non-atypiques
Université Lyon 2
Laboratoire ERIC 4
Points atypiques
Détection univariée - Exemple
Manifestement un
comportement différent sur
plusieurs variables !!!
Université Lyon 2
Laboratoire ERIC 5
Points atypiques – Détection multivariée
Le levier
Sur la diagonale
matrice H hi = xi ( X ' X ) −1 x'i
Le levier
Université Lyon 2
Laboratoire ERIC 6
Points atypiques
Le levier - Exemple
Conjonction de valeurs
différentes.
Toyota Monospace
(prix et poids élevés)
Hyundai Coréenne des
années 80, toutes les
caractéristiques d’une
berline mais prix léger.
Université Lyon 2
Laboratoire ERIC 7
Modélisation d’un point
Résidus standardisés (résidus studentisés internes)
or σ ε2 = σ ε2
i
Écart-type de l’erreur. Par hypothèse : homoscédasticité
mais σ ε2ˆ = σ ε2 (1 − hi )
i
Écart-type du résidu (erreur observée). Estimé par σˆ ε2ˆ = σˆ ε2 (1 − hi )
i
εˆi
Résidu standardisé
ti = ≡ Τ(n − p − 1) Loi de Student à (n-p-1)
σˆ ε 1 − hi d.d.l.
(Test bilatéral)
Université Lyon 2
Laboratoire ERIC 8
Modélisation d’un point
Résidu standardisé – Exemple CONSO (1)
La représentation graphique est
très avantageuse dans ce cas !!!
α = 10%
+t0.95(26)=+1.7056
- t0.95(26)=-1.7056
Certains points sont mal modalisés car atypiques, d’autres le sont parce qu’ils correspondent à
un processus différent (sur-consommation ou sous-consommation par rapport à la modélisation
à partir des exogènes).
Université Lyon 2
Laboratoire ERIC 9
Modélisation d’un point
Résidu standardisé – Exemple CONSO (2) Trier le tableau selon le résidu et afficher
simultanément les autres informations
peut être intéressant aussi
Observer le rôle
conjoint du levier et
du résidu standardisé
Université Lyon 2
Laboratoire ERIC 10
Modélisation d’un point
Résidu studentisé (Résidu studentisé externe)
Résidu calculé
εˆi (−i ) = yi − yˆ i (−i ) yi(-i) est la prédiction pour le point n°i, ce point
n’ayant pas participé à la construction du modèle
yi − yˆ i (−i )
Pourquoi (n-p-2) ?
ti = ≡ Τ(n − p − 2)
Résidu studentisé * On peut voir la procédure comme le test
σˆ ε (−i ) 1 − hi (−i )
de nullité du coefficient de la dummy
variable associée à l’observation n°i dans
la régression à n points.
n− p−2
t = ti ×
* Dans la pratique, nous pouvons la
n − p − 1 − ti2
i calculer directement à partir de la
Calcul pratique régression sur les n points.
(à partir du RSTANDARD)
Université Lyon 2
Laboratoire ERIC 11
Modélisation d’un point
Résidu studentisé – Exemple CONSO
On retrouve le même
groupe. Par d’incohérences
véritables entre les deux
indicateurs.
Université Lyon 2
Laboratoire ERIC 12
Point influent
Distance de COOK
=
(aˆ − aˆ (−i ) )' ( X ' X ) (aˆ − aˆ (−i ) )
−1
a0 a0 (−i ) Di
Statistique du test σˆ ε2 ( p + 1)
1 1
a a ( −i )
H0 : =
On peut le voir comme M M
un test d’hypothèses a a (−i ) t i2 h
p p Di = × i
Statistique sans avoir à
p + 1 1 − hi
produire n régressions
Région critique 4
Di >
n − p −1
Université Lyon 2
Laboratoire ERIC 13
Point influent
Distance de Cook – Exemple CONSO
Université Lyon 2
Laboratoire ERIC 14
Point influent
DFBETAS
aˆ j − aˆ j (−i )
DFBETAS j ,i =
Statistique du test σˆ ε (−i ) ( X ' X ) −j1
H 0 : a j ,i = a j ,i (−i )
[ ]
On peut le voir comme
un test d’hypothèses ( X ' X ) −1 X '
DFBETAS j ,i =t ×
*
i
j ,i
( X ' X ) j (1 − hi )
−1
Statistique sans avoir à
produire n régressions
Région critique 2
DFBETAS j ,i >
n
Université Lyon 2
Laboratoire ERIC 15
Point influent
DFBETAS – Exemple CONSO 2
DFBETAS j ,i > = 0 . 3592
31
Université Lyon 2
Laboratoire ERIC 16
Conclusion
Analyser les points atypiques et les points influents est important pour
identifier les observations qui peuvent fausser les résultats de la régression.
Un point atypique n’est pas forcément influent. Mais les deux situations
sont quand même souvent liées.
Université Lyon 2
Laboratoire ERIC 17
Bibliographie
En ligne
R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html
Wikipédia.
http://fr.wikipedia.org/wiki/Régression_linéaire_multiple
Ouvrages
Université Lyon 2
Laboratoire ERIC 18