COURS Intro ROBUSTESSE Revised PDF

INTRODUCTION A
L’ESTIMATION ROBUSTE
Par Ir. RWASA Kévin
PLAN DU COURS
Introduction
Chapitre I : Les estimateurs

I.1. La classe des estimateurs
I.2. Propriétés des estimateurs
Chapitre II : la régression robuste

II.1. La régression sur composantes principales
II.2. La régression rigide
II.3. La régression LASSO
II.4. La régression quantile
INTRODUCTION
 La modélisation des données peut s’écarter très probablement du vrai modèle car des erreurs
expérimentales peuvent apparaître dans les données comme les erreurs de collecte de
données ou d’enregistrement.
 L’inférence ou l’estimation pourrait dans ce cas être erronée.
 Ainsi, pouvons-nous trouver des bonnes statistiques pour capturer ces incertitudes dans le
modèle ?
 Existe-il un moyen de réduire l’effet des valeurs aberrantes ?

INTRODUCTION
Exemples :
 Le coefficient de corrélations est très sensible aux valeurs aberrantes
 La moyenne empirique et la variance sont aussi sensibles aux valeurs aberrantes

(x = 3,5,6,4,7,4,60,7,3,6,5)
 La médiane, Q1, Q2 et l’étendu sont moins affectés par les valeurs aberrantes ;
→ Il faut donc trouver une méthode d’inférence qui décrit la majorité des données en
identifiant les valeurs aberrantes, càd des données qui ne correspondent pas au modèle
INTRODUCTION
Cependant, il ne suffit pas de filtrer les données et d’éliminer les valeurs aberrantes. En effet :
 Il peut être difficile de repérer les valeurs aberrantes dans les données multivariées ou
hautement structurées. C’est encore plus difficile avec les données plus volumineuses (Big-
data ou Mégadonnées)
 Le rejet des valeurs aberrantes affecte les distributions des estimateurs – les variances peuvent
être sous-estimées si les données sont nettoyées.
→ Ainsi, il faut trouver des procédures avec des propriétés statistiques bien définies
INTRODUCTION
Comparaison entre la procédure classique et la théorie de la robustesse
Inférence classique Estimation robuste
 Les observations sont distribuées  𝑓𝜃 est une observation mathématique qui n’est
suivant 𝑓𝜃 : qu’une approximation idéal de la réalité
Ex : 𝑓𝜃 ~𝑁 𝜇, 𝜎 𝑎𝑣𝑒𝑐 𝜃 = (𝜇, 𝜎)  L’objectif est de produire des procédures statistiques
qui ne se comportent encore assez bien avec des
écarts par rapport au modèle supposé
CHAPITRE I : LES ESTIMATEURS
Objectif : Notation :
 Introduire la classe des M-estimateurs Soit (𝑦1 , 𝑦2 , … , 𝑦𝑛 ) un échantillon
d’observation de la variable 𝑌 qui suit
 Introduire la classe des W-estimateurs
une distribution 𝑓𝜃 , 𝜃 ∈ ℝ𝑝 , on a :
 Introduire la classe des L-estimateurs
 (𝑦(1) , 𝑦(2) , … , 𝑦(𝑛) ) la statistique de
 Définir les propriétés d’un estimateur l’ordre
robuste  𝑇𝑛 = 𝑇(𝑦1 , 𝑦2 , … , 𝑦𝑛 ) l’estimateur
de 𝜃 basé sur les n observations
I.1.1. Les estimateurs de moindres carrés
L’estimateur des moindres carrés sont de la forme :
𝑛 2 𝑛
𝐸𝑀𝐶 = 𝑟
𝑖=1 𝑖 = 𝑖=1(𝑦𝑖 − 𝑚)2𝑖 où 𝑚 est la moyenne de l’échantillon.
Remarque : Avec cet estimateur des moindres carrés, les valeurs aberrantes ont
une grande influence sur le résultat estimé.
Exemple : les estimateurs MCO

I.1.2. Les estimateurs de maximum de vraisemblance
L’estimateur de 𝜃 calculé par maximum de vraisemblance est donné par :

𝑛 𝑛
𝑇𝑛 = arg 𝑚𝑎𝑥 𝑖=1 𝑓𝜃 (𝑦𝑖 ) ou 𝑇𝑛 = arg 𝑚𝑖𝑛 [− 𝑖=1 𝐿𝑜𝑔 𝑓𝜃 (𝑦𝑖 )]
𝜃 𝜃
Remarque : Cet estimateur dépend des hypothèses sur la distribution des
données. Il est inefficace et biaisé si les données ne suivent pas la
distribution. C’est le cas en particulier en présence des données
aberrantes.
I.1.3. Les M-estimateurs (Huber P. 1964)
I.1.3.1. Définition
On appelle M-estimateur, tout estimateur 𝑇𝑛 défini par un problème de minimisation de la forme :

𝑛
𝑇𝑛 = arg 𝑚𝑖𝑛 [ 𝑖=1 𝜌(𝑦𝑖, 𝜃)] ou par l’équation implicite
𝜃
𝑛
𝑖=1 𝜓 𝑦𝑖, 𝑇𝑛 = 0
Avec 𝜌 une fonction arbitraire et 𝜓 la dérivée de 𝜌 par rapport 𝜃.
Exemple : L’estimateur de maximum de vraisemblance est un M-estimateur avec
𝜌 = −𝐿𝑜𝑔 𝑓𝜃 (𝑦𝑖 )
Remarque : Les m-estimateurs ont pour objet de réduire l’influence des outliers en remplaçant le carrée du
résidu par une fonction décroissante moins rapidement, dépendant de y et du paramètre 𝜽 = 𝒓 𝒚, 𝒕 .
Dans la suite, nous nous intéressons aux estimateurs de localisation :
𝑛 𝑛
𝑇𝑛 = arg 𝑚𝑖𝑛 [ 𝑖=1 𝜌(𝑦𝑖 − 𝜃)] Ou 𝑖=1 𝜓 𝑦𝑖 − 𝑇𝑛 = 0
𝜃
𝑛 𝜓 𝑦𝑖 −𝑇𝑛
Tapez une équation ici.Cette équation peut s’écrire par : 𝑖=1 𝜔𝑖 𝑦𝑖 − 𝑇𝑛 = 0 avec 𝜔𝑖 =
𝑦𝑖 −𝑇𝑛
𝑛
𝑖=1 𝜔𝑖 𝑦𝑖
Ce qui donne une représentation formelle de 𝑇𝑛 comme une moyenne pondérée : 𝑇𝑛 = 𝑛
𝑖=1 𝜔𝑖
Exemple :
𝑦2
 𝜌 𝑦 = 𝜓 𝑦 =𝑦 𝑇𝑛 = 𝑌 (MLE pour une loi normale )
2
 𝜌 𝑦 = 𝑦 𝜓 𝑦 = 𝑠𝑖𝑔𝑛 𝑦 𝑇𝑛 = 𝑀𝑒 (MLE pour une loi exponentielle double)
La famille des fonctions de Huber La famille des fonctions de Hampel
𝒚𝟐 𝒔𝒊 𝒚/𝒄 ≤ 𝟏
𝝆 𝒚 = 𝒚𝟐
𝒄𝒚 − 𝒚 𝒔𝒊 𝒚 ≤ 𝒂
𝟐 𝒔𝒊 𝒚/𝒄 > 𝟏
𝑠𝑖 𝑐 → ∞ 𝑜𝑛 𝑎 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝒂 × 𝒔𝒊𝒈𝒏 𝒚 𝒔𝒊 𝒂 ≤ 𝒚 < 𝒃
𝑒𝑡 𝑠𝑖 𝑐 → 0 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑛𝑒 𝒚 = 𝒄− 𝒚
𝒂 × 𝒔𝒊𝒈𝒏 𝒚 𝒔𝒊 𝒃 ≤ 𝒚 < 𝒄
𝒄−𝒃
NB : les observations à partir de 𝝁 + 𝒄 sont 𝟎 𝒔𝒊 𝒚 ≥ 𝒄
considérés comme des valeurs aberrantes
I.1.3.2. Calcul des M-estimateurs de localisation
𝒏 𝒏 𝝍 𝒚𝒊 −𝑻𝒏
L’équation 𝒊=𝟏 𝝍 𝒚𝒊 − 𝑻𝒏 = 𝟎 implique 𝒊=𝟏 𝝎𝒊 𝒚𝒊 − 𝑻𝒏 = 𝟎 𝒂𝒗𝒆𝒄 𝝎𝒊 =
𝒚𝒊 −𝑻𝒏
Ainsi, nous obtenons une procédure itérative. Etant donné une estimation initial (par exemple la
médiane) ou une estimation à l’étape k, on calcule :
𝒏
𝒊=𝟏 𝝎𝒊,𝒌 𝒚𝒊
𝝎𝒊,𝒌 = 𝝍 𝒚𝒊 − 𝝁𝒌 ; 𝒊 = 𝟏, 𝟐, … , 𝒏 𝐞𝐭 𝝁𝒌+𝟏 = 𝒏
𝒊=𝟏 𝝎𝒊,𝒌
Et on arrête la procédure dès que 𝝁𝒌+𝟏 − 𝝁𝒌 < 𝜺
Remarque : Dans cette algorithme, l’idée est de réduire le poids des valeurs aberrantes. Si 𝝍 est
bornée et non croissante alors la séquence converge vers la solution
I.1.4. Les W-estimateurs (Huber P. 1964)
Une autre forme des M-estimateurs est appelé W-estimateurs. Prenons 𝑻𝒏 un estimateur
𝒚 −𝑻
défini par: 𝒏𝒊=𝟏 𝝍 𝒊 𝒏 = 𝟎
𝒄𝑺𝒏
Nous introduisons une fonction 𝝎 telle que 𝒖𝒘 𝒖 = 𝝍(𝒖), nous obtenons:
𝒏
𝒏 𝒚𝒊 −𝑻𝒏 𝒚𝒊 −𝑻𝒏 𝒊=𝟏 𝒚𝒊 𝒘[(𝒚𝒊 −𝑻𝒏 ) 𝒄𝑺𝒏 ]
𝒊=𝟏 𝒘 = 𝟎 ; ce qui implique: 𝑻𝒏 = 𝒏
𝒄𝑺𝒏 𝒄𝑺𝒏 𝒊=𝟏 𝒘[ 𝒚𝒊 −𝑻𝒏 ) 𝒄𝑺𝒏 ]
Ainsi, 𝑻𝒏 est une moyenne pondérée des 𝒚𝒊
Exemple : La moyenne est un W-estimateur défini pour la fonction de poids w : w(u) = 1 pour tout u
I.2. Les propriétés des estimateurs
I.2.1. Consistance d’un estimateur
Un estimateur est consistant lorsqu’il converge en probabilité vers 𝜃 :

𝒍𝒊𝒎 𝑷𝜽 𝑻𝒏 − 𝜽 > 𝜺 = 𝟎, ∀ 𝜺 > 𝟎
𝒏→∞
𝑷
On note : 𝑻𝒏 → 𝜽
Les résultats deviennent de plus en plus précis lorsque le nombre d’observation

augmente. Au sens de Fisher, la consistance veut dire que si l’échantillon devient assez
grand alors l’estimation est égale au paramètre : 𝑻∞ = 𝜽.
I.2.2. Estimateur esquivaient
Soit 𝑇 un estimateur de localisation. 𝑻 est équivariant si en ajoutant une constante aux données
(localisation) et en les multipliant par une constante (changement d’échelle) on a :
𝑻 𝒄𝒚𝟏 + 𝒅, … , 𝒄𝒚𝒏 + 𝒅 = 𝒄𝑻 𝒚𝟏 , … , 𝒚𝒏 + 𝒅
Exemple : soit y=(2,4,5,10,200). Calculer la moyenne et la médiane. Sont-ils équivariants ?
Un estimateur 𝑺 est équivariant d’échelle si 𝑺 𝒄𝒚𝟏 + 𝒅, … , 𝒄𝒚𝒏 + 𝒅 = 𝒄 𝑺 𝒚𝟏 , … , 𝒚𝒏

N.B. : S est invariant par translation et est toujours positive
Exemple : l’écart-type
I.2.3. Courbe de sensibilité
La courbe de sensibilité permet de mesurer l’effet d’une valeur aberrante sur l’estimateur
𝑇𝑛 . Supposons qu’on dispose de n-1observation : 𝑌𝑛−1 = (𝑦1 , … , 𝑦𝑛−1 ). En ajoutant une
nième observation à l’échantillon (n’importe quelle nombre) :
𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝑻𝒏 𝒚𝒏−𝟏 , 𝒚 − 𝑻𝒏 𝒚𝒏−𝟏 ×𝒏
Exemple : pour la moyenne arithmétique on a : 𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝒚 − 𝒚𝒏−𝟏

I.2.4. Le point de panne
Soit un échantillon de n observation. En remplaçant 𝑚 observations de l’échantillon par n’importe

quelles valeurs aberrantes et que l’estimateur reste le même mais ne l’est pas si on remplace 𝑚 + 1
𝑚
observations alors le point de panne de l’estimation pour ces données est .
𝑛
Exemples :
 Le point de panne de la moyenne est O
 Le point de panne de la médiane :
𝑛
 Si n est pair − 1
2
𝑛−1
 Si n est impaire
2
I.2.5. Efficacité d’un estimateur
Un estimateur 𝑇𝑛 est dit plus efficace qu’un estimateur 𝑇𝑛 si 𝒗𝒂𝒓(𝑻𝒏 ) < 𝒗𝒂𝒓(𝑻𝒏 ).
L’efficacité relative est définie par le ratio 𝑬𝑹 = 𝒗𝒂𝒓(𝑻𝒏 )/𝒗𝒂𝒓(𝑻𝒏 ).
𝒗𝒂𝒓 𝑻𝒏
L’efficacité relative asymptotique est donnée par 𝑬𝑹𝑨 = 𝒍𝒊𝒎 = 𝒍𝒊𝒎 (𝑬𝑹).
𝒏→∞ 𝒗𝒂𝒓 𝑻𝒏 𝒏→∞
Exemple : la médiane est plus efficace que la moyenne

I.2.6. Biais maximum
Le biais maximum de 𝑇𝑛 est :

𝑩𝑴𝑻∞ 𝜺, 𝜽 = 𝒎𝒂𝒙 𝑻∞ 𝑭 − 𝜽 : 𝑭𝝐𝑮𝜺
Avec 𝐺𝜀 = 1 − 𝜀 𝐹𝜃 − 𝜀𝑊
BM donne l’effet maximum possible sur T dû à toute fraction fixe contamination.
NB : 𝑏𝑑𝑝 𝑇∞ , 𝐹𝜃 = 𝑚𝑎𝑥 𝜀 ≥ 0 ∶ 𝐵𝑀 𝑇∞ 𝜀, 𝜃 <∝

I.2.7. Fonction d’influence
La fonction d’influence décrit comment un estimateur réagit à tout moment à une petite
quantité de contamination (perturbation) 𝑦𝑜 . C’est donc une approximation du changement
relatif dans l’estimateur causé par l’ajout d’une faible proportion d’observation parasite à
𝑦𝑜 (petite fraction 𝜀 de valeurs aberrantes identiques).
𝑻∞ (𝟏−𝜺)𝑭𝜽 +𝜺𝜹𝒚𝟎 −𝑻∞ (𝑭𝜽 )
Elle est définie par : 𝑭𝑰𝑻 𝒚𝒐 , 𝑭𝜽 = 𝒍𝒊𝒎
𝒏→∞ 𝜺
𝐬𝐢𝐠𝐧 𝐲−𝛍
Exemple : pour une loi 𝑁(𝜇, 1) on a : 𝐅𝐈𝐲 𝐲, 𝐅𝛉 = 𝐲 − 𝛍 et 𝐅𝐈𝐌𝐞 𝐲, 𝐅𝛉 =
𝟐𝛟 𝟎
I.2.7. Fonction d’influence
Si 𝜀 est petit, le biais asymptotique 𝑻∞ 𝟏 − 𝜺 𝑭𝜽 + 𝜺𝜹𝒚𝟎 − 𝑻∞ 𝑭𝜽 est approximé par

𝜺 × 𝑭𝑰𝑻 𝒚𝒐 , 𝑭𝜽
NB : FI traite avec les valeurs infinitésimales de 𝜀 quand le point de panne montre le plus
grand 𝜀 qu’un estimateur peut tolérer
Si le point de panne est 𝜀 ∗ , 𝑇∞ 𝐹 reste dans un ensemble borné si 𝐹𝜖 𝐺𝜀 = 1 − 𝜀 𝐹𝜃 −

𝜀𝑊 avec 𝜀 ≤ 𝜀 ∗ .
I.2.8. La sensibilité de l’erreur brute
La sensibilité de l’erreur brute de 𝑇𝑛 pour 𝐹𝜃 est : SEB=𝜸∗ 𝑻𝒏 , 𝑭𝜽 = 𝑺𝒖𝒑 𝑭𝑰𝑻 (𝒚𝟎 , 𝑭𝜽 )

𝒚𝟎
Elle mesure le pire (mauvais) influence qu’une petite quantité de contamination de taille
fixe peut avoir sur la valeur de l’estimateur.
NB : Un estimateur est robuste lorsque sa SEB est borné

CHAPITRE II : LA REGRESSION ROBUSTE
II.1. …………….

COURS Intro ROBUSTESSE Revised PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

COURS Intro ROBUSTESSE Revised PDF

Transféré par

Droits d'auteur :

Formats disponibles

INTRODUCTION A

Chapitre I : Les estimateurs

Chapitre II : la régression robuste

 L’inférence ou l’estimation pourrait dans ce cas être erronée.

 Existe-il un moyen de réduire l’effet des valeurs aberrantes ?

 La moyenne empirique et la variance sont aussi sensibles aux valeurs aberrantes

Inférence classique Estimation robuste

I.1.1. Les estimateurs de moindres carrés

L’estimateur des moindres carrés sont de la forme :

Exemple : les estimateurs MCO

L’estimateur de 𝜃 calculé par maximum de vraisemblance est donné par :

On appelle M-estimateur, tout estimateur 𝑇𝑛 défini par un problème de minimisation de la forme :

Dans la suite, nous nous intéressons aux estimateurs de localisation :

Ainsi, 𝑻𝒏 est une moyenne pondérée des 𝒚𝒊

I.2.1. Consistance d’un estimateur

Un estimateur est consistant lorsqu’il converge en probabilité vers 𝜃 :

Les résultats deviennent de plus en plus précis lorsque le nombre d’observation

Un estimateur 𝑺 est équivariant d’échelle si 𝑺 𝒄𝒚𝟏 + 𝒅, … , 𝒄𝒚𝒏 + 𝒅 = 𝒄 𝑺 𝒚𝟏 , … , 𝒚𝒏

𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝑻𝒏 𝒚𝒏−𝟏 , 𝒚 − 𝑻𝒏 𝒚𝒏−𝟏 ×𝒏

Exemple : pour la moyenne arithmétique on a : 𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝒚 − 𝒚𝒏−𝟏

Soit un échantillon de n observation. En remplaçant 𝑚 observations de l’échantillon par n’importe

I.2.5. Efficacité d’un estimateur

L’efficacité relative est définie par le ratio 𝑬𝑹 = 𝒗𝒂𝒓(𝑻𝒏 )/𝒗𝒂𝒓(𝑻𝒏 ).

Exemple : la médiane est plus efficace que la moyenne

Le biais maximum de 𝑇𝑛 est :

BM donne l’effet maximum possible sur T dû à toute fraction fixe contamination.

NB : 𝑏𝑑𝑝 𝑇∞ , 𝐹𝜃 = 𝑚𝑎𝑥 𝜀 ≥ 0 ∶ 𝐵𝑀 𝑇∞ 𝜀, 𝜃 <∝

Si 𝜀 est petit, le biais asymptotique 𝑻∞ 𝟏 − 𝜺 𝑭𝜽 + 𝜺𝜹𝒚𝟎 − 𝑻∞ 𝑭𝜽 est approximé par

Si le point de panne est 𝜀 ∗ , 𝑇∞ 𝐹 reste dans un ensemble borné si 𝐹𝜖 𝐺𝜀 = 1 − 𝜀 𝐹𝜃 −

I.2.8. La sensibilité de l’erreur brute

La sensibilité de l’erreur brute de 𝑇𝑛 pour 𝐹𝜃 est : SEB=𝜸∗ 𝑻𝒏 , 𝑭𝜽 = 𝑺𝒖𝒑 𝑭𝑰𝑻 (𝒚𝟎 , 𝑭𝜽 )

NB : Un estimateur est robuste lorsque sa SEB est borné

Vous aimerez peut-être aussi