Vous êtes sur la page 1sur 25

INTRODUCTION A

L’ESTIMATION ROBUSTE
Par Ir. RWASA Kévin
PLAN DU COURS
Introduction

Chapitre I : Les estimateurs


I.1. La classe des estimateurs
I.2. Propriétés des estimateurs

Chapitre II : la régression robuste


II.1. La régression sur composantes principales
II.2. La régression rigide
II.3. La régression LASSO
II.4. La régression quantile
INTRODUCTION
 La modélisation des données peut s’écarter très probablement du vrai modèle car des erreurs
expérimentales peuvent apparaître dans les données comme les erreurs de collecte de
données ou d’enregistrement.

 L’inférence ou l’estimation pourrait dans ce cas être erronée.

 Ainsi, pouvons-nous trouver des bonnes statistiques pour capturer ces incertitudes dans le
modèle ?

 Existe-il un moyen de réduire l’effet des valeurs aberrantes ?


INTRODUCTION
Exemples :
 Le coefficient de corrélations est très sensible aux valeurs aberrantes

 La moyenne empirique et la variance sont aussi sensibles aux valeurs aberrantes


(x = 3,5,6,4,7,4,60,7,3,6,5)

 La médiane, Q1, Q2 et l’étendu sont moins affectés par les valeurs aberrantes ;

→ Il faut donc trouver une méthode d’inférence qui décrit la majorité des données en
identifiant les valeurs aberrantes, càd des données qui ne correspondent pas au modèle
INTRODUCTION
Cependant, il ne suffit pas de filtrer les données et d’éliminer les valeurs aberrantes. En effet :
 Il peut être difficile de repérer les valeurs aberrantes dans les données multivariées ou
hautement structurées. C’est encore plus difficile avec les données plus volumineuses (Big-
data ou Mégadonnées)

 Le rejet des valeurs aberrantes affecte les distributions des estimateurs – les variances peuvent
être sous-estimées si les données sont nettoyées.

→ Ainsi, il faut trouver des procédures avec des propriétés statistiques bien définies
INTRODUCTION
Comparaison entre la procédure classique et la théorie de la robustesse

Inférence classique Estimation robuste

 Les observations sont distribuées  𝑓𝜃 est une observation mathématique qui n’est
suivant 𝑓𝜃 : qu’une approximation idéal de la réalité
Ex : 𝑓𝜃 ~𝑁 𝜇, 𝜎 𝑎𝑣𝑒𝑐 𝜃 = (𝜇, 𝜎)  L’objectif est de produire des procédures statistiques
qui ne se comportent encore assez bien avec des
écarts par rapport au modèle supposé
CHAPITRE I : LES ESTIMATEURS
Objectif : Notation :
 Introduire la classe des M-estimateurs Soit (𝑦1 , 𝑦2 , … , 𝑦𝑛 ) un échantillon
d’observation de la variable 𝑌 qui suit
 Introduire la classe des W-estimateurs
une distribution 𝑓𝜃 , 𝜃 ∈ ℝ𝑝 , on a :
 Introduire la classe des L-estimateurs
 (𝑦(1) , 𝑦(2) , … , 𝑦(𝑛) ) la statistique de
 Définir les propriétés d’un estimateur l’ordre
robuste  𝑇𝑛 = 𝑇(𝑦1 , 𝑦2 , … , 𝑦𝑛 ) l’estimateur
de 𝜃 basé sur les n observations
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs

I.1.1. Les estimateurs de moindres carrés

L’estimateur des moindres carrés sont de la forme :

𝑛 2 𝑛
𝐸𝑀𝐶 = 𝑟
𝑖=1 𝑖 = 𝑖=1(𝑦𝑖 − 𝑚)2𝑖 où 𝑚 est la moyenne de l’échantillon.

Remarque : Avec cet estimateur des moindres carrés, les valeurs aberrantes ont
une grande influence sur le résultat estimé.

Exemple : les estimateurs MCO


CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.2. Les estimateurs de maximum de vraisemblance

L’estimateur de 𝜃 calculé par maximum de vraisemblance est donné par :


𝑛 𝑛
𝑇𝑛 = arg 𝑚𝑎𝑥 𝑖=1 𝑓𝜃 (𝑦𝑖 ) ou 𝑇𝑛 = arg 𝑚𝑖𝑛 [− 𝑖=1 𝐿𝑜𝑔 𝑓𝜃 (𝑦𝑖 )]
𝜃 𝜃
Remarque : Cet estimateur dépend des hypothèses sur la distribution des
données. Il est inefficace et biaisé si les données ne suivent pas la
distribution. C’est le cas en particulier en présence des données
aberrantes.
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.3. Les M-estimateurs (Huber P. 1964)

I.1.3.1. Définition

On appelle M-estimateur, tout estimateur 𝑇𝑛 défini par un problème de minimisation de la forme :


𝑛
𝑇𝑛 = arg 𝑚𝑖𝑛 [ 𝑖=1 𝜌(𝑦𝑖, 𝜃)] ou par l’équation implicite
𝜃
𝑛
𝑖=1 𝜓 𝑦𝑖, 𝑇𝑛 = 0
Avec 𝜌 une fonction arbitraire et 𝜓 la dérivée de 𝜌 par rapport 𝜃.
Exemple : L’estimateur de maximum de vraisemblance est un M-estimateur avec
𝜌 = −𝐿𝑜𝑔 𝑓𝜃 (𝑦𝑖 )
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.3. Les M-estimateurs (Huber P. 1964)
I.1.3.1. Définition
Remarque : Les m-estimateurs ont pour objet de réduire l’influence des outliers en remplaçant le carrée du
résidu par une fonction décroissante moins rapidement, dépendant de y et du paramètre 𝜽 = 𝒓 𝒚, 𝒕 .

Dans la suite, nous nous intéressons aux estimateurs de localisation :

𝑛 𝑛
𝑇𝑛 = arg 𝑚𝑖𝑛 [ 𝑖=1 𝜌(𝑦𝑖 − 𝜃)] Ou 𝑖=1 𝜓 𝑦𝑖 − 𝑇𝑛 = 0
𝜃
𝑛 𝜓 𝑦𝑖 −𝑇𝑛
Tapez une équation ici.Cette équation peut s’écrire par : 𝑖=1 𝜔𝑖 𝑦𝑖 − 𝑇𝑛 = 0 avec 𝜔𝑖 =
𝑦𝑖 −𝑇𝑛
𝑛
𝑖=1 𝜔𝑖 𝑦𝑖
Ce qui donne une représentation formelle de 𝑇𝑛 comme une moyenne pondérée : 𝑇𝑛 = 𝑛
𝑖=1 𝜔𝑖
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.3. Les M-estimateurs (Huber P. 1964)
I.1.3.1. Définition
Exemple :
𝑦2
 𝜌 𝑦 = 𝜓 𝑦 =𝑦 𝑇𝑛 = 𝑌 (MLE pour une loi normale )
2
 𝜌 𝑦 = 𝑦 𝜓 𝑦 = 𝑠𝑖𝑔𝑛 𝑦 𝑇𝑛 = 𝑀𝑒 (MLE pour une loi exponentielle double)
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.3. Les M-estimateurs (Huber P. 1964)
La famille des fonctions de Huber La famille des fonctions de Hampel

𝒚𝟐 𝒔𝒊 𝒚/𝒄 ≤ 𝟏
𝝆 𝒚 = 𝒚𝟐
𝒄𝒚 − 𝒚 𝒔𝒊 𝒚 ≤ 𝒂
𝟐 𝒔𝒊 𝒚/𝒄 > 𝟏
𝑠𝑖 𝑐 → ∞ 𝑜𝑛 𝑎 𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝒂 × 𝒔𝒊𝒈𝒏 𝒚 𝒔𝒊 𝒂 ≤ 𝒚 < 𝒃
𝑒𝑡 𝑠𝑖 𝑐 → 0 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑛𝑒 𝒚 = 𝒄− 𝒚
𝒂 × 𝒔𝒊𝒈𝒏 𝒚 𝒔𝒊 𝒃 ≤ 𝒚 < 𝒄
𝒄−𝒃
NB : les observations à partir de 𝝁 + 𝒄 sont 𝟎 𝒔𝒊 𝒚 ≥ 𝒄
considérés comme des valeurs aberrantes
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.3. Les M-estimateurs (Huber P. 1964)
I.1.3.2. Calcul des M-estimateurs de localisation

𝒏 𝒏 𝝍 𝒚𝒊 −𝑻𝒏
L’équation 𝒊=𝟏 𝝍 𝒚𝒊 − 𝑻𝒏 = 𝟎 implique 𝒊=𝟏 𝝎𝒊 𝒚𝒊 − 𝑻𝒏 = 𝟎 𝒂𝒗𝒆𝒄 𝝎𝒊 =
𝒚𝒊 −𝑻𝒏

Ainsi, nous obtenons une procédure itérative. Etant donné une estimation initial (par exemple la
médiane) ou une estimation à l’étape k, on calcule :
𝒏
𝒊=𝟏 𝝎𝒊,𝒌 𝒚𝒊
𝝎𝒊,𝒌 = 𝝍 𝒚𝒊 − 𝝁𝒌 ; 𝒊 = 𝟏, 𝟐, … , 𝒏 𝐞𝐭 𝝁𝒌+𝟏 = 𝒏
𝒊=𝟏 𝝎𝒊,𝒌
Et on arrête la procédure dès que 𝝁𝒌+𝟏 − 𝝁𝒌 < 𝜺

Remarque : Dans cette algorithme, l’idée est de réduire le poids des valeurs aberrantes. Si 𝝍 est
bornée et non croissante alors la séquence converge vers la solution
CHAPITRE I : LES ESTIMATEURS
I.1. La classe des estimateurs
I.1.4. Les W-estimateurs (Huber P. 1964)
I.1.4.1. Définition

Une autre forme des M-estimateurs est appelé W-estimateurs. Prenons 𝑻𝒏 un estimateur
𝒚 −𝑻
défini par: 𝒏𝒊=𝟏 𝝍 𝒊 𝒏 = 𝟎
𝒄𝑺𝒏
Nous introduisons une fonction 𝝎 telle que 𝒖𝒘 𝒖 = 𝝍(𝒖), nous obtenons:
𝒏
𝒏 𝒚𝒊 −𝑻𝒏 𝒚𝒊 −𝑻𝒏 𝒊=𝟏 𝒚𝒊 𝒘[(𝒚𝒊 −𝑻𝒏 ) 𝒄𝑺𝒏 ]
𝒊=𝟏 𝒘 = 𝟎 ; ce qui implique: 𝑻𝒏 = 𝒏
𝒄𝑺𝒏 𝒄𝑺𝒏 𝒊=𝟏 𝒘[ 𝒚𝒊 −𝑻𝒏 ) 𝒄𝑺𝒏 ]

Ainsi, 𝑻𝒏 est une moyenne pondérée des 𝒚𝒊

Exemple : La moyenne est un W-estimateur défini pour la fonction de poids w : w(u) = 1 pour tout u
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs

I.2.1. Consistance d’un estimateur

Un estimateur est consistant lorsqu’il converge en probabilité vers 𝜃 :


𝒍𝒊𝒎 𝑷𝜽 𝑻𝒏 − 𝜽 > 𝜺 = 𝟎, ∀ 𝜺 > 𝟎
𝒏→∞
𝑷
On note : 𝑻𝒏 → 𝜽

Les résultats deviennent de plus en plus précis lorsque le nombre d’observation


augmente. Au sens de Fisher, la consistance veut dire que si l’échantillon devient assez
grand alors l’estimation est égale au paramètre : 𝑻∞ = 𝜽.
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.2. Estimateur esquivaient

Soit 𝑇 un estimateur de localisation. 𝑻 est équivariant si en ajoutant une constante aux données
(localisation) et en les multipliant par une constante (changement d’échelle) on a :
𝑻 𝒄𝒚𝟏 + 𝒅, … , 𝒄𝒚𝒏 + 𝒅 = 𝒄𝑻 𝒚𝟏 , … , 𝒚𝒏 + 𝒅
Exemple : soit y=(2,4,5,10,200). Calculer la moyenne et la médiane. Sont-ils équivariants ?

Un estimateur 𝑺 est équivariant d’échelle si 𝑺 𝒄𝒚𝟏 + 𝒅, … , 𝒄𝒚𝒏 + 𝒅 = 𝒄 𝑺 𝒚𝟏 , … , 𝒚𝒏


N.B. : S est invariant par translation et est toujours positive
Exemple : l’écart-type
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.3. Courbe de sensibilité

La courbe de sensibilité permet de mesurer l’effet d’une valeur aberrante sur l’estimateur
𝑇𝑛 . Supposons qu’on dispose de n-1observation : 𝑌𝑛−1 = (𝑦1 , … , 𝑦𝑛−1 ). En ajoutant une
nième observation à l’échantillon (n’importe quelle nombre) :

𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝑻𝒏 𝒚𝒏−𝟏 , 𝒚 − 𝑻𝒏 𝒚𝒏−𝟏 ×𝒏

Exemple : pour la moyenne arithmétique on a : 𝑪𝑺 𝒚, 𝑻𝒏 , 𝒚𝒏−𝟏 = 𝒚 − 𝒚𝒏−𝟏


CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.4. Le point de panne

Soit un échantillon de n observation. En remplaçant 𝑚 observations de l’échantillon par n’importe


quelles valeurs aberrantes et que l’estimateur reste le même mais ne l’est pas si on remplace 𝑚 + 1
𝑚
observations alors le point de panne de l’estimation pour ces données est .
𝑛
Exemples :
 Le point de panne de la moyenne est O
 Le point de panne de la médiane :
𝑛
 Si n est pair − 1
2
𝑛−1
 Si n est impaire
2
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs

I.2.5. Efficacité d’un estimateur

Un estimateur 𝑇𝑛 est dit plus efficace qu’un estimateur 𝑇𝑛 si 𝒗𝒂𝒓(𝑻𝒏 ) < 𝒗𝒂𝒓(𝑻𝒏 ).

L’efficacité relative est définie par le ratio 𝑬𝑹 = 𝒗𝒂𝒓(𝑻𝒏 )/𝒗𝒂𝒓(𝑻𝒏 ).

𝒗𝒂𝒓 𝑻𝒏
L’efficacité relative asymptotique est donnée par 𝑬𝑹𝑨 = 𝒍𝒊𝒎 = 𝒍𝒊𝒎 (𝑬𝑹).
𝒏→∞ 𝒗𝒂𝒓 𝑻𝒏 𝒏→∞

Exemple : la médiane est plus efficace que la moyenne


CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.6. Biais maximum

Le biais maximum de 𝑇𝑛 est :


𝑩𝑴𝑻∞ 𝜺, 𝜽 = 𝒎𝒂𝒙 𝑻∞ 𝑭 − 𝜽 : 𝑭𝝐𝑮𝜺
Avec 𝐺𝜀 = 1 − 𝜀 𝐹𝜃 − 𝜀𝑊

BM donne l’effet maximum possible sur T dû à toute fraction fixe contamination.

NB : 𝑏𝑑𝑝 𝑇∞ , 𝐹𝜃 = 𝑚𝑎𝑥 𝜀 ≥ 0 ∶ 𝐵𝑀 𝑇∞ 𝜀, 𝜃 <∝


CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.7. Fonction d’influence

La fonction d’influence décrit comment un estimateur réagit à tout moment à une petite
quantité de contamination (perturbation) 𝑦𝑜 . C’est donc une approximation du changement
relatif dans l’estimateur causé par l’ajout d’une faible proportion d’observation parasite à
𝑦𝑜 (petite fraction 𝜀 de valeurs aberrantes identiques).
𝑻∞ (𝟏−𝜺)𝑭𝜽 +𝜺𝜹𝒚𝟎 −𝑻∞ (𝑭𝜽 )
Elle est définie par : 𝑭𝑰𝑻 𝒚𝒐 , 𝑭𝜽 = 𝒍𝒊𝒎
𝒏→∞ 𝜺

𝐬𝐢𝐠𝐧 𝐲−𝛍
Exemple : pour une loi 𝑁(𝜇, 1) on a : 𝐅𝐈𝐲 𝐲, 𝐅𝛉 = 𝐲 − 𝛍 et 𝐅𝐈𝐌𝐞 𝐲, 𝐅𝛉 =
𝟐𝛟 𝟎
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs
I.2.7. Fonction d’influence

Si 𝜀 est petit, le biais asymptotique 𝑻∞ 𝟏 − 𝜺 𝑭𝜽 + 𝜺𝜹𝒚𝟎 − 𝑻∞ 𝑭𝜽 est approximé par


𝜺 × 𝑭𝑰𝑻 𝒚𝒐 , 𝑭𝜽

NB : FI traite avec les valeurs infinitésimales de 𝜀 quand le point de panne montre le plus
grand 𝜀 qu’un estimateur peut tolérer

Si le point de panne est 𝜀 ∗ , 𝑇∞ 𝐹 reste dans un ensemble borné si 𝐹𝜖 𝐺𝜀 = 1 − 𝜀 𝐹𝜃 −


𝜀𝑊 avec 𝜀 ≤ 𝜀 ∗ .
CHAPITRE I : LES ESTIMATEURS
I.2. Les propriétés des estimateurs

I.2.8. La sensibilité de l’erreur brute

La sensibilité de l’erreur brute de 𝑇𝑛 pour 𝐹𝜃 est : SEB=𝜸∗ 𝑻𝒏 , 𝑭𝜽 = 𝑺𝒖𝒑 𝑭𝑰𝑻 (𝒚𝟎 , 𝑭𝜽 )


𝒚𝟎

Elle mesure le pire (mauvais) influence qu’une petite quantité de contamination de taille
fixe peut avoir sur la valeur de l’estimateur.

NB : Un estimateur est robuste lorsque sa SEB est borné


CHAPITRE II : LA REGRESSION ROBUSTE
II.1. …………….