Vous êtes sur la page 1sur 11

ENSAE Sénégal 3 ième année Année 2015 / 2016 M. SADIO

Statistique non paramétrique et robustesse Cours de M. SADIO Série d’exercices n°2

Exercice n°1

On mesure la pression sanguine systolique de 11 patients avant et après administration d’un médicament dont on sait qu’il peut la faire baisser, mais pas l’augmenter. Pour chaque patient, la baisse de la pression sanguine (pression avant moins pression après) est :

7, 5, 12, -3, -5, 2, 14, 18, 19, 21, -1

Utiliser un test de signe pour voir si ces observations contredisent l’hypothèse H0 : [pas de modification systématique de la pression sanguine systolique].

Exercice n°2 : Choix d’un investissement

Un investisseur veut rentabiliser son épargne en optant pour un investissement dans un seul actif financier. Il cherche des conseils qui l’aideront à choisir entre deux actifs financiers A et B pour placer son épargne. Il dispose de deux échantillons ( 1 , … , ) et ( 1 , … , ) de rendements sur chaque actif. On suppose que A et B sont indépendants. Les rendements (en %) sont donnés ci-dessous :

Les rendements ( en % ) sont donnés ci-dessous : 1) L’investisseur souhaite placer son épargne

1)

L’investisseur souhaite placer son épargne dans l’investissement rapportant le rendement médian le

2)

plus élevé. En s’appuyant sur un test non paramétrique, avec des hypothèses clairement précisées, quel actif lui conseillerez-vous ? Dans le cas où ces deux possibilités d’investissement apporteraient le même rendement médian, il souhaite investir dans celui qui a la plus petite volatilité (ou variance). En utilisant des outils de statistique non paramétrique, quel conseil donneriez-vous à l’investisseur ?

Exercice n°3 : Estimation non paramétrique

Considérons le problème d’estimation non paramétrique suivant :

= ( ) + , = 1, … , ,

où f() est une fonction inconnue et , … ,

[ ] = 0 et [ ] = 2 < ∞. Pour simplifier, nous supposons que = × Δ, Δ ∈ ℝ + , = 1, … , .

sont des variables aléatoires indépendantes avec

1

Pour chaque , nous estimons ( ) par une moyenne mobile d’ordre k définie comme suit :

1)

2)

̂ ( ) =

1

2 + 1

+

=−

Calculez [ ̂ ( )] et [ ̂ ( )]

Montrez que le biais de ̂ ( ) est d’ordre k, c’est-à-dire

[ ̂ ( )] − ( ) ≅ ( + 1) ( 2

6

Indication: Vous pouvez utiliser un développement limité et remarquez que

3)

=1

2

=

( + 1)(2 + 1)

6

.

Calculez l’erreur quadratique moyenne (Mean Square Error) notée ( ̂ ( ), ( ) ) et déterminez qui minimise cette erreur.

Exercice n°4

Soit un N-échantillon ( 1 , … , )d’une variable aléatoire D symétrique autour de (médiane). On considère le problème de test suivant :

{

H 0 : θ = 0

H 1 : θ ≠

0

La statistique de test de Wilcoxon signé est définie par

1)

N

W N + = ∑ R

i=1

+ 1 ℝ+ (D i )

i

,

avec R + =

i

Soit Z une variable aléatoire définie par

N

∑ 1 + (|D i | − |D j |)

j=1

= { 1 0 si D

>

≤ θ

a. Montrez que les deux variables aléatoires Z et D sont indépendantes.

b. En déduire que les 2N variables aléatoires , R + , … , , R indépendantes sous 0 , avec = 1 { >}

c. Montrez que sous 0 ,

i

+

N

sont

mutuellement

2)

(W N + ) = ( + 1)

4

(W N + ) =

1

24 ( + 1)(2 + 1)

On suppose que l’échantillon ( 1 , … , ) possède m valeurs positives et n valeurs négatives, et pas de valeurs égales à zéro (n+m = N). On définit la valeur absolue de comme suit :

| | = { Y i

si

> 0

D < 0

avec X et Y à valeurs indépendantes.

2

a. Montrez que la statistique de test de Wilcoxon pour l’égalité des distributions des deux échantillons ( 1 , … , ) et ( 1 , … , ), est égale à la statistique de test de Wilcoxon signé + pour l’échantillon ( 1 , … , ) .

b. Peut on utiliser le test de Wilcoxon pour deux échantillons indépendants pour résoudre un problème de test de paramètre de position ≠ 0 à un échantillon ? Justifiez votre réponse.

Exercice n°5: Estimation non paramétrique

Soit (, ) un couple de variables aléatoires réelles tel que Y soit intégrable :(||) < ∞. La fonction

() = (| = )

est appelée fonction de régression de Y sur X. Supposons que l’on dispose d’un n-échantillon iid ( 1 , 1 ) , … , ( , ) de variables aléatoire de même loi que (, ).

L’objectif de cet exercice est de proposer une estimation de ().

1)

2)

3)

4)

Montrez que les variables = − ( )sont des variables aléatoires centrées iid. Montrez que si Z est une variable aléatoire réelle de loi de carré intégrable, alors son espérance mathématique () est le nombre qui minimise, parmi tous réels t, la quantité :

( − ) 2 = ∫( − ) 2 ()

En déduire que () minimise la quantité :

∫( − ) 2

{ =} ()

{ =} est la loi conditionnelle de sachant que = .

Soit la loi empirique de { =} définie comme suit

= ∑ ̂ , ()

=1

× { } , avec ̂ , () =

[( − )/ℎ()]

=1

[( − )/ℎ()]

où K est un noyau de Parzen Rosenblatt positif, et ℎ() une fenêtre. Montrez que l’on peut définir un estimateur ̂ () de ()en cherchant le nombre réel t qui minimise la quantité:

̂ , ()

=1

× { − } 2

Calculez ̂ (). Comment appelle- t- on cet estimateur ?

5)

Montrez que ̂ () converge en probabilité vers ().

3

Exercice n°6: Robustesse d’une régression linéaire

Soit le modèle de régression linéaire suivant = + . Soit ̂ l’estimateur de par la méthode des moindres carrés ordinaires. Calculez la fonction d’influence de ̂ . Cet estimateur est-il robustesse ? Justifiez votre réponse.

Indications: Posons = ∑

. Nous avons ( 1 ) 1 = 1

1

−1

−1

−1

−1

=1

−1

1+ 1

Exercice n°7

Soit ( 1 ) un échantillon aléatoire de fonction de répartition F continue. Soient ∈ ]0,1[ et le quantile d’ordre α de F c’est-à-dire ( ) = . Posons [] + 1. Un L-estimateur est donné par

avec

1)

2)

, =

̂

= , ()

=1

−1

(, − + 1)

1

(1 ) (1−)−1

̂

Donnez la fonction d’influence de

̂

Etudiez la robustesse de

Exercice n°8

Soient 1 , … , des variables aléatoires indépendantes et identiquement distribuées, où a une

fonction de répartition et une densité . Considérons la fonctionnelle T(F), estimateur de θ par maximum de vraisemblance.

1)

Calculer la fonction d’influence de l’estimateur de ( ).

2)

Discuter des propriétés de robustesse de l’estimateur de maximum de vraisemblance dans le cas général, et dans les cas suivants :

a. Loi normale : () = ( − ), avec φ fonction de densité de N(0,1)

b.

Loi de Laplace : () =

1

2(−|−|)

c. Loi Gamma : () = ()() 1 , = (, )

Γ()

4

Exercice n°9

Considérons le modèle linéaire suivant :

= + ,

suit une loi de Cauchy de fonction de densité () =

1

(1+ 2 ) .

1)

2)

3)

4)

5)

Montrer que l’estimateur du maximum de vraisemblance de est un M-estimateur.

Montrer que (, ; ) = (), où = et la dérivée de la fonction objective par rapport à .

Quelle

Réécrire

interprétation

Quel serait le poids des observations avec des résidus > 3 ? Discuter des propriétés de robustesse de cet estimateur.

= .

l’équation

définissant

̂

comme

( , ) = 0,

donneriez-vous à ?

Exercice n°10

Soit () une fonctionnelle statistique de fonction d’influence , et soit : ℝ → ℝ une fonction différentiable.

1)

2)

3)

Montrez que la fonction d’influence de la fonctionnelle () = [()] est donnée par , () = [()] × , (), avec () la dérivée de ()par rapport à .

En déduire que si ( 1 , … , ): ℝ → ℝ est une fonction différentiable, si () une

fonctionnelle

( 1 (), … , ()) a pour fonction d’influence

() =

statistique

de

fonction

d’influence

,

alors

la fonctionnelle

, () = ∑

=1

× , ()

En utilisant ce dernier résultat, calculez la fonction d’influence de la corrélation linéaire entre deux variables aléatoires X et Y de fonction de répartition respective et . La corrélation linéaire est-elle robuste ?

Exercice n°11 : Etude de la robustesse de l’indice de Theil

Notons F la fonction de répartition de la distribution de revenu d’une population donnée. L’indice de Theil est souvent utilisé pour étudier les inégalités de revenu dans une population ou dans une région géographique. Il est défini comme suit:

() = [(

) (

)],

= () et une variable aléatoire de fonction de répartition F.

5

1)

On suppose que (, 2 ).

suit une loi Lognormal de paramètre = (, 2 ), c’est-à-dire () ∼

2)

3)

(a)

(b)

(c)

2

2

Montrez que ( ) =

En déduire un estimateur ( ̂ ) de ( ), avec ̂ l’estimateur de maximum de vraisemblance de .

Calculez les sensibilités locale et globale de (

̂ ). Discutez de la robustesse de cet estimateur.

On suppose que () = 1 − (

0 ) , > 0 > 1 (distribution de Paréto).

(a)

(b)

(c)

(d)

Montrez que ( ) =

1 + (

1

−1 )

Déterminez la fonction d’influence (, , ( ̂ )) de l’estimateur paramétrique de l’indice de Theil ( ̂ ), avec ̂ l’estimateur de maximum de vraisemblance de .

Etudiez la robustesse de cet estimateur.

Etant donné que ( ̂ ) est asymptotiquement normal, calculez sa variance asymptotique.

On se place dans le cas général où est de distribution quelconque.

(a) Montrez que la fonction d’influence de () est donnée par

(, , ()) =

1

[() ]

( + ) ( ),

2

= () et = ()().

Indication: Remarquez que () = ( , ) et utilisez le résultat établi dans l’exercice 9.

(b)

Calculez les sensibilités locale et globale de ().

(c)

Discutez de la robustesse de l’indice de Theil ().

Exercice n°12: Robustesse de quelques mesures de risques

Pour un établissement financier (une banque ou une société d’assurance par exemple), mesurer les risques liés à ses activités est très important. Pour ce faire, plusieurs mesures de risques sont utilisées. La plus utilisée est la fonction quantile ou la VaR (Value-at-Risk), qui est une mesure de la perte potentielle: combien l’établissement financier peut-il perdre avec une probabilité 1-α pour une période temps fixée.

D’autres mesures de risque sont également utilisées par les établissements financiers comme par exemple l’Expected Shortfall (la moyenne des pertes sachant qu’elles ont dépassé la VaR).

En pratique, on dispose souvent d’un échantillon Y 1 , … , Y n pour estimer ces mesures de risques.

L’objectif de cet exercice est d’étudier la robustesse de quelques mesures de risques utilisées par les établissements financiers et de choisir la meilleure mesure de risque compte tenu d’un critère donné.

Soit un n-échantillon (Y 1 , … , Y n ) indépendant et identiquement distribué, de fonction de répartition F strictement croissante et de densité f. On note F n la fonction de répartition empirique :

6

1.

Montrer que

n(F n (y) − F(y)) → N[0, F(y)(1 − F(y))]

2. Soit la fonctionnelle statistique q α (F) définie par

q α (F) = F 1 (α) = inf{y

F(y) ≥ α }

La fonctionnelle statistique q α (F) est le quantile (ou la VaR) d’ordre α de F. Notons par F ε (y) = (1 − ε)F(y) + εδ x (y) la contaminée de F au taux ε par la loi de Dirac définie par

δ x (y) = {

0

1

si y < x

si y

≥ x

2.1. Déterminez F ε (q α (F ε ))

2.2. Donnez une expression explicite q α (F ε ) en fonction de F, α et ε.

2.3. Montrez que la fonction d’influence de q α (F) est donnée par

IF q α () = α − I [−∞,F −1 ()] () f[F 1 (α)]

2.4. L’estimateur q α ( ) de q α (F) est il robuste ? justifiez votre réponse.

2.5. Déterminez la loi et la variance asymptotique de q α ( ).

2.6. Dans le cas de la densité f inconnue, proposez deux méthodes non paramétriques d’estimation de la variance asymptotique de q α ( ). Précisez ces estimateurs.

2.7. On souhaite tester asymptotiquement l’hypothèse H 0 : q α ( ) = 0 . Précisez les régions critiques de ce test en fonction des hypothèses alternatives retenues.

3. L’autre mesure de risque, l’Expected Shortfall notée ES est définie par

3.1. Montrez que

ES α () =

ES α () = (|

1 −

1

1

() ≡

>

q α (F) )

1 −

1

1

1 ()

3.2. Déterminez la fonction d’influence IF ES α de ES α (). Indication : Vous pouvez utiliser la définition de la fonction d’influence. Vous pouvez supposer également que les conditions pour permuter l’intégrale et la limite sont vérifiées.

3.3. Cette fonction d’influence est – elle bornée ? Conclure quant à la robustesse ES α ( )

l’estimateur de ES α ().

3.4. Déterminez la loi et variance asymptotique de ES α ( ).

4. On s’intéresse enfin à la mesure de risque spectrale définie par

7

1

ρ φ () = ∫ () ()

0

∶ [0,1] → [0, +∞) une densité, décroissante.

4.1. Montrez l’estimateur ρ φ ( ) de ρ φ () est un L-estimateur, c’est-à-dire

ρ φ () = ∑ , ()

=1

4.2. Rappelez les conditions nécessaires de robustesse d’un L-estimateur

4.3. L’estimateur ρ φ ( ) est il robuste ?

5. Quelle mesure de risque conseillerez-vous à un dirigeant d’un établissement financier si le seul critère de sélection est la robustesse ? Justifiez votre réponse.

Exercice n°13: Robustesse d’une allocation d’actifs

L’allocation d’actifs est très importante pour une banque, une compagnie d’assurance ou une société de gestion d’actifs. L’aversion au risque, le rendement cible, les contraintes réglementaires, etc., peuvent conditionner cette allocation. Une société de gestion souhaite investir dans N actifs financiers (risqués) A 1 , … , A n , de vecteur de

rendements noté = (R 1 , … , R n ) , avec R i variable aléatoire, E[R i ] =

Var[R i ] = σ 2 i . Dans

chaque actif A i , il souhaite investir une proportion w i de son épargne, avec Le rendement de ce portefeuille diversifié est donné par

μ i et

n

i=1

w

i

= 1.

n

R = ∑ w i R i =

i=1

Nous avons E[R ] = μ = ∑

matrice de variance-covariance des rendements, et w = (w 1 , … , w n ) .

n

i=1

w

i

E[R i ] =

n

i=1

w

i

μ i = w μ et Var[R ] = w Ωw, avec la

Différentes méthodes d’estimation de w existent. L’objectif de cette partie est d’étudier la robustesse de quelques-unes de ces méthodes.

1)

Le portefeuille moyenne-variance est déterminé par solution du problème d’optimisation suivant,

basé sur la moyenne et la variance de R :

Portefeuille moyenne-variance

{

Min {w Ωw − w μ}

1

.

w e = ∑

n

i=1

w

i

= 1 (contrainte) ,

e = (1, … , 1) et γ est le paramètre d’aversion au risque. Remarquez que si γ = ∞, alors le portefeuille optimal est celui de variance minimale ! Pour simplifier, nous supposons que ( , ) = 0 pour ≠ .

1.1) Montrez que = (

1

1 +

2

2 1

, … ,

1

+

2

2

) , avec =

Lagrange du problème d’optimisation.

8

1

=1

2

(2 −

1

=1

2

) le multiplicateur de

1.2) En pratique le calcul de se fait en utilisant l’historique observé des rendements sur une période

donnée. Soit = ( ,1 , … , , ) , = 1, … , l’historique des rendements, avec , le rendement

de l’actif « i » à la date t. Soient ̂ =

les estimateurs de μ, σ 2 i et μ i respectivement. On pose n = 2.

1

=1

= ̂ , ̂ 2 =

1

=1

( , − ̂ ) 2

et ̂ =

1

=1 ,

a)

En utilisant les

données de l’exercice n°2, calculez les poids optimaux en prenant

successivement = 1 , = 10. L’allocation obtenue est – elle cohérente ?

b)

Calculez la fonction d’influence de . Indication: Vous pouvez utiliser le résultat de l’exercice n°3 en remarquant que est une

fonctionnelle statistique dépendant , 2 , = 1,2.

c)

L’estimateur ̂ de , obtenu en remplaçant μ i et σ 2 i par ̂ et

̂ 2 , est il robuste ?

justifiez votre réponse ? 1.3)Proposez un estimateur robuste de , à partir des estimateurs robustes de μ i et σ 2 i .

2)

L’objectif de cette question est d’étudier la robustesse de estimateur de w obtenu à partir d’un M-estimateur.

1

min

,

∑ (w − )

=1

.
{

n

w e = ∑ w i

i=1

= 1

est une fonction symétrique et convexe avec un unique minimum en zéro, et m est un M-estimateur de la rentabilité moyenne du portefeuille. 2.1)Donnez les conditions de premier ordre d’optimalité du problème d’optimisation 2.2)En utilisant le résultat établi en cours de la fonction d’influence d’un M-estimateur, montrez que la fonction d’influence vérifie l’équation suivante

(

(

[ (

− )]

−[ ( − )]

0

( ̂− )

− ( ̂− )̂

0

),

−[ ( − ) ] [ ( − ) ]

0

0 ) ( ) =

ù , et

Lagrange), et () = ().

sont

respectivement les fonctions d’influence de m, w et (le multiplicateur de

2.3)En supposant que toutes les conditions de régularité sont vérifiées, montrez que la fonction d’influence du vecteur w des poids est donnée par

avec

= ( ̂− ) × 1 × ( [ ( )] − ̂),

[ ( −)]

= [ ( − ) ] − [ ( −)][ ( −) ]

[ ( −)]

2.4)Discutez de la robustesse de avec les deux choix suivants de la fonction () :

9

a)

b)

() = {

2

2

|| ≤

(|| − /2) || >

() =

2

2

Exercice n°14

(fonction d’Huber)

Le but de cet exercice est d’estimer la matrice de covariance des coefficients d’une régression linéaire par la méthode de Jackknife. Considérons le modèle de régression linéaire

= + , = 1, … ,

et

identiquement distribuées, de fonction de répartition notée F telle que ( ) = 0. En notation matricielle,

le modèle peut être réécrit comme suit :

= ( 1 , … , ) , = ( 1 , … ,

)

et

des

variables

aléatoires

indépendantes

avec

= ( 1 , … , ) , = ( 1 , … , )

= + ,

et = ( ⋮

) ∈ ℝ × ( × )

1

1)

2)

Donnez l’interprétation de la différence ̂ () − ̂ , avec ̂ () l’estimateur obtenu sans la ième observation. Calculez l’estimateur Jackknife de la matrice de covariance

) l’estimateur obtenu sans la ième observation. Calculez l’estimateur Jackknife de la matrice de covariance

Indication:

- Montrez que

en utilisant que

̂

̂ () =

( ) 1 ̂

̂ ( ) 1 ̂

1 − ℎ

( ) 1 =

1

( ()

() ) 1 = ( ) 1 + ( ) −1 1 ( ) −1

- L’estimateur Jackknife de la matrice de variance-covariance du vecteur aléatoire ̂ est donné par

Exercice n°15

( ̂ ) =

̂

1

( − 1) ( ̂

=1

̂ )

( ̂ − ̂ )

L’estimateur Jackknife de la variance d’un estimateur ̂ est donné par

̂ 1

=

1) ∑( ̂ − ̂ ) 2 ,

=1

(

10

de

l’échantillon la ième observation. Soit 1 , … , un échantillon de variables aléatoires indépendantes et identiquement

distribuées de distribution inconnue F (fonction de répartition) telle que ( ) = et

( ) = 2 . Nous estimons

̂ = ̂ − ( − 1) ̂ ,

̂

et ̂

=

1

=1

̂

l’estimateur

obtenu

en

enlevant

et 2 par leur estimateur usuel, c’est-à-dire

̅

̂=

=

1

=1

̂ 2 =

1

1 ∑(

=1

̅

) 2

1)

2)

Calculer (̂) et l’estimateur Jackknife de la variance de ̂. Comparez et commentez les résultats.

Soient = [( − ( )) ] et ̂ =

k théorique et empirique, respectivement. Nous savons que

les moments centrés d’ordre

1

=1

(

)

̅

2 ) =

4 − 3

− 1 2

2

.

Calculez l’estimateur Jackknife de la variance de ̂ 2 dépendant de ̂ 2 et ̂ 4 . Comparez avec 2 ) et commentez les résultats.

11