Vous êtes sur la page 1sur 43

RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE

MINISTÈRE DE l’ENSEIGNEMENT SUPÉRIEUR ET DE LA


RECHERCHE
SCIENTIFIQUE

UNIVERSITÉ FRÈRES MENTOURI CONSTANTINE


FACULTÉ DES SCIENCES EXACTES
DÉPARTEMENT DE MATHÉMATIQUES
N◦ d’ordre :..................
N◦ de série :..................

MÉMOIRE
PRÉSENTÉ POUR L’OBTENTION DU DIPLÔME
DE MASTER EN MATHÉMATIQUES
INTITULÉ
THÉORIE DES VALEURS EXTRÊMES : MODÈLE GP D AVEC
CENSURE
Présenté par :
Hamza Hadia
Ben Abd Elhafid Khouloud
OPTION :
mathématiques appliquées à l’économie et à la finance
Devant le jury :

Président Prof BOUDAA DJAMEL Université frères Mentouri


Encadreur Dr DAKHMOUCHE MEGHLAOUI Université frères Mentouri
Examinateur Dr REZGUI IMANE Université frères Mentouri

Soutenu le : 27/06/2019
Dédicace
Je dedie ce modeste travail

* À mes chers parents qui m’ont élevé.

* À mes deux chers frères , à mes deux sœurs qui m’ont soutenu.

* À mes amis qui ont été toujours à mes cotés.

* À lamour de ma vie, Hamid pour sa tendresse.

* À tout ceux que j’aime et qui m’aiment .

Ben Abed Elhafid Khouloud

Je dedie ce modeste travail

* À mes chers parents :


-Maman ’Noura’ qui a consacrée sa vie pour moi, elle ma toujours guidée et en-
courager dans mes études.
-papa ’Ali’ : Symbole d’amour, et de tendresse, patience fidélité qui a toujours
veillé sur ma réussite.
* À mon frère : Mohamed , à mes deux sœurs qui m’ont soutenu et sont toujours
près de moi, et pour leurs amour : ’Narimene’ et ’Oumayma’.
* À mes chères tantes : ’Nassima’, ’Nadia’, ’Chahra’, ’Dalila’
* À mon oncle : ’Nabil’.
* À ma grand-mère : ’Aida’ et mon grand-père : ’Amara’.
* À mes amis qui ont été toujours à mes cotés ’khouloud’, ’Bouchra’, ’Nassima’,
’Jojo’, ’Khadija’, ’Soumia’.
* À tout ceux que j’aime et qui m’aiment .

Hamza Hadia
Remerciements
Nous tenons tout d’abord à remercier Dieu le tout puissant, qui nous a donné la force et
la patience d’accomplir ce modeste travail.

En second lieu, nous tenons à remercier notre encadreur Dr. Dakhmouche Meghlaoui
son précieux conseil et son aide durant toute la période du travail.

On tient à remercier aussi.

Nos vifs remerciements vont également aux membres du jury Dr. Rezgui Imane , Prof.
Boudaa Djamel pour l’intérêt qu’ils ont porté à notre recherche en acceptant d’examiner
notre travail.

On n’oublie pas nos chers parents pour leurs contributions, leurs soutiens et leurs pa-
tiences.

Nous remerciements s’adressent également à monsieur Bahi Oussama qui n’a ménagé
aucun effort afin de nous apporter aide, conseils et orientation.

Nous remercions également tous nos enseignants et les responsables du laboratoire de


Modélisation Mathématique et Simulation qui nous ont accordés un environnement de
travail favorable pour la réalisation de ce travail.

Enfin, nous adressons nos plus sincères remerciements à tous nos proches amis, qui
nous ont toujours encouragées au cours de la réalisation de ce mémoire.

Beaucoup de charité et Bonne chance à tous. . . . . . . . . . . . . . . . . . . . . Merci !


Résumé

Dans ce travail nous nous sommes intéressés à l’étude des modèles GP D avec cen-
sure. Nous avons résumés les principaux résultats de la théorie des valeurs extrêmes,
on s’est intéressé principalement à l’inférence statistique dans les modèles GP D. Une
analyse des données sur la leucémie (cancer du sang) à été réalisée à l’aide d’un modèle
GP D avec censure.
Mots-Clés : TVE, Modèle GPD, Modèle censuré, Estimateur du pseudo-maximum de
vraisemblance .
Abstract

In this work we are interested by the study of models GP D with censor. We sum-
marized the main results of the theory of extreme values, we were interested mainly in
the statistical inference in the models GP D. An analysis of leukemia (blood cancer)
data was performed using a GP D model with censor.
Key-Words : TVE, GPD model, Censor, Pseudo-maximum Likelihood method.
TABLE DES MATIÈRES TABLE DES MATIÈRES

Table des matières

Notation 4

Introduction 5

1 Analyse de survie 6
1.1 Distributions de survie . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Moments associées à la distribution de survie . . . . . . . . . . 7
1.2 Données censurées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Approche non paramétrique de la fonction de survie . . . . . . . . . . 9
1.3.1 Estimateur de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . 9

2 Théorie des valeurs extrêmes 11


2.1 Concepts et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Statistique d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Distributions d’un extrême . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Domaines d’attraction . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Distributions des excès . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Estimations dans les modèles GP D 24


3.1 Méthode des excès au dessus d’un seuil . . . . . . . . . . . . . . . . . 24
3.2 Estimateurs des paramètres d’un modèle POT . . . . . . . . . . . . . . 24
3.2.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . . 25
3.2.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 Méthode des moments pondérés . . . . . . . . . . . . . . . . . . 27
3.3 Estimateur des paramètres d’un modèle GP D avec censure . . . . . . . 28
3.3.1 Distribution d’une variable censurée à droite . . . . . . . . . . . 28
3.3.2 Estimateur du pseudo-maximum de vraisemblance . . . . . . . . 29

4 Analyse de donnée sur le cancer du sang 32


4.1 Présentation de données "myeloid" . . . . . . . . . . . . . . . . . . . . 32
4.1.1 Analyse des données "myeloid" à l’aide de Kaplan-Meier . . . . 33
4.1.2 Analyse des données "myeloid" à l’aide d’un modèle GPD . . . 33
4.2 Annexe : code R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Bibliographie 36

1
TABLE DES FIGURES TABLE DES FIGURES

Table des figures

2.1 Densités des lois GEV . . . . . . . . . . . . . . . . . . . . . . . . . . . 15


2.2 Fonctions de survies des lois GEV . . . . . . . . . . . . . . . . . . . . . 15
2.3 Densités des lois usuelles utilisées appartenant au M DA de Fréchet . . 18
2.4 Densités des lois usuelles utilisées appartenant au M DA de weibull . . 19
2.5 Densités des lois usuelles utilisées appartenant au M DA de Gumbel . . 20
2.6 Les dépassements de X au-delà d’un certain seuil u . . . . . . . . . . . 21
2.7 Densité de loi de Pareto généralisée GPD . . . . . . . . . . . . . . . . . 22

4.1 Estimateur de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . 33


4.2 Courbes de survie du trt A et trt B . . . . . . . . . . . . . . . . . . . . 34

2
LISTE DES TABLEAUX LISTE DES TABLEAUX

Liste des tableaux

2.1 Quelques distributions associées à un indice positif . . . . . . . . . . . . 17


2.2 Quelques distributions associées à un indice négatif . . . . . . . . . . . 18
2.3 Quelques distributions associées à un indice nul . . . . . . . . . . . . . 20

4.1 Les données "myeloid" . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3
Notations

F Fonction de répartition (fdr).


Fn Fonction empirique de répartition.
S(t) = F (t) Fonction de survie.
F n (t) Fonction empirique de survie.
f (t) Densité de probabilité.
E[X] Espérance mathématique ou moyenne d’une variable aléatoire X.
V [X] Variance mathématique d’une variable aléatoire X.
sbn Estimateur de Kaplan-Meier.
Q Fonction de quantile.
Qn Quantile empirique.
Sn Somme arithmétique.
N (0, 1) Loi normale standard.
H La fonction de répartition de la loi GEV .
µ Le paramètre de position.
σ Le paramètre d’échelle.
ξ Le paramètre de forme.
Fu (y) Distribution des excès.
e(u) Moyenne des excès.
G La fonction de répartition de la loi GP D.
g La densité de la loi GP D.
L La fonction de vraisemblance.
Γ La fonction Gamma.
wr Les moments pondérés d’ordre r.

4
INTRODUCTION

Introduction

L’objet de notre travail est l’étude des modèles GP D en présence de censure. En


effet dans beaucoup de problèmes pratiques il n’ est des fois pas possible d’observer
complètement le phénomène étudié. Le problème que l’on peut se poser est de savoir si
les propriétés statistique d’un modèle GP D sont toujours valables dans un modèle avec
censure. Les modèles des excès au-dessus d’un seuil ou modèle P OT qu’on appelle par
abus de langage modèle GP D, sont basés sur le théorème de Balkema-de Haan-Pikands
Beirlant et al. (2006). En effet il est aisé de montrer qu’il y a une convergence uniforme
de la fonction de répartition des excès au-dessus d’un seuil u vers la distribution géné-
ralisée de Pareto.
Notre mémoire est structuré en quatre chapitres. Dans le premier chapitre nous don-
nons un bref rappel sur des notions de base et la définition de la fonction de survie.
On présente aussi un estimateur non paramétrique de la fonction de survie, on l’oc-
currence l’estimateur de Kaplan-Meier. Dans le deuxième chapitre nous présentons les
résultats essentiels de Fisher-Tippet concernant l’existence d’une distribution limite
pour le maximum d’un échantillon aléatoire. Ensuite on introduit la notion d’un excès
au dessus d’un seuil u dont on calcule la distribution. Dans le troisième chapitre nous
abordons l’inférence statistique dans les modèles GP D. Trois méthodes d’estimation
sont présentées, la méthode du maximum de vraisemblance, la méthode des moments,
la méthode des moments pondérés. Pour estimer les paramètres d’un modèle GP D
censurée nous utilisons la méthode de pseudo-maximum de vraisemblance. Le dernier
chapitre est consacré à l’étude du corpus de données "myeloid" résultat d’une étude sur
le cancer du sang(la leucémie) à travers un modèle GP D avec censure.

5
CHAPITRE 1. ANALYSE DE SURVIE

Chapitre 1

Analyse de survie

Dans ce chapitre, on commence par un bref rappel sur les concepts de base de
l’analyse de survie telle la fonction de répartition, la fonctions de survie, on présente
dans ce qui suit le cas de données censurées, finalement on s’intéresse à l’un des plus
célèbres estimateurs non paramétriques de la fonction de survie, c’est l’estimateur de
Kaplan-Meier.

1.1 Distributions de survie


Supposons que la durée de survie X soit une variable positive ou nulle et abso-
lument continue, alors la distribution de X peut être caractérisée par trois fonctions
équivalentes, en pratique ces trois fonctions peuvent être utilisées pour illustrer les dif-
férents aspects des données, avant de parler de ces fonctions, on définit la fonction de
répartition de X .

Définition 1.1.1 (Fonction de répartition)


La fonction de répartition d’une variable aléatoire X est l’application F définie de R+
dans [0, 1] par :
F (t) = P(X ≤ t).
F : est aussi appelée fonction de distribution ou fonction de distribution cumulée.

Définition 1.1.2 (Fonction empirique de répartition)


La fonction de répartition empirique de l’échantillon X1,... , Xn est définie par :
n
1X
Fn (t) = I {Xi ≤ t} ∀t ≥ 0,
n i=1

où I{A} est la fonction indicatrice de l’ensemble A.

Définition 1.1.3 (Fonction de survie)


La fonction de survie, aussi appelée queue de distribution, qu’on note par S(t) ou F (t)
est définie sur R+ par :

S(t) = F (t) = 1 − F (t) = P(X > t), (1.1)

c’est la probabilité qu’un individu vive au-delà d’une date t.

6
1.1 CHAPITRE 1. ANALYSE DE SURVIE

Définition 1.1.4 (Fonction empirique de survie ) :


Soit X1 , . . . , Xn un échantillon de taille n d’une variable aléatoire positive X de fonction
de survie F (t) la fonction empirique de survie F n est définie par :
n
1X
F n (t) = 1 − Fn (t) = I {Xi > t} , ∀t ≥ 0.
n i=1

Définition 1.1.5 (Densité de probabilité) :


C’est la fonction f (t) > 0 , telle que pour, tout t > 0 :
Z t
F (t) = f (u)du,
0

de plus si la fonction de répartition F admet une dérivée au point t alors :

P(t 6 X < t + h)
f (t) = lim = F 0 (t) = −S 0 (t).
h→0 h

1.1.1 Moments associées à la distribution de survie


Moyenne de la durée de survie
Le temps moyen de survie E(X) est défini par :
Z ∞
E(X) = S(t)dt,
0

en effet :
Z ∞
E(X) = tf (t)dt
0
Z ∞
= −tS 0 (t)dt,
0
on utilise l’intégrale par partie, on obtient :
Z ∞ Z ∞
0 ∞
−tS (t)dt = [−tS(t)]0 − −S(t)dt
0 0
Z ∞
= S(t)dt,
0

alors : Z ∞
E(X) = S(t)dt.
0

Variance de la durée de survie


La variance de la durée de survie V(X), est défini par :
Z ∞
tS(t)dt − E(X)2 ,

V(X) = 2
0

7
1.2 CHAPITRE 1. ANALYSE DE SURVIE

en effet :

V(X) = E X 2 − (E(X))2

Z ∞
= −t2 S 0 (t)dt − (E(X))2 ,
0

l’intégration par partie nous donne :


Z ∞ Z ∞
2 0
 2 ∞
−t S (t)dt = −t S(t) 0 − −2tS(t)dt
0 0
Z ∞
=2 tS(t)dt,
0

donc Z ∞
2tS(t)dt − E(X)2 .

V(X) =
0

1.2 Données censurées


Dans la statistique, on suppose toujours que les données que l’on analyse ont été
complètement et parfaitement observées. Or, en pratique, il est fréquent que les données
ne sont pas toujours observées. On s’intéressera ici aux données dites censurées c’est
le cas par exemple quand on étudie l’influence d’un traitement sur le cancer et qu’un
patient s’exclut de l’étude avant son décès. Les méthodes de base de la statistique
(estimation,...etc.) doivent être adaptées pour tenir compte de la censure.

Définition 1.2.1 (Données censurées) :


La variable de censure C est définie par la non-observation de l’événement étudié. Si
au lieu d’observer T , on observe C, et que l’on sait que T > C (respectivement T < C),
on dit qu’il y a censure à droite (respectivement censure à gauche).

La censure des données se fait selon plusieurs mécanismes telles la censure à droite,
la censure à gauche, la censure double (ou mixte), où ces types de censure sont présentés
avec des exemples.

Censure à droite :
Il y a censure à droite lorsque nous observons la censure C (et non pas la durée de vie
d’intérêt T) et que nous savons que T > C. Ce modèle est le plus fréquent en pratique,
il est par exemple adapté au cas où l’événement d’intérêt est le temps de survie à une
maladie et où la date de fin de l’étude est préalablement fixée, les patients vivants à
la fin de l’étude fournissent des données censurées à droite. Les observations sont des
répliques du couple ( T ∧ C, ∆ = 1{T ≤C} ) où δ vaut 1 quand l’observation est réaliste
(elle correspond à une donnée de la variable d’intérêt) et vaut 0 si la donnée est censu-
rée.
Censure à gauche :
La censure à gauche correspond au cas où l’individu a déjà subi l’événement avant que
l’individu soit observé. On sait uniquement que la date de l’événement est inférieure à

8
1.3 CHAPITRE 1. ANALYSE DE SURVIE

une certaine date connue. Pour chaque individu, on peut associer un couple de variables
aléatoires (T, ∆) :
T = X ∨ C = max(X, C)
∆ = IX≥C
par exemple si on veut étudier en fiabilité un certain composant électronique qui est
branché en parallèle avec un ou plusieurs autres composants : le système peut continuer
à fonctionner, quoique de façon aberrante, jusqu’à ce que cette panne soit détectée (par
exemple lors d’un contrôle ou en cas de l’arrêt du système). Donc, la durée observée
pour ce composant est censurée à gauche. Dans la vie courante il y a plusieurs phéno-
mènes qui présentent à la fois des données censurées à droite et à gauche.

Censure double ou mixte :


On dit qu’on a une censure double ou mixte si on a des données censurées à droite
et des données censurées à gauche dans le même échantillon. Plusieurs modèles non
paramétriques ont été présentés pour l’étude de la double censure.

Censure par intervalle :


Dans ce cas, comme son nom l’indique, on observe à la fois une borne inférieure et une
borne supérieure de la variable d’intérêt. On retrouve ce modèle en général dans des
études de suivi médical où les patients sont contrôlés périodiquement, si un patient ne
se présente pas à un ou plusieurs contrôles et se présente ensuite après que l’événement
d’intérêt se soit produit. On a aussi ce genre de données qui sont censurées à droite
ou, plus rarement, à gauche. Un avantage de ce type est qu’il permet de présenter les
données censurées à droite ou à gauche par des intervalles du type [a, +∞[ et [0, a]
respectivement.

1.3 Approche non paramétrique de la fonction de sur-


vie
L’estimateur de la fonction de survie le plus utilisé lorsque aucune hypothèse ne
veut être faite sur la distribution des temps de survie est l’estimateur de Kaplan-Meier.
Cet estimateur possède des propriétés asymptotiques très populaire (convergence uni-
forme, presque sure, normalité asymptotique) similaires à celles de la fonction de ré-
partition empirique. Le comportement asymptotique de l’estimateur de Kaplan-Meier a
suscité l’intérêt d’un grand nombre d’auteurs, breslow(1974) sont les premiers à traiter
la convergence et la normalité asymptotique de l’estimateur de Kaplan-Meier(Kaplan
and Meier (1958)]). Pour plus de détails, on renvoie au livre de (Shorack and Wellner
(1986).

1.3.1 Estimateur de Kaplan-Meier


L’estimateur de Kaplan-Meier est encore appelé produit des limites, est basé sur
l’idée intuitive qu’être en vie après l’instant t, c’est être vivant juste avant l’instant t
et ne pas décéder à l’instant t. Cette idée se traduit en termes probabilistes,
pour t − i désignant la valeur prise par X(i), comme suit :

9
1.3 CHAPITRE 1. ANALYSE DE SURVIE

Soit T1 , T2 , . . . , Tn , n variables aléatoires iid, et X(1) , X(2) , . . . , X(n) la statistique d’ordre


associée à (Xn ), si Ti est censurée à droite par Ci , on observe Xi = Ti ∧Ci et δi = 1{Ti <Ci } ,
avec δ(i) l’indice de censure associée à X(i) .
Remarquons que pour t00 < t0 < t, on a

S(t) = P (T > t) = P (T > t/T > t0 ) P (T > t0 ),


S(t) = P (T > t) = P (T > t/T > t0 ) S (t0 ),
= P (T > t/T > t0 ) P (T > t0 /T > t00 ) S (t00 ),
= .....

ainsi de suite, en faisant intervenir des instants de plus en plus antérieurs, on obtient :
pour S (t0 ) = 1 :
i
Y i
Y
S(ti ) = P (T > ti ) = P (T > tj |T > tj−1 ) = Pj j = 1...n
j=1 j=1
Qi
où Pj = j=1 P (T > tj |T > tj−1 ) est la probabilité de survie pendant [tj−1 , tj [,
sachant que l’événement ne s’est toujours pas produit en tj−1 .
Posons qj = 1 − pj c’est la la probabilité de mourir durant l’intervalle [tj−1 , tj [,
sachant que l’individu était vivant en tj−1 . Donc qj est naturellement estimée par qbj
où :

M X(j)
qbj = ,
R X(j)

où M X(j) = ni=1 δi 1{Xi =X(j) } est le nombre de morts observées à l’instant X(j) et
 P

R X(j) = ni=1 1{Xi ≥X(j) } est le nombre des individus ni morts ni censurés juste avant
 P

X(j) , dits à risque (de mourir). On déduit alors que :


" #
Y M X (j)
S
cn (t) = 1−  .
X ≤t
R X (j)
(j)

C’est l’estimateur de Kaplan-Meier, noté EKM, il s’écrit aussi :


Y  n − j δ(j)
S
cn (t) = .
X
n−j+1
(j)≤t

Remarque 1.3.1 Pour les valeurs t supérieures à la plus grande observation tmax , cet
estimateur n’est pas bien défini.

10
CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Chapitre 2

Théorie des valeurs extrêmes

Dans ce chapitre nous introduisons la théorie des valeurs extrêmes. Après avoir les
concepts et définitions de certains outils nécessaires dans cette théorie, nous parlons
sur les théorèmes limites : loi des grands nombres et le théorème centrale limite (T CL).
Dans un second lieu nous nous intéressons aux les statistiques d’ordre, les extrêmes
ainsi que les lois exactes des statistiques d’ordre et les lois asymptotiques des valeurs
extrêmes. Ensuite nous donnons la distribution GEV et le résultat fondamental de la
T V E celle de Ficher et Tippett (Fisher and Tippett (1928)), ainsi que les caractéris-
tiques des différents domaines d’attraction du maximum. Finalement nous définissons la
distribution de Pareto généralisée (GP D) qui un outil fondamental pour la distribution
des excès. Après nous donnons le théorème de Balkema-de Haan- Pikands (Balkema
and De Haan (1974)), qui permet d’établir le lien entre le max-domaine d’attraction de
la GEV et le comportement limite de la GP D.

2.1 Concepts et définitions


Définition 2.1.1 (Point terminal)
On appelle le point terminal ou le point le plus à droite de la fonction de distribution
F , noté xF la borne supérieure du support de F définit par :

xF = sup{x ∈ R, F (x) < 1} ≤ ∞.


Définition 2.1.2 (Fonction de quantile)
Pour tout 0 < s < 1, la fonction de quantile de la durée de survie est définie par :
Q(s) = inf{t : F (t) ≥ s} = F −1 (s),
où : F −1 représente la fonction inverse généralisée de F avec la convention que :
inf{∅} = +∞ et P(X ≤ Q(s)) = s, on l’exprime en termes de la fonction de survie
par :

Q(s) = inf{t : F (t) ≤ 1 − s}, 0 < s < 1,


Remarque 2.1.1 :
Lorsque la fonction de répartition F est strictement croissante et continue alors :
−1
Q(s) = F −1 (s) = F (1 − s) 0 < s < 1.

11
2.2 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Définition 2.1.3 (Quantile empirique)


La fonction de quantile empirique de l’échantillon X1,... , Xn est définie par :

Qn (s) = Fn−1 (s) = inf {t, Fn (t) ≥ s} 0 < s < 1,

−1 
Qn (s) = F n (1 − s) = inf t, F n (t) ≤ 1 − s 0 < s < 1.

2.2 Théorèmes limites


2.2.1 Lois des grands nombres
Ces lois décrivent le comportement asymptotique de la moyenne de l’échantillon.
Elles sont de deux types : loi faible mettant en jeu la convergence en probabilité et loi
forte relative à la convergence presque sûre.

Définition 2.2.1 (Convergence en probabilité)


On dit que la suite de variables aléatoires (Xn )n∈N∗ converge en probabilité vers la
variable aléatoire X si :
∀ε > 0 on a :
lim P (|Xn − X| > ε) = 0,
n→∞

ou bien :
lim P (|Xn − X| < ε) = 1,
n→∞

on écrit :
P
Xn → X.

Définition 2.2.2 (Convergence presque surement)


La suite de variables aléatoires (Xn )n∈N∗ converge presque surement vers la variable
aléatoire X si :
n o
E|X|2 < ∞ et P ω ∈ Ω, lim Xn (ω) = X(ω) = 1,
n→∞

on note :
Ps
Xn → X.

Théorème 2.2.1 (Lois des grands nombres)


Si X1,... , Xn un échantillon provenant d’une variable aléatoire X tel que µ = E[X] < 1,
alors :
P
Loi faible : X n −→ µ quand n −→ ∞,
p.s
Loi forte : X n −→ µ quand n −→ ∞.

12
2.3 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

2.2.2 Théorème central limite


Définition 2.2.3 (Somme et moyenne arithmétique)
Soit X1,... , Xn une suite de variables aléatoires indépendantes et identiquement distri-
buées (iid) définies sur le même espace de probabilité (Ω, A, P ). Pour tout entier n ≥ 1
on définit la somme et la moyenne arithmétique correspondante respectivement par :
n
X
Sn = Xi et X n = Sn /n
i=1

X n : s’appelle alors la moyenne d’échantillon ou la moyenne empirique.

L’étude des sommes de variables indépendantes et de même loi joue un rôle capital en
statistique. Le théorème suivant est établi par Sporta (Saporta (2006)) est connu sous
le nom de Théorème Centrale Limite (T CL) qui traite la convergence en loi vers la loi
normale d’une somme de variables aléatoires iid.
Théorème 2.2.2 (T CL)
Soit X1,... , Xn est une suite de variables aléatoires iid de moyenne µ et de variance σ 2
finie, alors :
√ D
(Sn − nµ) /σ n −→ N (0, 1) quand n −→ ∞,

La preuve de ce théorème peut être trouvée dans n’importe quel livre standard des
statistiques (voir par exemple, Embrechts et al. (2013), page 66)

2.3 Statistique d’ordre


Les statistiques d’ordre jouent un rôle capital dans la théorie des valeurs extrêmes
parce qu’ils fournissent des informations sur la distribution de queue. Pour des pré-
sentations plus détaillées dans ce domaine, voir, par exemple, les livres de Reiss et al.
(2007), Castillo et al. (2005), Cohen (1991) et Kumar et al. (2017) qui sont couverts
pratiquement toute la matière de statistique d’ordre.
Définition 2.3.1 (Statistique d’ordre)
SoitX1,... , Xn , n variables aléatoires iid de distribution commune F et de densité f on
considère les variables aléatoires X1:n , X2:n . . . , Xn−1:n , Xn:n qui sont rangés par ordre
croissant tel que :
X1:n ≤ X2:n . . . ≤ Xn−1:n ≤ Xn:n , (2.1)
les Variables aléatoires (2.1) sont appelées les statistiques d’ordre de l’échantillon
X1,... , Xn .
Pour 1 ≤ k ≤ n, la variable Xk:n est connue sous le nom de la k me statistique d’ordre
ou statistique d’ordre k.

La variable X1:n est la plus petite statistique d’ordre (ou statistique du minimum)
et Xn:n est la plus grande statistique d’ordre (ou statistique du maximum) :
Xn:n = max (X1 , . . . , Xn ) et X1:n = min (X1 , . . . , Xn ) ,

13
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

On note qu’il est très facile de passer de l’un à l’autre à l’aide de la relation :

min (X1 , . . . , Xn ) = − max (−X1 , . . . , −Xn ) .

2.4 Distributions d’un extrême


La théorie des valeurs extrêmes a pour but d’étudier la loi du maximum d’une suite
des variables aléatoires réelles même si et spécialement si la loi du phénomène n’est pas
connue. Formellement, considérons X1 . . . Xn une suite de n variables aléatoires iid de
fonction de répartition F définie par :

F (x) = P (Xi ≤ x) pour i = 1, . . . , n


Pour étudier le comportement extrême des événements, on considère la variable
aléatoire Mn = max (X1 , X2 , . . . , Xn ) : le maximum d’un échantillon de taille n.
De façon analogue au théorème central limite, peut-on trouver des constantes de nor-
malisation : an et bn avec an > 0 et b ∈ R et une loi non-dégénérée H telle que :
 
Mn − bn
≤ x = F n (an x + bn ) −→ H(x).
D
P (2.2)
an

Définition 2.4.1 (Lois GEV )


On dit qu’une variable aléatoire X est distribuée suivant une loi GEV (Generalized
Extrêmes Value), si elle admet pour fonction de répartition Hξ définie pour ξ ∈ Ret1 +
ξx > 0 telle que :
Hξ (x) = exp −(1 + ξx)−1/ξ

(2.3)
où la quantité réelle ξ est appelée indice des valeurs extrêmes (IEV). Il s’agit d’un
paramètre clé dans l’ensemble de l’analyse des valeurs extrêmes.

Fisher et Tippett (Fisher and Tippett (1928) ) sont les premiers à déduire de manière
heuristique les lois limites possibles qui vérifiant l’équation (2.2) sur le maximum d’une
suite de variables aléatoires indépendantes et de même loi quelconque F . Ce théorème
est l’un des résultats fondamentaux de la théorie des valeurs extrême.
Théorème 2.4.1 (Fisher et Tippett)
Soit (Xi )i≥1 un échantillon aléatoire d’une loi F quelconque et soit Mn = max (X1 , . . . , Xn ) .
S’il existe deux suites réelles (an )n≥1 > 0, et (bn )n≥1 ∈ R, et une constante ξ ∈ R telles
que :
 
Mn − bn D
P ≤ x −→ H(x), (2.4)
an
pour tout x ∈ R avec Hξ non dégénérée, alors Hξ appartient à la famille de lois
GEV .
On peut trouver une démonstration moderne de ce théorème dans la (Section (0.3),
page 9) de (Reiss et al. (2007)) ou dans la (Section (3.2), page 122) de (Embrechts
et al. (2013)).

14
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

En 1943 Gnedenko(Gnedenko (1943)) a complété le travail de Fisher et Tippett


en fournissant une spécification de la fonction de répartition Hξ . Alors et suivant les
valeurs de l’indice de queue ξ, Hξ appartient à l’un des trois distributions suivants :

-Si ξ > 0, distribution de Fréchet :


 −1 
Hξ (x) = exp −x ξ x > 0.
-Si ξ = 0, distribution de Gumbel :

Hξ (x) = exp(− exp(−x)) x ∈ R.


-Si ξ < 0, distribution de Weibull :

 −1

Hξ (x) = exp −(−x) ξ x < 0.

Figure 2.1: Densités des lois GEV

Figure 2.2: Fonctions de survies des lois GEV

15
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Comme il est difficile de travailler avec trois distributions à la fois Jenkinson (Jen-
kinson (1955)) a proposé une famille paramétrique de distribution Hξ (x) = Hµ,σ,ξ (x)
qui permet d’unifier les trois distributions des extrêmes ci-dessus.

Théorème 2.4.2 :
S’il existe deux suites de normalisation (an )n≥1 > 0, et (bn )n≥1 ∈ R et une fonction de
distribution non dégénérée Hξ (x) telles que :
 
Mn − bn
lim P ≤ x = Hξ (x) ∀x ∈ R,
n→∞ an

alors Hξ (x)est de la forme :


  − 1ξ !
x−µ
Hξ,σ,µ (x) = exp − 1 + ξ ,
σ

où 1 + ξ x−µ

σ
> 0 et ξ ∈ R.
Alors Hξ,σ,µ (x) appartient à l’un des trois de distributions suivants :
Si ξ > 0, distribution de Fréchet :
  − 1ξ !
x−µ σ
Hξ,σ,µ (x) = exp − 1 + ξ , x > − + µ.
σ ξ
Si ξ = 0, distribution de Gumbel :
   
x−µ
Hξ,σ,µ (x) = exp − exp − , x ∈ R.
σ
Si ξ < 0, distribution de Weibull :
   −1 !
x−µ ξ σ
Hµ,σ,ξ (x) = exp − 1 + ξ , x<− + µ.
σ ξ

2.4.1 Domaines d’attraction


Définition 2.4.2 (Domaine d’attraction)
On dit que la variable aléatoire X appartient au max-domaine d’attraction de H, et on
note X ∈ M DA(H), s’il existe deux suites normalisantes (an )n≥1 > 0 , et (bn )n≥1 ∈ R,
tels que :
 
Mn − bn
∀x ∈ R, lim P ≤ x = lim F n (an x + bn ) = H(x). (2.5)
n→∞ an n→∞

•Domaine d’attraction de Fréchet


Ce domaine d’attraction, correspondant à une loi de X non bornée (c’est le cas par
exemple de la loi de Cauchy ou Pareto), nous trouvons des distributions qui ont des
queues épaisses.

16
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Exemple 2.4.1 (Cas de la loi de Pareto)


Pour la loi de Pareto de fonction de répartition F (x) = 1 − cx−α où c > 0 et α > 0
1
posons : bn = 0 et an = (nc) α alors on a pour x > 0 :
n −α n
F n (an x + bn ) = 1 − c (an x)−α = 1 − ca−α

n x
n
x−α

= 1−
n
= exp −x−α

 −1 
= exp −x ξ ,
qui est la loi de Fréchet, avec α = 1ξ , ainsi la loi de Pareto appartient au domaine
d’attraction maximal de Fréchet. Ainsi les lois dans le M DA de Fréchet sont parfois
appelées lois de type Pareto.

Ce tableau contient quelques lois de probabilité appartenant au MDA de Fréchet (Em-


brechts et al. (2013), tableau 3.4.2) :

Distributions ¯
F (x) γ
Pareto (α), α > 0 x−α , x > 1 α
1
β λ 1
Burr (β, τ, λ), β > 0, τ > 0, λ > 0 ( β+x τ) λτ
−α
Fréchet( α1 ), α > 0 1 − e−x α
1
m ∞
λ
(logu)m−1 u−λ−1 du 1
R
Loggamma(m, λ), m > 0, λ > 0 Γ(m) x λ
1 1
Loglogistic(β, α), β > 0, α > 1 1+βxα α

Table 2.1: Quelques distributions associées à un indice positif

17
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Figure 2.3: Densités des lois usuelles utilisées appartenant au M DA de Fréchet

•Domaine d’attraction de Weibull


Ce domaine d’attraction, où la loi de X est bornée (c’est le cas par exemple de la
loi uniforme ou buta), nous trouvons des distributions à support fini, ce qui implique
que le support du maximum est borné à droite.

Exemple 2.4.2 (Cas de la loi uniforme)


Pour la distribution uniforme U ([0, 1]), F (x) = x1[0,1] (x), posons an = n−1 et bn = 1
alors :
x n
lim [F (an x + bn )]n = lim + 1 1[−n,0]
n→+∞ n→+∞ n

= exp(x)1[−∞,0] (x),
Le maximum de convenablement normalisé de la loi uniforme converge vers la loi de
Weibull avec ξ = −1.

Ce tableau contient quelques lois de probabilité appartenant au M DA de Weibull (Em-


brechts et al. (2013), tableau 3.4.3) :

Distributions ¯
F (x) γ
Uniform(0,1) 1−x -1
ReverseBurr(β, τ, λ, xτ ), β, τ, λ > 0 ( β+(xβF +x )−τ )λ −1
λτ

Table 2.2: Quelques distributions associées à un indice négatif

18
2.4 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Figure 2.4: Densités des lois usuelles utilisées appartenant au M DA de weibull

• Domaine d’attraction de Gumbel


Ce domaine d’attraction, où la loi de X présente une décroissance du type expo-
nentiel pour la queue de la loi (c’est le cas par exemple des lois normale, exponentielle,
gamma ou log normale), on trouve des distributions qui n’ont pas de queue épaisse.

Exemple 2.4.3 (Cas de la loi de exponentielle)


Pour la loi exponentielle de paramètre λ = 1, la fonction de répartition de cette loi est :
F (x) = 1 − e−x pour x ≥ 0, posons bn = log(n) et an = 1 alors :
n
F n (an x + bn ) = 1 − e−x−log n
n
e−x

= 1−
n
 −x
→ exp −e
C’est-à-dire que le maximum convenablement normalisé de la loi exponentielle converge
vers la loi de Gumbel. Cette loi appartient au domaine d’attraction maximal de Gumbel.

Ce tableau contient quelques lois de probabilité appartenant au M DA de Gumbel


(Embrechts et al. (2013), tableau 3.4.4) :

19
2.5 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

¯
Distributions
λm
R ∞ F (x)
m−1 −λu
γ
Gamma(m, λ), m ∈ N, λ > 0 Γ(m) x
(u) e du 0
x−µ

β
Gumbel(µ, β), µ ∈ R, β > 0 ee 0
2
Logistic 1+ex
0
∞ 1 −12 (log u−µ)2
√1
R
Lognormale(µ, σ), µ ∈ R, σ > 0 2π 1 u
e 2σ 0
−λxτ
Weibull(λ, τ ), λ > 0, τ > 0 e 0
Table 2.3: Quelques distributions associées à un indice nul

Figure 2.5: Densités des lois usuelles utilisées appartenant au M DA de Gumbel

2.5 Distributions des excès


Définition 2.5.1 :
Soit X1 . . . Xn un échantillon iid, soit u un seuil fixé, on appelle excès de la variable
aléatoire x au-delà d’un seuil u < xF la variable aléatoire Y , qui prend ses valeurs sur
]0, xF − u[ définie par :

Y = sup(X − u, 0), u < xF .

20
2.5 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Figure 2.6: Les dépassements de X au-delà d’un certain seuil u

Définition 2.5.2 (Distribution des excès)


On appelle distribution des excès de la variable aléatoire X par rapport un seuil u < xF
la loi de probabilité de la variable aléatoire Y excès de X au-delà du seuil u < xF ,
donnée par sa fonction répartition Fu , qu’on appelle fonction de distribution des excès,
définie par :
Fu (x) = P(X − u ≤ x|X > u),
= P(Y ≤ x|X > u),
F (x + u) − F (u)
= ,
1 − F (u)

où 0 < x < xF − u

Définition 2.5.3 (Moyenne des excès)


La fonction de moyenne des excès correspondant à la définition 2.5.1, notée par e(u)
est définie par :
e(u) = E(X − u|X > u), u < xF ,
qui s’exprime également sous la forme :
Z xF
1
e(u) = F (t)dt, u < xF .
F (u) u

Dés que le seuil optimale choisi, on construit une nouvelle observation au dessus
de ce seuil et la distribution de ces données suit une distribution généralisée de Pareto
(Generalised Pareto Distribution (GP D)).

Définition 2.5.4 (Loi de Pareto généralisée)


On dit qu’une variable aléatoire X est distribuée suivant une loi GP D (Generalized
Extrêmes Value) si sa fonction de répartition G définie pour ∀ξ ∈ R et 1 + ξx
σ
>0
telle que :   
ξx
Gξ,σ (x) = 1 − 1 + . (2.6)
σ

21
2.5 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

Gξ,σ est une fonction de répartition absolument continue de densité gξ,σ définie pour
ξ ∈ R telle que :
 y − 1ξ −1
gξ,σ (y) = σ −1 1 + ξ . (2.7)
σ

Figure 2.7: Densité de loi de Pareto généralisée GPD

Dans les années 1974 et 1975, Balkema-de Haan-et Pikands (Balkema and De Haan
(1974)) (Pickands III et al. (1975)) trouvent qu’il y a mieux que la convergence simple
de la fonction de répartition des excès Fu vers la distribution de Pareto généralisée
Gξ,σ (x) à l’aide d’un théorème qui porte leurs noms montrant que cette convergence
est uniforme. Ce théorème de Balkema-de Haan et Pikands va être le second résultat
fondamentale de la TVE. Le voici :

Théorème 2.5.1 (Balkema- de Haan- et Pickands)


Soit X1 . . . Xn un échantillon aléatoire d’une distribution inconnue F . Soit xF la limite
supérieure finie ou infinie du support de F . Alors lorsque le seuil u tend vers xF la
distribution des excès Fu converge vers une loi GP D de paramètre (ξ, σu ) i.e.

lim sup Fu (x) − Gξ,σ(u) (x) = 0, (2.8)


u→xF 0<x<xF −u

où σ(u) est une fonction positive .

La preuve du théorème (2.5.1) doit être trouvé dans (Embrechts et al. (2013)).

22
2.5 CHAPITRE 2. THÉORIE DES VALEURS EXTRÊMES

En fonction de la valeur de ξ en trouve trois distributions :


Si ξ > 0, la distribution Pareto usuelle :

  − 1ξ
x−µ σ
Gµ,ξ,σ (x) = 1 − 1 + ξ , x>− + µ.
σ ξ
Si ξ = 0, la distribution exponentielle usuelle :
 
(x − µ)
Gµ,0,σ (x) = 1 − exp − , x ∈ R.
σ

Si ξ < 0, la distribution Pareto type II usuelle :


 − 1ξ
(x − µ) σ
Gµ,ξ,σ (x) = 1 − 1 + ξ , x<− + µ.
σ ξ

23
CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

Chapitre 3

Estimations dans les modèles GP D

Dans ce chapitre, nous allons donner quelques définitions et quelques caractéris-


tiques des estimateurs d’un modèle GP D, on l’occurrence (méthode du maximum de
vraisemblance (EM V ), méthode des moments (M M ) et méthode des moments pon-
dérés (P W M )). On s’intéressera dans un second lieu à l’estimation des paramètres
d’un modèle GPD en présence de censure à droite. Ce chapitre n’est pas un panorama
exhaustif de tous les travaux faits et publiés dans cette thématique. On se focalise es-
sentiellement sur la méthode de maximum de vraisemblance dans le cas d’un modèle
de censure.

3.1 Méthode des excès au dessus d’un seuil


Pour disposer d’un échantillon des extrêmes. Les statisticiens utilisent une mé-
thode appelée une méthode des excès au-dessus d’un seuil ou bien "peaks over thre-
shold"(POT). Cette méthode consiste à fixé un seuil u assez élevé de tel sorte que les
excès au dessus de ce seuil puisse être considéré comme des extrêmes. Cette méthode
présente un avantage par rapport à la méthode du maximum block.

3.2 Estimateurs des paramètres d’un modèle POT


Afin d’estimer le couple (ξ, σ) différents estimateurs paramétriques s’offrent à nous.
En se rappelant, d’une approche paramétrique que la distribution est caractérisée par
une fonction connue qui entièrement déterminée par un vecteur de paramètres réels de
dimension finie. Les méthodes d’estimations les plus utilisés dans l’estimation du couple
(ξ, σ) sont : la méthode du du maximum de vraisemblance , la méthode des moments
classique et la méthode des moments pondérés.
Dans ce qui suit, considérons un échantillon aléatoire X1 , . . . , Xn de taille n d’excès au
dessus d’un seuil u de distribution G(x, σ, ξ) telle que :
(  1
x −ξ
Gξ,σ (x) = 1 − 1 + ξ σ  , ξ 6= 0
x
1 − exp − σ , ξ=0

24
3.2 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

3.2.1 Méthode du maximum de vraisemblance


Cette méthode est basée sur la maximisation de la fonction de log-vraisemblance
en effet considérons deux cas :

ξ=0:
La fonction de densité g de la distribution G est alors :
1  x
g(x) = exp − .
σ σ

La fonction de vraisemblance étant donnée par :


 n n
!
1 1X
L (x1 , . . . , xn , σ) = L(σ) = exp − xi ,
σ σ i=1

La log-vraisemblance est donc égale à :


n
1X
log L(σ) = −n log σ − xi .
σ i=1

En dérivant l’expression par rapport à σ, on obtient :


n
∂ log L(σ, ξ) n 1 X
= + 2 xi ,
∂σ σ σ i=1

∂ log L(σ, ξ)
= 0,
∂σ

n
n 1 X
+ xi = 0.
σ σ 2 i=1

Nous obtenons alors : n


1X
σ
b= xi .
n i=1
qui n’est autre que le moyenne empirique des excès.

ξ 6= 0 :
La fonction de densité g de G est alors :

1 x − 1` −1
g(x, σ, ξ) = 1+ξ
σ σ

25
3.2 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

La vraisemblance est donc telle que :


 n Yn 
1 xi − 1ξ −1
L (x1 , . . . , xn , σ, ξ) = L(σ, ξ) = 1+ξ .
σ i=1
σ

D’où la log-vraisemblance :
 Xn
1  xi 
log L(σ) = −n log σ − +1 log 1 + ξ .
ξ i=1
σ

à condition que 1 + ξ Xσi > 0, i = 1 . . . n

En dérivant cette expression par rapport aux deux paramètres d’intérêt, nous obte-
nons un système non linéaire de deux équations à deux inconnues ξ et σ :
 X k
∂ log L(σ, ξ) k 1 ξyi
=− + +1 2
= 0,
∂σ σ ξ i=1
σ + σξyi
k  Xk
∂ log L(σ, ξ) 1 X  yi  1 yi
= 2 log 1 + ξ − +1 = 0.
∂ξ ξ i=1 σ ξ i=1
σ + ξyi
C’est en résolvant ces équations
 qu’on obtient les estimateurs de maximum de vraisem-
ˆ
blance du couple ξ, σ̂ à l’aide de méthodes numériques dans (Nougier and Nougier
(1985)).

3.2.2 Méthode des moments


Elle consiste à estimer les paramètres recherchés en égalisant certains moment théo-
riques (qui dépendant de ces paramètres) avec leurs contre parties empiriques c.à.d :
estimer une espérance mathématique par une moyenne empirique, une variance par une
variance empirique, en effet considérons deux cas :

ξ=0:
Il en découle l’expression des paramètres des deux premiers moments µ1 et µ2 pour ap-
pliquer la méthode des moments, on n’a besoin que du premier moment de la loi puisque,
la distribution G(x, σ) ne dépend que d’un paramètre σ. Par ailleurs, la moyenne de la
distribution G(x, σ) est σ donc on obtient l’équation :
n
1X
σ= xi ,
n i=1

ainsi, la solution :
n
1X
σ
b= xi .
n i=1

26
3.2 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

ξ 6= 0 :
Dans ce cas la distribution est définit par :
 − 1ξ
ξ
G(x, σ, ξ) = 1 − 1 + x ,
σ

elle dépend des deux paramètres σ et ξ, pour cela l’estimateur des moments(? , section
3.2) est basé sur le fait que :

σ r Γ (ξ −1 − 1)
E (X r ) = ,
ξ r+1 Γ (ξ −1 + 1)
telle que :

Γ est la fonction Gamma définit par :


Z ∞
Γ : x 7→ exp−t tx−1 dt,
0

alors la moyenne et la variance de la distribution G(x, σ, ξ) sont :


σ
E(X) = 1−ξ

σ2 ξ
Var(X) = (1−ξ)2 (1−2ξ)
.

Nous obtenons un système d’équation à résoudre :



σ
 X = 1−ξ

 S2 = σ2 ξ
.

(1−ξ)2 (1−2ξ)

D’où, l’estimateur des moments de σ et ξ telles que :


 2

b = 1 + XS 2 X,
σ
ξb = 1 2 .
2+ X2
S

3.2.3 Méthode des moments pondérés


Cette Méthode consiste à égaler les moments empiriques et les moments théoriques.
Elle est très peu fiable puisque à partir du deuxième ordre les moments empiriques d’un
échantillon sont biaisés, pour cela on propose d’égaler les moments empiriques d’un
échantillon aux moments pondérés. Il peut arriver que certains moments n’existent pas,
ne sont pas finis. Dans ce cas on utilise la méthode des moments pondérés.
Soit X1 . . . Xn un échantillon de distribution GP D. Les moments pondérés d’ordre r de
X sont définis par :
r 
wr (ξ, σ) = E XGξ,σ (X) r∈N

27
3.3 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

où Gξ,σ = 1 − Gξ,σ avec la distribution G suit une la loi GPD , alors :


Z +∞ Z 1 Z 1
−1 r σ −ξ
y − 1 y r dy.

ωr (ξ, σ) = xGξ,σ (x)dGξ,σ (x) = Gξσ (y)y dy =
−∞ 0 0 ξ

Nous obtenons grâce à la dernière formulation et après quelques calculs :


σ
wr (ξ, σ) = .
(r + 1)(r + 1 − ξ)

Pour estimer les paramètres ξ et σ on a besoin de deux équation pour r = 0 et r = 1 :


2ω0 ω1
ξˆ = ,
ω0 − 2ω1
ω0
σ̂ = 2 − .
ω0 − 2ω1

3.3 Estimateur des paramètres d’un modèle GP D avec


censure
La méthode d’estimation paramétrique des paramètres la plus utilisées en pratique
est la méthode du pseudo- maximum de vraisemblance, à cause de ses propriétés asymp-
totiques fort intéressantes.

3.3.1 Distribution d’une variable censurée à droite


On considère un couple de variable aléatoire positive (T, C), où T est la variable
d’intérêt et C la variable de censure. Dans le modèle censuré à droit on observe le couple
(X = min(T, C), ∆ = I(T ≤C) ). T et C sont supposées indépendantes et de fonctions de
répartitions F et G et de densités de probabilités f et g.

28
3.3 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

• si δ = 0 :

P (X ≤ t, δ = 0) = P (T ∧ C ≤ t, T > C)
= P (C ≤ t, T > C)
Z
= dP(T,C) (x, y)
{y≤t,x>y}
Z tZ +∞
= dPT (x)dPC (y)
0 y
Z t Z +∞
= dPC (y) dPT (x)
0 y
Z t
= (1 − F (y))g(y)dy
0
• si δ = 1 :

P (X ≤ t, δ = 1) = P (T ∧ C ≤ t, T ≤ C)
= P (T ≤ t, T ≤ C)
Z
= dP(T,C) (x, y)
{x≤t,x≤y}
Z tZ +∞
= dPT (x)dPC (y)
0 y
Z t Z +∞
= dPT (x) dPC (y)
0 y
Z t
= (1 − G(x))f (x)dx,
0
en dérivant par rapport à t, la densité du couple (X,∆) est :

p(t, δ) = f (t)δ (1 − F (t))1−δ g(t)1−δ (1 − G(t))δ


 

3.3.2 Estimateur du pseudo-maximum de vraisemblance


Considérons un échantillon censuré à droit (x1 , δ1 ), ..., (xn , δn ) sont indépendantes,
d’une densité de probabilité :

p(t, δ) = f (t)δ (1 − F (t))1−δ g(t)1−δ (1 − G(t))δ .


 

La vraisemblance est donnée par :


n n
Y on o
δi 1−δi δi 1−δi
L = p (ti , δi ) = [f (ti )] [1 − F (ti )] [g (ti )] [1 − G (ti )]
i=1

La méthode du maximum de vraisemblance consiste à résoudre le système suivant :



∂ log L(θ))
L1 = =0


∂θ .
 ∂ 2 log L(θ)
L2 =
 <0
∂θ 2

29
3.3 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

Maximiser la log-vraisemblance revient à maximiser la log-pseudo vraisemblance donnée


par :
N
X N
X
`(θ) = log L = δi log f (ti ) + (1 − δi ) log(1 − F ) (ti ) ,
i=1 i=1
n o
car : la partie [g (ti )]δi [1 − G (ti )]1−δi ne dépend pas de θ.

• Cas d’un modèle GP D :


Dans le cas d’un modèle des valeurs extrêmes basé sur l’approche POT, la vraisem-
blance s’écrit, en tenant compte des censures, comme suit :
N
Y
L= [fGP D (Ei )]δi [1 − FGP D (Ei )]1−δi |,
i=1

avec Ei = Zj − u si Zj > u, u est le seuil


 − γ1
ξ
1 − FGP D (Ei ) = 1 + Ei .
σ

La densité associée fGP D est définie par :


 − 1+ξ
1 ξ ξ
1 + Ei
σ σ

ainsi, on obtient la vraisemblance suivante :

 δi h
QN 1 ξ
− 1+ξ
ξ ξ
− 1ξ i1−δi
L(ξ, σ) = i=1 σ
1+ σ
Ei 1+ E
σ i

PN h   i PN 1
1 1 ξ ξ

`(θ) = log L(ξ, σ) = i=1 δ i log σ
− ξ
+ 1 log 1 + σ
Ei − i=1 ξ (1 − δ i ) log 1 + σ
E i ].

Maximiser la log-vraisemblance revient à maximiser la log-pseudo vraisemblance, nous


obtenons le système suivant de deux équations à deux inconnues :

K   K  

 0 ∂ log L(ξ, σ) 1 X ξ 1X 1 ξEi /σ
 L = = 2 log 1 + Ei − + δi
 1

∂ξ ξ i=1 σ ξ i=1 ξ 1 + σξ Ei

K K  

 0 ∂ log L(ξ, σ) 1X 1X 1 ξEi /σ
L 2 =

 =− δi + + δi
∂σ σ i=1 σ i=1 ξ 1 + σξ Ei

Afin de trouver des solutions à ce système non linéaire, on a fait recours à des méthodes
numériques (Nougier and Nougier (1985)).

30
3.3 CHAPITRE 3. ESTIMATIONS DANS LES MODÈLES GP D

Dans le cas où ξ = 0, ces dérivées s’écrivent comme suit :


K K
0 ∂ log L(0, σ) 1X 1 X
L (0, σ) = =− δi + 2 Ei .
∂σ σ i=1 σ i=1

31
CHAPITRE 4. ANALYSE DE DONNÉE SUR LE CANCER DU SANG

Chapitre 4

Analyse de donnée sur le cancer du


sang

Dans ce chapitre, nous allons présenter deux méthodes d’analyse de survie sur les
données du cancer du sang "myeloid" à l’aide de la méthode de Kaplan-Meier et d’une
modélisation GPD.

4.1 Présentation de données "myeloid"


La data frame myeloid est disponible sur dans le package "survival" de R. "myeloid"
est un ensemble de donnée qui provient d’un essaie clinique sur la leucémie "myeloid"
aiguë (Acute myeloid leukemia AML). Cet ensemble de donnée est présenté sous forme
d’un tableau de type "data.frame" contenant 646 observation et 7 variables. Elles sont
résumées dans le tableau suivant :

id trt futime death txtime crtime rltime


1 B 235 1 NA 44 113
2 A 286 1 200 NA NA
3 A 1983 0 NA 38 NA
4 A 2137 0 245 25 NA
. . . . . . .
. . . . . . .
. . . . . . .
642 B 237 1 223 78 191
643 A 2394 0 94 NA NA
646 A 181 1 99 66 144
646 B 25 0 NA NA NA
Table 4.1: Les données "myeloid"

L’ensemble de données contient le temps et l’état de suivi, au dernier suivi pour


chaque sujet, ainsi que le délai de transplantation (txtime), la réponse complète (crtime)

32
4.1 CHAPITRE 4. ANALYSE DE DONNÉE SUR LE CANCER DU SANG

ou rechute après CR (rltime).

4.1.1 Analyse des données "myeloid" à l’aide de Kaplan-Meier


L’estimateur de Kaplan-Meier pour le traitement A et le traitement B , à l’aide de
script de R suivant :
> km <- survfit(Surv(futime, death) trt, data)
> km
> ggsurvplot(km, data, censor.shape="|", censor.size = 4, xscale=365.25,lwd=1,legend
= c(0.8, 0.8), legend.labs=c("traitement A", "traitement B "), legend.title="traitements",
xlab="Durée de traitement", ylab=" Fonction de survie", conf.int = TRUE)

Figure 4.1: Estimateur de Kaplan-Meier

4.1.2 Analyse des données "myeloid" à l’aide d’un modèle GPD


Les patients chez lesquels on diagnostique d’une cancer d’une leucémie sont en gé-
néral à un stade avancé de la maladie. Donc le traitement qu’on leurs administre est
un moyen de rallonger leurs durées de vie. Donc le modèle adéquat est de type P OT
(GP D).
La fonction "cGPDmle" est disponible dans le package "ReIns" applique la méthode
de maximum de vraisemblance, afin d’estimer les paramètres du modèle pour les deux
traitements A et B.
Traitement A
>estimateur1<-cGPDmle(data=trait1,censored=censorA, start = c(0.1,1))
> estimateur1
Traitement B

33
4.1 CHAPITRE 4. ANALYSE DE DONNÉE SUR LE CANCER DU SANG

> estimateur2<-cGPDmle(data=trait2,censored=censorB, start = c(0.1,1))


> estimateur2

trt ξb σ
b
trt A -1.234578 0.612122227
trt B -1.283151 0.56794080

La valeur de ξ est strictement négative sur les deux traitements, nous avons alors une
distribution dans le domaine de Weibull.
On représente les fonctions de survie du traitement A et traitement B sur le même
graphe à l’aide de script de R suivant :
> curve(1-pgpd(x, xi =-1.234578, b = 0.612122227), add=T,lwd=3,col=2)
> curve(1-pgpd(x, xi =-1.283151, b = 0.56794080), 0, 0.5, lwd=3,col=3,ylab="Fonction
du survie")
> legend("topright", c("Traitement A", "Traitement B"), col = c("red", "green"),lwd=3)

Figure 4.2: Courbes de survie du trt A et trt B

La figure (4.2) représente les deux courbes de survie des deux traitements. Il est
clair que la queue de distribution des patients soumis au traitement B est plus lourde
que celle des patients soumis au traitement A. Ainsi, on peut dire que le traitement B
procure une amélioration de l’état du patient de façon plus durable.

34
4.2 CHAPITRE 4. ANALYSE DE DONNÉE SUR LE CANCER DU SANG

4.2 Annexe : code R


Voici le code utilisé sous logiciel R pour produire les figures présentées dans ce mé-
moire
La figure (2.1) Densités des lois GEV
à l’aide du package "evd" ou "evir"
>library(evir)
>curve(dgev(x, xi = -1, mu = 0, sigma = 1)
,lwd=2,xlim=c(-4,7),ylab=" Fonction de densité
f(x)",ylim=c(0,1) ,col="4",xlab="x")
>curve(dgev(x, xi = 1, mu = 0, sigma = 1) ,lwd=2,add=T, col="3")
>curve(dgev(x, xi = 0, mu = 0, sigma = 1) ,lwd=2,add=T, col="2")
>legend("topright",c("Weibull (-1,0,1)","Gumbel (0,0,1)","Fréchet (1,0,1)"),lwd=2,col=c(4,2,3),lty=1)

La figure (2.2) : Fonctions de survie des lois GEV


>library(evd)
>curve(1-pgev(x, loc=0, scale=1 ,shape=0),lwd=2, xlim=c(-5,8) ,ylab="1-F(x)",ylim=c(0,1),main="Fo
de survie",xlab="Observations")
>curve(1-pgev(x, loc=0, scale=1, shape=1 ),lwd=2,add=T, col="red")
>curve(1-pgev(x, loc=0, scale=1, shape=-1 ),lwd=2,add=T, col="green")
>legend("topright",c("Gumbel","Fré chet","Weibull"),lwd=2,col=c(1,"red","green"),lty=1).

La figure 2.3 Densités des lois usuelles utilisées appartenant au MDA de Fréchet
à l’aide du package "actuar"
>library(actuar)
>curve(dfrechet(x, loc=0, scale=1, shape=1),lwd=2,xlim=c(-1,7),ylab="Fonction de
densité f(x)",ylim=c(0,1) ,col="4",xlab="x")
>curve(dlgamma(x,2,2),lwd=2,add=T,xlim=c(-1,7), col="2")
>curve(dpareto(x, 1, 1),lwd=2,xlim=c(-1,7),add=T, col="3")
>legend("topright",c("Fréchet (1,0,1)","Pareto (1,1)","LGamma (2,2)"),col=c("4","2","3"),lwd=2)

La figure 2.4 Densité des lois usuelles utilisées appartenant au MDA de Gumbel
à l’aide du packages : "actuar","stats"
>library(actuar)
>library(stats)
>curve(dgumbel(x, alpha=0, scale=1),lwd=2,xlim=c(-3,7),ylab="Fonction de densité
f(x)",ylim=c(0,1) ,col="4",xlab="x")
>curve(dlnorm(x,0,1),lwd=2,add=T, col="2",xlim=c(-3,7))
>curve(dexp(x,1),lwd=2,add=T, col="3",xlim=c(-3,7))
legend("topright",c("Gumbel (0,0,1)","LNormale (0,1)","Exponentiel (1)"),col=c("4","2","3"),lwd=2)

La figure (2.5) Densités des lois usuelles utilisées appartenant au MDA de Weibull
à l’aide du packages : "actuar","stats"
>library(actuar)
>library(stats)
>curve(dweibull(x, shape = 1,scale=1),lwd=2,xlim=c(-1,5),ylab="Fonction de densité
f(x)",ylim=c(0,2) ,col="4",xlab="x")

35
4.2 CHAPITRE 4. ANALYSE DE DONNÉE SUR LE CANCER DU SANG

>curve(dunif(x,min = 0,max = 1),lwd=2,add=T, col="2",xlim=c(-1,5))


>curve(dbeta(x,2,2),lwd=2 ,add=T, col="3",xlim=c(-1,5)) legend("topright",c("Weibull
(1,0,1)","Uniform [0,1]","Beta (2,2)"),col=c("4","2","3"),lwd=2)

La figure(2.7) : Densités de loi de Pareto généralisée GPD


à l’aide du packages : "actuar","stats"
>library(evd)
>curve(dgpd(x, loc=0, scale=1 ,shape=-1),lwd=2,xlim=c(-5,5),ylab=" Fonction de den-
sité f(x)",ylim=c(0,1) ,col="4",xlab="x")
>curve(dgpd(x, loc=0, scale=1, shape=0 ),lwd=2,add=T, col="2")
>curve(dgpd(x, loc=0, scale=1, shape=1 ),lwd=2,add=T, col="3")
>legend("topright",c("GPD (-1,0,1)","GPD (0,0,1)","GPD (1,0,1)"),lwd=2,col=c(4,2,3),lty=1)

36
BIBLIOGRAPHIE BIBLIOGRAPHIE

Bibliographie

Balkema, A. A., De Haan, L., 1974. Residual life time at great age. The Annals of
probability, 792–804.

Beirlant, J., Goegebeur, Y., Segers, J., Teugels, J. L., 2006. Statistics of extremes :
theory and applications. John Wiley & Sons.

Castillo, E., Hadi, A. S., Balakrishnan, N., Sarabia, J.-M., 2005. Extreme value and
related models with applications in engineering and science.

Cohen, A. C., 1991. Order statistics and inference : Estimation methods. Academic
Press.

Coles, S., Bawa, J., Trenner, L., Dorazio, P., 2001. An introduction to statistical mo-
deling of extreme values. Vol. 208. Springer.

Davison, A. C., Smith, R. L., 1990. Models for exceedances over high thresholds. Journal
of the Royal Statistical Society : Series B (Methodological) 52 (3), 393–425.

Embrechts, P., Klüppelberg, C., Mikosch, T., 2013. Modelling extremal events : for
insurance and finance. Vol. 33. Springer Science & Business Media.

Fisher, R. A., Tippett, L. H. C., 1928. Limiting forms of the frequency distribution of
the largest or smallest member of a sample. In : Mathematical Proceedings of the
Cambridge Philosophical Society. Vol. 24. Cambridge University Press, pp. 180–190.

Gnedenko, B., 1943. Sur la distribution limite du terme maximum d’une serie aleatoire.
Annals of mathematics, 423–453.

Hüsler, J., Li, D., 2007. Statistical analysis of extreme values with applications to in-
surance, finance, hydrology and other fields.

Jenkinson, A. F., 1955. The frequency distribution of the annual maximum (or mini-
mum) values of meteorological elements. Quarterly Journal of the Royal Meteorolo-
gical Society 81 (348), 158–171.

Kaplan, E., Meier, P., 1958. Nonparametric estimator from incomplete observation, j.
amer. statist. assoc. 53.

Kumar, D., Dey, S., Nadarajah, S., 2017. Extended exponential distribution based on
order statistics. Communications in Statistics-Theory and Methods 46 (18), 9166–
9184.

37
BIBLIOGRAPHIE BIBLIOGRAPHIE

Nougier, J.-P., Nougier, J., 1985. Méthodes de calcul numérique. Vol. 3. Masson Paris.

Novak, S. Y., 2011. Extreme value methods with applications to finance. CRC Press.

Pickands III, J., et al., 1975. Statistical inference using extreme order statistics. the
Annals of Statistics 3 (1), 119–131.

Raggad, B., 2009. Fondements de la théorie des valeurs extrêmes, ses principales appli-
cations et son apport à la gestion des risques du marché pétrolier. Mathématiques et
sciences humaines. Mathematics and social sciences (186), 29–63.

Reiss, R.-D., Thomas, M., Reiss, R., 2007. Statistical analysis of extreme values. Vol. 2.
Springer.

Resnick, S. I., 2013. Extreme values, regular variation and point processes. Springer.

Roncalli, T., 2002. Théorie des valeurs extrêmes ou modélisation des evène% ments rares
pour la gestion des risques. Groupe de Recherche Opérationnelle, Crédit Lyonnais.

Saporta, G., 2006. Probabilités, analyse des données et statistique. Editions Technip.

Shorack, G., Wellner, J., 1986. Empirical processes with applications to statistics. john
willey and sons. Inc., New York.

Smith, R. L., et al., 1987. Estimating tails of probability distributions. The annals of
Statistics 15 (3), 1174–1207.

38

Vous aimerez peut-être aussi