Académique Documents
Professionnel Documents
Culture Documents
Composition du Jury
À mes parents,
À Agathe Gnilane & Essolizam Noémie.
Remerciements
Ces travaux ont été financés en grande partie par le Centre d’Excellence Africain
en Mathématiques, Informatique et TIC (CEA MITIC) de l’Université Gaston Ber-
ger de Saint-Louis du Sénégal par l’attribution d’une bourse d’étude, les formations
et conférences internationales me permettant ainsi de découvrir le monde scienti-
fique. Ces travaux ont également été financés par "Action internationale 2019" de
l’Université de Rennes 1 lors de mon premier séjour en France. La bourse Erasmus+
a permis de financer mon second voyage d’études en France.
Ce travail a été dirigé par le Professeur Aliou DIOP de l’Université Gaston Ber-
ger de Saint-Louis. Je remercie M. Aliou DIOP d’avoir accepté de diriger ce tra-
vail riche en théories mathématiques auxquelles il est habitué quotidiennement :
lemmes, théorèmes, démonstrations et d’application des méthodes statistiques. Être
son étudiant fut un honneur et plaisir, et je suis très reconnaissant de la disponibi-
lité sans faille et de la confiance dont il a fait preuve en dépit son emplois du temps
trop chargés. Mon Professeur, j’ai beaucoup appris à tes côtés et vos leçons intéres-
santes qui m’ont permis d’avancer dans la thèse resteront toujours gravées dans ma
mémoire. J’ai acquis pas mal de connaissances en le côtoyant grâce à sa générosité
sans limite tant pédagogique que social.
Je suis très honoré que les professeurs Kossi Essona GNEYOU (Université de
Lomé, Togo), Papa NGOM (Université Cheikh-Anta-Diop de Dakar ) et Anne-Françoise
YAO (Université Clermont Auvergne, France) aient accepté de rapporter cette thèse.
Merci pour le temps, l’attention et les suggestions, que vous apportez à ce travail.
Je ne saurais terminer cette partie sans remercier ma famille, mes parents, mes
ami(es), mes frères et soeurs. La famille a su m’accompagner, me soutenir, m’encou-
rager et me stimuler depuis le début de ma scolarisation jusqu’à maintenant, en se
privant parfois de ma présence durant toutes ces années d’études et de recherche.
Abréviations & Notations
Dédicaces i
Remerciements ii
Résumé 1
Abstract 3
Introduction générale 5
1.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Le modèle de régression ZIP . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.2 Estimation dans le modèle ZIP . . . . . . . . . . . . . . 21
1.4.3 Le modèle de régression ZIB . . . . . . . . . . . . . . . . . . . . . 23
1.4.3.1 Spécification du modèle ZIB . . . . . . . . . . . . . . . . 23
1.4.4 Le modèle de régression ZINB . . . . . . . . . . . . . . . . . . . . 24
1.5 Rappels sur les modèles ZI marginaux . . . . . . . . . . . . . . . . . . . 25
1.5.1 Introduction et aperçu . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Formulation des modèles marginaux . . . . . . . . . . . . . . . . 26
1.6 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1 Modèle de régression marginal ZIP . . . . . . . . . . . . . . . . . 28
1.6.2 Modèle de marginal ZINB . . . . . . . . . . . . . . . . . . . . . . 28
1.6.3 Modèle de régression marginal ZIB . . . . . . . . . . . . . . . . 29
Bibliographie 107
Table des figures
3.1 Résultats de simulation pour le scénario (i) (les données sont simulées
à partir du modèle ZIP-logit, proportion moyenne de ZI = 15%). . . . . 81
3.2 Résultats de simulation pour le scénario (ii) (les données sont simulées à
partir du modèle ZIP-cloglog (3.5)-(3.7), proportion moyenne de ZI = 15%). . 82
3.3 Résultats de simulation pour le scénario (iii) (les données sont simu-
lées à partir du modèle ZIP-GEV (3.4)-(3.5), proportion moyenne de ZI
= 15%). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4 Résultats de simulation pour le scénario (iv) (les données sont simulées à
partir du modĺe ZIP-Probit : (3.5)-(3.9), proportion moyenne de ZI = 15%)). . 84
Liste des tableaux xi
3.5 Analyse des données sur les soins de santé : estimations, erreurs stan-
dard et valeurs p−value des modèles ZIP-logit, ZIP cloglog, ZIP-probit
et ZIP-GEV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Résumé
Plusieurs auteurs ont proposés récemment des modèles marginaux et des mé-
thodes d’estimation pour les données de comptage à inflation de zéros. Cependant
l’étude mathématiques ( les propriétés asymptotiques) dans ces modèles n’est pas
toujours assurée et repose sur des hypothèses mathématiques simplificatrices.
L’objectif de cette thèse vise à améliorer ces modèles, qui reposent encore sur
des hypothèses mathématiques simplificatrices, et à proposer de nouveaux modèles
permettant d’interpréter plus finement la problématique du non-recours aux soins.
La thèse recouvre donc plusieurs aspects : modélisation statistique, étude mathé-
matique des modèles proposés, développement de l’inférence statistique associée,
études de simulations numériques en vue de valider les modèles proposés, d’iden-
tifier leur domaine de validité, de comparerleurs performances avec celles des mo-
dèles existants), application aux données réelles.
dans les modèles de régression zéro-inflatés, lorsque l’on fait varier le modèle d’ap-
partenance aux classes du mélange sous-jacent. Les propriétés asymptotiques sont
explorées numériquement en exploitant des critères mathématiques tous établis à
partir de l’Estimateur du Maximum de Vraisemblance. Nous proposons tout à bord
de modéliser la fonction de lien par la distribution de la valeur extrême généralisée
GEV, le cloglog et le probit. La performance de chacun de ces modèles de régression
est étudiée au moyen des simulations numériques approfondie et enfin, nous l’avons
appliqué à l’analyse d’une base de données recensant la consommation de soins de
plusieurs milliers de patients aux USA.
Several authors have recently proposed marginal models and estimation me-
thods for zero-inflated count data. However, the mathematical study (the asymp-
totic properties) in these models is not always assured and relies on simplifying
mathematical assumptions.
The objective of this thesis is to improve these models, which are still based on
simplifying mathematical assumptions, and to propose new models that will allow
a more accurate interpretation of the problem of non-use of healthcare. The thesis
covers several aspects: statistical modeling, mathematical study of the proposed
models, development of the associated statistical inference, studies of numerical
simulations in order to validate the proposed models, to identify their domain of
validity, to compare their performances with those of existing models, application to
real data.
The second part of this thesis concerns the study of the Maximum Likelihood Es-
timator in the marginal binomial model with zero inflation under inherent constraints.
First we show the existence of the maximum likelihood estimator of the parame-
ters in this model. Then, we demonstrate the identifiability, the consistency of this
estimator, and establish its asymptotic normality. Then, an exhaustive simulation
study on finite sample sizes is conducted to evaluate the consistency of our results.
Finally, an application on real health economics data is conducted.
tical criteria all established from the Maximum Likelihood Estimator. We propose
to model the link function by the GEV distribution, the loglog and the probit. The
performance of each of these regression models is studied by means of extensive nu-
merical simulations. Finally, we applied it to the analysis of a database listing the
health care consumption of several thousand patients in the USA.
Le modèle ZIP n’est pas approprié pour de telles données, puisque le modèle de
base (Poisson) ne tient pas compte de la surdispersion restante non prise en compte
7
par l’inflation de zéros. Une telle situation conduit à considérer d’autres distribu-
tions de comptages. Un choix commun est le modèle binomial négatif avec inflation
de zéros, mélangeant une distribution dégénérée en zéro avec une distribution bino-
miale négative de référence. Ce modèle à été également discuté dans la recherche ,
par exemple Cameron et al. (1986, [10]); Gurmu et al. (1999, [47]). Il est bien connu
que les modèles binomiaux négatives (NB) sont plus flexibles que ceux de Poisson
plus simples dans l’accomodation de la surdispersion Lawless ( 1987, [67]). Le mo-
dèle de ZINB est un modèle de Poisson Généralisé avec inflation de Zéros (ZIGP)
(voir Famoye et Singh (2003, [40]); Gupta et al. (2004, [46]); mélangeant une distri-
bution dégénérée en zéro avec une distribution de Poisson généralisé ( voir Consul
et Jain,( 1973, [16])) a des propriétés attrayantes qui peuvent être accomodées à la
fois par la surexploitation et la surdispersion. D’autres propriétés ont été envisa-
gées par les auteurs dont Consul, (1989, [14]); Lerner et al. (1997, [68]); Tuenter
(2000, [99]); Consul et Famoye ( 1992, [15]). Le modèle de regression ZIGP est appli-
qué dans différents champs pour modéliser des données de comptage surdispersées
confert Famoye et Singh (2006, [41]) qui analysent les données sur la violence do-
mestique.
L’inférence statistique (estimation, tests d’hypothèses) dans ces modèles est bien
établie et repose généralement sur la méthode du maximum de vraisemblance, qui
fournit des estimateurs consistants et asymptotiquement gaussiens des paramètres
du modèle ( 2009, [55], 1989, [76]). Des extensions récentes de ces modèles ont été
proposées pour prendre en compte la présence de zéros en sur-nombre dans les don-
nées de comptage. Par exemple, l’excès de zéros survient dans les études d’économie
de la santé, lorsque l’on s’intéresse à la consommation de soins dans une popu-
lation donnée (voir [25], [96]). Depuis que Hall (2000, [49]) a introduit le modèle
de régression binomiale à inflation de zéros (modèle "ZIB" pour "zero-inflated bi-
nomial"), aucune étude mathématique de ce modèle n’avait été entreprise. Il fallu
que dans les années 2011 et 2016, Diop et al. ( [30], [29]) abordent réellement une
étude mathématique en étudiant les propriétés d’identifiabilité et l’asymptotique
(convergences presque sûre et en loi) des Estimateurs du Maximum de Vraisem-
blance (EMV), dans le cas particulier où le modèle binomial B (mi ; πi ) sous-jacent au
modèle ZIB est tel que mi = 1 pour tout i (i désigne l’indice de l’observation, dans
un échantillon de taille n). Puis, Diallo et al. (2017, [26]) ont généralisé ces résultats
au cas non-contraint où mi ∈ {1, 2, · · · } pour i = 1; · · · ; n, tandis que Dupuy (2017,
[31]) les a étendus à un modèle à inflation des bornes 0 et mi du support de la loi
binomiale sous-jacente au modèle ZIB. Récemment en 2018, Diallo et al. ( [27]), ont
introduit et étudié un modèle (appelé modèle ZIM) pour données de comptage multi-
nomiales avec inflation de zéros groupés, pour rendre compte des dépendances entre
8
les composantes d’un comptage multivarié sujet à excès de zéros. Des EMV consis-
tants et asympotiquement gaussiens ont été construits. Ce modèle a été appliqué à
l’étude de la consommation de soins médicaux et à l’identification des déterminants
du non-recours aux soins, au sein d’une population de personnes âgées aux USA (
2018, [27]). Puis, la recherche sur les modèles de comptage à inflation de zéros est
devenue une actualité.
Problématique et contribution
C ette thèse a pour sujet la modélisation statistique de données issues d’études
en économie de la santé ; et pour objectif une meilleure compréhension des méca-
nismes de non-recours aux soins médicaux. Les données qui motivent ce travail dé-
crivent les parcours de soins d’un grand nombre de patients et renseignent, en parti-
culier, les nombres de consultations de différents types (médecine de ville, consulta-
tions ambulatoires, consultations de professionnels de santé non médecins · · · ) pour
chaque patient. Elles contiennent également un grand nombre de renseignements
pour chacun des patients, sous forme de variables explicatives démographiques,
socio-économiques et médicales. Un phénomène très spécifique, appelé " excès de
zéros " (ou " inflation de zéros "), survient dans ce type d’étude. Il correspond à
l’observation d’un très grand nombre de patients ne déclarant aucune consultation
d’un type donné. La fréquence " excessive " de patients de ce type peut s’expliquer
par des attitudes de renoncement aux soins (motivées, par exemple, par des raisons
financières). Les modèles statistiques classiques pour données de comptage ne per-
mettent pas de prendre en compte ce phénomène. Des modèles dits " à inflation de
zéros " ont donc été proposés dans la littérature.
Le travail de cette thèse vise à améliorer ces modèles, qui reposent encore sur
des hypothèses mathématiques simplificatrices, et à proposer de nouveaux modèles
permettant d’interpréter plus finement la problématique du non-recours aux soins.
La thèse recouvre donc plusieurs aspects : modélisation statistique, étude mathé-
matique des modèles proposés, développement de l’inférence statistique associée,
études de simulations numériques (en vue de valider les modèles proposés, d’iden-
tifier leur domaine de validité, de comparer leurs performances avec celles des mo-
dèles existants), application aux données réelles.
Ainsi, pour mieux comprendre cette thèse, nous présentons dans le chapitre 1
quelques rappels essentiels sur les modèles linéaires généralisés, la notion de sur-
dispersion et enfin un rappel sur les modèles marginaux. Puis, nous énoncerons
quelques modèles à inflation de zéro et leurs propriétés asymptotiques. Dans le cha-
9
pitre 2, qui est notre prémière contribution de cette thèse, nous proposons un nou-
veau modèle de régression marginal binomial à inflation de zéro (MZIB) qui tient
compte des contraintes. Nous établissons rigoureusement les propriétés asympto-
tiques de l’estimateur du maximum de vraisemblance des paramètres du modèle de
régression MZIB.
Nos travaux de thèse ont donné lieu à des articles et conférences dont:
Articles
- Essoham Ali , Aliou Diop & Jean-François Dupuy (2020): A constrained marginal
zero-inflated binomial regression model, accepté et publié dans Communica-
tions in Statistics - Theory and Methods,
DOI:10.1080/03610926.2020.1861296
- Essoham Ali (2021): A simulation-based study of ZIP regression with various
zero-inflated submodels. Soumis
- Generalized estimating equations for zero-inflated Poisson regression with right
censoring (en cours).
Conférences
+ Ecole CIMPA à l’Université de Lomé sur le thème : « Statistique des durées de
vie et statistique spatiale : Applications aux essais thérapeutiques, à la fiabi-
lité industrielle, à l’épidémiologie et au changement climatique », du 3 au 15
septembre 2018.
+ 15 ème Journée de Statistique de Rennes sur le thème : « Statistique et données
de la santé. » IRMAR, France 04-05 Avril 2019.
+ Essoham Ali , Aliou Diop & Jean-François Dupuy. A constrained marginal zero-
inflated binomial regression model. « Ecole d’été en Statistique et Sciences des
Données pour les jeunes chercheurs de l’Afrique francophone. » AIMS-Sénégal,
M’bour du 1er au 05 Juillet 2019 (Communication sur sélection).
+ Ecole Mathématique Africaine à IST-D, Antsiranana (Diego-Suarez), Madagas-
car sur le thème : « Mathématique pour les réseaux », du 09 au 20 décembre
2019.
10
+ Essoham Ali , Aliou Diop & Jean-François Dupuy. A constrained marginal zero-
inflated binomial regression model. « Rencontres des Jeunes Chercheurs Afri-
cains en France, 10 et 11 décembre 2020. » (Communication sur sélection).
1
Quelques rappels sur les modèles de comptages
surdispersés
Résumé
D ans ce chapitre, nous énonçons quelques rappels essentiels sur les modèles li-
néaires généralisés et sur la notion de surdispersion. Puis, nous énonçons quelques
modèles à inflation de zéros, les méthodes d’estimations puis les propriétés asympto-
tiques. Nous intoduisons enfin les modèles marginaux.
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Rappels sur les modèles linéaires généralisés . . . . . . . . . . . . . 12
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3 Par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 15
1.2.4 Par quasi-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Quelques rappels sur la modélisation des données de comptage
surdispersées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Modèles de base de régression Poisson et de Binomial Négatif . . 17
1.3.2.1 Le modèle de régression de Poisson . . . . . . . . . . . . 18
1.3.2.2 La surdispersion . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2.3 Le modèle de régression binomial négatif . . . . . . . . . 20
1.4 Modèles de régression à inflation de zéros . . . . . . . . . . . . . . . 20
1.1. Introduction 12
1.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Le modèle de régression ZIP . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.2 Estimation dans le modèle ZIP . . . . . . . . . . . . . . . 21
1.4.3 Le modèle de régression ZIB . . . . . . . . . . . . . . . . . . . . . . 23
1.4.3.1 Spécification du modèle ZIB . . . . . . . . . . . . . . . . . 23
1.4.4 Le modèle de régression ZINB . . . . . . . . . . . . . . . . . . . . . 24
1.5 Rappels sur les modèles ZI marginaux . . . . . . . . . . . . . . . . . 25
1.5.1 Introduction et aperçu . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Formulation des modèles marginaux . . . . . . . . . . . . . . . . . 26
1.6 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1 Modèle de régression marginal ZIP . . . . . . . . . . . . . . . . . . 28
1.6.2 Modèle de marginal ZINB . . . . . . . . . . . . . . . . . . . . . . . 28
1.6.3 Modèle de régression marginal ZIB . . . . . . . . . . . . . . . . . 29
1.1 Introduction
Dans cette partie, nous rappelons quelques notions essentielles sur la théorie
des modèles de comptage, la notion de surdispersion et un bref aperçu des modèles
marginaux qui permettent de faciliter la lecture de la thèse. Ainsi, il s’agira de
présenter brièvement les résultats essentiels rencontrés dans la littérature. Nous
définissons rapidement les notions de modèle linéaire généralisé, les méthodes d’es-
timations puis les propriétés asymptotiques. Quant à la surdispersion nous pré-
senterons quelques définitions liées à la statistique des données de comptages. Le
terme surdispersion fait référence au cas où la variance d’une variable dépendante
(de réponse), dépasse la variance nominale, compte tenu de la distribution conjec-
turée respective. Cette condition est fréquemment rencontrée lors de l’ajustement
d’un modèle linéaire généralisé à des variables réponses catégorielles.
Un modèle linéaire généralisé est caractérisé par trois hypothèses : une hypo-
thèse sur la distribution de la variabe à expliquer, une hypothèse sur l’expression
de la linéarité (faisant intervenir les variables explicatives), et une hypothèse sur
le lien de la linéarité (c’est-à-dire le lien entre la variable réponse et les variables
explicatives).
1.2.1 Définition
Distribution de la variable à expliquer :
Soit Y la variable aléatoire que l’on cherche à expliquer et y le vecteur de taille n des
observations. On suppose que les composantes Yi , (i = 1, · · · , n) sont indépendantes
et identiquement distribuées selon une loi appartenant à la famille exponentielle [
voir Nelder et Wedderburn (1972, [84])]. La fonction densité de la variable aléatoire
Yi est
yi θi − b(θi )
fYi (yi , θi ) = exp + c(yi , φ) , (1.1)
ai (φ)
1.2. Rappels sur les modèles linéaires généralisés 14
E(Yi ) = mi = b0 (θi ),
V(Yi ) = b00 (θi )ai (φ).
Fonction de lien :
La troisième composante des GLMs exprime une relation fonctionnelle entre l’es-
pérance de Yi et la i-ème composante du prédicteur linéaire, c’est à dire pour tout
i = 1, · · · , n on a :
ηi = g(E(Yi ))
où g appelée fonction de lien est supposée monotone et différentiable.
1.2. Rappels sur les modèles linéaires généralisés 15
dη (k)
= β (k) + (X 0 Wβ−1
(k) ) X Wβ−1
−1 0
(k) (y − µ(k) )
dµ
où
Wβ = Diag Var(Yi )g 0 (µi )2 i=1,··· ,n
φ 0 2
= Diag ϑ(µi )g (µi )
ωi i=1,··· ,n
et
dη dηi
= Diag
dµ dµi i=1,··· ,n
0
= Diag {g (µi )}i=1,··· ,n
Notons que le lien entre β et θ est décrit par la relation Xβ = g(b0 (θ)).
où P est la probabilité, yi est une variable de comptage observée (un nombre d’événe-
ments) pour l’individu i, Xi est un vecteur de p variables explicatives linéairement
indépendantes observées pour l’individu i, et β = (β0 , β1 , · · · , βp ) est un vecteur de
paramètres de dimension appropriée p × 1. La forme de la fonction exponentielle as-
sure la non-négativité du paramètre de la moyenne µ. La fonction log-vraisemblance
du modèle est donnée par l’équation suivante:
n
>X
X
`n (β) = {yi β > Xi − eβ i
− log(Yi !)} (1.4)
i=1
Le modèle de régression de Poisson est trop restrictif pour les données de comptage,
ce qui a incité les chercheurs à recourir à des modèles alternatifs comme le modèle
binomial négatif, qui permet la surdispersion.
1.3.2.2 La surdispersion
conditions. Nous considérons également que tous les individus n’ont pas forcément
la même probabilité ω d’appartenir au groupe des zéros.
Supposons que nous observons n vecteurs indépendants (Z1 , X1 , W1 ), · · · , (Zn , Xn , Wn )
à partir des modèles (1.5)-(1.6), tous définis sur l’espace de probabilité (Ω, C, P). Sur
la base de ces observations, la log-vraisemblance de θ = (β > , γ > )> peut s’écrire
comme suit :
n n h > i
>
X
`n (θ) = Ji log eγ Wi + exp(−eβ Xi )
i=1
h >
i >
o
+(1 − Ji ) Zi β > Xi − eβ Xi − log(Zi !) − log(1 + eγ Wi )
où Ji = 1{Zi =0} .
En particulier, supposons que l’on observe la variable indicatrice Si telle que Si = 1
si zi provient de l’ensemble des zéros (distribution dégénérée) et Si = 0 si zi résulte
du zéro aléatoire (distribution non dégénérée). Alors la log-vraisemblance pour les
données complètes (z; S) est donnée par
n nh i
γ > Wi
X
>
`C
n (z, S; θ) = Si (γ Wi ) − log 1 + e
i=1
h >
io
+(1 − Si ) Zi β > Xi − eβ Xi − log(Zi !)
= `˜n,1 (γ) + `˜n,2 (β)
où S = (S1 , · · · , Sn )>
Avec l’algorithme EM voir Dempster et al. (1977, [34]), la log-vraisemblance est
maximisée de manière itérative en commençant par une valeur initiale (β (0)> , γ (0)> )>
et en alternant les étapes suivantes:
(r)
Étape E: estimer la variable Si par son espérance conditionnelle Si sous les esti-
mations courantes des paramètres β (r) et γ (r) .
Étape M: trouver β (r+1) et γ (r+1) en maximisant respectivement les fonctions `˜n,1 (γ)+
`˜n,2 (β). Hall and Shen (2010, [51]) ont montré que maximiser ces deux fonctions re-
vient à résoudre respectivement les deux équations suivantes
n
1 X (r)
{S − ωi }Wi = 0. (1.8)
n i=1 i
n
1X (r) >
(1 − Si ){zi − eβ Xi }Xi = 0. (1.9)
n i=1
Dans l’approche RES, Hall and Shen (2010, [51]) proposent de remplacer les équa-
tions (1.8) et (1.9) par des estimations de fonctions robustes. Essentiellement, ils
1.4. Modèles de régression à inflation de zéros 23
proposent de pondérer les observations qui se situent dans la queue extrême supé-
rieure et inférieure de la distribution de Poisson dans la fonction d’estimation. Sous
des conditions de régularité de Rosen et al. (2000, [92]) liées à l’algorithme ES et de
Carroll et al. (1995, [13]), Hall and Shen (2010, [51]) ont montré le résultat suivant
plus général dans le cas où θ = (β > , γ > )> ∈ Rp+q dans Czado et al. (2007, [21]):
Théorème 1.2 Si l’algorithme RES converge, alors il existe une suite de va-
riables aléatoires θ̂ telles que:
P
1. θ̂ −
→ θ0 quand n → ∞ (consistance),
√ L
2. n(θ̂n − θ0 ) −
→ N (0, V(θ0 )) quand n → ∞ (normalité asymptotique)
ce qui implique
(
0 avec une probabilité pi + (1 − pi )(1 − πi )ni ,
Yi = (1.11)
k avec une probabilité (1 − pi ) nki πini (1 − πi )ni −k , k = 1, 2, · · · , ni
où Ji := 1{Zi =0} .
Les estimations des paramètres de γ et β peuvent être déterminées via la méthode
du maximum de vraisemblance ou via l’algorithme EM comme décrit dans le modèle
ZIP précédemment.
avec
L’étude des propriétés asymptotiques dans le modèle ZINB peut se faire de ma-
nière similaire à celle effectuée précédemment dans le modèle ZIP. Pour plus de
détails le lecteur intéressé peut se reporter à Hilbe (2007, [57]), Czado et al. (2007,
[21]) et Mwalili et al. (2008, [83]).
λi , comme dans les modèles de régression ZI standard, nous supposons g(µi ) = β > Xi
avec g un lien adapté pour µi . En outre, un modèle logistique, logit(πi ) = γ > Wi est
supposé pour la probabilité de mélange comme d’habitude. La classe de modèles
qui en résulte, que nous appelons modèles de régression MZI, sont toujours des
mélanges ZI d’une distribution dégénérée à zéro avec une distribution standard de
la famille exponentielle, mais la moyenne de la distribution non dégénérée λi , et
donc aussi son paramètre canonique θi , dépend maintenant à la fois de β et de γ
par la relation λi = µi /(1 − πi ). En écrivant la fonction de densité de la distribution
non dégénérée sous la forme d’une famille de dispersion exponentielle standard voir
B. Jorgensen ( 1987, [7]), la fonction de densité de probabilité pour le sujet i est la
suivante
" #ui
πi (γ) b [θi (β, γ)]
f (yi ; β, γ) = (1 − πi (γ)) + exp + c(0, φ) (1.16)
1 − πi (γ) ai (φ)
" #1−ui
yi θi (β, γ) + b [θi (β, γ)]
× exp + c(yi , φ) ,
ai (φ)
où ui = 1 si yi = 0 et 0 sinon.
La log-vraisemblance conjointe du modèle est la somme des log-densités de la
forme de l’équation (1.16). Un optimiseur de fonction peut être utilisé pour trouver
l’estimateur de maximum de vraisemblance. Cependant, cela peut être difficile sur
le plan si la dimension des paramètres est importante. Par conséquent, certains au-
teurs décrivent également un algorithme EM qui est similaire à celui utilisé pour
les modèles ZI standard, bien qu’il ne soit pas aussi pratique dans le cas MZI car
la vraisemblance des données complètes ne se décompose pas proprement en com-
posantes séparées pour β et γ. La log-vraisemblance des données complètes est la
suivante
n
c
X πi
` (β, γ; yi , z) = zi log + log(1 − πi ) + (1 − zi ) log (h(yi ; Ψ)) (1.17)
i=1
1 − π i
de la classe MZI. Dans chaque cas, nous donnons les loglikelihoods des données
observées et complètes ainsi que certains détails de l’algorithme EM. La première
fonction peut être obtenue comme la somme sur i du logarithme de l’équation (1.16)
après substitution de la forme spécifique de la densité exponentielle h. La logvrai-
semblance des données complètes découle de l’équation (1.17), à nouveau avec sub-
stitution de la forme appropriée de h. En particulier,
y
exp{−µi /(1−πi )}µi i
(1−πi )yi yi !
, dans le cas de MZIP ;
hi (yi ; Ψ) = Γ(φ+yi ) yi
µ
Γ(φ)yi ! i
[(1 − πi )φ]φ [(1 − πi )φ + µi ]−(φ+yi ) , dans le cas de MZNB ;
yi
mi
µi (1 − πi − µi )mi −yi (1 − πi )−mi dans le cas de MZIB.
yi
n
X πi −µi
`n (β, γ; y) = log (1 − πi ) + ui log + exp
i=1
1 − πi 1 − πi
µi
+(1 − ui ) yi log µi − ,
1 − πi
n
X πi (1 − πi )φ
`n (β, γ, φ; y) = log (1 − πi ) + ui log +
i=1
1 − πi µi + (1 − πi )φ
Γ(φ + y)
+ log .
Γ(φ)
n
X πi
`n (β, γ, φ; y) = log (1 − πi ) + zi log
i=1
1 − πi
1 − zi
+ [yi (1 − πi ) log µi + (1 − πi )φ log [(1 − πi )φ]
1 − πi
Γ(φ + y)
− [(1 − πi )φ + yi (1 − πi )] log [µi + (1 − πi )φ] + log .
Γ(φ)
n
X πi mi mi
`n (β, γ; y, m) = log (1 − πi ) + ui log + (1 − πi ) (1 − πi − µi )
i=1
1 − πi
n
X πi
`n (β, γ; y, m) = log (1 − πi ) + zi log + yi log µi
i=1
1 − π i
Dans les trois cas précédent, Martin and Hall, (2017, [75]) utilise un algorithme
EM pour l’estimation [tels que optim ou maxLik dans R, 93]. Par contre la formu-
lation d’un modèle de régression ZIB marginal dévéloppé par ces auteurs semble
donc simple et soulève une difficulté spécifique et quelque peu cachée qui n’a pas
été abordée jusqu’à présent. Ce qui a conduit E., Ali et al. (2020, [4]) à développer
ce modèle en tenant compte des contraintes inhérentes liées à ce nouveau modèle
MZIB. Cette contribution est exposée dans le chapitre suivant.
2
Modèle de régression marginal binomial à inflation
de zéros avec des contraintes.
Résumé
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Modèle de regression binomiale à inflation de zéros . . . . . . . . 35
2.2.1 Un brève revue du modèle de régression ZIB de la classe latente 35
2.2.2 A propos des contraintes inhérentes à la régression ZIB . . . . . . 36
2.2.3 Un modèle de régression ZIB marginal sous contraintes . . . . . 38
2.2.3.1 Formulation et estimation du modèle . . . . . . . . . . . 38
2.2.3.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Identifiabilité du modèle et résultats asymptotiques . . . . . . . . 42
2.4 Etudes de simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.1 Expériences numériques par simulation . . . . . . . . . . . . . . . 43
2.4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.1. Introduction 32
2.1 Introduction
Les modèles à inflation de zéros sont devenus un outil populaire pour analy-
ser les données de comptage avec un excès de zéros. La formulation classique des
modèles à inflation de zéros suppose que la population étudiée est divisée en deux
classes latentes non observées, l’une correspondant à une sous-population sensible
(ou à risque) dont les observations sont générées par une distribution de comp-
tage non dégénérée, l’autre correspondant à une sous-population non sensible qui
ne fournit que des comptages de zéros. Un modèle à inflation de zéros peut donc
être considéré comme un mélange d’une distribution dégénérée avec une masse
ponctuelle à zéro et d’une distribution de comptage non dégénérée. Des effets de
covariable peuvent être incorporés dans ces distributions, ce qui donne des mo-
dèles de régression à inflation de zéros. Parmi les exemples bien connus figurent
le modèle de régression de Poisson à inflation de zéros (ZIP) Lambert (1992, [64])
et ses extensions (par exemple, Lam et al.,(2006, [65]) ; He et al.,(2010, [53]); Feng
et Zhu,(2011,[42]); Monod,(2014, [79])) et le modèle binomial négatif à inflation de
zéros (ZINB) (Ridout et al.,(2001, [91]); Moghimbeigi et al.,(2008, [78]). Lorsque les
comptages ont une limite supérieure, les modèles ZIP et ZINB ne sont plus appro-
priés et Hall (2000, [49]) a introduit le modèle binomial à inflation zéro (ZIB), voir
aussi Diallo et al.,(2019, [28]). Diallo et al.,(2018, [27]) ont récemment proposé un
modèle de régression à inflation zéros pour les comptages multinomiaux avec une in-
flation zéros commune, voir également Dupuy (2018, [35]). Dans ces modèles, les co-
efficients de régression ont des interprétations de classe latentes. Cependant, il est
souvent intéressant d’évaluer les effets des covariables directement sur la moyenne
marginale de la réponse du comptage (c’est-à-dire sur la moyenne de la population
globale du mélange) plutôt que sur la moyenne de la population sensible. En outre,
2.1. Introduction 33
Preisser et al.,(2020, [88]) notent que plusieurs articles rapportant les résultats de
modèles à inflation de zéros de classe latente ont tendance à mal interpréter les ef-
fets des covariables sur la moyenne de la sous-population sensible comme des effets
globaux. Les effets marginaux peuvent être estimés à partir des modèles à infla-
tion de zéros de classe latente. Cela nécessite toutefois des calculs supplémentaires
après ajustement du modèle. En outre, la méthode delta ou bootstrap est nécessaire
pour obtenir des erreurs-types appropriées (voir Albert et al.,(2014, [3]); Todem et
al.,(2016, [98]). Comme le notent Long et al.,(2014, [72]), les outils nécessaires à ces
calculs ne sont généralement pas facilement disponibles dans les logiciels standard,
ce qui rend cette approche plutôt lourde pour les analystes appliqués. Des modèles
de régression marginale à inflation de zéros ont donc été proposés pour faciliter l’in-
férence marginale. Ces modèles établissent un lien direct entre les covariables et
la moyenne marginale du comptage à inflation de zéros. Dans cette formulation, la
relation entre la moyenne latente de la sous-population sensible et les covariables
est impliquée par les modèles supposés pour la moyenne marginale et l’apparte-
nance latente à une classe. Par exemple, un modèle à inflation de zéros marginale
de régression de Poisson (MZIP) a été récemment introduit par Long et al.,(2014,
[72]) et étendu pour inclure les effets aléatoires (Long et al.,(2015, [73]). Preisser
et al.,(2016, [89]) proposent un modèle de régression binomiale négative marginale
zéro (MZINB). Au lieu de modéliser les moyennes de Poisson et les moyennes bino-
miales négatives dans la classe latente sensible, ces modèles mettent directement
en relation la moyenne marginale avec les covariables (en utilisant un lien logarith-
mique). Comme dans la formulation de la classe latente, un modèle de régression
logistique est supposé pour la probabilité de susceptibilité (ou à risque). L’estima-
tion et l’inférence dans les modèles MZIP et MZINB sont essentiellement basées
sur les mêmes méthodes que celles développées pour les modèles ZIP et ZINB de
classe latente. Ainsi, à première vue, l’extension des modèles à inflation de zéros
de classe latente aux modèles marginaux à inflation zéros peut sembler concep-
tuellement modeste. Cependant, dans le cas des comptes délimités, cette extension
soulève de manière surprenante quelques difficultés inattendues, comme nous l’ex-
pliquons maintenant. Le modèle de régression binomial à inflation de zéros (ZIB) est
défini comme Z ∼ πδ0 +(1−π)B(m, p) où Z est le nombre observé, π est la probabilité
de susceptibilité, δ0 est la distribution dégénérée à 0 et B(m, p) désigne la distribu-
tion binomiale avec la taille m et la probabilité de succès latente p (c’est-à-dire, p est
la probabilité de succès pour un sujet susceptible). Le modèle de régression ZIB de
la classe latente proposé par Hall(2000, [49]) spécifie π et p (en utilisant des régres-
sions logistiques). En revanche, un modèle de régression ZIB marginal spécifiera π
et la probabilité marginale de succès q = p(1 − π). Dans ce cas, le modèle reliant p
aux covariables est implicite par la relation p = q(1 − π)−1 .
2.1. Introduction 34
où β et γ sont des vecteurs de coefficients de régression inconnus et Xi = (Xi1 , Xi2 , . . . , Xip )>
et Wi = (Wi1 , Wi2 , . . . , Wiq )> sont des vecteurs de covariables (ils peuvent partager
des composantes communes ou être distincts), avec Xi1 = Wi1 = 1.
2.2. Modèle de regression binomiale à inflation de zéros 36
Remarque 2.2 Le paramètre β décrit les effets des covariables sur la réponse
du compte moyen des individus sensibles, puisque E[Zi |Xi , Si = 1] = mi pi . L’éva-
luation des effets des covariables sur la moyenne marginale de Zi nécessite le
calcul de E[Zi |Xi , Wi ] = mi pi (1 − πi ), soit :
>
mi eβ Xi
E[Zi |Xi , Wi ] = (2.4)
>
(1 + eβ Xi )(1 + eγ > Wi )
sous (2.3). Nous notons que (2.4) implique toutes les covariables et paramètres
des deux sous-modèles pour une inflation zéro et une réponse de comptage. L’in-
terprétation des effets des covariables sur la moyenne marginale du modèle de
régression de la classe latente ZIB n’est donc pas triviale, voir Long et al.,(2014,
[72]) pour une discussion détaillée de cette question.
où Ji := 1{Zi =0} . L’estimateur du maximum de vraisemblance (EMV) θ̂n := (β̂n> , γ̂n> )>
de θ est obtenu en résolvant l’équation de score ∂`LC
n (θ)/∂θ = 0, qui peut être réalisée
avec l’algorithme EM Hall (2000, [49]) ou par maximisation directe de `LC n (θ).
est supposée pour la probabilité de susceptibilité. Ici, β décrit directement les ef-
fets des covariables sur la moyenne marginale E[Zi |Xi ] = mi qi . Le modèle reliant
la moyenne latente (c’est-à-dire la réponse de la moyenne de comptage pour un su-
jet sensible) aux covariables est impliqué par la relation pi = qi (1 − πi )−1 et est
utilisé à des fins de construction de la probabilité, plutôt que d’interprétation. La
log-vraisemblance de (β, γ) dans le modèle ZIB marginal défini par (2.2), (2.5) et
(2.6) est :
n n h > i
> > > >
X
− log 1 + eγ Wi + Ji log eγ Wi + (1 + eβ Xi )−mi (1 − eβ Xi +γ Wi )mi
i=1
h
> β > Xi γ > Wi
+(1 − Ji ) Zi β Xi − mi log 1 + e + Zi log 1 + e
> >
io
+(mi − Zi ) log 1 − eβ Xi +γ Wi .
q i ≤ pi et q i ≤ 1 − πi , i = 1, . . . , n, (2.7)
β > Xi + γ > Wi ≤ 0,
2.2. Modèle de regression binomiale à inflation de zéros 38
et cela devrait être le cas pour chaque i = 1, . . . , n, ce qui semble très peu plau-
sible en pratique. Les résultats de la simulation présentés dans le tableau 1 de
Martin and Hall, ( 2017, [75]) sont obtenus pour Xi = Wi = (1, Xi2 , Xi3 )> , où Xi2
prend sa valeur en {0, 1} et β = (β1 , β2 , β3 )> et γ = (γ1 , γ2 , γ3 )> sont choisis de telle
sorte que β3 = −γ3 . Dans ce cas, la condition β > Xi + γ > Wi ≤ 0 se réduit à :
qui est satisfait dans Martin and Hall, (2017, [75]) puisque β = (−.405, .811, −.25)>
et γ = (−1.386, .539, .25)> . Ce cas particulier masque toutefois la question soule-
vée par les contraintes (2.7). Par exemple, considérons γ = (−1.386, .989, .25)> (γ2
ci-dessus a été modifié de .539 à .989, γ1 et γ3 sont inchangés). Cette valeur peut
apparaître, a priori, comme admissible comme γ = (−1.386, .539, .25)> . Cependant,
le modèle marginal ZIB correspondant ne peut être défini puisque sous cette valeur,
qi > 1 − πi pour certains i = 1, . . . , n et les pi correspondants sont supérieurs à 1.
Remarque 2.3 Les modèles ZIP et ZINB marginalisés ne sont pas affectés par
le type de contrainte décrit ci-dessus. Par exemple, un modèle ZIP pour Z est
défini comme Z ∼ πδ0 + (1 − π)P(λ), où P(λ) désigne une distribution de Pois-
son avec une moyenne λ > 0. Un modèle ZIP marginal spécifie la probabilité
de susceptibilité π ∈ [0, 1] et la moyenne marginale ν := λ(1 − π) de Z (voir
Long et al.,(2014, [72]). La moyenne de classe latente λ est impliquée par la
relation λ = ν(1 − π)−1 . Puisque λ est illimité, aucune restriction ne s’applique
sur π une fois que ν est spécifié. Par conséquent, π et ν peuvent être modélisés
indépendamment l’un de l’autre.
lien logit :
Le modèle de régression ZIB marginal proposé est donc défini par les équations
2.2. Modèle de regression binomiale à inflation de zéros 40
Remarque 2.5 L’interprétation des effets des covariables sur pi n’est pas tri-
viale. Cependant, dans un modèle marginal à inflation de zéros, la probabilité
de succès latente de la classe est d’un intérêt secondaire puisque l’on s’intéresse
principalement à la probabilité de succès marginale qi . D’autre part, on peut fa-
cilement faire des inférences sur la relation entre les covariables et la moyenne
marginale E[Zi |Xi ] = mi logit−1 (β > Xi ). Cette inférence peut être abordée de dif-
férentes manières. Par exemple, on peut vouloir comparer les moyennes margi-
nales de deux valeurs distinctes x et x∗ de Xi . Cela peut être réalisé en compa-
> ∗ > ∗ > ∗
rant le rapport E[Zi |Xi = x∗ ]/E[Zi |Xi = x] = (eβ (x −x) + eβ x )/(1 + eβ x ) à
1 (ou équivalent, en comparant β > (x∗ − x) à 0). Un test formel de l’hypothèse
H0 : E[Zi |Xi = x∗ ] = E[Zi |Xi = x] peut être dérivé du résultat asymptotique
indiqué dans le Théorème 2.8 ci-dessous. En utilisant la même idée, on peut
également évaluer, par exemple, l’effet sur la moyenne marginale d’une aug-
mentation unitaire d’une composante donnée de Xi .
˙ n (θ) = 0, où
résolvant l’équation de score ``
n
˙ n (θ) = √1 ∂``n (θ) = √1
X ∂`i (θ)
`` . (2.11)
n ∂θ n i=1 ∂θ
Dans la section 2.3, nous établissons une cohérence et une normalité asymptotique
de θ̂n . Avant cela, nous introduisons quelques notations supplémentaires.
2.2.3.2 Notations
Soit
1 ··· 1
X12 · · · Xn2
X= .
... ..
.. .
X1p · · · Xnp
où 0p,n désigne la matrice (p × n) dont les composantes sont toutes égales à zéro. Soit
également S(θ) = (Sj (θ))1≤j≤2n le vecteur colonne à 2n de dimensions défini par :
où pour chaque i = 1, . . . , n,
> >
! > >
eβ Xi Qi (θ) eβ Xi eβ Xi eβ Xi Qi (θ)
`˙β,i (θ) = −Ji + Zi +1 − + ,
(1 + eβ > Xi )gi (θ)ki (θ) fi (θ) fi (θ) (1 + eβ > Xi )gi (θ)
et
> >X >
! > > >
mi eβ Xi + eγ i
eγ Xi eγ Xi mi eβ Xi + eγ Xi
`˙γ,i (θ) = −Ji + Zi −1 − + ,
gi (θ)ki (θ) fi (θ) fi (θ) gi (θ)
> >
avec ki (θ) = 1 + gi (θ)hm i (θ) et Qi (θ) = 1 + e
i β Xi
− mi (fi (θ) + eβ Xi ). Enfin, si A =
(Aij )1≤i≤a,1≤j≤b est une matrice (a × b), soit A•j sa j-ième colonne (j = 1, . . . , b) c’est-
˙ n (θ) peut être écrit comme
à-dire A•j = (A1j , . . . , Aaj )> . Ensuite, le vecteur de score ``
2n
˙ n (θ) = √1
X
`` V•j Sj (θ).
n j=1
2.3. Identifiabilité du modèle et résultats asymptotiques 42
Théorème 2.6 Supposons que les conditions 1 à 4 soient vérifiées. Alors le mo-
dèle de régression ZIB marginal défini par (2.2), (2.9) et (2.10) est identifiable,
c’est-à-dire `i (θ) = `i (θ∗ ) implique θ = θ∗ presque sûrement.
La preuve repose sur le fait que n−1/2 ``˙ n (θ) converge vers une limite qui est nulle en
θ0 . Nous faisons ensuite appel au théorème de la fonction inverse de Foutz (1977,
2.4. Etudes de simulations 43
[38]).
√
Pour prouver la normalité asymptotique, nous montrons que n(θ̂n − θ0 ) est asymp-
totiquement équivalent à une combinaison linéaire de vecteurs aléatoires (non iden-
tiquement distribués) et nous appliquons un théorème limite central multivarié
pour les formes vectorielles linéaires aléatoires de Eicker (1966, [36]). Plus préci-
sément, une expansion en série de Taylor de `˙n (θ̂n ) en θ0 donne
!−1 2n
√ ˙ n (θ0 )
1 ∂ `` 1 X
n(θ̂n − θ0 ) = − √ √ V•j Sj (θ0 ) + oP (1).
n ∂θ> n j=1
Par lemme 3.4 dans l’annexe B, n−1/2 ∂ `` ˙ n (θ0 )/∂θ> converge vers L(θ0 ), et nous mon-
trons que √1n 2n
P
j=1 V•j Sj (θ0 ) est distribué asymptotiquement comme une loi normale
multivariée avec pour moyenne nulle et une matrice de covariance L(θ0 ). Une appli-
cation du théorème de Slutsky conclut la preuve. Tous les détails sont donnés dans
l’annexe B, ainsi que les expressions des termes de la matrice des dérivées secondes
˙ n (θ0 )/∂θ> .
∂ ``
2.4.2 Résultats
Pour chaque scénario de simulation et chaque estimateur β̂j,n (j = 1, . . . , 8) et
γ̂k,n (k = 1, . . . , 8), nous calculons le biais moyen, l’écart-type, l’erreur standard
moyenne et l’erreur quadratique moyenne de l’estimation sur les N échantillons
simulés. Nous obtenons également la probabilité de couverture empirique et la lon-
gueur moyenne des intervalles de confiance de Wald à 95 % pour les estimateurs β̂j,n
(j = 1, . . . , 8) et γ̂k,n (k = 1, . . . , 8). Les Tableaux 2.1 et 2.2 présentent respectivement
les résultats pour n = 500 et n = 2000.
Nous évaluons également l’approximation normale indiquée par le théorème 2.8,
en traçant les densités estimées obtenues à partir des N estimations normalisées
(β̂j,n − βj )/standard error(β̂j,n ) and (γ̂k,n − γk )/standard error(γ̂k,n ), j, k = 1, . . . , 8,
et en comparant avec la densité de la distribution normale standard. Les erreurs
standard sont obtenues comme les racines carrées des éléments diagonaux de la
matrice de variance estimée (n−1/2 ∂ `` ˙ n (θ̂n )/∂θ> )−1 . Les figures 2.3 et 2.4 donnent les
résultats pour n = 500 de 50% de proportion de zéro. Les graphiques pour les autres
scénarios sont similaires et ne seront pas donnés dans ce document.
D’après ces résultats, il semble, comme prévu, que le biais, la variabilité et la
longueur des intervalles de confiance de toutes les estimations diminuent à mesure
que la taille de l’échantillon augmente. Pour un n fixe, nous observons que : i) les
performances du β̂j,n restent stables lorsque la proportion d’inflation zéro varie de
valeurs faibles à modérées (ici, de 0.25 à 0.50) et se détériorent lorsque l’inflation
zéro atteint des valeurs plus élevées, et : ii) les performances du γ̂k,n s’améliorent
puis se détériorent lorsque la proportion d’inflation de zéros augmente.
Ces observations illustrent le fait général qu’une estimation précise dans un
2.4. Etudes de simulations 45
avec les mêmes paramètres que ci-dessus (ici, la proportion moyenne de données à
inflation zéro est de 0.45). Nous obtenons l’Estimateur de Maximum de Vraisem-
blance dans les deux modèles, pour les deux scénarios.
Dans le premier scénario, notre modèle MZIB spécifie mal la probabilité de sus-
ceptibilité πi . Dans le second scénario, le modèle MZIB-MH spécifie mal πi . Dans les
deux cas, les estimations de γ devraient être biaisées dans le modèle mal spécifié.
Cela est confirmé par les résultats de la simulation. Cependant, dans un modèle
marginal à inflation de zéro, l’intérêt porte généralement sur β, qui relie les cova-
riables à la moyenne marginale de la réponse du compte. C’est pourquoi nous ne
2.5. Application 46
fournissons les résultats que pour β. En outre, étant donné que les modèles MZIB-
MH et MZIB proposé adoptent la même spécification pour qi , une comparaison des
estimations de β des deux modèles est juste. Les résultats sont décrits dans le Ta-
bleau 2.3 (premier scénario) et dans le Tableau 2.4 (deuxième scénario).
Il apparaît que dans les deux modèles, l’estimation de β est assez robuste à une
mauvaise spécification de la probabilité de susceptibilité. Autrement dit, lorsque le
modèle MZIB-MH est utilisé pour générer les données, les estimations de β dans
notre modèle MZIB sont de bonne qualité. Inversement, lorsque notre modèle est
utilisé pour simuler les données, les estimations de β dans le modèle MZIB-MH se
comportent également bien.
Nous observons également que les estimations obtenues à partir de notre modèle
se comportent presque systématiquement mieux que les estimations basées sur le
modèle MZIB-MH, même lorsque le modèle MZIB-MH est utilisé pour simuler les
données.
En outre, pour être défini, le modèle MZIB-MH doit satisfaire à la contrainte
β Xi + γ > Wi ≤ 0 (voir section 2.2.2). Il est peu probable que cette condition forte
>
soit vérifiée à mesure que le nombre de covariables augmente. Par exemple, elle
n’est pas satisfaite dans le cadre de simulation décrit dans la section 2.4.1, ce qui
signifie que le modèle MZIB-MH ne peut même pas être utilisé pour estimer β à
partir de ces données.
2.5 Application
2.5.1 Description et modélisation des données
Dans cette section, nous décrivons une application du modèle de régression ZIB
marginal à l’analyse de l’utilisation des soins de santé par les personnes âgées aux
états-Unis. Nous utilisons les données de la National Medical Expenditure Survey
(NMES) menée en 1987-1988 aux États-Unis. Cette enquête donne une image com-
plète de la manière dont les Américains (âgés de 66 ans et plus) utilisent les services
de santé. Plusieurs mesures de l’utilisation des soins de santé ont été rapportées
dans cette étude, comme le nombre de visites à un professionnel de la santé non
médecin dans un bureau et le nombre de visites à un médecin dans un cabinet. Des
informations sur la santé des patients sont également communiquées, ainsi que des
variables socio-démographiques et économiques. Une description détaillée de ces
données se trouve dans Deb et Trivedi ( 1997, [25]).
Nous abordons ici la question de l’identification des facteurs qui déterminent
la décision des patients de consulter un professionnel de santé non médecin lors
d’une visite en cabinet. Soit Zi et mi , respectivement le nombre de visites en ca-
2.5. Application 47
mente lorsque l’état de santé se dégrade. Une hypothèse est que les patients dont
l’état de santé se dégrade auront tendance à privilégier les visites chez un médecin
plutôt que chez un non-médecin. La probabilité de ne jamais avoir recours à un non-
médecin diminue lorsque le nombre d’années d’études augmente. Cela est cohérent
avec les conclusions précédentes de la littérature. étant donné l’insignifiance des re-
venus, cette observation pourrait être due à un effet de revenu signalé par le niveau
d’éducation. Une autre explication, émise par Deb et Trivedi ( 1997, [25]), est que
l’éducation peut faire des individus des consommateurs mieux informés des services
de soins médicaux. Des patients mieux informés peuvent à leur tour avoir tendance
à diversifier leur utilisation des soins de santé. Les hommes sont plus susceptibles
que les femmes de renoncer aux visites en cabinet médical. Une observation simi-
laire a été rapportée à plusieurs reprises dans la littérature, et peut s’expliquer par
les codes sociaux et l’influence des stéréotypes (comme la masculinité étant associée
à la résistance au mal). Enfin, les bénéficiaires de Medicaid sont plus susceptibles
de renoncer aux visites en cabinet médical. Une explication est que les bénéficiaires
de medicaid, qui ont de faibles revenus, peuvent limiter leurs consultations à celles
qui sont nécessaires, c’est-à-dire aux visites chez le médecin. Dans le modèle ZIB
à classe latente, les effets des covariables sur la probabilité de consulter un non-
médecin lors d’une visite dans un bureau doivent être interprétés par rapport à la
sous-population sensible. Cette sous-population n’étant pas observée, ces effets sont
difficiles à interpréter. Au contraire, le modèle de régression ZIB marginal permet
des interprétations à l’échelle de la population. Le tableau 2.5 montre que, dans
l’ensemble de la population, les déterminants importants de la décision de consul-
ter un non-médecin lors d’une visite dans un cabinet médical comprennent l’état de
santé, l’âge, le sexe, le niveau d’éducation et le statut au regard de l’assurance ma-
ladie. Les patients en mauvaise santé préféreront les visites chez un médecin plutôt
que chez un non médecin, ce qui semble une observation naturelle. Les femmes et
les personnes ayant fait des études supérieures ont plus de chances de consulter
un non-médecin, tandis que les bénéficiaires de Medicaid sont plus susceptibles de
consulter des médecins que des non médecins. La probabilité de consulter un non-
médecin lors d’une consultation en cabinet diminue avec l’âge. Cela peut être dû à
plusieurs facteurs, tels que la diminution de la mobilité associée au vieillissement
(les patients âgés auront tendance à limiter leurs consultations à celles considérées
comme les plus nécessaires, c’est-à-dire aux visites chez le médecin) et l’aggravation
de l’état de santé avec le vieillissement (les patients dont l’état de santé décline sont
susceptibles de favoriser les visites chez un médecin).
2.5. Application 49
Sur cette base, nous définissons le résidu de Pearson pour ième observation comme
Zi − mi q̂i
ri = p ,
mi q̂i (1 − p̂i (1 − mi π̂i ))
où p̂i , q̂i et π̂i sont obtenus en remplaçant β et γ par leurs estimations dans pi , qi et πi .
Si le modèle est correct, on peut s’attendre à ce que ces résidus se situent dans une
fourchette limitée (par exemple, pas plus de 5 % ne devrait être supérieur à 1,96
2.6. Conclusion et Perspectives 50
Preisser et al. (2012, [88]) observe qu’en épidémiologie dentaire, de nombreux cher-
cheurs interprètent mal les paramètres dans les modèles de régression de Poisson à
inflation de zéros en termes d’incidence globale des caries, au lieu de l’incidence au
sein de la sous-population sensible. Des modèles marginaux à inflation de zéros ont
récemment été proposés pour permettre une inférence à l’échelle de la population à
partir de données de comptage comportant un excès de zéros. Cette approche mo-
délise directement la moyenne marginale de la réponse au comptage, plutôt que la
moyenne conditionnelle étant donné que l’individu est susceptible. Par exemple, des
modèles marginaux de Poisson à inflation de zéros et des modèles binomiaux néga-
tifs ont été introduits par Long et al. (2014, [72]) et Preisser et al. (2016, [89] respec-
tivement. La formulation de ces modèles est relativement simple. Au contraire, la
formulation d’un modèle binomial marginal à inflation de zéros nécessite un certain
soin, en raison des contraintes inhérentes qui s’appliquent, dans ce cas, à la proba-
bilité de susceptibilité et à la moyenne marginale de la réponse de comptage. Dans
ce chapitre, nous proposons une formulation qui tient compte de ces contraintes.
La théorie asymptotique et les études de simulation suggèrent toutes deux la perti-
nence de l’inférence du maximum de vraisemblance dans ce nouveau modèle.
Plusieurs questions méritent maintenant d’être examinées et le modèle ZIB mar-
ginal proposé devrait être étendu pour tenir compte de la complexité supplémen-
taire des données. Par exemple, des effets aléatoires pourraient être incorporés au
modèle, afin de tenir compte de la corrélation entre les individus. Des effets non
linéaires peuvent également être introduits dans les prédicteurs linéaires, par le
biais de fonctions inconnues des covariables. Ces extensions nécessitent des déve-
loppements théoriques et numériques spécifiques qui sont les sujets de nos travaux
futurs.
c β̂n γ̂n
β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂6,n β̂7,n β̂8,n γ̂1,n γ̂2,n γ̂3,n γ̂4,n γ̂5,n γ̂6,n γ̂7,n γ̂8,n
0.25
bias -0.0308 -0.0116 0.0015 -0.0073 0.0117 0.0062 0.0094 0.0052 -0.1443 0.0959 -0.0982 0.2043 -0.2137 0.1716 0.0007 0.0235
SD 0.4602 0.1117 0.0935 0.0843 0.1163 0.2170 0.1774 0.2533 1.3297 0.4019 0.3135 0.4312 0.5275 0.7809 0.5245 0.7620
SE 0.4648 0.1105 0.0883 0.0825 0.1156 0.2131 0.1727 0.2520 1.2953 0.3744 0.2950 0.3885 0.4697 0.7365 0.4851 0.7235
RMSE 0.6546 0.1575 0.1286 0.1182 0.1644 0.3041 0.2477 0.3573 1.8615 0.5574 0.4414 0.6151 0.7378 1.0867 0.7142 1.0507
CP 0.9530 0.9490 0.9450 0.9460 0.9580 0.9450 0.9380 0.9430 0.9610 0.9470 0.9570 0.9530 0.9490 0.9540 0.9450 0.9490
`(CI) 1.8180 0.4321 0.3457 0.3228 0.4522 0.8338 0.6757 0.9837 4.9720 1.4017 1.1135 1.4151 1.7266 2.6520 1.8743 2.7536
0.50
bias -0.0214 -0.0103 0.0048 -0.0081 0.0159 -0.0045 0.0031 0.0232 -0.0787 0.0850 0.0898 -0.0114 -0.1679 -0.0767 0.0023 0.0139
2.6. Conclusion et Perspectives
SD 0.4710 0.1156 0.0890 0.0776 0.1171 0.2252 0.1726 0.2539 1.2360 0.3615 0.2649 0.2359 0.4394 0.5723 0.4864 0.7114
0.25
bias -0.0042 -0.0027 -0.0001 -0.0033 0.0011 -0.0010 -0.0021 0.0052 -0.0034 0.0104 -0.0172 0.0243 -0.0278 0.0260 -0.0057 -0.0039
SD 0.2273 0.0557 0.0411 0.0405 0.0583 0.1058 0.0861 0.1244 0.5636 0.1546 0.1219 0.1451 0.1797 0.2835 0.2190 0.3114
SE 0.2281 0.0542 0.0434 0.0407 0.0567 0.1047 0.0851 0.1230 0.5519 0.1526 0.1211 0.1460 0.1805 0.2844 0.2096 0.3035
RMSE 0.3220 0.0777 0.0598 0.0575 0.0813 0.1488 0.1210 0.1749 0.7886 0.2174 0.1727 0.2072 0.2562 0.4023 0.3031 0.4348
CP 0.9580 0.9380 0.9620 0.9560 0.9390 0.9500 0.9480 0.9500 0.9510 0.9580 0.9590 0.9560 0.9560 0.9520 0.9430 0.9450
`(CI) 0.8937 0.2125 0.1702 0.1594 0.2222 0.4104 0.3334 0.4816 2.1595 0.5968 0.4734 0.5697 0.7050 1.1123 0.8207 1.1873
0.50
bias -0.0039 -0.0008 0.0010 -0.0037 0.0031 0.0024 -0.0022 0.0085 0.0031 0.0189 0.0156 -0.0071 -0.0343 -0.0168 -0.0031 -0.0037
2.6. Conclusion et Perspectives
SD 0.2245 0.0551 0.0442 0.0385 0.0587 0.1124 0.0856 0.1246 0.5032 0.1464 0.1122 0.0941 0.1710 0.2488 0.1956 0.3059
Tableau 2.5 – Analyse des donnés sur les soins de santé (pour chaque modèle,
seules les covariables significatives au niveau de 5 % sont signalés).
2.6. Conclusion et Perspectives 56
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
Density plot for β4,n Density plot for β5,n Density plot for β6,n
0.0 0.1 0.2 0.3 0.4
0.4
0.3
Density
Density
Density
0.2
0.2
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2 −2 0 2 4
Density
0.2
0.1
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for γ1,n Density plot for γ2,n Density plot for γ3,n
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
0.0
−2 0 2 −2 0 2 4 −4 −2 0 2
Density plot for γ4,n Density plot for γ5,n Density plot for γ6,n
0.4
0.4
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
−4 −2 0 2 −4 −2 0 2 0.0 −4 −2 0 2
Density
0.20
0.2
0.00
0.0
−3 −1 1 3 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
Density
Density
Density
0.2
0.2
0.2
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −3 −1 1 3
Density plot for β4,n Density plot for β5,n Density plot for β6,n
0.4
0.4
Density
Density
Density
0.2
0.2
0.2
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 0.0 −2 0 2 4
Density
0.2
0.2
0.0
0.0
−4 −2 0 2 4 −2 0 2 4
Density plot for γ1,n Density plot for γ2,n Density plot for γ3,n
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
0.0
−2 0 2 −2 0 2 4 −4 −2 0 2
Density plot for γ4,n Density plot for γ5,n Density plot for γ6,n
0.4
0.4
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
−4 −2 0 2 −4 −2 0 2 0.0 −4 −2 0 2
Density
0.20
0.2
0.00
0.0
−3 −1 1 3 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.0 0.1 0.2 0.3 0.4
Density
Density
−2 0 2 4 −4 −2 0 2 4 −4 −2 0 2
Density plot for β4,n Density plot for β5,n Density plot for β6,n
0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 −2 0 2 4 −2 0 2
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for γ1,1 Density plot for γ1,2 Density plot for γ1,3
0.0 0.1 0.2 0.3 0.4
Density
Density
−2 0 2 4 −3 −2 −1 0 1 2 3 −2 0 2 4
Density plot for γ1,4 Density plot for γ1,5 Density plot for γ1,6
0.4
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2 4 −4 −2 0 2 4
Density plot for β4,n Density plot for β5,n Density plot for β6,n
0.4
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −2 0 2 4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4
Density plot for γ1,1 Density plot for γ1,2 Density plot for γ1,3
0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
Density plot for γ1,4 Density plot for γ1,5 Density plot for γ1,6
0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2
0.3
Density
Density
0.2
0.1
0.0
−2 0 2 −3 −2 −1 0 1 2 3 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
Density
Density
0.2
0.1
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
Density plot for β4,n Density plot for β5,n Density plot for β6,n
0.0 0.1 0.2 0.3 0.4
Density
Density
0.2
0.1
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −4 −2 0 2 4
Density
0.2
0.1
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for γ1,1 Density plot for γ1,2 Density plot for γ1,3
0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −3 −2 −1 0 1 2 3 −4 −2 0 2 4
Density plot for γ1,4 Density plot for γ1,5 Density plot for γ1,6
0.4
0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −3 −2 −1 0 1 2 3 4 −4 −2 0 2
Density
0.2
0.0
−4 −2 0 2 4 −4 −2 0 2 4
2000
1500
Frequency
1000
500
0
0 4 8 12 17 22 27 32 37 42 47 52 57 62
Résumé
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Modèles, données, notations . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.1 Modèle de régression ZIP-GEV . . . . . . . . . . . . . . . . . . . . 71
3.2.2 Modèle de régression ZIP-cloglog . . . . . . . . . . . . . . . . . . . 72
3.2.3 Modèle de régression ZIP-probit . . . . . . . . . . . . . . . . . . . 73
3.3 Expériences numériques . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Simulation des données . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 Résultats de simulations . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4 Applications sur des données réelles . . . . . . . . . . . . . . . . . . 77
3.4.1 Description des données et modèles concurrents . . . . . . . . . . 77
3.1. Introduction 68
3.1 Introduction
La modélisation statistique est une étape importante de l’analyse des données
dans de nombreux domaines de la recherche scientifique ou à des fins de décision.
Pour mener à bien cette démarche, il faut spécifier une distribution de probabi-
lité qui rende compte le plus précisément possible de la variabilité observée dans
les données. Étant donné la pléthore de distributions discrètes ou continues dispo-
nibles par exemple Johnson et al. (2005, [58]), des lignes directrices sont nécessaires
pour identifier de manière non aléatoire la famille de distributions à un ou deux
paramètres adaptées à la modélisation des données disponibles. La pratique dans
cette procédure est de considérer en plus certains phénomènes tels que : sur/sous-
dispersion ou inflation/déflation de zéros pour les données de comptage, voir Bonat
et al. (2018, [8]) et, sur/sous-variation ou masse de zéros pour les données continues
par exemple Abid et al. (2020, [1]).
Le phénomène de dispersion de Poisson est bien connu et très largement uti-
lisé dans la pratique ; voir Kokonendji (2014, [63]) pour un examen des modèles de
comptage (ou de valeurs entières discrètes). Divers modèles ont été mis au point
pour traiter l’exès de zéros, comme les modèles à inflation de zéros (ZI) qui mé-
langent une distribution dégénérée à zéro avec un modèle de comptage standard.
Le modèle de régression de Poisson à inflation de zéros (ZIP) a été proposé par
Lambert (1992, [64]) et développé par Dietz (2000, [32]), Lim (2006, [70] et Monod
(2014, [79]), parmi beaucoup d’autres. Les variantes récentes de la régression ZIP
comprennent les modèles ZIP à effets aléatoires voir, Hall (2020, [49]) ; Min et al.
(2005, [77]) et les modèles ZIP semi-paramétriques par exemple Lam (2006, [65]).
Un modèle de régression binomial négatif à inflation de zéros (ZINB) a été proposé
par Ridout et al. (2001, [91]), voir aussi Moghimbeigi et al. (2008, [78].
Ainsi, Hall (2000, [49] a introduit le modèle binomial à inflation de zéros (ZIB),
voir aussi Hall et Berenhaut (2002), Diop et al. (2011, [29]), et Diallo et al. (2017,
[26]). Dans [85], les auteurs ont proposés une régression de Poisson à inflation de zé-
ros avec des données censurées à droite. La façon habituelle de modéliser la variable
réponse est d’utiliser un modèle linéaire généralisé (GLM), où nous modélisons la
probabilité latente de "succès" une fonction de liaison ( voir McCullagh et Nelder
(1989, [76]). Les fonctions de lien logit et probit sont des liens communs utilisés
3.1. Introduction 69
dans le GLM. Cependant, les fonctions de liaison mentionnées ci-dessus sont des
liaisons "symétriques" en ce sens qu’elles supposent que la probabilité latente d’une
variable de réponse donnée s’approche de 0 avec le même taux qu’elle s’approche
de 1. De même, la fonction de densité de probabilité qui correspond à la fonction de
distribution cumulative inverse de la fonction de liaison est symétrique. Toutefois,
cette hypothèse peut ne pas être raisonnable dans de nombreux cas. Une fonction
de liaison asymétrique communément adoptée est la fonction de liaison loglog (clo-
glog) complémentaire. Cependant, la fonction de lien cloglog présente une asymétrie
négative fixe. Par conséquent, il manque à la fois la souplesse nécessaire pour per-
mettre aux données d’afficher le degré d’asymétrie à incorporer et la possibilité d’au-
toriser une asymétrie positive. En bref, les données de comptage pourraient souvent
être mieux modélisées avec des fonctions de lien flexibles qui permettent à la fois
une asymétrie positive et négative et qui permettent aux données de déterminer la
quantité d’asymétrie requise.
De nombreux travaux de recherche ont été menés qui introduisent de la flexibi-
lité dans les fonctions de liaison. Aranda-Ordaz (1989, [5]) a proposé deux modèles
séparés à un paramètre pour une flexibilité supplémentaire dans le modèle logis-
tique. Guerrero (1982, [48]) a utilisé la transformation Box-Cox sur le rapport de
cotes pour former une classe de modèle plus flexible. Jones (2004, [59]) a proposé
une famille de distributions flexibles basées sur la distribution des statistiques de
commandes. Stukel (1988, [97] a proposé une classe de modèles logistiques géné-
ralisés à deux paramètres. Récemment, Wang et Dey (2010, [103]) ont proposé la
fonction de liaison généralisée des valeurs extrêmes donnant une asymétrie plus
souple contrôlée par le paramètre de forme. Mais les liens logistiques et probit stan-
dard ne font pas partie des cas particuliers de cette famille.
Un problème critique dans la modélisation des données de réponse au comptage
est le choix approprié des fonctions de liens. Pour surmonter cette limitation, nous
proposons un modèle flexible de régression de Poisson à inflation de zéro qui com-
bine une fonction de liaison généralisée de valeur extrême avec les autres fonctions
de liaison. Dans la théorie des valeurs extrêmes, la distribution GEV est utilisée
pour modéliser la queue d’une distribution voir Coles (2014,[19]). Actuellement, le
modèle de régression logistique, avec son interprétation et sa mise en œuvre pra-
tique, a été couramment utilisé pour estimer et prédire. Comme dans ce travail,
nous nous concentrons sur les paramètres de Poisson que nous avons choisis pour
faire varier plusieurs fonctions de liaison afin de voir la flexibilité de la distribu-
tion GEV par rapport aux autres. Dans le GLM, Agresti (2002, [2], les fonctions
de liaison loglog et loglog complémentaires sont utilisées puisqu’il s’agit de fonc-
tions asymétriques. En particulier, la fonction de liaison loglog est la fonction quan-
tile de la variable aléatoire de Gumbel. La fonction inverse de la fonction loglog
3.2. Modèles, données, notations 70
πi = F (γ > Wi ) (3.1)
n n > h i
> >
X
`LC
n (θ) = Ji log eγ Wi + e− exp(β Xi ) + (1 − Ji ) Zi β > Xi − eβ Xi − log (Zi !)
i=1
>
o
− log 1 + eγ Wi .
n o
1 − exp −(1 − ξγ > Wi )−1/ξ
+ , ξ 6= 0,
πi = F (Wi |ξ) = 1 − GEV(−γ > Wi ; ξ) = n o (3.3)
1 − exp − exp(− (x−µ)
σ
) , ξ = 0,
3.2. Modèles, données, notations 72
[− log(πi )]−ξ − 1
gevit(πi ) = = γ > Wi , (3.4)
ξ
et
h 1
i
n
X exp −(1 + ξγ > Wi )− ξ >
`GEV
n (θ) = Ji log h 1
i + e− exp(β Xi )
i=1
1 − exp −(1 + ξγ > Wi )− ξ
h i h i
> β > Xi > − 1ξ
+(1 − Ji ) Zi β Xi − e − log (Zi !) + log 1 − exp −(1 + ξγ Wi ) .
L’Estimateur de Maximum de Vraisemblance (EMV) θ̂n = (β̂n> , γ̂n> )> de θ est ob-
tenue en résolvant l’équation de score
∂`GEV
n (θ)
= 0, (3.6)
∂θ
qui peut être réalisée par optimisation non linéaire.
n h i
> >
X
+ (1 − Ji ) Zi β > Xi − eβ Xi − log (Zi !) + log 1 − e− exp (−γ Wi ) ,
i=1
n
X
= `i (θ).
i=1
∂`cloglog (θ)
`˙i (θ) = n =0 (3.8)
∂θ
où k = p + q.
∂`probit
n (θ)
=0 (3.10)
∂θ
La résolution de cette équation (non linéaire) est relativement simple à l’aide de
logiciels mathématiques standard.
3.3. Expériences numériques 74
logit(πi ) = γ1 + γ2 Wi2 + γ3 Wi3 + γ4 Wi4 , +γ5 Wi5 ,
− log(− log(π )) = γ + γ W + γ W + γ W , +γ W ,
i 1 2 i2 3 i3 4 i4 5 i5
gevit(π i ) = γ1 + γ W
2 i2 + γ W
3 i3 + γ W
4 i4 , +γ W
5 i5 ,
>
Φ(γ Wi ) = γ1 + γ2 Wi2 + γ3 Wi3 + γ4 Wi4 , +γ5 Wi5 ,
où Wi3 , Wi4 sont simulés indépendamment d’une distribution normale avec une
moyenne de 1 et un écart-type de 1.5 et de la distribution de Bernoulli avec une
probabilité de 0.5. On permet aux prédicteurs linéaires de partager des termes com-
muns en laissant Wi2 = Xi2 et Wi3 = Xi3 . Nous considérons successivement quatre
valeurs pour γ, à savoir : γ = (−0.9, −0.65, −0.2, 0.65, 0)> , γ = (0.9, 0.1, −0.4, 0.9, 0.6)> ,
γ = (0.9, 0.1, −0.4, 0.2, 0)> et γ = (−0.7, 0.6, −0.4, −0.5, 0.1)> . Les valeurs des para-
mètres des distributions normale, Bernoulli, exponentielle et uniforme, ainsi que
les paramètres de régression β et γ sont choisies de manière à ce que la proportion
moyenne de données à inflation de zéros dans les ensembles de données simulées
soit égale à 0.15. Nous considérons les tailles d’échantillon suivantes : n = 200, 1000
et 2000.
Nous comparons les estimations de ZIP-logit, ZIP-cloglog, ZIP-GEV et ZIP-probit
selon quatre scénarios : (i) seul logit(πi ) est correctement modélisé, et nous es-
timons, sur les données simulées, un modèle ZI-Poisson dans lequel la probabi-
lité d’une inflation de zéros est modélisée par cloglog, probit, puis GEV. (ii) seul
− log(− log(πi )) est correctement modélisé, et nous estimons, sur les données simu-
lées, un modèle ZI-Poisson dans lequel la probabilité d’inflation de zéros est mo-
délisée par le GEV, le cloglog, puis le probit. (iii) seuls gevit(πi ) sont correctement
modélisés, et nous estimons, sur les données simulées, un modèle ZI-Poisson dans
lequel la probabilité d’inflation zéros est modélisée par le logit, le cloglog, puis le
probit. (iv) seul Φ(γ > Wi ) est correctement modélisé, et nous estimons, sur les don-
nées simulées, un modèle ZI-Poisson dans lequel la probabilité d’inflation zéro est
modélisée par le logit, le GEV, puis le cloglog.
Nous simulons N = 1000 réplications pour chaque combinaison [taille de
l’échantillon × proportion d’inflation zéros] des paramètres du plan.
Les simulations sont réalisées à l’aide du logiciel statistique R [93]. Nous utilisons
le package maxLik [54] pour résoudre l’équation de score (3.6)-(3.8)-(3.10) via un
algorithme Newton-Raphson.
graphiques pour les autres scénarios sont similaires et ne sont donc pas présentés.
D’après ces résultats, il apparaît, comme prévu, que le biais, la variabilité et la lon-
gueur des intervalles de confiance pour toutes les estimations diminuent lorsque la
taille de l’échantillon augmente. Pour n fixe, nous observons que la performance des
β̂j,n reste stable. Ces observations illustrent le fait général qu’une estimation pré-
cise dans un modèle de régression à inflation nulle nécessite un équilibre entre les
sous-populations sensibles et non sensibles (c’est-à-dire qu’une quantité suffisante
d’observations nulles et non nulles doit être disponible pour estimer avec précision
les probabilités d’inflation nulle et le sous-modèle de comptage). De plus, les proba-
bilités de couverture empiriques sont proches du niveau nominal, ce qui indique que
l’approximation normale de la distribution de l’EMV est appropriée, même lorsque
la taille de l’échantillon est modérée. Ceci est confirmée par les figures 3.4 and 3.10.
Dans l’ensemble, cette étude de simulation confirme qu’il n’y a plus grand-chose
à craindre en termes de choix de modèle pour la probabilité d’inflation zéro. Que
la "vraie" distribution soit logit, probit ou cloglog, si le modèle GEV donne de bons
résultats, cela signifie qu’il est robuste et qu’il peut constituer un bon compromis
si l’on n’est pas certain de choisir l’un des trois liens classiques. Les estimations du
modèle ZIP-GEV sont surpassées par les trois autres liens dans tous les scénarios.
Des résultats de simulation non publiés avec d’autres tailles d’échantillon et des
proportions d’inflation de zéros fournissent des observations similaires.
66 ans et plus (soit un total de 4406 observations) qui sont toutes couvertes par
l’assurance maladie, un programme d’assurance public qui offre une protection sub-
stantielle contre les coûts des soins de santé. Les résidents des états-Unis peuvent
bénéficier de la couverture de Medicare à l’âge de 65 ans. Certaines personnes com-
mencent à bénéficier des prestations de Medicare quelques mois après leur 65e an-
née, principalement parce qu’elles n’ont pas demandé à être couvertes au moment
opportun. Pratiquement toutes les personnes âgées de 66 ans ou plus sont couvertes
par Medicare.
En outre, la plupart des personnes choisissent une assurance privée complémen-
taire peu avant ou pendant leur 65e année, car le prix de cette assurance augmente
fortement avec l’âge et la couverture devient plus restrictive. La variable de ré-
ponse est le nombre de visites chez un médecin dans un cabinet médical (désigné
par ofp dans ce qui suit). Les covariables disponibles comprennent : i) des variables
socio-économiques : sexe (1 pour les femmes, 0 pour les hommes), âge (en années,
divisé par 10), état civil, niveau d’éducation (nombre d’années d’éducation), revenu,
ii) diverses mesures de l’état de santé : nombre de maladies chroniques (cancer,
arthrite, problèmes de vésicule biliaire · · · ) et une variable indiquant le niveau de
santé auto-perçu (mauvais, moyen, excellent) et iii) une variable binaire indiquant
si l’individu est couvert par medicaid ou non (medicaid est une assurance maladie
américaine pour les individus ayant des revenus et des ressources limités, nous la
codons comme 1 si l’individu est couvert et 0 sinon). La santé perçue est recodée sous
la forme de deux variables fictives désignées par "health1" (1 si la santé est perçue
comme mauvaise, 0 sinon) et "health2" (1 si la santé est perçue comme excellente, 0
sinon).
Nous utilisons les quatre modèles suivants : ZIP-logit, ZIP-cloglog, ZIP-GEV et
ZIP-probit. La sélection des régresseurs à inclure dans πi nécessite une certaine at-
tention. En effet, il a été observé précédemment dans divers autres modèles à infla-
tion de zéros que l’inclusion de tous les régresseurs disponibles dans les probabilités
de comptage et de zéro inflation peut entraîner un manque d’identification des pa-
ramètres du modèle. Voir par exemple [33], qui suggère de résoudre ce problème
en laissant au moins une des covariables incluses dans le modèle de comptage être
exclue du modèle d’inflation zéro (ou l’inverse). Une telle condition n’est pas requise
dans le modèle ZIP. En utilisant le test de Wald, nous identifions les prédicteurs
significatifs qui sont inclus dans πi .
Les estimations des paramètres, les erreurs standard et les valeurs p des tests
de Wald correspondants sont indiqués dans le Tableau 3.5. à des fins de compa-
raison, nous indiquons également les valeurs AIC et BIC pour les quatre modèles.
Le modèle ZIP-GEV apparaît comme le meilleur modèle en termes d’AIC et de BIC.
Un examen plus approfondi des résultats du modèle de régression à lien logit, large-
3.5. Conclusion et Perspectives 79
ment utilisé dans la recherche sur l’utilisation des soins de santé, et de notre modèle
de régression GEV révèle quelques différences dans l’estimation des effets des co-
variables. Le sexe, le niveau d’éducation et le statut de bénéficiaire de l’aide sociale
sont identifiés par le modèle ZIP-GEV comme étant les facteurs les plus influents
pour être un non-usager permanent, les bénéficiaires de l’aide sociale étant plus
susceptibles d’être des non-usagers permanents. Les quatre modèles identifient le
même sous-ensemble de facteurs influents pour le recours aux soins de santé, avec
des estimations de paramètres similaires.
A partir du Tableau 3.5, nous observons que dans la population globale, les dé-
terminants significatifs de la décision de consulter un non-médecin incluent l’état
de santé, l’âge, le sexe, le niveau d’éducation et le statut medicaid. En outre, confor-
mément à l’analyse précédente, Medicaid et la couverture d’assurance privée sont
des déterminants importants de la décision de consulter un médecin et du nombre
de visites (comme prévu, les individus couverts sont moins susceptibles de renoncer
à des consultations, ils se font également soigner plus souvent). Comme déjà ob-
servé dans nos simulations, les estimations des paramètres et les erreurs standard
de πi (γ) ne sont que légèrement affectées du fait de la spécification de la fonction
de lien. Par conséquent, les tests de signification de Wald concordent quelle que soit
la fonction de lien. Les estimations des paramètres et les erreurs standard dans
la partie du modèle de Poisson sont plus sensibles. Dans l’ensemble, les EMVs de
la régression ZIP semblent être assez robuste lorsque la probabilité de succès est
modélisée par le lien GEV.
travaux futurs.
Sample size n = 200 Sample size n = 1000 Sample size n = 2000
estimator β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n
bias 0.00167 0.00052 -0.00082 -0.00078 0.00040 -0.00219 -0.00049 0.00067 0.00053 -0.00041 -0.00109 0.00022 0.00011 0.00093 -0.00014
SD 0.07911 0.03278 0.01908 0.03131 0.02359 0.06069 0.02205 0.01431 0.02338 0.01707 0.04093 0.01511 0.0097 0.01612 0.01269
logit SE 0.08156 0.03244 0.01954 0.03239 0.02461 0.05759 0.02288 0.01379 0.02282 0.01740 0.04062 0.01615 0.00972 0.01611 0.01225
RMSE 0.11361 0.04611 0.02732 0.04505 0.03409 0.08367 0.03177 0.01988 0.03267 0.02437 0.05766 0.02212 0.01373 0.02281 0.01763
CP 0.94689 0.95892 0.95190 0.96593 0.96693 0.94294 0.95495 0.94895 0.94595 0.95495 0.94689 0.95892 0.95190 0.96593 0.96693
`(CI) 0.31958 0.12714 0.07656 0.12695 0.09638 0.22571 0.08966 0.05404 0.08946 0.06816 0.15922 0.06331 0.03809 0.06314 0.04801
bias 0.00165 0.00051 -0.00081 -0.00075 0.00037 -0.00220 -0.00053 0.00068 0.00056 -0.00042 -0.00111 0.00020 0.00012 0.00096 -0.00016
SD 0.07913 0.03279 0.01908 0.03132 0.02359 0.06070 0.02206 0.01431 0.02339 0.01707 0.04093 0.01513 0.0097 0.01613 0.01269
3.5. Conclusion et Perspectives
cloglog SE 0.08149 0.03244 0.01952 0.03239 0.02461 0.05754 0.02287 0.01378 0.02282 0.01739 0.04060 0.01615 0.00971 0.01611 0.01225
RMSE 0.11357 0.04611 0.02730 0.04505 0.03408 0.08364 0.03178 0.01987 0.03268 0.02437 0.05765 0.02212 0.01372 0.02281 0.01763
CP 0.94489 0.95892 0.95391 0.96493 0.96493 0.94294 0.95495 0.94995 0.94595 0.95596 0.94489 0.95892 0.95391 0.96493 0.96493
`(CI) 0.31927 0.12712 0.07648 0.12694 0.09636 0.22550 0.08966 0.05399 0.08945 0.06816 0.15914 0.06330 0.03807 0.06314 0.04801
bias 0.00168 0.00050 -0.00082 -0.00077 0.00039 -0.00217 -0.00052 0.00067 0.00054 -0.00041 -0.00107 0.00020 0.00011 0.00094 -0.00015
SD 0.07911 0.03279 0.01908 0.03131 0.02359 0.06069 0.02206 0.01431 0.02339 0.01707 0.04093 0.01512 0.0097 0.01613 0.01269
probit SE 0.08148 0.03244 0.01952 0.03239 0.02461 0.05754 0.02287 0.01378 0.02282 0.01739 0.04060 0.01615 0.00971 0.01611 0.01225
RMSE 0.11355 0.04611 0.02730 0.04505 0.03408 0.08364 0.03177 0.01987 0.03267 0.02437 0.05765 0.02212 0.01372 0.02281 0.01763
CP 0.94589 0.95892 0.95391 0.96393 0.96693 0.94294 0.95495 0.94995 0.94595 0.95495 0.94589 0.95892 0.95391 0.96393 0.96693
`(CI) 0.31926 0.12712 0.07648 0.12694 0.09636 0.22550 0.08965 0.05399 0.08945 0.06816 0.15915 0.06330 0.03807 0.06314 0.04801
bias 0.00160 0.00053 -0.00080 -0.00074 0.00036 -0.00225 -0.00051 0.00069 0.00057 -0.00043 -0.00117 0.00022 0.00013 0.00097 -0.00017
Tableau 3.1 – Résultats de simulation pour le scénario (i) (les données sont simu-
81
Sample size n = 200 Sample size n = 1000 Sample size n = 2000
estimator β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n
bias -0.00536 0.00013 0.00097 0.00040 0.00017 -0.00099 0.00163 0.00007 -0.00091 -0.00021 0.00023 0.00016 -0.00007 -0.00011 0.00011
SD 0.08793 0.03242 0.02080 0.03280 0.02509 0.08509 0.03373 0.02050 0.03333 0.02594 0.04163 0.01628 0.00989 0.01635 0.01254
cloglog SE 0.08543 0.03326 0.02038 0.03327 0.02523 0.08539 0.03326 0.02038 0.03327 0.02524 0.04246 0.01654 0.01013 0.01654 0.01255
RMSE 0.12268 0.04644 0.02913 0.04671 0.03557 0.12052 0.04739 0.02890 0.04710 0.03618 0.05945 0.02321 0.01415 0.02325 0.01773
CP 0.94700 0.94400 0.94700 0.95300 0.95200 0.95391 0.94389 0.94389 0.9519 0.94589 0.95900 0.94900 0.95900 0.95600 0.95200
`(CI) 0.33469 0.13034 0.07984 0.13037 0.09879 0.33454 0.13035 0.07985 0.13040 0.09884 0.16641 0.06485 0.03968 0.06482 0.04917
bias -0.00578 0.00014 0.00105 0.00054 0.00008 -0.00138 0.00167 0.00014 -0.00077 -0.00032 -0.00020 0.00019 0.00000 0.00006 0.00001
SD 0.08807 0.03243 0.02082 0.03280 0.02509 0.08506 0.03377 0.02050 0.03337 0.02594 0.04161 0.01629 0.00989 0.01635 0.01254
3.5. Conclusion et Perspectives
GEV SE 0.08542 0.03326 0.02038 0.03326 0.02522 0.08536 0.03326 0.02038 0.03327 0.02523 0.04245 0.01654 0.01012 0.01654 0.01254
RMSE 0.12279 0.04644 0.02915 0.04671 0.03556 0.12048 0.04741 0.02890 0.04711 0.03618 0.05943 0.02321 0.01415 0.02325 0.01773
CP 0.94800 0.94400 0.94700 0.95600 0.95200 0.95391 0.94289 0.94188 0.9509 0.94589 0.95800 0.94900 0.95900 0.95600 0.95300
`(CI) 0.33466 0.13034 0.07984 0.13036 0.09876 0.33443 0.13034 0.07983 0.13038 0.09882 0.16640 0.06485 0.03968 0.06481 0.04915
bias -0.00479 0.00007 0.00086 0.00005 0.00057 -0.00030 0.00149 -0.00006 -0.00128 0.00021 0.00104 0.00007 -0.00022 -0.00056 0.00057
SD 0.08785 0.03242 0.02078 0.03279 0.02509 0.08508 0.03373 0.02049 0.03330 0.02589 0.04171 0.01628 0.00991 0.01635 0.01255
logit SE 0.08552 0.03327 0.02040 0.03327 0.02527 0.08547 0.03327 0.02040 0.03328 0.02528 0.04250 0.01655 0.01014 0.01654 0.01257
RMSE 0.12266 0.04644 0.02912 0.04670 0.03561 0.12057 0.04739 0.02891 0.04709 0.03617 0.05954 0.02321 0.01417 0.02326 0.01777
CP 0.94700 0.94600 0.94700 0.95300 0.95000 0.95591 0.94489 0.94489 0.9519 0.94589 0.95700 0.94900 0.96000 0.95600 0.95500
`(CI) 0.33504 0.13038 0.07992 0.13041 0.09895 0.33488 0.13038 0.07993 0.13043 0.09900 0.16658 0.06486 0.03972 0.06483 0.04925
Tableau 3.2 – Résultats de simulation pour le scénario (ii) (les données sont simulées à
82
Sample size n = 200 Sample size n = 1000 Sample size n = 2000
estimator β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n
bias -0.00223 -0.00168 0.00044 0.00176 -0.00071 -0.00284 -0.00058 0.00045 0.00097 0.00030 -0.00225 0.00057 0.00023 0.00065 0.00029
SD 0.08603 0.03314 0.02043 0.03343 0.02455 0.06125 0.02432 0.01449 0.02309 0.01727 0.04310 0.01662 0.01004 0.01672 0.01267
GEV SE 0.08689 0.0331 0.02066 0.03311 0.02530 0.06126 0.02333 0.01456 0.02333 0.01782 0.04325 0.01648 0.01027 0.01647 0.01256
RMSE 0.12227 0.04686 0.02905 0.04707 0.03525 0.08665 0.03369 0.02054 0.03283 0.02481 0.06109 0.02340 0.01437 0.02347 0.01784
CP 0.95300 0.95000 0.94700 0.93900 0.95600 0.94800 0.93400 0.95300 0.95500 0.96100 0.94800 0.95000 0.95300 0.95200 0.96000
`(CI) 0.34043 0.12970 0.08093 0.12974 0.09909 0.24007 0.09144 0.05704 0.09144 0.06980 0.16954 0.06459 0.04027 0.06457 0.04922
bias -0.00267 -0.00168 0.00054 0.00178 -0.00065 -0.00321 -0.00058 0.00054 0.00097 0.00037 -0.00267 0.00058 0.00033 0.00065 0.00035
SD 0.08603 0.03315 0.02043 0.03342 0.02451 0.06123 0.02430 0.01448 0.02308 0.01728 0.04312 0.01663 0.01004 0.01672 0.01268
3.5. Conclusion et Perspectives
logit SE 0.08694 0.0331 0.02067 0.03311 0.02532 0.06129 0.02333 0.01456 0.02333 0.01783 0.04327 0.01648 0.01028 0.01647 0.01257
RMSE 0.12231 0.04687 0.02906 0.04706 0.03524 0.08668 0.03368 0.02054 0.03282 0.02482 0.06113 0.02341 0.01437 0.02347 0.01785
CP 0.95400 0.94900 0.94700 0.94000 0.95900 0.94800 0.93500 0.95400 0.95400 0.96200 0.94600 0.95100 0.95300 0.95100 0.95900
`(CI) 0.34060 0.12972 0.08096 0.12976 0.09915 0.24020 0.09146 0.05707 0.09145 0.06985 0.16960 0.06460 0.04028 0.06458 0.04926
bias -0.00219 -0.00167 0.00043 0.00175 -0.00069 -0.00277 -0.00057 0.00044 0.00095 0.00032 -0.00220 0.00059 0.00022 0.00063 0.00031
SD 0.08602 0.03314 0.02043 0.03343 0.02454 0.06123 0.02431 0.01448 0.02308 0.01727 0.04310 0.01662 0.01004 0.01672 0.01267
cloglog SE 0.08689 0.0331 0.02066 0.03311 0.02531 0.06126 0.02333 0.01455 0.02333 0.01782 0.04326 0.01648 0.01028 0.01647 0.01256
RMSE 0.12226 0.04686 0.02905 0.04707 0.03525 0.08664 0.03369 0.02053 0.03282 0.02481 0.06109 0.02341 0.01436 0.02347 0.01784
CP 0.95300 0.95000 0.94700 0.94000 0.95900 0.94900 0.93400 0.95400 0.95500 0.96100 0.94800 0.95000 0.95200 0.95200 0.96000
`(CI) 0.34043 0.12970 0.08093 0.12974 0.09910 0.24006 0.09145 0.05704 0.09144 0.06981 0.16955 0.06459 0.04027 0.06457 0.04923
bias -0.00242 -0.00167 0.00048 0.00177 -0.00069 -0.00297 -0.00057 0.00048 0.00096 0.00033 -0.00242 0.00059 0.00027 0.00065 0.00031
SD 0.08602 0.03315 0.02042 0.03342 0.02453 0.06123 0.02430 0.01448 0.02308 0.01728 0.04311 0.01663 0.01004 0.01672 0.01268
probit SE 0.08689 0.0331 0.02066 0.03311 0.02531 0.06127 0.02333 0.01456 0.02333 0.01782 0.04326 0.01648 0.01027 0.01647 0.01257
RMSE 0.12226 0.04686 0.02905 0.04706 0.03524 0.08664 0.03369 0.02053 0.03282 0.02482 0.06110 0.02341 0.01436 0.02347 0.01785
CP 0.95400 0.94800 0.94700 0.94100 0.96000 0.94800 0.93400 0.95400 0.95500 0.96200 0.94800 0.95100 0.95200 0.95200 0.96000
Tableau 3.3 – Résultats de simulation pour le scénario (iii) (les données sont simu-
83
Sample size n = 200 Sample size n = 1000 Sample size n = 2000
estimator β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n
bias -0.00144 0.00166 0.00025 -0.00079 -0.00046 0.00489 0.00045 -0.00100 -0.00154 -0.00125 -0.00022 0.00025 -0.00015 0.00024 0.00050
SD 0.08433 0.03327 0.02052 0.03257 0.02549 0.05942 0.02235 0.01406 0.02334 0.01787 0.04293 0.01645 0.01037 0.01647 0.01238
probit SE 0.08559 0.03327 0.02052 0.0333 0.02538 0.06030 0.02347 0.01446 0.02348 0.01793 0.04255 0.01656 0.0102 0.01656 0.01263
RMSE 0.12268 0.04644 0.02913 0.04671 0.03557 0.08478 0.03240 0.02019 0.03314 0.02533 0.06043 0.02334 0.01454 0.02335 0.01769
CP 0.95100 0.94500 0.94800 0.95800 0.94900 0.94000 0.96000 0.95300 0.94600 0.94900 0.94800 0.95200 0.94500 0.95200 0.94600
`(CI) 0.33534 0.13038 0.08041 0.13050 0.09941 0.23631 0.09200 0.05666 0.09203 0.07024 0.16676 0.06492 0.03998 0.06492 0.04949
bias -0.00158 0.00159 0.00030 -0.00084 -0.00039 0.00472 0.00038 -0.00095 -0.00157 -0.00117 -0.00038 0.00017 -0.00010 0.00019 0.00057
SD 0.08434 0.03327 0.02052 0.03257 0.02550 0.05941 0.02234 0.01405 0.02334 0.01788 0.04293 0.01645 0.01036 0.01647 0.01238
3.5. Conclusion et Perspectives
logit SE 0.08563 0.03327 0.02053 0.0333 0.02539 0.06034 0.02347 0.01447 0.02348 0.01793 0.04257 0.01656 0.0102 0.01656 0.01263
RMSE 0.12279 0.04644 0.02915 0.04671 0.03556 0.08479 0.03240 0.02019 0.03314 0.02534 0.06044 0.02334 0.01454 0.02335 0.01769
CP 0.95100 0.94500 0.94900 0.95700 0.94800 0.94100 0.95900 0.95200 0.94600 0.94900 0.94900 0.95200 0.94500 0.95300 0.94600
`(CI) 0.33549 0.13039 0.08044 0.13051 0.09944 0.23646 0.09201 0.05670 0.09204 0.07026 0.16684 0.06493 0.03999 0.06493 0.04950
bias -0.00164 0.00169 0.00027 -0.00060 -0.00061 0.00485 0.00046 -0.00101 -0.00140 -0.00137 -0.00028 0.00026 -0.00016 0.00040 0.00040
SD 0.08438 0.03332 0.02052 0.03259 0.02547 0.05952 0.02236 0.01409 0.02335 0.01784 0.04296 0.01645 0.01038 0.01648 0.01239
GEV SE 0.08558 0.03327 0.02052 0.0333 0.02538 0.06031 0.02347 0.01446 0.02348 0.01792 0.04255 0.01657 0.0102 0.01656 0.01262
RMSE 0.12266 0.04644 0.02912 0.04670 0.03561 0.08485 0.03242 0.02021 0.03314 0.02532 0.06045 0.02334 0.01455 0.02336 0.01769
CP 0.95000 0.94500 0.94700 0.95900 0.95000 0.94000 0.96000 0.95500 0.94700 0.94500 0.94700 0.95100 0.94500 0.95100 0.94400
`(CI) 0.33528 0.13039 0.08040 0.13051 0.09938 0.23634 0.09201 0.05668 0.09204 0.07022 0.16678 0.06493 0.03999 0.06493 0.04947
bias -0.00143 0.00171 0.00023 -0.00070 -0.00055 0.00497 0.00049 -0.00103 -0.00147 -0.00132 -0.00015 0.00028 -0.00018 0.00032 0.00044
Tableau 3.4 – Résultats de simulation pour le scénario (iv) (les données sont simulées à
84
ZIP-logit ZIP-cloglog ZIP-probit ZIP-GEV
parameter estimate std. error p-value estimate std. error p-value estimate std. error p-value estimate std. error p-value
β intercept 2.107600 0.083845 < 2e-16 2.107307 0.083966 < 2e-16 2.107322 0.084116 < 2e-16 2.107298 0.083924 < 2e-16
health1 0.216096 0.017475 < 2e-16 0.216141 0.017476 < 2e-16 0.216145 0.017466 < 2e-16 0.216139 0.017475 < 2e-16
health2 -0.309847 0.032088 < 2e-16 -0.309823 0.032008 < 2e-16 -0.309820 0.032017 < 2e-16 -0.309828 0.032007 < 2e-16
chronic 0.101100 0.004687 < 2e-16 0.101130 0.004687 < 2e-16 0.101130 0.004686 < 2e-16 0.101130 0.004687 < 2e-16
age -0.041543 0.010780 0.000116 -0.041510 0.010789 0.000119 -0.041513 0.010818 0.000124 -0.041509 0.010787 0.000119
3.5. Conclusion et Perspectives
gender 0.040590 0.014565 0.00532 0.040632 0.014575 0.005308 0.040632 0.014577 0.005314 0.040632 0.014570 0.005290
marital status -0.057870 0.014549 6.96e-05 -0.058063 0.014560 6.67e-05 -0.058059 0.014560 6.67e-05 -0.058065 0.014552 6.6e-05
medicaid -4.146603 0.604049 6.66e-12 -1.387464 0.141618 < 2e-16 -2.091134 0.240377 < 2e-16 -1.211755 0.105226 < 2e-16
γ intercept -1.087734 0.417460 0.009171 -0.246212 0.139332 0.007214 -0.423944 0.274905 0.001230 -0.181759 0.103488 0.079033
health1 0.156647 0.309113 0.001232 0.046947 0.091010 0.005962 0.080328 0.148813 0.005893 0.034773 0.067249 0.006051
gender -0.029280 0.300195 0.009223 -0.027812 0.086833 0.004874 -0.045913 0.147320 0.007553 -0.020948 0.065192 0.007479
marital status -0.033666 0.050604 0.005058 -0.011360 0.011039 0.003034 -0.019310 0.019383 0.0003191 -0.008435 0.008168 0.003017
education -0.0531 0.0365 7.94e-05 -0.1642 0.0087 8.68e-08 -1.1599 0.2616 0.00431 -1.5664 0.01250 0.001278
Tableau 3.5 – Analyse des données sur les soins de santé : estimations, erreurs standard et valeurs p−value des modèles
ZIP-logit, ZIP cloglog, ZIP-probit et ZIP-GEV.
85
3.5. Conclusion et Perspectives 86
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2
Density plot for β1,n Density plot for β2,n Density plot for β3,n
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −2 0 2 4 −2 0 2 4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2 4
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.00 0.10 0.20 0.30
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −2 0 2 4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −2 0 2 4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −3 −2 −1 0 1 2 3
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −3 −2 −1 0 1 2 3
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−6 −4 −2 0 2 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −2 0 2 4 −2 0 2 4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −2 0 2 4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −3 −2 −1 0 1 2 3 −4 −2 0 2 4
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −4 −2 0 2
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
C ette thèse porte sur les problèmes de l’inférence statistique dans des modèles de
comptage sur-dispersés. C’est un travail qui s’articule autour de deux contributions.
simulées et d’une analyse de l’utilisation des soins de santé, nous montrons que les
fonctions de lien alternatives proposées sont assez flexibles et surpassent la fonction
de lien standard.
ou équivalent, à :
fi (θ) gi (θ∗ ) hi (θ∗ )
zi (β − γ − β ∗ + γ ∗ )> xi + (zi − 1) log = log + mi log . (3.11)
fi (θ∗ ) gi (θ) hi (θ)
La partie droite de (3.11) ne dépend pas de zi et est donc constante pour des valeurs
positives distinctes de zi . Considérons, par exemple, zi = z et zi = z + 1 (selon
la condition 4, zi peut prendre au moins deux valeurs positives distinctes). Nous
obtenons :
fi (θ)
(β − γ − β ∗ + γ ∗ )> xi = − log . (3.12)
fi (θ∗ )
3.5. Conclusion et Perspectives 101
Supposons que log(fi (θ)/fi (θ∗ )) 6= 0 et différencier (3.12) par rapport à β. On obtient
> >
xi (1 + eβ xi /fi (θ)) = 0. La condition 1 implique que 1 + eβ xi /fi (θ) = 0, ce qui est
une contradiction puisque fi (θ) > 0. Donc fi (θ) = fi (θ∗ ), ce qui implique que (β − γ −
β ∗ + γ ∗ )> xi = 0. L’indépendance linéaire des xi1 , . . . , xip (condition 1) implique que
> > ∗> ∗>
β − γ = β ∗ − γ ∗ . Or, fi (θ) = fi (θ∗ ) est équivalent à eβ xi + eγ xi = eβ xi + eγ xi , ce qui
implique :
>
>
∗>
∗ ∗>
eγ xi e(β−γ) xi + 1 = eγ xi e(β −γ ) xi + 1 ,
Lemme 3.2 ∂ ``˙ n (θ)/∂θ> existe et est continu dans un voisinage ouvert de θ0 .
Lemme 3.3 Comme n → ∞, n−1/2 ``˙ n (θ0 ) converge presque sûrement vers 0.
Preuve du Lemme 3.3. Pour prouver ce lemme, nous vérifions les conditions de
la loi forte des grands nombres [voir 60, Théorème 6.7]. D’abord, un peu d’algèbre
simple permet d’obtenir : :
˙
1 Pn
n i=1 Xi1 `β,i (θ0 )
..
P .
1 n X `˙ (θ )
ip β,i 0
n−1/2 ``˙ n (θ0 ) = n1 Pi=1 .
n ˙
n i=1 Xi1 `γ,i (θ0 )
..
.
1
Pn ˙
n i=1 Xip `γ,i (θ0 )
Nous commençons par prouver que E[Xij `˙γ,i (θ0 )] = 0 pour chaque = 1, . . . , n et j =
1, . . . , p. Pour voir cela, noter que :
h i h h ii
˙ ˙
E Xij `γ,i (θ0 ) = E Xij E `γ,i (θ0 )|Xi ,
3.5. Conclusion et Perspectives 102
et
> > >
!
h
˙
i mi eβ0 Xi + eγ0 Xi eγ0 Xi
E `γ,i (θ0 )|Xi = −E [Ji |Xi ] + E [Zi |Xi ] −1
gi (θ0 )ki (θ0 ) fi (θ0 )
> > >
eγ0 Xi mi eβ0 Xi + eγ0 Xi
− + . (3.13)
fi (θ0 ) gi (θ0 )
Maintenant,
et
E [Zi |Xi ] = mi pi (1 − πi )
>
eβ0 Xi
= mi > . (3.15)
1 + eβ0 Xi
On remplace (3.14) et (3.15) dans (3.13) et on obtient :
> > > >
!
h
˙
i mi eβ0 Xi + eγ0 Xi ki (θ0 ) eβ0 Xi eγ0 Xi
E `γ,i (θ0 )|Xi = − + mi > −1
gi (θ0 )ki (θ0 ) fi (θ0 ) 1 + eβ0 Xi fi (θ0 )
> > >
eγ0 Xi mi eβ0 Xi + eγ0 Xi fi (θ0 )
− +
fi (θ0 ) gi (θ0 ) fi (θ0 )
!
β0> Xi γ0> Xi β0> Xi β0> Xi >
mi e +e gi (θ0 ) e 1+e eγ0 Xi
= − mi > −
gi (θ0 ) fi (θ0 ) 1 + eβ0 Xi fi (θ0 ) fi (θ0 )
= 0,
Il n’est pas difficile de vérifier que E[var(`˙γ,i (θ0 )|Xi )] est délimité. Pour le voir, notez
que :
!2 !2
β0> Xi γ0> Xi γ0> Xi
m i e + e e
var `˙γ,i (θ0 )|Xi = var (Ji |Xi ) + − 1 var (Zi |Xi )
gi (θ0 )ki (θ0 ) fi (θ0 )
> >
! >
!
mi eβ0 Xi + eγ0 Xi eγ0 Xi
+2 − 1 E [Ji |Xi ] E [Zi |Xi ]
gi (θ0 )ki (θ0 ) fi (θ0 )
> >
!2 >
!2
mi eβ0 Xi + eγ0 Xi eγ0 Xi
≤ + − 1 M 2, (3.16)
gi (θ0 )ki (θ0 ) fi (θ0 )
>
depuis var(Ji |Xi ) ≤ 1, var(Zi |Xi ) ≤ M 2 et (eγ0 Xi /fi (θ0 ) − 1) est négatif. Soit MX =
> >
maxu∈C,X∈X eu X et mX = minu∈C,X∈X eu X , où X = [−c1 , c1 ]p . Nous déduisons de (3.16)
que :
2
(M + 1)M X
var `˙γ,i (θ0 )|Xi ≤ c2 := + M 2 < ∞,
mX
et donc,
var Xij `˙γ,i (θ0 ) ≤ c21 c2 .
Il s’ensuit que
∞ ∞
X var(Xij `˙γ,i (θ0 )) X 1
≤ c21 c2 < ∞.
i=1
i2 i=1
i 2
Par la loi forte des grands nombres [60, Théorème 6.7], nous concluons que
n n
1 Xn h io 1 X
Xij `˙γ,i (θ0 ) − E Xij `˙γ,i (θ0 ) = Xij `˙γ,i (θ0 ), j = 1, . . . , p
n i=1 n i=1
sûrement vers 0. Par conséquent, n−1/2 `˙n (θ0 ) converge presque sûrement vers 0, ce
qui conclut la preuve.
Lemme 3.4 Comme n → ∞, n−1/2 ∂ ``˙ n (θ)/∂θ> converge presque sûrement vers L(θ),
uniformément dans un voisinage ouvert de θ0 . De plus, L est continu.
Preuve de lemme 3.4. Soit `` e n (θ) = n−1/2 ∂ `˙n (θ)/∂θ> et Vθ soit un voisinage ouvert
0
On a :
n n
∂ 2 `i (θ)
2 2
1X ∂ `i (θ) 1X ∂ `i (θ)
``
e n (θ) = −E + E .
(`,j) n i=1 ∂θ` ∂θj ∂θ` ∂θj n i=1 ∂θ` ∂θj
Maintenant,
2
2
2 !
∂ `i (θ) ∂ `i (θ)
var ≤E .
∂θ` ∂θj ∂θ` ∂θj
Nous prouvons que var(∂ 2 `i (θ)/∂θ` ∂θj ) est délimité. Un peu d’algèbre fastidieuse
(bien que peu compliquée) montre que ∂ 2 `i (θ)/∂θ` ∂θj est le (`, j)-ième élément de la
matrice (2p × 2p) − Vi Di (θ)Vi> , où Vi est la matrice (2p × 2) définie comme
!
Xi 0p,1
Vi =
0p,1 Xi
et
!
D1,i (θ) D3,i (θ)
Di (θ) =
D3,i (θ) D2,i (θ)
h >
i >
>
>
Vi (θ) = Qi (θ) + eβ Xi (1 − 2mi ) 1 + eβ Xi gi (θ) − eβ Xi Qi (θ) fi (θ) + eβ Xi ,
>X
2
β > Xi γ > Xi
Wi (θ) = e(β+γ) i
ki (θ)(mi − 1) + gi (θ)hm
i
i
(θ) m i e + e ,
>X
h > i
β > Xi γ > Xi
Yi (θ) = mi eγ i
gi (θ)ki (θ) + eγ Xi ki (θ) + gi (θ)hm
i
i
(θ) mi e + e Qi (θ).
3.5. Conclusion et Perspectives 105
Après avoir vérifié les conditions du théorème de la fonction inverse de Foutz [38],
nous concluons que θ̂n converge presque sûrement vers θ0 .
˙ n (θ̂n ) à θ0
Preuve du théorème 2.8. Une expansion de la série de Taylor de ``
donne :
˙ √
˙ n (θ0 ) + √1 ∂ ``n (θ0 ) n(θ̂n − θ0 ) + oP (1),
˙ n (θ̂n ) = ``
0 = ``
n ∂θ>
3.5. Conclusion et Perspectives 106
et donc
!−1
√ ˙ n (θ0 )
1 ∂ ``
n(θ̂n − θ0 ) = − √ ˙ n (θ0 ) + oP (1)
``
n ∂θ>
!−1 2n
˙ n (θ0 )
1 ∂ `` X
= − √ V•j Sj,n (θ0 ) + oP (1),
n ∂θ> j=1
Puisque kV•j k est délimité, la condition 3 implique que a) est satisfaite. La condi-
tion b) suit en notant que les Sj,n (θ0 ), j = 1, . . . , 2n sont délimités dans les condi-
2
tions 1, 2 et 4. Enfin, dans les conditions 1, 2 et 4, nous avons E[Sj,n (θ0 )] > 0
pour chaque j = 1, . . . , 2n. Maintenant, S2n = var(`` ˙ n (θ0 )) = n−1 Pn
i=1 var(∂`i (θ0 )/
−1
P n 2 >
∂θ) = −n i=1 E ∂ `i (θ)/∂θ∂θ converge vers −L(θ0 ) par la condition 3. Il s’ensuit
P2n
que j=1 V•j Sj,n (θ0 ) est distribué asymptotiquement comme une normale multiva-
riée avec une moyenne nulle et une variance L(θ0 ).
√
Enfin, par le lemme 3.4 et le théorème de Slutsky, nous concluons que n(θ̂n −θ0 )
est distribué asymptotiquement comme une normale multivariée avec une moyenne
nulle et une variance L(θ0 )−1 .
Maintenant, comme n → ∞, nous avons :
Le premier terme dans la partie droite de (3.18) converge vers 0 par lemme 3.4.
La cohérence de θ̂n et la continuité de L impliquent que le second terme converge
également vers 0. Il s’ensuit que n−1/2 ∂ `` ˙ n (θ̂n )/∂θ> converge vers L(θ0 ) et enfin,
que (n−1/2 ∂ `˙n (θ̂n )/∂θ> )−1 est une estimation cohérente de la variance asymptotique
L(θ0 )−1 .
Bibliographie
[1] Abid, R., Kokonendji, C.C., and Masmoudi, A., 2020. Geometric Tweedie re-
gression models for continuous and semicontinuous data with variation phe-
nomenon. AStA. Adv. Statist. Anal. 104, pp. 33-58
[2] Agresti, A., 2002. Categorical data analysis. 2nd Edition. Wiley Series in Pro-
bability and Mathematical Statistics. Applied Probability and Statistics. Chi-
chester : Wiley.
[3] Albert, J. M., Wang, W., Nelson, S., 2014. Estimating overall exposure effects
for zero-inflated regression models with application to dental caries. Statistical
Methods in Medical Research 23(3), 257-278.
[4] Ali, E., Diop, A. and Dupuy, J.-F., 2020. A constrained marginal zero-inflated
binomial regression model. Communications in Statistics-Theory and Methods,
doi : 10.1080/03610926.2020.1861296
[6] B. H. Cohen,1963. Recall of categorized words lists, J. Exp. Psychol. 66, pp.
227-234
[8] Bonat,W.H., Jorgensen, B., Kokonendji, C.C., Hinde, J. , and Demetrio C.G.B.,
2018. Extended Poisson-Tweedie : properties and regression models for count
data, Stat. Model. 18 , pp. 24-49
Bibliographie 108
[9] Calabrese, R. and Osmetti, S. A., 2013. Modelling Small and Medium Enter-
prise Loan Defaults as Rare Events: The Generalized Extreme Value Regres-
sion Model. Journal of Applied Statistics, 40(6), 1172-1188.
[12] Cameron, A. C., Trivedi, P. K., 2013. Regression Analysis of Count Data. Cam-
bridge University Press, Cambridge.
[13] Carroll,R. J., Ruppert,D., and Stefanski,L. A. 1995. Measurement error in non-
linear models. Chapman and Hall, New York.
[14] Consul, P.C., 1989. Generalized Poisson Distributions: Properties and Applica-
tions. Marcel Dekker,NewYork
[17] Chen, M.-H., Dey, D. K. and Shao, Q.-M. 1999 A new skewed link model for
dichotomous quantal response data. J. Amer. Statist. Assoc. 94 1172-1186.
[18] Chen, M.-H. and Shao, Q.-M., 2000. Propriety of posterior distribution for di-
chotomous quantal response models with general link functions. Proc. Amer.
Math. Soc. 129 293-302.
[20] Czado, C. and Santner, T. J. 1992. The effect of link misspecification on binary
regression inference. J. Statist. Plann. Inference 33 213-231.
[21] Czado, C., Erhardt, V., Min, A., Wagner, S. 2007. Zero-inflated generalized Pois-
son models with regression effects on the mean, dispersion and zero-inflation
level applied to patent outsourcing rates. Statistical Modelling 7(2), 125-153.
Bibliographie 109
[22] Czado, C., Min, A., 2005. Consistency and asymptotic normality of the
maximum likelihood estimator in a zero-inflated generalized Poisson regres-
sion. Collaborative Research Center 386, Discussion Paper 423 , Ludwig-
Maximilians-Universität, München.
[23] Dean, C.B. Testing for overdispersion in Poisson and binomial regression mo-
dels. Journal of the American Statistical Association, 87:451-457,1992.
[24] Dean, C., Lawless, J.F. , 1989. Tests for detecting overdispersion in Poisson
regression models. Journal of the American Statistical Association, 84: 467-
471.
[25] Deb P., Trivedi P. K. , 1997. Demand for medical care by the elderly: a finite
mixture approach. Journal of Applied Econometrics, 12(3):313-336.
[26] Diallo A., Diop A., Dupuy J.-F., 2017. Asymptotic properties of the maximum
likelihood estimator in zero-inflated binomial regression. Communications in
Statistics - Theory and Methods,46(20), 9930-9948.
[27] Diallo A., Diop A., Dupuy J.-F., 2018. Analysis of multinomial counts with joint
zero-inflation, with an application to health economics. Journal of Statistical
Planning and Inference ,194, 85-105.
[28] Diallo, A. O., Diop, A., Dupuy, J.-F., 2019. Estimation in zero-inflated binomial
regression with missing covariates. Statistics 53(4), 839-865.
[29] Diop A., Diop A., Dupuy J.-F., 2011. Maximum likelihood estimation in the
logistic regression model with a cure fraction Electronic Journal of Statistics,5,
460-483.
[30] Diop A., Diop A., Dupuy J.-F., 2016. Simulation-based inference in a zero-
inflated Bernoulli regression model. Communications in Statistics - Simulation
and Computation,45(10), 3597-3614.
[33] Deng, D., Zhang, Y., 2015. Score tests for both extra zeros and extra ones in
binomial mixed regression models. Communications in Statistics - Theory and
Methods 44, 2881-2897.
Bibliographie 110
[34] Dempster,A., Laird,N., and Rubin, D. 1977. Maximum likelihood from incom-
plete data via the em algorithm (with discussion). J. Roy. Statist. Soc. Ser. B,
39 :1-38.
[35] Dupuy, J.-F., 2018. Statistical Methods for Overdispersed Count Data. ISTE
Press - Elsevier.
[36] Eicker, F., 1966. A multivariate central limit theorem for random linear vector
forms. The Annals of Mathematical Statistics 37(6), 1825-1828.
[37] Feng, J., Zhu, Z., 2011. Semiparametric analysis of longitudinal zero-inflated
count data. Journal of Multivariate Analysis 102, 61-72.
[38] Foutz, R. V., 1977. On the unique consistent solution to the likelihood equa-
tions. Journal of the American Statistical Association 72, 147-148.
[40] Famoye, F., Singh, K.P.,2003. On inflated generalized Poisson regression mo-
dels. Advances and Applications of Statistics, 3:145-158.
[41] Famoye, F., Singh, K.P.,2006. Zero-inflated generalized Poisson regression mo-
del with an application to domestic violence data. Journal of Data Science,
4:117-130.
[43] Fong D.Y.T., Yip., 1995. A note on information loss in analysing a mixture mo-
del of count data. Comm. Statist. Theory Methods,24:3197-3209.
[44] Garay AM, Hashimoto EM, Ortega EMM.,2011. On estimation and influence
diagnostics for zero-inflated negative binomial regression models. Comput Sta-
tist Data Anal, 55(3):1304-1318.
[45] Greene W., 1994. Accounting for excess zeros and sample selection in poisson
and negative binomial regression models. Working Paper, Dep of Eco, New York
University.
[46] Gupta, P.L.,Gupta, R.C., Tripathi,R.C., 2004 Score test for zero inflated ge-
neralized Poisson regression model.Communication in Statistics?Theory and
Methods, 33:47-64.
Bibliographie 111
[47] Gurmu, S., Rilstone,P., Stern, S.,1999 Semiparametric estimation of count re-
gression models. Journal of Econometrics,88:123-150.
[49] Hall, DB.,2000. Zero-inflated Poisson and binomial regression with random ef-
fects: a case study. Biometrics.,56(4),1030-1039.
[50] Hall, DB., Berenhaut, KS., 2002. Score tests for heterogeneity and overdis-
persion in zero-inflated Poisson and binomial regression models. Canad J
Statist,30(3):415-430.
[52] Heilbron, D.C. Zero-alterned and other regression models for count data with
added zeros. Biometrical Journal, 36 :531-547, 1994.
[53] He, X., Xue, H., Shi, N.-Z.,2010. Sieve maximum likelihood estimation for dou-
bly semiparametric zero-inflated Poisson models. Journal of Multivariate Ana-
lysis 101, 2026-2038.
[54] Henningsen, A., Toomet, O., 2011. maxLik: A package for maximum likelihood
estimation in R. Computational Statistics 26(3), 443-458.
[55] Hilbe, J. M., 2009. Logistic regression models. Chapman & Hal.
[56] Hilbe, J. M., 2011. Negative Binomial Regression. 2nd ed. Cambridge : Cam-
bridge University Press.
[58] Johnson,N.L., Kemp, A.W. and Kotz S., 2005 Univariate Discrete Distributions,
3rd ed., Wiley, New York,
[60] Jiang, J., 2010. Large Sample Techniques for Statistics. Springer, New York.
[61] Kemp,C.D., and Kemp,A.W., 1988. Rapid estimation for discrete distributions.
The Statistician, 37 :243-255.
Bibliographie 112
[62] Kleiber, C., Zeileis, A., 2008. Applied Econometrics with R. Springer-Verlag,
New York. http://CRAN.R-project.org/package=AER.
[63] Kokonendji, C.C. 2014. Over- and underdispersion models, in The Wiley En-
cyclopedia of Clinical Trials- Methods and Applications of Statistics in Clinical
Trials, N. Balakrishnan, ed., Vol. 2, Chapter 30, Wiley, New York, pp. 506-526
[64] Lambert, D., 1992. Zero-inflated Poisson regression, with an application to de-
fects in manufacturing. Technometrics,34:1-14.
[65] Lam, KF., Xue, H., Cheung, YB.,2006. Semiparametric analysis of zero-inflated
count data. Biometrics,62(4):996-1003.
[66] Lange, K., 2004. Optimization. Springer Texts in Statistics. New York
[69] Li, C-S. , 2011. A lack-of-fit test for parametric zero-inflated Poisson models. J
Stat Comput Simul.,81(9):1081-1098.
[70] Lim, HK., Li, WK., Yu, PLH., 2006. Zero-inflated Poisson regression mixture
model. Comput Statist Data Anal.,71:151-158.
[71] Lukusa, T.M., Lee, S.-M., Li, C-S. Semiparametric estimation of a zero-inflated
Poisson regression model with missing covariates. Metrika, 79(4):457-483,
2016.
[72] Long, D. L., Preisser, J. S., Herring, A. H., Golin, C. E., 2014. A marginalized
zero-inflated Poisson regression model with overall exposure effects. Statistics
in medicine 33(29), 5151-5165.
[73] Long, D. L., Preisser, J. S., Herring, A. H., Golin, C. E., 2015. A Marginalized
Zero-inflated Poisson Regression Model with Random Effects. Journal of the
Royal Statistical Society. Series C, Applied statistics 64(5), 815-830.
[74] Maller, R. A., 2003. Asymptotics of regressions with stationary and nonstatio-
nary residuals. Stochastic Processes and their Applications 105(1), 33-67.
[75] Martin, J., Hall, D. B., 2017. Marginal zero-inflated regression models for count
data. Journal of Applied Statistics 44(10), 1807-1826.
Bibliographie 113
[76] McCullagh, P., Nelder, J. A., 1989. Generalized linear models (Second edition).
Monographs on Statistics and Applied Probability. Chapman & Hall, London.
[77] Min, Y., Agresti, A. , 2005. Random effect models for repeated measures of
zero-inflated count data. Stat Model,5(1):1-19.
[78] Moghimbeigi, A., Eshraghian, M. R., Mohammad, K., McArdle, B., 2008. Mul-
tilevel zero-inflated negative binomial regression modeling for over-dispersed
count data with extra zeros. Journal of Applied Statistics 35(9), 1193-1202.
[79] Monod, A., 2014. Random effects modeling and the zero-inflated Poisson dis-
tribution. Communications in Statistics. Theory and Methods 43(4), 664-680.
[80] McCullagh, P., Nelder J.A., 1989. Generalized linear models. 2nd ed. Mono-
graphs on statistics and applied probability. London: Chapman & Hall.
[81] Mullahy, J., 1986. Specification and testing of some modified count data models.
Journal of Econometrics,33:341-365.
[82] Mullahy, J., 1997. Heterogeneity, excess zeros, and the structure of count data
models. Journal of Applied Econometrics,12(3) :337-350.
[83] Mwalili, SM., Lesaffre, E., Declerck, D., Demetrio, C.G.B. The zero-inflated
negative binomial regression model with correction for misclassification: an
example in caries research. Stat Methods Med Res.,17(2):123-139, 2008.
[87] Puig, P., Valero, J. , 2006. Count data distributions: some characterizations
with applications. Journal of the American Statistical Association, 101:332-
340.
[88] Preisser, J.S., Long, D.L., Kincade, M. E. , 2012. Review and recommendations
for zero-inflated count regression modeling of dental caries indices in epide-
miological studies. Caries Research,54(4):413-423.
Bibliographie 114
[89] Preisser, J. S., Das, K., Long, D. L., and Divaris, K., 2016. Marginalized zero-
inflated negative binomial regression with application to dental caries. Statis-
tics in Medicine 35(10),1722-1735.
[90] Ridout, M., Demetrio, C.G.B., Hinde J., 1998. Models for count data with many
zeros. Invited paperpresented at the Nineteenth In Bio Conf, Cape Town, South
Africa, pages 179-190.
[91] Ridout, M., Hinde, J., Demetrio, C. G. B., 2001. A score test for testing a zero-
inflated Poisson regression model against zero-inflated negative binomial al-
ternatives. Biometrics 57(1), 219-223.
[92] Rosen,O., Jiang,W. X., and Tanner,M. A., 2000. Mixtures of marginal models.
Bio- metrika, 87 :391-404.
[93] R Core Team, 2018. R: A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing. Vienna, Austria. https://www.R-
project.org/
[94] Seber, G. A. F., Lee, A. J., 2012. Linear Regression Analysis. Wiley Series in
Probability and Statistics. Wiley.
[97] Stukel,T. A., 1988. Generalized logistic models. J. Amer. Statist. Assoc. 83 426-
431.
[98] Todem, D., Kim, K., Hsu, W. W., 2016. Marginal mean models for zero-inflated
count data. Biometrics 72(3), 986-994.
[99] Tuenter, H.J.H., 2000. On the generalized Poisson distribution. Statistica Neer-
landica, 54:374-376.
[101] Vieira, AMC., Hinde, JP., Demetrio, CGB. , 2000. Zero-inflated proportion
data models applied to a biological control assay. J Appl Stat.,27(3):373?389.
Bibliographie 115
[102] van der Vaart, A. W., Wellner, J., 1996. Weak convergence and empirical pro-
cesses: with applications to statistics. Springer Series in Statistics, Springer.
[103] Wang, X. and Dey, D. K., 2010. Generalized extreme value regression for
binary response data:An application to B2B electronic payments system adop-
tion. Ann. Appl. Stat. 4 2000-2023.
[104] Wu, Y., Chen, M.-H. and Dey, D., 2002. On the relationship between links for
binary response data. J. Stat. Stud. Special Volume in Honour of Professor Mir
Masoom Ali’s 65th Birthday 159-172.
[105] W. Greene,1994. Accounting for excess zeros and sample selection in Pois-
son and negative binomial regression models. Report EC-94-10, Department of
Economics, New York University, New York
[106] Zhao, W., Zhang, R., Liu, J. 2015. Semi varying coefficient zero-inflated gene-
ralized Poisson regression model. Comm Statist Theory Methods,44(1):171-185.
[107] Zeileis, A., Kleiber, C., Jackman, S., 2008. Regression models for count data
in R. Journal of Statistical Software 27(8).
Bibliographie 116