Thèse Essoham ALI

Modèles de régression marginaux pour des données de
comptage à excès de zéros

Essoham Ali
To cite this version:

Essoham Ali. Modèles de régression marginaux pour des données de comptage à excès de zéros.
Mathématiques [math]. IRMAR-INSA de Rennes & LERSTAD-UGB de Saint-Louis, 2021. Français.
�NNT : �. �tel-03427236�
HAL Id: tel-03427236

https://theses.hal.science/tel-03427236
Submitted on 13 Nov 2021
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
Ecole Doctorale des Sciences et des Technologies
UFR de Sciences Appliquées et de Technologie

THÈSE
pour obtenir le grade de
Docteur de l’Université Gaston Berger
Soutenue publiquement le 23 Juillet 2021 par

Essoham ALI
Mention : Mathématiques Appliquées
Spécialité : Statistique Appliquée
MODÈLES DE RÉGRESSION MARGINAUX POUR DONNÉES

DE COMPTAGE À EXCÈS DE ZÉROS
Directeur de Thèse : Aliou DIOP
Composition du Jury
Abdou Kâ DIONGUE Professeur Titulaire, UGB de Saint-Louis, Sénégal Président

Kossi Essona GNEYOU Professeur Titulaire, Université de Lomé, Togo Rapporteur
Anne-Françoise YAO Professeur, Université Clermont Auvergne, France Rapporteur
Papa NGOM Professeur Titulaire, Université Cheikh Anta Diop, Dakar Rapporteur
El Hadji DEME Maître de Conférences, UGB de Saint-Louis, Sénégal Examinateur
Jean-François DUPUY Professeur, INSA de Rennes, France Co-directeur de thèse
Aliou DIOP Professeur Titulaire, UGB de Saint-Louis, Sénégal Directeur de thèse
Thèse Numéro EDST008-2021

Préparée au sein du Laboratoire d’Étude et de Recherche en Statistique et
Développement & à l’Institut de Recherche Mathématique de Rennes
Dédicaces
À mes parents,
À Agathe Gnilane & Essolizam Noémie.
Remerciements
Ce travail est le fruit d’énormes contribution en modélisation statistique, étude

mathématique des modèles proposés, développement de l’inférence statistique as-
sociée, étude de simulation numérique et des applications en éconimie de santé. Un
mot pour dire un grand merci pour tous ceux qui ont, de près ou de loin, participé à
l’élaboration de ce travail.
Ces travaux ont été financés en grande partie par le Centre d’Excellence Africain
en Mathématiques, Informatique et TIC (CEA MITIC) de l’Université Gaston Ber-
ger de Saint-Louis du Sénégal par l’attribution d’une bourse d’étude, les formations
et conférences internationales me permettant ainsi de découvrir le monde scienti-
fique. Ces travaux ont également été financés par "Action internationale 2019" de
l’Université de Rennes 1 lors de mon premier séjour en France. La bourse Erasmus+
a permis de financer mon second voyage d’études en France.
Ce travail a été dirigé par le Professeur Aliou DIOP de l’Université Gaston Ber-
ger de Saint-Louis. Je remercie M. Aliou DIOP d’avoir accepté de diriger ce tra-
vail riche en théories mathématiques auxquelles il est habitué quotidiennement :
lemmes, théorèmes, démonstrations et d’application des méthodes statistiques. Être
son étudiant fut un honneur et plaisir, et je suis très reconnaissant de la disponibi-
lité sans faille et de la confiance dont il a fait preuve en dépit son emplois du temps
trop chargés. Mon Professeur, j’ai beaucoup appris à tes côtés et vos leçons intéres-
santes qui m’ont permis d’avancer dans la thèse resteront toujours gravées dans ma
mémoire. J’ai acquis pas mal de connaissances en le côtoyant grâce à sa générosité
sans limite tant pédagogique que social.
Je ne trouve jamais les mots adéquats pour remercier M. Jean-François DUPUY,

Professeur à l’Institut de Recherche des Sciences Appliquées (INSA) de Rennes en
France qui m’a encadré quotidiennement tout au long de ces années de thèse. Sans
vous Jean-François, ce travail n’aurait jamais abouti. Votre participation active à
iii
l’organisation de mon accueil lors de mes séjours de recherche en France, au dérou-

lement de l’ensemble des travaux et aux suivis fréquents sur l’état d’avancement des
activités de thèse, et votre apport inestimable sur les simulations numériques m’ont
permis de réaliser ce travail. J’ai énormement appris auprès de vous, Jean-François.
Merci pour votre soutien infaillible autant sur le plan social que scientifique. Merci
pour votre écoute et gentillesse. Je vous dois énormement. Merci pour TOUT.
Je voudrais exprimer ma gratitude à Monsieur Abdou Kâ DIONGUE, Professeur

à l’Université Gaston Berger de Saint-Louis pour l’intérêt qu’il a bien voulu porter
à ce travail et avoir accepté de présider mon jury de soutenance. Que vous soyez
assuré de mon entière reconnaissance pour avoir été mon professeur.
Je suis très honoré que les professeurs Kossi Essona GNEYOU (Université de
Lomé, Togo), Papa NGOM (Université Cheikh-Anta-Diop de Dakar ) et Anne-Françoise
YAO (Université Clermont Auvergne, France) aient accepté de rapporter cette thèse.
Merci pour le temps, l’attention et les suggestions, que vous apportez à ce travail.
Mes remerciements vont également à Monsieur El Hadji DEME, Maître de Confé-

rence (CAMES) à l’Université Gaston Berger de Saint-Louis pour avoir accepté de
faire partie de mon jury de thèse en tant qu’examinateur de cette thèse. Merci pour
sa disponibilité.
Ce travail de thèse s’est principalement déroulé au Laboratoire d’études et de

Recherches en Statistique et Développement et à l’Institut de Recherche Mathéma-
tique de Rennes. Je remercie tous les doctorants et jeunes docteurs de ces deux labo-
ratoires en particulier Bilel BOUSSELMI de l’IRMAR et Docteur Mamadou Lamine
DIOP de LERSTAD. J’ai passé de très bons moments d’accumulation et d’assimila-
tion du savoir, du savoir-faire et du savoir-être. Merci pour votre sympathie durant
ces années de dur labeur.
Je ne saurais terminer cette partie sans remercier ma famille, mes parents, mes
ami(es), mes frères et soeurs. La famille a su m’accompagner, me soutenir, m’encou-
rager et me stimuler depuis le début de ma scolarisation jusqu’à maintenant, en se
privant parfois de ma présence durant toutes ces années d’études et de recherche.
Abréviations & Notations
P (A) : La probabilité de l’événement A.

Var(X) : La variance de la variable aléatoire X.
E(X|Y ) : Espérance conditionnelle de X sachant Y .
Cov(X, Y ) : Covariance des variables aléatoires X et Y .
p.s
Xn −→ Y : La suite de variables aléatoires (Xn )n converge presque sûrement vers Y .
P
Xn −→ Y : La suite de variables aléatoires (Xn )n converge en probabilité vers Y .
D
Xn −→ Y : La suite de variables aléatoires (X)n converge en distribution vers Y .
i.i.d : Indépendantes et identiquement distribuées.
N∗ : Ensemble des entiers naturels non nuls.
R : Ensemble des réels et Rd = R × . . . × R .
| {z }
d fois
X> : Transposée du vecteur X.
kXk : Norme du vecteur X.
Mn×p : Ensemble des matrices réelles à n lignes et p colonnes.
Ip : Matrice identité d’ordre p.
Diag : Diagonale d’une matrice
P(λ) : Loi de Poisson de paramètre λ.
B(p) : Loi Bernoulli de paramètre p.
NB(r, p) : Loi binomiale négative de paramètres r et p.
EMV : Estimateur du Maximum de Vraisemblance.
GLM : Generalised Linear Model
GEE : Generalized Estimating Equations.
GEV : Generalized Extreme Value
ZIP : Zero-Inflated Poisson
ZIB : Zero-Inflated Binomial
ZINB : Zero-Inflated Negative Binomial
ZIM : Zero-Inflated Multinomial
MZIP : Marginalized Zero-Inflated Poisson
MZIB : Marginalized Zero-Inflated Binomial
Table des matières
Dédicaces i
Remerciements ii
Abréviations & Notations iv
Résumé 1
Abstract 3
Introduction générale 5
1 Quelques rappels sur les modèles de comptages surdispersés 11

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Rappels sur les modèles linéaires généralisés . . . . . . . . . . . . . . . 12
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3 Par maximum de vraisemblance . . . . . . . . . . . . . . . . . . 15
1.2.4 Par quasi-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Quelques rappels sur la modélisation des données de comptage sur-
dispersées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Modèles de base de régression Poisson et de Binomial Négatif . 17
1.3.2.1 Le modèle de régression de Poisson . . . . . . . . . . . 18
1.3.2.2 La surdispersion . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2.3 Le modèle de régression binomial négatif . . . . . . . . 20
1.4 Modèles de régression à inflation de zéros . . . . . . . . . . . . . . . . . 20
vi
1.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Le modèle de régression ZIP . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.2 Estimation dans le modèle ZIP . . . . . . . . . . . . . . 21
1.4.3 Le modèle de régression ZIB . . . . . . . . . . . . . . . . . . . . . 23
1.4.3.1 Spécification du modèle ZIB . . . . . . . . . . . . . . . . 23
1.4.4 Le modèle de régression ZINB . . . . . . . . . . . . . . . . . . . . 24
1.5 Rappels sur les modèles ZI marginaux . . . . . . . . . . . . . . . . . . . 25
1.5.1 Introduction et aperçu . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Formulation des modèles marginaux . . . . . . . . . . . . . . . . 26
1.6 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1 Modèle de régression marginal ZIP . . . . . . . . . . . . . . . . . 28
1.6.2 Modèle de marginal ZINB . . . . . . . . . . . . . . . . . . . . . . 28
1.6.3 Modèle de régression marginal ZIB . . . . . . . . . . . . . . . . 29
2 Modèle de régression marginal binomial à inflation de zéros avec

des contraintes. 31
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Modèle de regression binomiale à inflation de zéros . . . . . . . . . . . 35
2.2.1 Un brève revue du modèle de régression ZIB de la classe latente 35
2.2.2 A propos des contraintes inhérentes à la régression ZIB . . . . . 36
2.2.3 Un modèle de régression ZIB marginal sous contraintes . . . . 38
2.2.3.1 Formulation et estimation du modèle . . . . . . . . . . 38
2.2.3.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Identifiabilité du modèle et résultats asymptotiques . . . . . . . . . . . 42
2.4 Etudes de simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.1 Expériences numériques par simulation . . . . . . . . . . . . . . 43
2.4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Une comparaison avec le modèle de Martin et Hall . . . . . . . 45
2.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.1 Description et modélisation des données . . . . . . . . . . . . . . 46
2.5.2 Résultats de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.5.2.1 Résultats pour le modèle MZIB proposé . . . . . . . . . 47
2.5.2.2 Résultats pour le modèle MZIB-MH . . . . . . . . . . . 49
2.5.2.3 Une évaluation empirique de la qualité de l’ajustement 49
2.6 Conclusion et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Une étude basée sur la simulation de la régression ZIP avec divers

sous-modèles à inflation de zéros 67
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
vii
3.2 Modèles, données, notations . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.2.1 Modèle de régression ZIP-GEV . . . . . . . . . . . . . . . . . . . 71
3.2.2 Modèle de régression ZIP-cloglog . . . . . . . . . . . . . . . . . . 72
3.2.3 Modèle de régression ZIP-probit . . . . . . . . . . . . . . . . . . 73
3.3 Expériences numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Simulation des données . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 Résultats de simulations . . . . . . . . . . . . . . . . . . . . . . . 75
3.4 Applications sur des données réelles . . . . . . . . . . . . . . . . . . . . 77
3.4.1 Description des données et modèles concurrents . . . . . . . . . 77
3.5 Conclusion et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Bibliographie 107
Table des figures
2.1 Estimations de la densité des (β̂j,n − βj )/erreur standard(β̂j,n ), j =

1, . . . , 8 avec n = 500 et 25% d’inflation de zéros. . . . . . . . . . . . . . 56
2.2 Estimations de la densité des (γ̂k,n −γk )/standard error(γ̂k,n ), k = 1, . . . , 8
avec n = 500 et 25% d’inflationde zéros. . . . . . . . . . . . . . . . . . . 57
avec n = 500 et 50% d’inflation de zéros. . . . . . . . . . . . . . . . . . . 59
avec n = 500 et 90% d’inflation de zéros. . . . . . . . . . . . . . . . . . . 61
2.7 Estimations de la densité des (β̂j,n −βj )/standard error(β̂j,n ), j = 1, . . . , 8
avec n = 2000 et 25% d’inflation de zéros. . . . . . . . . . . . . . . . . . 62
avec n = 2000 and 25% d’inflation de zéros. . . . . . . . . . . . . . . . . 63
2.11 Diagramme en barres du nombre de visites dans les cabinets de mé-
decins. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

avec n = 200 et 15% de zero-inflation dans le modèle ZIP-logit . . . . . 86
Table des figures ix

avec n = 1000 et 15% de zero-inflation dans le modèle ZIP-logit . . . . . 87
avec n = 2000 and 15% de zero-inflation dans le modèle ZIP-logit . . . 88
avec n = 200 et 15% de zero-inflation dans le modèle ZIP-cloglog . . . . 89
avec n = 1000 et 15% de zero-inflation dans le modèle ZIP-cloglog . . . 90
avec n = 2000 et 15% de zero-inflation dans le modèle ZIP-cloglog . . . 91
and n = 200 et 15% de zéro-inflation dans le modèle ZIP-GEV . . . . . 92
avec n = 1000 et 15% de zéro-inflation dans le modèle ZIP-GEV . . . . 93
avec n = 2000 et 15% de zéro-inflation dans le modèle ZIP-GEV . . . . 94
avec n = 200 et 15% de zéro-inflation dans le modèle ZIP-probit . . . . 95
Liste des tableaux
2.1 Résultats de la simulation pour n = 500. c : proportion moyenne d’in-

flation de zéro. SD : écart-type empirique. SE : erreur type moyenne.
CP : probabilité de couverture empirique des intervalles de confiance
à 95 %. `(CI) : longueur moyenne des intervalles de confiance. . . . . . 52
2.2 Résultats de la simulation pour n = 2000. c : proportion moyenne d’in-
flation de zéro. SD : écart-type empirique. SE : erreur type moyenne.
CP : probabilité de couverture empirique des intervalles de confiance
à 95 %. `(CI) : longueur moyenne des intervalles de confiance. . . . . . 53
2.3 Résultats de la simulation [les données sont simulées à partir du mo-
dèle MZIB-MH, 75]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4 Résultats de la simulation (les données sont simulées à partir du mo-
dèle MZIB (2.2)-(2.9)-(2.10)). . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5 Analyse des donnés sur les soins de santé (pour chaque modèle, seules
les covariables significatives au niveau de 5 % sont signalés). . . . . . 55
3.1 Résultats de simulation pour le scénario (i) (les données sont simulées
à partir du modèle ZIP-logit, proportion moyenne de ZI = 15%). . . . . 81
3.2 Résultats de simulation pour le scénario (ii) (les données sont simulées à
partir du modèle ZIP-cloglog (3.5)-(3.7), proportion moyenne de ZI = 15%). . 82
3.3 Résultats de simulation pour le scénario (iii) (les données sont simu-
lées à partir du modèle ZIP-GEV (3.4)-(3.5), proportion moyenne de ZI
= 15%). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4 Résultats de simulation pour le scénario (iv) (les données sont simulées à
partir du modĺe ZIP-Probit : (3.5)-(3.9), proportion moyenne de ZI = 15%)). . 84
Liste des tableaux xi
3.5 Analyse des données sur les soins de santé : estimations, erreurs stan-
dard et valeurs p−value des modèles ZIP-logit, ZIP cloglog, ZIP-probit
et ZIP-GEV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Résumé
Plusieurs auteurs ont proposés récemment des modèles marginaux et des mé-
thodes d’estimation pour les données de comptage à inflation de zéros. Cependant
l’étude mathématiques ( les propriétés asymptotiques) dans ces modèles n’est pas
toujours assurée et repose sur des hypothèses mathématiques simplificatrices.
L’objectif de cette thèse vise à améliorer ces modèles, qui reposent encore sur
des hypothèses mathématiques simplificatrices, et à proposer de nouveaux modèles
permettant d’interpréter plus finement la problématique du non-recours aux soins.
La thèse recouvre donc plusieurs aspects : modélisation statistique, étude mathé-
matique des modèles proposés, développement de l’inférence statistique associée,
études de simulations numériques en vue de valider les modèles proposés, d’iden-
tifier leur domaine de validité, de comparerleurs performances avec celles des mo-
dèles existants), application aux données réelles.
Dans la première partie, nous introduisons les notions de surdispersion, modèles

linéaires généralisés et les modèles marginaux nécessaires à la compréhension de
l’enjeu de la thèse.
La deuxième partie de cette thèse concerne, l’étude de l’Estimateur du Maxi-

mum de Vraisemblance dans le modèle binomial marginal à inflation de zéros sous
des contraintes inhérentes. D’abord nous montrons l’existence de l’estimateur du
maximum de vraisemblance des paramètres dans ce modèle. Ensuite, nous démon-
trons l’identifiabilité, la consistance de cet estimateur, et nous établissons sa nor-
malité asymptotique. Puis, une étude de simulation exhaustive sur des tailles finies
d’échantillons est menée pour évaluer la cohérence de nos résultats. Et pour finir,
une application sur des données réelles d’économie de la santé a été conduite.
Dans la troisième partie, nous nous intéressons à la robustesse de l’estimation

2
dans les modèles de régression zéro-inflatés, lorsque l’on fait varier le modèle d’ap-
partenance aux classes du mélange sous-jacent. Les propriétés asymptotiques sont
explorées numériquement en exploitant des critères mathématiques tous établis à
partir de l’Estimateur du Maximum de Vraisemblance. Nous proposons tout à bord
de modéliser la fonction de lien par la distribution de la valeur extrême généralisée
GEV, le cloglog et le probit. La performance de chacun de ces modèles de régression
est étudiée au moyen des simulations numériques approfondie et enfin, nous l’avons
appliqué à l’analyse d’une base de données recensant la consommation de soins de
plusieurs milliers de patients aux USA.
Mots clés: Normalité asymptotique, consistance, données de comptage, modèles

marginaux, excès de zéros, simulations, utilisation de soins de santé.
Abstract
Several authors have recently proposed marginal models and estimation me-
thods for zero-inflated count data. However, the mathematical study (the asymp-
totic properties) in these models is not always assured and relies on simplifying
mathematical assumptions.
The objective of this thesis is to improve these models, which are still based on
simplifying mathematical assumptions, and to propose new models that will allow
a more accurate interpretation of the problem of non-use of healthcare. The thesis
covers several aspects: statistical modeling, mathematical study of the proposed
models, development of the associated statistical inference, studies of numerical
simulations in order to validate the proposed models, to identify their domain of
validity, to compare their performances with those of existing models, application to
real data.
In the first part, we introduce the notions of overdispersion, generalized linear

models and marginal models necessary to understand the issue of the thesis.
The second part of this thesis concerns the study of the Maximum Likelihood Es-
timator in the marginal binomial model with zero inflation under inherent constraints.
First we show the existence of the maximum likelihood estimator of the parame-
ters in this model. Then, we demonstrate the identifiability, the consistency of this
estimator, and establish its asymptotic normality. Then, an exhaustive simulation
study on finite sample sizes is conducted to evaluate the consistency of our results.
Finally, an application on real health economics data is conducted.
In the third part, we focus on the robustness of the estimation in zero-inflated

regression models, when varying the class membership model of the underlying
mixture. he asymptotic properties are explored numerically by exploiting mathema-
4
tical criteria all established from the Maximum Likelihood Estimator. We propose
to model the link function by the GEV distribution, the loglog and the probit. The
performance of each of these regression models is studied by means of extensive nu-
merical simulations. Finally, we applied it to the analysis of a database listing the
health care consumption of several thousand patients in the USA.
Keywords: Asymptotic normality, consistency, count data, marginal models, ex-

cess zeros, simulations, health care utilization.
Introduction générale
Une revue de la littérature

A u cours de ces dernières années, nous avons pu observer dans la recherche
scientifique, la modélisation statistique des données de comptage. Cette modélisa-
tion des données de comptage est une question importante dans divers domaines,
notamment l’agriculture, l’économétrie, l’épidémiologie, les applications industrielles,
l’assurance, l’étude du terrorisme et la recherche sur la sécurité routière. Aussi, les
méthodes de modélisation adaptées à ce type de données ont été largement explo-
rées dans la littérature. Les modèles linéaires généralisés (1989, [76]) fournissent
un cadre puissant pour l’analyse de ces données. Mais les applications de la vie
réelle soulèvent continuellement de nouveaux problèmes et un énorme travail a été
fait pour étendre la portée de ces modèles. Par exemple, les données de comptage
montrent souvent un excès de zéros (c’est-à-dire une proportion de zéros qui ne peut
pas être expliquée par des modèles basés sur des hypothèses de répartition stan-
dard). Un grand nombre d’outils statistiques ont été développés pour résoudre ce
problème, tels que les modèles de régression à inflation de zéros souvent utilisés
pour modéliser des données de comptage surdispersées lorsque la surdispersion est
liée à la présence d’une grande proportion de zéros. Le modèle de régression de Pois-
son (ZIP) à inflation de zéros a été proposé par Lambert (1992, [64]) et développé
par Dietz et Böhning (2000, [32]), Li (2001, [69]), Lim et al. (2006, [70]) et Monod
(2014, [79]), parmi beaucoup d’autres. Les variantes récentes de la régression ZIP
comprennent les modèles ZIP à effets aléatoires (2000, [49], 2005, [77]), les modèles
ZIP à coefficient semi-variable (2015, [106]) et les modèles ZIP semi-paramétriques
(2006, [65], [42]). Le modèle de régression binomiale négative (ZINB) à inflation de
zéros a été proposé par Ridout et al. (2001, [91]), voir aussi Moghimbeigi et al. (2008,
[78]), Mwalili et al. (2008, [83]), Garay et al. (2011, [44]). Lorsque les comptes ont
une limite supérieure, les modèles de régression ZIP et ZINB ne sont plus appro-
priés. Hall (2000, [49]) et Vieira et al. (2000, [101]) ont ainsi introduit le modèle de
régression binomiale zéro-inflation (ZIB), voir aussi Hall et Berenhaut (2002, [50])
6
et Diop et al. (2016, [30]).

Lors d’un comptage, les zéros ont souvent un statut particulier qui peut prêter à
confusion, Ridout et al. (1998, [90]). En effet, on distingue deux types de zéros : ceux
qui sont dûs à l’échantillonnage (zéros aléatoires) et ceux qui sont dûs à la structure
(zéros structurels). Ne pas tenir compte de ce facteur peut conduire à un cas parti-
culier de surdispersion, l’inflation de zéros (voir Lambert (1992, [64]) ; Fong et Yip
(1995, [43]) ; Mullahy (1997, [82]) ; Ridout et al. (2001, [91]) ; Tu (2002, [100]) ; Diop
et al. (2011, [29]) ; Preisser et al. (2012, [88]). Ce phénomène a particulièrement été
mis en évidence dans le cas de la régression de Poisson et a conduit au dévelop-
pement de plusieurs outils pour en tenir compte. Pour traiter ce problème des ap-
proches ont été proposées parmi lesquelles la modélisation en deux parties (hurdle
model, Mullahy (1986, [81]) ; two-part models, Heilbron (1994, [52])) et l’autre ap-
proche est de considérer un mélange de deux modèles au lieu de les modéliser sé-
parément. Cette dernière approche donne lieu aux modèles dits zéro-excès dont la
version la plus commune est le modèle à inflation de zéros (Lambert (1992, [64]) ;
Greene (1994, [45])). Plusieurs autres améliorations et extensions de ces modèles
ont été documentées (voir Lukusa et al. (2016, [71]) ; Diop et al. (2011, [29])).
La modélisation de la régression de Poisson est l’approche utilsée dans l’analyse des
données de comptage. Cependant, le phénomène le plus fréquent du modèle de Pois-
son est que les chercheurs rencontrent souvent des données qui présentent une plus
grande variabilité que celle permise par l’égalité des moyennes. Cette variabilité ex-
cessive est appelée surdispersion et a été largement considérée dans la littérature
( Dean et Lanless (1989, [24]); Dean(1992, [23])). Le défaut de modéliser la surdis-
persion existante conduit à une sous- estimation sérieuse des erreurs-types et à une
influence trompeuse pour les paramètres de régression. Dans de nombreuses ap-
plications, il est raisonnable de modéliser les données de comptage en utilisant les
effets indépendants avec inflation de zéros et de la surdispersion c’est-à-dire que
les données de comptage peuvent présenter deux sources indépendantes d’effet de
surdispersion. Pour des informations détaillées voir Puig (2003, [86]); Puig et Valero
(2006, [87]). L’inflation de zéros est une manifestation fréquente de la surdispersion,
signifie que l’incidence de nombre de zéros est plus grand que prévu par la distri-
bution de Poisson, ceci est intéressant car le nombre de zéros a fréquemment un
statut spécial. Par exemple, en comptant le nombre de réponses à une exposition,
un individu peut ne pas avoir de réponses à une maladie en raison de son immunité
ou de sa résistance à la maladie.
Le modèle ZIP n’est pas approprié pour de telles données, puisque le modèle de
base (Poisson) ne tient pas compte de la surdispersion restante non prise en compte
7
par l’inflation de zéros. Une telle situation conduit à considérer d’autres distribu-
tions de comptages. Un choix commun est le modèle binomial négatif avec inflation
de zéros, mélangeant une distribution dégénérée en zéro avec une distribution bino-
miale négative de référence. Ce modèle à été également discuté dans la recherche ,
par exemple Cameron et al. (1986, [10]); Gurmu et al. (1999, [47]). Il est bien connu
que les modèles binomiaux négatives (NB) sont plus flexibles que ceux de Poisson
plus simples dans l’accomodation de la surdispersion Lawless ( 1987, [67]). Le mo-
dèle de ZINB est un modèle de Poisson Généralisé avec inflation de Zéros (ZIGP)
(voir Famoye et Singh (2003, [40]); Gupta et al. (2004, [46]); mélangeant une distri-
bution dégénérée en zéro avec une distribution de Poisson généralisé ( voir Consul
et Jain,( 1973, [16])) a des propriétés attrayantes qui peuvent être accomodées à la
fois par la surexploitation et la surdispersion. D’autres propriétés ont été envisa-
gées par les auteurs dont Consul, (1989, [14]); Lerner et al. (1997, [68]); Tuenter
(2000, [99]); Consul et Famoye ( 1992, [15]). Le modèle de regression ZIGP est appli-
qué dans différents champs pour modéliser des données de comptage surdispersées
confert Famoye et Singh (2006, [41]) qui analysent les données sur la violence do-
mestique.
L’inférence statistique (estimation, tests d’hypothèses) dans ces modèles est bien
établie et repose généralement sur la méthode du maximum de vraisemblance, qui
fournit des estimateurs consistants et asymptotiquement gaussiens des paramètres
du modèle ( 2009, [55], 1989, [76]). Des extensions récentes de ces modèles ont été
proposées pour prendre en compte la présence de zéros en sur-nombre dans les don-
nées de comptage. Par exemple, l’excès de zéros survient dans les études d’économie
de la santé, lorsque l’on s’intéresse à la consommation de soins dans une popu-
lation donnée (voir [25], [96]). Depuis que Hall (2000, [49]) a introduit le modèle
de régression binomiale à inflation de zéros (modèle "ZIB" pour "zero-inflated bi-
nomial"), aucune étude mathématique de ce modèle n’avait été entreprise. Il fallu
que dans les années 2011 et 2016, Diop et al. ( [30], [29]) abordent réellement une
étude mathématique en étudiant les propriétés d’identifiabilité et l’asymptotique
(convergences presque sûre et en loi) des Estimateurs du Maximum de Vraisem-
blance (EMV), dans le cas particulier où le modèle binomial B (mi ; πi ) sous-jacent au
modèle ZIB est tel que mi = 1 pour tout i (i désigne l’indice de l’observation, dans
un échantillon de taille n). Puis, Diallo et al. (2017, [26]) ont généralisé ces résultats
au cas non-contraint où mi ∈ {1, 2, · · · } pour i = 1; · · · ; n, tandis que Dupuy (2017,
[31]) les a étendus à un modèle à inflation des bornes 0 et mi du support de la loi
binomiale sous-jacente au modèle ZIB. Récemment en 2018, Diallo et al. ( [27]), ont
introduit et étudié un modèle (appelé modèle ZIM) pour données de comptage multi-
nomiales avec inflation de zéros groupés, pour rendre compte des dépendances entre
8
les composantes d’un comptage multivarié sujet à excès de zéros. Des EMV consis-
tants et asympotiquement gaussiens ont été construits. Ce modèle a été appliqué à
l’étude de la consommation de soins médicaux et à l’identification des déterminants
du non-recours aux soins, au sein d’une population de personnes âgées aux USA (
2018, [27]). Puis, la recherche sur les modèles de comptage à inflation de zéros est
devenue une actualité.
Problématique et contribution
C ette thèse a pour sujet la modélisation statistique de données issues d’études
en économie de la santé ; et pour objectif une meilleure compréhension des méca-
nismes de non-recours aux soins médicaux. Les données qui motivent ce travail dé-
crivent les parcours de soins d’un grand nombre de patients et renseignent, en parti-
culier, les nombres de consultations de différents types (médecine de ville, consulta-
tions ambulatoires, consultations de professionnels de santé non médecins · · · ) pour
chaque patient. Elles contiennent également un grand nombre de renseignements
pour chacun des patients, sous forme de variables explicatives démographiques,
socio-économiques et médicales. Un phénomène très spécifique, appelé " excès de
zéros " (ou " inflation de zéros "), survient dans ce type d’étude. Il correspond à
l’observation d’un très grand nombre de patients ne déclarant aucune consultation
d’un type donné. La fréquence " excessive " de patients de ce type peut s’expliquer
par des attitudes de renoncement aux soins (motivées, par exemple, par des raisons
financières). Les modèles statistiques classiques pour données de comptage ne per-
mettent pas de prendre en compte ce phénomène. Des modèles dits " à inflation de
zéros " ont donc été proposés dans la littérature.
Le travail de cette thèse vise à améliorer ces modèles, qui reposent encore sur
des hypothèses mathématiques simplificatrices, et à proposer de nouveaux modèles
permettant d’interpréter plus finement la problématique du non-recours aux soins.
La thèse recouvre donc plusieurs aspects : modélisation statistique, étude mathé-
matique des modèles proposés, développement de l’inférence statistique associée,
études de simulations numériques (en vue de valider les modèles proposés, d’iden-
tifier leur domaine de validité, de comparer leurs performances avec celles des mo-
dèles existants), application aux données réelles.
Ainsi, pour mieux comprendre cette thèse, nous présentons dans le chapitre 1
quelques rappels essentiels sur les modèles linéaires généralisés, la notion de sur-
dispersion et enfin un rappel sur les modèles marginaux. Puis, nous énoncerons
quelques modèles à inflation de zéro et leurs propriétés asymptotiques. Dans le cha-
9
pitre 2, qui est notre prémière contribution de cette thèse, nous proposons un nou-
veau modèle de régression marginal binomial à inflation de zéro (MZIB) qui tient
compte des contraintes. Nous établissons rigoureusement les propriétés asympto-
tiques de l’estimateur du maximum de vraisemblance des paramètres du modèle de
régression MZIB.
La deuxième contribution de cette thèse est énoncée dans le chapitre 3, où nous

proposons des propriétés de l’estimateur du maximum de vraisemblance au moyen
des simulations dans le modèle de régression de Poisson à inflation de zéros , lorsque
la probabilité de zéro inflation est modélisée par une classe de fonction de lien. Il
s’agit de voir dans cette étude dans un premier temps ce qui ce passe lorsque l’on
estime un modèle ZIP avec une fonction de lien incorrecte pour la probabilité de
zéro-inflation (donc simuler avec une fonction de lien, et estimer avec une autre).
Nos travaux de thèse ont donné lieu à des articles et conférences dont:
Articles
- Essoham Ali , Aliou Diop & Jean-François Dupuy (2020): A constrained marginal
zero-inflated binomial regression model, accepté et publié dans Communica-
tions in Statistics - Theory and Methods,
DOI:10.1080/03610926.2020.1861296
- Essoham Ali (2021): A simulation-based study of ZIP regression with various
zero-inflated submodels. Soumis
- Generalized estimating equations for zero-inflated Poisson regression with right
censoring (en cours).
Conférences
+ Ecole CIMPA à l’Université de Lomé sur le thème : « Statistique des durées de
vie et statistique spatiale : Applications aux essais thérapeutiques, à la fiabi-
lité industrielle, à l’épidémiologie et au changement climatique », du 3 au 15
septembre 2018.
+ 15 ème Journée de Statistique de Rennes sur le thème : « Statistique et données
de la santé. » IRMAR, France 04-05 Avril 2019.
+ Essoham Ali , Aliou Diop & Jean-François Dupuy. A constrained marginal zero-
inflated binomial regression model. « Ecole d’été en Statistique et Sciences des
Données pour les jeunes chercheurs de l’Afrique francophone. » AIMS-Sénégal,
M’bour du 1er au 05 Juillet 2019 (Communication sur sélection).
+ Ecole Mathématique Africaine à IST-D, Antsiranana (Diego-Suarez), Madagas-
car sur le thème : « Mathématique pour les réseaux », du 09 au 20 décembre
2019.
10
+ Essoham Ali , Aliou Diop & Jean-François Dupuy. A constrained marginal zero-
inflated binomial regression model. « Rencontres des Jeunes Chercheurs Afri-
cains en France, 10 et 11 décembre 2020. » (Communication sur sélection).
1
Quelques rappels sur les modèles de comptages
surdispersés
Résumé
D ans ce chapitre, nous énonçons quelques rappels essentiels sur les modèles li-
néaires généralisés et sur la notion de surdispersion. Puis, nous énonçons quelques
modèles à inflation de zéros, les méthodes d’estimations puis les propriétés asympto-
tiques. Nous intoduisons enfin les modèles marginaux.
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Rappels sur les modèles linéaires généralisés . . . . . . . . . . . . . 12
1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.2 Méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3 Par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 15
1.2.4 Par quasi-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.5 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Quelques rappels sur la modélisation des données de comptage
surdispersées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Modèles de base de régression Poisson et de Binomial Négatif . . 17
1.3.2.1 Le modèle de régression de Poisson . . . . . . . . . . . . 18
1.3.2.2 La surdispersion . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2.3 Le modèle de régression binomial négatif . . . . . . . . . 20
1.4 Modèles de régression à inflation de zéros . . . . . . . . . . . . . . . 20
1.1. Introduction 12
1.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Le modèle de régression ZIP . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2.2 Estimation dans le modèle ZIP . . . . . . . . . . . . . . . 21
1.4.3 Le modèle de régression ZIB . . . . . . . . . . . . . . . . . . . . . . 23
1.4.3.1 Spécification du modèle ZIB . . . . . . . . . . . . . . . . . 23
1.4.4 Le modèle de régression ZINB . . . . . . . . . . . . . . . . . . . . . 24
1.5 Rappels sur les modèles ZI marginaux . . . . . . . . . . . . . . . . . 25
1.5.1 Introduction et aperçu . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.2 Formulation des modèles marginaux . . . . . . . . . . . . . . . . . 26
1.6 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1 Modèle de régression marginal ZIP . . . . . . . . . . . . . . . . . . 28
1.6.2 Modèle de marginal ZINB . . . . . . . . . . . . . . . . . . . . . . . 28
1.6.3 Modèle de régression marginal ZIB . . . . . . . . . . . . . . . . . 29
1.1 Introduction
Dans cette partie, nous rappelons quelques notions essentielles sur la théorie
des modèles de comptage, la notion de surdispersion et un bref aperçu des modèles
marginaux qui permettent de faciliter la lecture de la thèse. Ainsi, il s’agira de
présenter brièvement les résultats essentiels rencontrés dans la littérature. Nous
définissons rapidement les notions de modèle linéaire généralisé, les méthodes d’es-
timations puis les propriétés asymptotiques. Quant à la surdispersion nous pré-
senterons quelques définitions liées à la statistique des données de comptages. Le
terme surdispersion fait référence au cas où la variance d’une variable dépendante
(de réponse), dépasse la variance nominale, compte tenu de la distribution conjec-
turée respective. Cette condition est fréquemment rencontrée lors de l’ajustement
d’un modèle linéaire généralisé à des variables réponses catégorielles.
1.2 Rappels sur les modèles linéaires généralisés

Au début du 19ème siècle, en analysant des données issues du domaine de l’as-
tronomie (principalement des mesures de quantités continues), Legendre et Gauss
ont introduit la notion de modèles linéaires. Ils ont développé la méthode des moindres
carrés ordinaires en modélisant les erreurs de mesure par une loi dite "gaussienne".
Ce n’est que bien plus tard que Gauss s’est rendu compte que cette méthode d’esti-
mation était plus justifiée par l’hypothèse de données indépendantes et de variance
1.2. Rappels sur les modèles linéaires généralisés 13
constante que par l’hypothèse de normalité. Depuis et principalement au début du

20ème siècle, de nouvelles distributions sont venues s’ajouter à la distribution gaus-
sienne, sous l’impulsion de Fisher. En effet, la nature des données à exploiter se di-
versifiant au cours du temps, l’analyse de données discrètes sous forme binaire ou de
comptage s’est développée. Les distributions binomiales ou de Poisson ont alors fait
leur apparition. Ces différentes lois ont été regroupées au sein d’une même famille,
appelée famille exponentielle. Une nouvelle classe de modèles est née : la classe des
modèles linéaires généralisés dont la terminologie a été introduite par Nelder et
Wedderburn (1972, [84]). Elle généralise les modèles linéaires classiques en termes
de loi de probabilité et de lien à la linéarité.
Les modèles linéaires généralisés permettent donc la modélisation de variables

réponses dont la loi appartient à la famille exponentielle. Ces variables peuvent
être de différents types : binaires (présence/absence de sexualité), ordinales (pas
de rameau/rameau avorté/rameau développé), de comptage (nombre d’entrenoeuds,
nombre de rameaux portés par pousse annuelle), ou exponentielles (durée de vie des
rameaux portés) par exemple. Les modèles linéaires généralisés ont pris une place
importante dans la modélisation statistique, trouvant leur intérêt dans de nom-
breux domaines d’application. Les ouvrages de McCullagh et Nelder (1989, [76]) et
de Agresti (2002, [2]) fournissent une revue complète sur les modèles linéaires gé-
néralisés, leurs méthodes d’estimation et leurs domaines d’application.
Un modèle linéaire généralisé est caractérisé par trois hypothèses : une hypo-
thèse sur la distribution de la variabe à expliquer, une hypothèse sur l’expression
de la linéarité (faisant intervenir les variables explicatives), et une hypothèse sur
le lien de la linéarité (c’est-à-dire le lien entre la variable réponse et les variables
explicatives).
1.2.1 Définition
Distribution de la variable à expliquer :
Soit Y la variable aléatoire que l’on cherche à expliquer et y le vecteur de taille n des
observations. On suppose que les composantes Yi , (i = 1, · · · , n) sont indépendantes
et identiquement distribuées selon une loi appartenant à la famille exponentielle [
voir Nelder et Wedderburn (1972, [84])]. La fonction densité de la variable aléatoire
Yi est

yi θi − b(θi )
fYi (yi , θi ) = exp + c(yi , φ) , (1.1)
ai (φ)
où θi est un paramètre canonique et φ un paramètre de dispersion. Les fonctions

b et c sont spécifiées à chaque distribution et la fonction ai s’écrit ai (φ) = ωφi où ωi
est un poids connu associé à l’observation i (différent de 1 lorsque les données ont
été groupées). La famille des lois exponentielles regroupe un certain nombre de lois
dont les lois classiques telles que la loi binomiale, la loi de Poisson, la loi Normale
et la loi Gamma. L’espérance et la variance de chacune de ces lois s’expriment à
l’aide des fonctions ai et b. En effet notons L(θ; y) = log(fY (y; θ)), la fonction de log-
vraisemblance. Les relations classiques suivantes:
∂L ∂ 2L ∂L 2
E = 0 et E +E = 0,
∂θ ∂θ2 ∂θ
nous permettent d’obtenir l’espérance de Yi notée mi et sa variance comme dans
McCullagh et Nelder (1989, [76]):
E(Yi ) = mi = b0 (θi ),
V(Yi ) = b00 (θi )ai (φ).
Il existe donc une relation directe entre l’espérance de Yi et sa variance:

φ 00 0−1
V(Yi ) = ai (φ)b00 (b0−1 (mi )) = b (b (mi )). (1.2)
ωi
Expression de la linéarité :
Dans le contexte des GLMs, les covariables interviennent linéairement dans la mo-
délisation, comme dans les modèles linéaires classiques. Ainsi on définit le prédic-
teur linéaire :
η = Xβ,
où β est un vecteur de paramètres inconnus de taille Q et X est la matrice des co-
variables de dimension N × Q.
Fonction de lien :
La troisième composante des GLMs exprime une relation fonctionnelle entre l’es-
pérance de Yi et la i-ème composante du prédicteur linéaire, c’est à dire pour tout
i = 1, · · · , n on a :
ηi = g(E(Yi ))
où g appelée fonction de lien est supposée monotone et différentiable.
Remarque 1.1 La fonction de lien permettant d’égaler le prédicteur linéaire

et le paramètre canonique est appelée fonction de lien canonique. Puisque ηi =
g(b0 (θi )), la fonction de lien associée à une distribution donnée vérifie g = b0−1 .
Les fonctions de lien canonique associé aux lois classiques sont indiquées dans
McCullagh et Nelder (1989, [76])
Nous nous intéressons maintenant à l’estimation des paramètres β d’un modèle

linéaire généralisé. La partie suivante résume de manière non exhaustive les mé-
thodes d’estimation.
1.2.2 Méthodes d’estimation

Sous l’hypothèse i.i.d. des composantes de Y , la log-vraisemblance du vecteur
des paramètres canoniques θ pour les données observées y s’écrit :
n n
X X yi θi − b(θi )
log f (y, θ) = log f (yi , θi ) = + c(yi , φ) (1.3)
i=1 i=1
φ/ωi
1.2.3 Par maximum de vraisemblance

Pour obtenir les équations du maximum de vraisemblance pour l’estimation de β,
il faut dériver la log-vraisemblance (lorsqu’elle est dérivable) des données observées
par rapport aux différentes composantes du vecteur des paramètres canoniques θ.
L’écriture des équations de vraisemblance d’un modèle linéaire généralisé amène,
dans le cas général, à des équations non-linéaires en fonction du paramètre θ. Une
résolution itérative est envisagée par des méthodes générales permettant de ré-
soudre des équations non linéaires et de déterminer le maximum d’une fonction de
vraisemblance (voir Agresti (2002, [2])).
1. Algorithme de Newton-Raphson
L’algorithme de Newton-Raphson est une méthode itérative pour résoudre des
équations non-linéaires. Il repose sur le principe suivant : on se donne une
valeur initiale puis on obtient une seconde valeur en approchant la fonction
à maximiser dans le voisinage de la valeur initiale par un polynôme du se-
cond degré et en trouvant la valeur maximisant ce polynôme. Cela fait appel
à la matrice hessienne, matrice des dérivées secondes de la log-vraisemblance
(Lange, 2004, [66]). Puis on réitère le même procédé en approchant la fonction
à maximiser dans le voisinage de la seconde valeur obtenue et ainsi de suite.
La méthode génère un ensemble de valeurs.
2. Algorithme des scores de Fisher

L’algorithme des scores de Fisher est une méthode itérative pour résoudre
des équations de vraisemblance. Elle ressemble à l’algorithme de Newton-
Raphson, la différence provenant de la matrice hessienne. L’algorithme des
scores de Fisher utilise l’espérance de cette matrice, appelée information es-
pérée, tandis que celui de Newton-Raphson utilise la matrice même, appelée
information observée.
Dans le cas du GLM, l’algorithme usuel des scores de Fisher itère :
 !(k) −1
2
∂ log f (y; θ)  ∂ log f (y; θ)
β (k+1) = β (k) − E 0
∂β∂β ∂β
dη (k)
= β (k) + (X 0 Wβ−1
(k) ) X Wβ−1
−1 0
(k) (y − µ(k) )
dµ
où
Wβ = Diag Var(Yi )g 0 (µi )2 i=1,··· ,n

φ 0 2
= Diag ϑ(µi )g (µi )
ωi i=1,··· ,n
et

dη dηi
= Diag
dµ dµi i=1,··· ,n
0
= Diag {g (µi )}i=1,··· ,n
Notons que le lien entre β et θ est décrit par la relation Xβ = g(b0 (θ)).
1.2.4 Par quasi-vraisemblance

McCullagh et Nelder (1989, [76]) consacrent un chapitre de leur livre à l’ap-
proche par quasi-vraisemblance. Sous les conditions données par McCullagh et Nel-
der (1989, [76]), on définit le logarithme de la fonction de quasi-vraisemblance, pour
n individus i.i.d., par
N Z µi
X yi − t
Q(µ; y) = dt.
i=1 yi
ai (φ)ϑ(t)
Les équations de quasi-vraisemblance pour estimer les paramètres de régression
β sont obtenues en annulant les dérivées de Q. L’ensemble des dérivées est appelé
fonction de quasi-score. Ces équations n’étant pas linéaires, les estimateurs de la
quasi-vraisemblance peuvent êtres obtenus par des méthodes itératives telles que
l’algorithme des scores de Fisher ou celui de Newton-Raphson. Cette approche per-
met de contourner l’écriture explicite de la densité de Y en ne s’appuyant que sur
les deux premiers moments : l’espérance et la variance.
1.3. Quelques rappels sur la modélisation des données de comptage
surdispersées 17
1.2.5 Propriétés asymptotiques
Dans le cadre général des modèles linéaires généralisés, Fahrmeir et Kaufmann
(1985, [39]) démontrent différents résultats dont, en particulier, le théorème sur
la normalité asymptotique de β̂n , solution des équations du maximum de vraisem-
blance pour un jeu de données de taille n. Ce théorème repose principalement sur
des hypothèses concernant les matrices hessiennes et d’information de Fisher. Sous
les conditions émises par Fahrmeir et Kaufmann (1985, [39]), l’estimateur du maxi-
mum de vraisemblance β̂n est asymptotiquement gaussien : N (β0 , (X 0 Wβ−1
0
X)−1 ) où
β0 est la vraie valeur inconnue du paramètre.
1.3 Quelques rappels sur la modélisation des don-

nées de comptage surdispersées
1.3.1 Introduction
La surdispersion est un problème majeur de l’analyse des données de comptage.
Les deux principales causes de la surdispersion sont l’excès de variation entre les
comptages et l’inflation de zéros. Le premier cas est généralement traité à l’aide de
modèles de Poisson généralisés ou de modèles binomiaux négatifs, tandis que les
modèles à inflation de zéros fournissent une approche utile lorsque la surdispersion
est causée par un excès de zéros. Nous renvoyons le lecteur intéressé à Hilbe (2011,
[56]) et Cameron et Trivedi (2013, [12]) pour un traitement détaillé de la surdisper-
sion et des modèles binomiaux négatifs. Un compte rendu détaillé de l’inflation de
zéros est donné par Dupuy (2017, [31]). Dans ce paragraphe, nous nous concentrons
sur les modèles de régression à inflation de zéros, qui mélangent une distribution
dégénérée avec une masse ponctuelle de un à zéro avec un modèle de régression à
compte standard.
1.3.2 Modèles de base de régression Poisson et de Binomial

Négatif
Les modèles de base de données de comptage sont les modèles de Poisson et
binomial négatif. Ce dernier est le choix standard parmi ces modèles en raison de
l’hypothèse d’équidispersion qui caractérise la distribution de Poisson.
surdispersées 18
1.3.2.1 Le modèle de régression de Poisson
La distribution de Poisson est l’hypothèse de base de plusieurs modélisations des

données de comptage en économie de santé et dans plusieurs domaines. La régres-
sion de Poisson découle du modèle suivant:
exp(−µi )µyi i
P(Yi = yi |Xi = xi ) = yi = 0, 1, 2, · · ·
yi !
avec
E(yi |Xi = xi ) = µi = exp(β > Xi )
où P est la probabilité, yi est une variable de comptage observée (un nombre d’événe-
ments) pour l’individu i, Xi est un vecteur de p variables explicatives linéairement
indépendantes observées pour l’individu i, et β = (β0 , β1 , · · · , βp ) est un vecteur de
paramètres de dimension appropriée p × 1. La forme de la fonction exponentielle as-
sure la non-négativité du paramètre de la moyenne µ. La fonction log-vraisemblance
du modèle est donnée par l’équation suivante:
n
>X
X
`n (β) = {yi β > Xi − eβ i
− log(Yi !)} (1.4)
i=1
Les paramètres sont choisis de façon à maximiser la valeur de la fonction log-

vraisemblance. Les conditions de premier ordre sont:
n
>X
X
Xij (yi − eβ i
) = 0, j = 1, · · · , p
i=1
Le modèle de régression de Poisson est trop restrictif pour les données de comptage,
ce qui a incité les chercheurs à recourir à des modèles alternatifs comme le modèle
binomial négatif, qui permet la surdispersion.
1.3.2.2 La surdispersion
En statistique , la surdispersion est la présence d’une plus grande variabilité (

dispersion statistique ) dans un ensemble de données que ce à quoi on pourrait s’at-
tendre sur la base d’un modèle statistique donné . Une tâche courante des statis-
tiques appliquées consiste à choisir un modèle paramétrique adapté à un ensemble
donné d’observations empiriques. Cela nécessite une évaluation de l’ ajustement
du modèle choisi. Il est généralement possible de choisir les paramètres du modèle
de telle sorte que la moyenne de population théorique du modèle soit approxima-
tivement égale à la moyenne de l’ échantillon . Cependant, en particulier pour les
modèles simples avec peu de paramètres, les prévisions théoriques peuvent ne pas
correspondre aux observations empiriques pour les moments supérieurs . Lorsque
surdispersées 19
la variance observée est supérieure à la variance d’un modèle théorique, une sur-
dispersion s’est produite à l’inverse, la sous- dispersion signifie qu’il y a eu moins de
variation dans les données que prévu. La surdispersion est une caractéristique très
courante dans l’analyse appliquée des données car dans la pratique, les populations
sont souvent hétérogènes (non uniformes) contrairement aux hypothèses implicites
dans les modèles paramétriques simples largement utilisés.
Dans le modèle de Poisson, la surdispersion se produit lorsque la variance est

supérieure à la moyenne. Elle est considérée comme un problème parce que son
omission peut entraîner une sous-estimation des écarts-types des estimateurs; une
variable peut ainsi apparaître à tort significative. La surdispersion est causée par
la corrélation positive entre les observations ou par un excès de variation entre les-
dites observations; elle se produit également lorsque des hypothèses de la distribu-
tion des données sont violées. On fait aussi référence à la surdispersion apparente,
mais cette dernière se manifeste en cas de changements dans le modèle, comme
une omission de variables explicatives importantes, une spécification non adéquate
de la fonction de lien pour le modèle, etc. Hilbe (2007, [57]). Dans les données de
comptage, la variance excède généralement la moyenne, ce qui constitue un rejet du
modèle de Poisson. Il est donc important de contrôler pour la surdispersion. Dans le
cas de données tronquées ou censurées, la surdispersion mène au problème de non-
convergence des estimateurs du modèles. Dans des processus de données simples, la
surdispersion conduit à une sous-estimation des écarts-types ainsi qu’à une sures-
timation de la statistique t-Student par la méthode du maximum de vraisemblance.
Par conséquent, l’utilisation de l’estimation robuste de la variance est utile ( voir
Cameron et Trivedi, 2005, [11]).
D’après Hilbe (2007, [57]), lorsqu’une surdispersion est suspectée, il faut d’abord
déterminer s’il s’agit d’une possibilité de surdispersion apparente, que l’on pourra
corriger ou non, selon le cas qui se présente, en ajoutant des variables explicatives
ou en utilisant la fonction de lien adéquate, etc. Toutefois, si la surdispersion per-
siste, différentes méthodes peuvent être employées, chacune se fondant sur la raison
de ce problème. Parmi celles-ci, on trouve la méthode " Scale Standard Error Post
Hoc ", la statistique de déviance et la statistique de Khi-deux, les estimateurs de
matrices variance-covariance robustes, la méthode de Bootstrap ou Jackknife pour
calculer les variances, les modèles binomial négatif (NB), NB hétérogène, NB-P (NB
de type-P), Poisson généralisé, GEE, de même que les modèles inconditionnels et
conditionnels à effets fixes ou encore le modèle à effets aléatoires.
1.4. Modèles de régression à inflation de zéros 20
1.3.2.3 Le modèle de régression binomial négatif
Le modèle de régression binomial négatif a l’utilité de traiter la surdispersion des

données de comptage. Ce modèle est construit comme un modèle de mélange qui est
utile pour ajuster la surdispersion de la distribution de Poisson. La vraisemblance
du modèle binomial négatif est fondée sur le modèle de mélange Poisson-gamma.
On distingue deux types de modèle de régression: NB1 (surdispersion constante) et
NB2 (surdispersion variable).
Le modèle Binomiale Négatif est une généralisation du modèle de Poisson qui per-
met de prendre en compte cette surdispersion des données par l’introduction d’un
terme d’hétérogénéité non observé chez l’observation i. On a
E(Yi |Xi = xi , ϑi ) = µi ϑi = exp(β > Xi )ϑi ,
où ϑi suit une loi Gamma de moyenne 1 et de variance α. Conditionnellement à
Xi , Yi est distribuée selon une loi binomiale négative:
yi
Γ(yi , 1/α) 1 1/α µi
P(Yi = yi |Xi = xi ) = )
yi !Γ(1/α) 1 + αµi 1/α + µi
où α est un paramètre auxiliaire mesurant le degré de sur-dispersion. Cette loi a
une moyenne conditionnelle µi et une variance conditionnelle µi (1 + αµi ). La loi Bi-
nomiale Négative tend vers la loi de Poisson lorsque α tend vers zéro.
Dans la section suivante, nous introduisons la notion d’inflation de zéros et expli-

quons en quoi les modèles de comptages classiques (tels que les modèles de Poisson,
binomial, binomial négatif) ne sont pas adaptés à cette situation. Les modèles à in-
flation de zéros en particulier les modèles de régression à inflation de zéros (ZIP) et
binomial (ZIB) qui permettent de répondre plus efficacement aux problèmes posés
par l’excès de zéros sont décrits en détail dans la section suivante.
1.4 Modèles de régression à inflation de zéros

1.4.1 Introduction
Dans cette section , nous nous intéressons à une cause particulière de sur-dispersion,
appelée inflation de zéros. Ce phénomène, que nous définissons plus précisément
dans la suite, intervient lorsque l’on observe un nombre "excessif" de zéros dans des
données de comptage. Il existe plusieurs modélisations possibles de ce type de don-
nées. Nous nous intéressons dans cette section à une classe particulière de modèles,
dits "modèles à inflation de zéros", qui se présentent comme des mélanges entre
une masse de Dirac en zéro et un modèle classique de comptage (typiquement, un
modèle de Poisson, ou Poisson genéralisé, ou binomial, etc · · · ).
1.4.2 Le modèle de régression ZIP

1.4.2.1 Définition
Soit Z une variable de comptage sur un échantillon de n individus. On note Zi

l’observation de Z. La probabilité pour qu’un individu i soit dans le groupe des zéros
est notée ωi . La variable Zi est modélisée par un ZIP par:

−µi
 ωi + (1 − ωi )e
 si zi = 0,
P(Zi = zi |Xi , Wi ) = (1.5)
z
e−µi µi i

(1 − ωi ) zi ! si zi = 1, 2, · · ·

où ωi et µi sont fonctions respectivement des vecteurs de covariables Wi = (Wi1 , · · · , Wiq )>

et Xi = (Xi1 , · · · , Xip )> . Dans la régression ZIP, la probabilité de mélange ωi et le pa-
ramètre µi sont généralement modélisés par des modèles logistiques et log-linéaires
respectivement, c’est-à-dire :
logit(ωi ) = γ > Wi et log(µi ) = β > Xi . (1.6)
où β = (β1 , · · · , βp )> et γ = (γ1 , · · · , γq )> sont des vecteurs de paramètres inconnus.

On peut synthétiser le modèle sous la forme suivante:

 Zi ∼ ωi δ0 + (1 − ωi )P(µi )

∀i = 1, · · · , n, logit(ωi ) = γ > Wi (1.7)
 >
log(µi ) = β Xi

Conditionnellement à Xi et Wi , l’espérence et la variance de Zi sont données par:
E(Zi |Xi , Wi ) = (1 − ωi )µi et var(Zi |Xi , Wi ) = (1 + ωi µi )(1 − ωi )µi
1.4.2.2 Estimation dans le modèle ZIP
Dans la littérature, plusieurs auteurs ont proposé des méthodes d’estimation

dans un contexte de régression de Poisson avec inflation de zéros. En règle géné-
rale, l’estimation du maximum de vraisemblance est utilisée pour estimer de tels
modèles (voir Lambert (1992, [64]), Czado et al.(2007, [21]). Cependant, il est bien
connu que l’EMV est très sensible à la présence de valeurs aberrantes et peut deve-
nir instable lorsque les composantes du mélange sont mal séparées. Pour pallier à
ce problème, Hall and Shen (2010, [51]) ont suggéré une nouvelle procédure d’esti-
mation du modèle (1.5) dite "robust expectation-solution (RES) estimation" ou tout
simplement l’algorithme ES (expectation-solution). Cet algorithme est une modifi-
cation de l’algorithme expectation-maximization (EM), voir Dempster et al. (1977,
[34]) avec la propriété de robustesse. Dans cette partie, nous discutons brièvement
de cet algorithme ES et des propriétés asymptotiques de l’estimateur sous certaines
conditions. Nous considérons également que tous les individus n’ont pas forcément
la même probabilité ω d’appartenir au groupe des zéros.
Supposons que nous observons n vecteurs indépendants (Z1 , X1 , W1 ), · · · , (Zn , Xn , Wn )
à partir des modèles (1.5)-(1.6), tous définis sur l’espace de probabilité (Ω, C, P). Sur
la base de ces observations, la log-vraisemblance de θ = (β > , γ > )> peut s’écrire
comme suit :
n n h > i
>
X
`n (θ) = Ji log eγ Wi + exp(−eβ Xi )
i=1
h >
i >
o
+(1 − Ji ) Zi β > Xi − eβ Xi − log(Zi !) − log(1 + eγ Wi )
où Ji = 1{Zi =0} .
En particulier, supposons que l’on observe la variable indicatrice Si telle que Si = 1
si zi provient de l’ensemble des zéros (distribution dégénérée) et Si = 0 si zi résulte
du zéro aléatoire (distribution non dégénérée). Alors la log-vraisemblance pour les
données complètes (z; S) est donnée par
n nh i
γ > Wi
X
>
`C
n (z, S; θ) = Si (γ Wi ) − log 1 + e
i=1
h >
io
+(1 − Si ) Zi β > Xi − eβ Xi − log(Zi !)
= `ñ,1 (γ) + `ñ,2 (β)
où S = (S1 , · · · , Sn )>
Avec l’algorithme EM voir Dempster et al. (1977, [34]), la log-vraisemblance est
maximisée de manière itérative en commençant par une valeur initiale (β (0)> , γ (0)> )>
et en alternant les étapes suivantes:
(r)
Étape E: estimer la variable Si par son espérance conditionnelle Si sous les esti-
mations courantes des paramètres β (r) et γ (r) .
Étape M: trouver β (r+1) et γ (r+1) en maximisant respectivement les fonctions `ñ,1 (γ)+
`ñ,2 (β). Hall and Shen (2010, [51]) ont montré que maximiser ces deux fonctions re-
vient à résoudre respectivement les deux équations suivantes
n
1 X (r)
{S − ωi }Wi = 0. (1.8)
n i=1 i
n
1X (r) >
(1 − Si ){zi − eβ Xi }Xi = 0. (1.9)
n i=1
Dans l’approche RES, Hall and Shen (2010, [51]) proposent de remplacer les équa-
tions (1.8) et (1.9) par des estimations de fonctions robustes. Essentiellement, ils
proposent de pondérer les observations qui se situent dans la queue extrême supé-
rieure et inférieure de la distribution de Poisson dans la fonction d’estimation. Sous
des conditions de régularité de Rosen et al. (2000, [92]) liées à l’algorithme ES et de
Carroll et al. (1995, [13]), Hall and Shen (2010, [51]) ont montré le résultat suivant
plus général dans le cas où θ = (β > , γ > )> ∈ Rp+q dans Czado et al. (2007, [21]):
Théorème 1.2 Si l’algorithme RES converge, alors il existe une suite de va-
riables aléatoires θ̂ telles que:
P
1. θ̂ −
→ θ0 quand n → ∞ (consistance),
√ L
2. n(θ̂n − θ0 ) −
→ N (0, V(θ0 )) quand n → ∞ (normalité asymptotique)
où l’expression V(θ0 )) de la variance asymptotique est donnée dans Hall and

Shen (2010,[51]). Des extentions de modèle ZIP ont été étudiés. Citons entre autres
Lam et al. (2006, [65]), He et al. (2010, [53], Nguyen et al., (2019, [85]) ont étendu ce
modèle ZIP respectivement dans le cadre semi-paramétrique , doublement semipa-
ramétrique et de la censure et ont établi les résultats de consistance et de normalité
asymptotique des estimateurs proposés.
1.4.3 Le modèle de régression ZIB

1.4.3.1 Spécification du modèle ZIB
Le modèle de régression Binomial zéro-inflaté (ZIB) a été utilisé en premier par

Kemp and Kemp (1988, [61]) , mais ce n’est que vers les années 2000 que Hall
(2000, [49]) et Vieira et al. (2000, [101]) l’ont introduit de manière beaucoup plus
claire et ont donné quelques applications détaillées dans le cadre de données réelles.
En considérant les mêmes notations que Hall (2000, [49]), le modèle ZIB est une
distribution à deux états définie comme suit :
(
0 avec une probabilité pi ,
Yi ∼ (1.10)
B(ni , πi ) avec une probabilité 1 − pi ,
ce qui implique
(
0 avec une probabilité pi + (1 − pi )(1 − πi )ni ,
Yi = (1.11)
k avec une probabilité (1 − pi ) nki πini (1 − πi )ni −k , k = 1, 2, · · · , ni

avec E(Yi ) = (1 − pi )ni πi et var(Yi ) = (1 − pi )ni πi (1 − πi (1 − pi ni )).

Les deux probabilités peuvent également être exprimées conjointement comme une
distribution de Bernoulli généralisée donnant la vraisemblance suivante:

n
!Ji !1−Ji
Y n i
Ln (β, γ) = pi (1 − pi )(1 − πi )ni . (1 − pi ) πiyi (1 − πi )ni −yi (1.12)
i=1
k
Les paramètres p = (p1 , · · · , pn ) et π = (π, · · · , πn ) sont respectivement modélisés

via une fonction de lien logit,
logit(p) = β > W et logit(π) = γ > X, (1.13)
où W ∈ Rq et X ∈ RP sont les vecteurs de covariables, n est le nombre d’individus,

p et q sont respectivement le nombre de covariables dans le modèle de régression
binomial et le nombre de covariables dans la partie inflation de zéros, γ ∈ Rq et
β ∈ RP sont les paramètres de régression. La log-vraisemblance du modèle basée
sur les observations (Yi , Xi , Wi ), i = 1, · · · , n, est donnée par
n n >
> >
X
`n (θ) = Ji log eγ Wi + (1 + eβ Xi )−mi − log 1 + eγ Wi
i=1
h io
> β > Xi
+(1 − Ji ) Zi β Xi − mi log 1 + e ,
où Ji := 1{Zi =0} .
Les estimations des paramètres de γ et β peuvent être déterminées via la méthode
du maximum de vraisemblance ou via l’algorithme EM comme décrit dans le modèle
ZIP précédemment.
1.4.4 Le modèle de régression ZINB

Le phénomène d’inflation de zéros a été constaté pour la première fois sur des
données de comptage. D’où la mise en place de nouveaux outils plus adaptés, comme
les modèles de régression ZIP et ZINB, pour traiter ce genre de problème.
Pour une variable réponse Zi , i = 1, · · · , n, on dira que Zi est modélisée par un
ZINB si sa distribution est donnée par :
 α
1
 ω + (1 − ωi ) 1+αµi si zi = 0,
 i


P(Zi = zi |Xi , Wi ) = (1.14)
 zi 1/α
 Γ(z
 (1 − ωi ) i +1/α) αµi 1
si zi = 1, 2, · · ·

Γ(1/α)zi ! 1+αµi 1+αµi
avec
E(Zi |Xi , Wi ) = (1 − ωi )µi et var(Zi |Xi , Wi ) = (1 − ωi )µi (1 + (αωi )µi )
où α est un paramètre de surdispersion. Dans les deux cas ωi représente la probabi-

lité d’inflation de zéros. Comme pour les modèles de Poisson et Binomial Négatif, le
modèle ZINB tend vers le modèle ZIP lorsque α tend vers zéro.
1.5. Rappels sur les modèles ZI marginaux 25
L’étude des propriétés asymptotiques dans le modèle ZINB peut se faire de ma-
nière similaire à celle effectuée précédemment dans le modèle ZIP. Pour plus de
détails le lecteur intéressé peut se reporter à Hilbe (2007, [57]), Czado et al. (2007,
[21]) et Mwalili et al. (2008, [83]).
1.5 Rappels sur les modèles ZI marginaux

1.5.1 Introduction et aperçu
Cette section examine une approche pour étendre les modèles linéaires généra-
lisés aux données longitudinales qui conduit à une classe de modèles de régression
appelés modèles marginaux . Le terme marginal dans ce contexte, indique que le
modèle de la réponse moyenne ne dépend que des covariables d’intérêt, et non des
effets aléatoires ou des réponses précédentes. Les modèles marginaux offrent un
moyen très naturel d’étendre les modèles linéaires généralisés aux données longi-
tudinales, et ils ont souvent été appliqués dans les sciences biomédicales et de la
santé. Les modèles marginaux ne nécessitent pas d’hypothèses de distribution pour
les observations, seulement un modèle de régression pour la réponse moyenne. Au-
trement dit, les modèles marginaux fournissent une méthode unifiée pour analyser
divers types de réponses longitudinales, ce qui évite de faire des hypothèses sur la
distribution du vecteur de réponses; la méthode repose uniquement sur des hypo-
thèses sur la manière dont la réponse moyenne est liée aux covariables.
Dans la littérature plusieurs auteurs se sont intéressés à l’estimation des mo-
dèles marginaux dans le cas où des données de comptage. Parmi ces derniers nous
pouvons citer Long et al. (2014, [72]) qui ont proposé un modèle marginal ZIP. Le
modèle MZIP a été étendu pour inclure les effets aléatoire (2015, [73] par ces même
auteurs. En élargissant le modèle MZIP de Long et al. (2014, [72]), Preisser et al.
(2016, [89]) introduit un modèle binomial négatif marginalisé à inflation de zéro
(MZINB) pour modéliser directement le nombre moyen de la population, ce qui per-
met une inférence directe des effets de l’exposition globale qui tient compte à la fois
de l’excès de zéros et de la surdispersion. Les distributions ZIP figurent dans la lit-
térature statistique depuis plus d’un demi-siècle (1963, [6]). Le modèle ZIP est basé
sur un mélange fini d’une distribution de Poisson et d’une distribution dégénérée à
zéro. Soit y = (y1 , · · · , yn ), où yi est la valeur observée d’une variable aléatoire Yi , et

 0
 avec une probabilité πi ,
Yi ∼ (1.15)

Poisson(λi ) avec une probabilité 1 − πi ,

1.5. Rappels sur les modèles ZI marginaux 26
Le modèle permet à λ et π de dépendre des covariables par le biais des relations
log(λi ) = β > Xi et logit(πi ) = γ > Wi ,
où Xi et Wi sont des vecteurs prédicteurs pour la moyenne de Poisson et la probabi-

lité de mélange, respectivement, et β et γ sont les paramètres de régression corres-
pondants. Les coefficients sont généralement estimés par la méthode du maximum
de vraisemblance.
Les extensions du modèle ZIP sont conceptuellement simples et peuvent être
réalisées en remplaçant la composante Poisson du modèle par une autre distribu-
tion adaptée aux caractéristiques des données. En particulier, dans une situation
courante dans laquelle les données non nulles présentent une surdispersion par
rapport à une distribution de Poisson (tronquée), un modèle ZINB ( voir Greene
et al. 2014, [45]) est utile. Dans ce cas, la composante non dégénérée de l’équation
(1.15) devient NB(λi , ϕ) et la même structure de régression que dans le modèle ZIP
est conservée. Dans le cas de données de comptage bornées, le modèle ZIB ( voir Hall
2014, [49]) est utile, auquel cas la composante non dégénérée devient B(mi , λi ), où
λi représente maintenant la probabilité de succès et mi le nombre d’essais constant
pour la distribution binomiale. Dans ce cas, les structures de régression du modèle
prennent la forme suivante
logit(λi ) = β > Xi et logit(πi ) = γ > Wi .
Dans ces modèles de régression ZI et d’autres, les méthodes d’estimation et d’infé-

rence sont largement les mêmes que celles développées à l’origine pour la régression
ZIP.
1.5.2 Formulation des modèles marginaux

L’un des problèmes de la régression ZI est qu’en général, les estimations des
paramètres qui en résultent décrivent les effets des covariables sur la distribution
du nombre latent, et non les effets sur la moyenne marginale, E(Y |X). Dans de
nombreuses applications, l’intérêt se concentre sur la moyenne marginale, et bien
qu’il soit possible de calculer la moyenne sur la base d’un modèle ZI standard, l’effet
d’une covariable intervient à la fois par π et λ , ce qui complique l’interprétation
du modèle. Au lieu de cela, il est souhaitable de modéliser directement l’effet d’une
covariable sur la moyenne tout en tenant compte des ZI. Pour ce faire, Martin et
Hall (2017, [75]) reparamétre le modèle ZI. Soit πi et λi la probabilité que la réponse
soit générée à partir de la distribution dégénérée et la moyenne de la distribution,
respectivement, pour le ième individu. Au lieu d’une spécification de type GLM pour
1.6. Cas particuliers 27
λi , comme dans les modèles de régression ZI standard, nous supposons g(µi ) = β > Xi
avec g un lien adapté pour µi . En outre, un modèle logistique, logit(πi ) = γ > Wi est
supposé pour la probabilité de mélange comme d’habitude. La classe de modèles
qui en résulte, que nous appelons modèles de régression MZI, sont toujours des
mélanges ZI d’une distribution dégénérée à zéro avec une distribution standard de
la famille exponentielle, mais la moyenne de la distribution non dégénérée λi , et
donc aussi son paramètre canonique θi , dépend maintenant à la fois de β et de γ
par la relation λi = µi /(1 − πi ). En écrivant la fonction de densité de la distribution
non dégénérée sous la forme d’une famille de dispersion exponentielle standard voir
B. Jorgensen ( 1987, [7]), la fonction de densité de probabilité pour le sujet i est la
suivante
" #ui
πi (γ) b [θi (β, γ)]
f (yi ; β, γ) = (1 − πi (γ)) + exp + c(0, φ) (1.16)
1 − πi (γ) ai (φ)
" #1−ui
yi θi (β, γ) + b [θi (β, γ)]
× exp + c(yi , φ) ,
ai (φ)
où ui = 1 si yi = 0 et 0 sinon.
La log-vraisemblance conjointe du modèle est la somme des log-densités de la
forme de l’équation (1.16). Un optimiseur de fonction peut être utilisé pour trouver
l’estimateur de maximum de vraisemblance. Cependant, cela peut être difficile sur
le plan si la dimension des paramètres est importante. Par conséquent, certains au-
teurs décrivent également un algorithme EM qui est similaire à celui utilisé pour
les modèles ZI standard, bien qu’il ne soit pas aussi pratique dans le cas MZI car
la vraisemblance des données complètes ne se décompose pas proprement en com-
posantes séparées pour β et γ. La log-vraisemblance des données complètes est la
suivante
n
c
X πi
` (β, γ; yi , z) = zi log + log(1 − πi ) + (1 − zi ) log (h(yi ; Ψ)) (1.17)
i=1
1 − π i
où h(yi ; Ψ) est la distribution non dégénérée, Ψ est le vecteur des paramètres, et


 1, si yi provient de la distribution dégénérée,

zi =

0, sinon.

1.6 Cas particuliers

Dans cette section, nous fournissons quelques détails supplémentaires pour les
modèles MZIB, MZIP et MZINB, qui sont les cas particuliers les plus importants
de la classe MZI. Dans chaque cas, nous donnons les loglikelihoods des données
observées et complètes ainsi que certains détails de l’algorithme EM. La première
fonction peut être obtenue comme la somme sur i du logarithme de l’équation (1.16)
après substitution de la forme spécifique de la densité exponentielle h. La logvrai-
semblance des données complètes découle de l’équation (1.17), à nouveau avec sub-
stitution de la forme appropriée de h. En particulier,
y
exp{−µi /(1−πi )}µi i


 (1−πi )yi yi !
, dans le cas de MZIP ;





hi (yi ; Ψ) = Γ(φ+yi ) yi
µ
Γ(φ)yi ! i
[(1 − πi )φ]φ [(1 − πi )φ + µi ]−(φ+yi ) , dans le cas de MZNB ;





 yi
mi
µi (1 − πi − µi )mi −yi (1 − πi )−mi dans le cas de MZIB.

yi
1.6.1 Modèle de régression marginal ZIP

Pour le modèle MZIP, la composante non dégénérée prend la forme Poisson(λi ),
conduisant à une log-vraisemblance des données observées de la forme
n
X πi −µi
`n (β, γ; y) = log (1 − πi ) + ui log + exp
i=1
1 − πi 1 − πi

µi
+(1 − ui ) yi log µi − ,
1 − πi
où à nouveau µi est la moyenne marginale pour la ième observation, et on suppose

un lien logarithmique pour µ. Dans ce cas, la log-vraisemblance des données com-
plètes est
n
X πi
`cn (β, γ; y) = zi log − (yi − 1) log(1 − πi )
i=1
1 − π i

1 − zi
+ [yi (1 − πi ) log(µi ) − µi ] .
1 − πi
1.6.2 Modèle de marginal ZINB

Pour le modèle MZINB, la composante non-dégénérée est NB(λi , φ), et la log-
vraisemblance des données observées est
n
X πi (1 − πi )φ
`n (β, γ, φ; y) = log (1 − πi ) + ui log +
i=1
1 − πi µi + (1 − πi )φ
+(1 − ui ) {yi log µi + φ log [(1 − πi )φ] − (φ + yi ) log [µi + (1 − πi )φ]

Γ(φ + y)
+ log .
Γ(φ)
Comme dans le cas du MZIP, on suppose un modèle log-linéaire pour µ. Dans ce

cas, la log-vraisemblance des données complètes est
n
X πi
`n (β, γ, φ; y) = log (1 − πi ) + zi log
i=1
1 − πi
1 − zi
+ [yi (1 − πi ) log µi + (1 − πi )φ log [(1 − πi )φ]
1 − πi

Γ(φ + y)
− [(1 − πi )φ + yi (1 − πi )] log [µi + (1 − πi )φ] + log .
Γ(φ)
1.6.3 Modèle de régression marginal ZIB

Pour le modèle MZIB, la composante non dégénérée est B(mi , λi ) et la log-vraisemblance
des données observées est
n
X πi mi mi
`n (β, γ; y, m) = log (1 − πi ) + ui log + (1 − πi ) (1 − πi − µi )
i=1
1 − πi
+(1 − ui ) [yi log µi + (mi − yi ) log(1 − πi − µi ) − mi log(1 − πi )]} ,
où mi est le nombre d’essais et µi est la probabilité marginale de succès pour

la ième observation. Dans ce modèle, la fonction de liaison g reliant µ à β > Xi sera
typiquement le logit, mais d’autres liaisons telles que le probit et les fonctions log-
log complémentaires sont également permises. La log-vraisemblance complète des
données, sur laquelle l’algorithme EM est basé, prend la forme suivante
n
X πi
`n (β, γ; y, m) = log (1 − πi ) + zi log + yi log µi
i=1
1 − π i
+(1 − zi ) [(mi − yi ) log(1 − πi − µi ) − mi log(1 − πi )]} .

Dans les trois cas précédent, Martin and Hall, (2017, [75]) utilise un algorithme
EM pour l’estimation [tels que optim ou maxLik dans R, 93]. Par contre la formu-
lation d’un modèle de régression ZIB marginal dévéloppé par ces auteurs semble
donc simple et soulève une difficulté spécifique et quelque peu cachée qui n’a pas
été abordée jusqu’à présent. Ce qui a conduit E., Ali et al. (2020, [4]) à développer
ce modèle en tenant compte des contraintes inhérentes liées à ce nouveau modèle
MZIB. Cette contribution est exposée dans le chapitre suivant.
2
Modèle de régression marginal binomial à inflation
de zéros avec des contraintes.
Résumé
D ans ce chapitre, nous proposons un nouveau modèle de régression binomial mar-

ginal à inflation de zéros qui tient compte des contraintes. Nous établissons rigoureu-
sement les propriétés asymptotiques de l’estimateur du maximum de vraisemblance
des paramètres d’un modèle de régression MZIB. L’existence et la normalité asympto-
tique sont démontrées. Un estimateur consistant de la matrice de variance covariance
est également fourni. Une étude de simulation approfondie est menée pour évaluer les
propriétés des estimateurs proposés sur des tailles finies d’échantillons. Les résultats
obtenus dans cette étude confirment les propriétés mathématiques établies théorique-
ment. Enfin, une application sur des données issues d’un problème en économie de la
santé est proposée pour illustration.
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Modèle de regression binomiale à inflation de zéros . . . . . . . . 35
2.2.1 Un brève revue du modèle de régression ZIB de la classe latente 35
2.2.2 A propos des contraintes inhérentes à la régression ZIB . . . . . . 36
2.2.3 Un modèle de régression ZIB marginal sous contraintes . . . . . 38
2.2.3.1 Formulation et estimation du modèle . . . . . . . . . . . 38
2.2.3.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Identifiabilité du modèle et résultats asymptotiques . . . . . . . . 42
2.4 Etudes de simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.1 Expériences numériques par simulation . . . . . . . . . . . . . . . 43
2.4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Une comparaison avec le modèle de Martin et Hall . . . . . . . . 45

2.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.1 Description et modélisation des données . . . . . . . . . . . . . . . 46
2.5.2 Résultats de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.5.2.1 Résultats pour le modèle MZIB proposé . . . . . . . . . . 47
2.5.2.2 Résultats pour le modèle MZIB-MH . . . . . . . . . . . . 49
2.5.2.3 Une évaluation empirique de la qualité de l’ajustement . 49
2.6 Conclusion et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.1 Introduction
Les modèles à inflation de zéros sont devenus un outil populaire pour analy-
ser les données de comptage avec un excès de zéros. La formulation classique des
modèles à inflation de zéros suppose que la population étudiée est divisée en deux
classes latentes non observées, l’une correspondant à une sous-population sensible
(ou à risque) dont les observations sont générées par une distribution de comp-
tage non dégénérée, l’autre correspondant à une sous-population non sensible qui
ne fournit que des comptages de zéros. Un modèle à inflation de zéros peut donc
être considéré comme un mélange d’une distribution dégénérée avec une masse
ponctuelle à zéro et d’une distribution de comptage non dégénérée. Des effets de
covariable peuvent être incorporés dans ces distributions, ce qui donne des mo-
dèles de régression à inflation de zéros. Parmi les exemples bien connus figurent
le modèle de régression de Poisson à inflation de zéros (ZIP) Lambert (1992, [64])
et ses extensions (par exemple, Lam et al.,(2006, [65]) ; He et al.,(2010, [53]); Feng
et Zhu,(2011,[42]); Monod,(2014, [79])) et le modèle binomial négatif à inflation de
zéros (ZINB) (Ridout et al.,(2001, [91]); Moghimbeigi et al.,(2008, [78]). Lorsque les
comptages ont une limite supérieure, les modèles ZIP et ZINB ne sont plus appro-
priés et Hall (2000, [49]) a introduit le modèle binomial à inflation zéro (ZIB), voir
aussi Diallo et al.,(2019, [28]). Diallo et al.,(2018, [27]) ont récemment proposé un
modèle de régression à inflation zéros pour les comptages multinomiaux avec une in-
flation zéros commune, voir également Dupuy (2018, [35]). Dans ces modèles, les co-
efficients de régression ont des interprétations de classe latentes. Cependant, il est
souvent intéressant d’évaluer les effets des covariables directement sur la moyenne
marginale de la réponse du comptage (c’est-à-dire sur la moyenne de la population
globale du mélange) plutôt que sur la moyenne de la population sensible. En outre,
Preisser et al.,(2020, [88]) notent que plusieurs articles rapportant les résultats de
modèles à inflation de zéros de classe latente ont tendance à mal interpréter les ef-
fets des covariables sur la moyenne de la sous-population sensible comme des effets
globaux. Les effets marginaux peuvent être estimés à partir des modèles à infla-
tion de zéros de classe latente. Cela nécessite toutefois des calculs supplémentaires
après ajustement du modèle. En outre, la méthode delta ou bootstrap est nécessaire
pour obtenir des erreurs-types appropriées (voir Albert et al.,(2014, [3]); Todem et
al.,(2016, [98]). Comme le notent Long et al.,(2014, [72]), les outils nécessaires à ces
calculs ne sont généralement pas facilement disponibles dans les logiciels standard,
ce qui rend cette approche plutôt lourde pour les analystes appliqués. Des modèles
de régression marginale à inflation de zéros ont donc été proposés pour faciliter l’in-
férence marginale. Ces modèles établissent un lien direct entre les covariables et
la moyenne marginale du comptage à inflation de zéros. Dans cette formulation, la
relation entre la moyenne latente de la sous-population sensible et les covariables
est impliquée par les modèles supposés pour la moyenne marginale et l’apparte-
nance latente à une classe. Par exemple, un modèle à inflation de zéros marginale
de régression de Poisson (MZIP) a été récemment introduit par Long et al.,(2014,
[72]) et étendu pour inclure les effets aléatoires (Long et al.,(2015, [73]). Preisser
et al.,(2016, [89]) proposent un modèle de régression binomiale négative marginale
zéro (MZINB). Au lieu de modéliser les moyennes de Poisson et les moyennes bino-
miales négatives dans la classe latente sensible, ces modèles mettent directement
en relation la moyenne marginale avec les covariables (en utilisant un lien logarith-
mique). Comme dans la formulation de la classe latente, un modèle de régression
logistique est supposé pour la probabilité de susceptibilité (ou à risque). L’estima-
tion et l’inférence dans les modèles MZIP et MZINB sont essentiellement basées
sur les mêmes méthodes que celles développées pour les modèles ZIP et ZINB de
classe latente. Ainsi, à première vue, l’extension des modèles à inflation de zéros
de classe latente aux modèles marginaux à inflation zéros peut sembler concep-
tuellement modeste. Cependant, dans le cas des comptes délimités, cette extension
soulève de manière surprenante quelques difficultés inattendues, comme nous l’ex-
pliquons maintenant. Le modèle de régression binomial à inflation de zéros (ZIB) est
défini comme Z ∼ πδ0 +(1−π)B(m, p) où Z est le nombre observé, π est la probabilité
de susceptibilité, δ0 est la distribution dégénérée à 0 et B(m, p) désigne la distribu-
tion binomiale avec la taille m et la probabilité de succès latente p (c’est-à-dire, p est
la probabilité de succès pour un sujet susceptible). Le modèle de régression ZIB de
la classe latente proposé par Hall(2000, [49]) spécifie π et p (en utilisant des régres-
sions logistiques). En revanche, un modèle de régression ZIB marginal spécifiera π
et la probabilité marginale de succès q = p(1 − π). Dans ce cas, le modèle reliant p
aux covariables est implicite par la relation p = q(1 − π)−1 .
La relation q = p(1 − π) impose les contraintes suivantes sur les probabilités

impliquées dans un modèle ZIB (qu’il s’agisse de classe latente ou marginale) :
q≤p et q ≤1−π (ou equivalent à π ≤ 1 − q). (2.1)
Dans le modèle ZIB de classe latente, on spécifie π et p et on obtient q comme

q = p(1 − π). Les contraintes (2.1) sont donc automatiquement satisfaites. En re-
vanche, dans un modèle ZIB marginal, une fois que q a été spécifié, π doit être choisi
de telle sorte que π ≤ 1 − q (alors q ≤ p se maintient automatiquement puisque
p = q(1 − π)−1 ). Dans ce chapitre, nous proposons un modèle de régression ZIB
marginal qui satisfait aux contraintes (2.1). Un modèle de régression logistique est
utilisé pour la probabilité marginale de succès q. Ensuite, un modèle de régres-
sion contraint est choisi pour la probabilité de susceptibilité π. Bien entendu, il est
possible de procéder dans l’autre sens : on peut d’abord modéliser la probabilité à
risque, puis définir un modèle contraint pour la probabilité marginale de succès.
Le choix entre ces deux approches dépend de l’objectif de l’analyse. Si l’objectif est
d’interpréter les effets des covariables sur la probabilité marginale de succès q, il
faut plutôt restreindre la probabilité à risque π et utiliser, par exemple, une régres-
sion logistique classique pour q, ce qui permettra à l’analyste d’utiliser des rapports
de cotes pour interpréter les effets des covariables. Si l’objectif est d’interpréter les
effets des covariables sur la probabilité de susceptibilité, il faut plutôt utiliser un
modèle restreint pour q.
Le chapitre est organisé comme suit. Dans la section 2.2, nous passons briève-
ment en revue le modèle de régression ZIB de la classe latente. Nous discutons en-
suite des contraintes qui lient les probabilités de succès latent, de succès marginal
et de susceptibilité dans un modèle de régression ZIB, et nous expliquons comment
ces contraintes affectent la formulation d’un modèle ZIB marginal. Nous proposons
enfin un nouveau modèle de régression ZIB marginal contraint. Dans la section 2.3,
nous étudions l’identifiabilité du modèle et les propriétés asymptotiques des esti-
mations du maximum de vraisemblance dans ce modèle. La section 2.4 présente
les résultats d’une étude de simulation. Une application du modèle de régression
ZIB marginal proposé à l’analyse des données sur la demande de soins de santé est
décrite dans la section 2.5. La section 2.6 contient quelques remarques finales. Les
preuves techniques sont reportées en annexe.
2.2. Modèle de regression binomiale à inflation de zéros 35
2.2 Modèle de regression binomiale à inflation de

zéros
2.2.1 Un brève revue du modèle de régression ZIB de la classe
latente
Soit Zi qui indique le compte aléatoire des intérêts pour les individus i, i =
1, . . . , n. Le modèle ZIB est défini comme le modèle de mélange

 0
 avec une probabilité πi ,
Zi ∼ (2.2)

B(mi , pi ) avec une probabilité 1 − πi ,

où πi et pi sont respectivement la susceptibilité et la probabilité de l’événement.

Dans la suite, Notons Si l’indicatrice de classe latente non observée, c’est-à-dire la
variable aléatoire qui vaut 1 si le sujet i est sensible à l’événement en question et 0
sinon. Alors pi est la probabilité P(Zi = 1|Si = 1).
Remarque 2.1 La probabilité marginale de succès qi := P(Zi = 1) est égale à :
qi = P(Zi = 1|Si = 0)πi + P(Zi = 1|Si = 1)(1 − πi )

= pi (1 − πi ).
L’expression "probabilité marginale de réussite" pourrait être ambiguë ici,

puisque Zi est un compte et non une variable 0/1. Dans ce qui suit, nous l’uti-
liserons cependant comme un moyen pratique de faire référence à qi .
Supposons que des covariables soient présentes. Le modèle de régression ZIB

de la classe latente met directement en relation πi et pi avec les covariables. Les
fonctions de lien logit sont généralement supposées par exemple, Hall (2000, [49]);
Diallo (2019, [28]) mais d’autres liens, tels que probit et log-log complémentaire,
sont également applicables. En utilisant les liens logit, le modèle s’écrit comme :
logit(pi ) = β > Xi , logit(πi ) = γ > Wi , (2.3)
où β et γ sont des vecteurs de coefficients de régression inconnus et Xi = (Xi1 , Xi2 , . . . , Xip )>
et Wi = (Wi1 , Wi2 , . . . , Wiq )> sont des vecteurs de covariables (ils peuvent partager
des composantes communes ou être distincts), avec Xi1 = Wi1 = 1.
Remarque 2.2 Le paramètre β décrit les effets des covariables sur la réponse
du compte moyen des individus sensibles, puisque E[Zi |Xi , Si = 1] = mi pi . L’éva-
luation des effets des covariables sur la moyenne marginale de Zi nécessite le
calcul de E[Zi |Xi , Wi ] = mi pi (1 − πi ), soit :
>
mi eβ Xi
E[Zi |Xi , Wi ] = (2.4)
>
(1 + eβ Xi )(1 + eγ > Wi )
sous (2.3). Nous notons que (2.4) implique toutes les covariables et paramètres
des deux sous-modèles pour une inflation zéro et une réponse de comptage. L’in-
terprétation des effets des covariables sur la moyenne marginale du modèle de
régression de la classe latente ZIB n’est donc pas triviale, voir Long et al.,(2014,
[72]) pour une discussion détaillée de cette question.
Supposons que nous observons un échantillon de n copies indépendantes (Zi , Xi , Wi ), i =

1, . . . , n de (Z, X, W). La log-vraisemblance de θ = (β > , γ > )> dans le modèle ZIB de
la classe latente (2.2)-(2.3) est :
n n >
> >
X
``LC
n (θ) = Ji log eγ Wi + (1 + eβ Xi )−mi − log 1 + eγ Wi
i=1
h >
io
+(1 − Ji ) Zi β > Xi − mi log 1 + eβ Xi ,
où Ji := 1{Zi =0} . L’estimateur du maximum de vraisemblance (EMV) θ̂n := (β̂n> , γ̂n> )>
de θ est obtenu en résolvant l’équation de score ∂`LC
n (θ)/∂θ = 0, qui peut être réalisée
avec l’algorithme EM Hall (2000, [49]) ou par maximisation directe de `LC n (θ).
2.2.2 A propos des contraintes inhérentes à la régression ZIB

Comme mentionné ci-dessus, l’interprétation des effets des covariables sur la
moyenne marginale d’un modèle ZIB de classe latente est délicate. Des modèles de
régression à inflation zéro marginale ont donc été proposés pour faciliter l’inférence
marginale. Parmi les exemples de tels modèles, on peut citer le modèle de Poisson
marginal à inflation de zéros (MZIP) et le modèle binomial négatif marginal à infla-
tion de zéros (MZINB). En imitant la formulation des modèles MZIP et MZINB, un
modèle marginal de régression ZIB a également été proposé récemment par Martin
et Hall, (2017, [75]). Ce modèle met directement en relation la probabilité marginale
de succès qi = pi (1 − πi ) avec les covariables, par hypothèse :
logit(qi ) = β > Xi . (2.5)

Comme dans le modèle ZIB de classe latente, une régression logistique
logit(πi ) = γ > Wi (2.6)
est supposée pour la probabilité de susceptibilité. Ici, β décrit directement les ef-
fets des covariables sur la moyenne marginale E[Zi |Xi ] = mi qi . Le modèle reliant
la moyenne latente (c’est-à-dire la réponse de la moyenne de comptage pour un su-
jet sensible) aux covariables est impliqué par la relation pi = qi (1 − πi )−1 et est
utilisé à des fins de construction de la probabilité, plutôt que d’interprétation. La
log-vraisemblance de (β, γ) dans le modèle ZIB marginal défini par (2.2), (2.5) et
(2.6) est :
n n h > i
> > > >
X
− log 1 + eγ Wi + Ji log eγ Wi + (1 + eβ Xi )−mi (1 − eβ Xi +γ Wi )mi
i=1
h
> β > Xi γ > Wi
+(1 − Ji ) Zi β Xi − mi log 1 + e + Zi log 1 + e
> >
io
+(mi − Zi ) log 1 − eβ Xi +γ Wi .
Martin et Hall ( 2017, [75]) utilise un algorithme EM pour l’estimation. La maxi-

misation directe de la log-vraisemblance est également possible, en utilisant l’une
des diverses routines d’optimisation disponibles dans les logiciels standard [tels que
optim ou maxLik dans R, 93].
La formulation d’un modèle de régression ZIB marginal semble donc simple.
Cependant, elle soulève une difficulté spécifique et quelque peu cachée qui n’a pas
été abordée jusqu’à présent. La relation qi = pi (1 − πi ) impose certaines contraintes
sur la probabilité de succès latente de la classe pi , la probabilité de succès marginale
qi et la probabilité de susceptibilité πi . Ces contraintes sont :
q i ≤ pi et q i ≤ 1 − πi , i = 1, . . . , n, (2.7)
et proviennent du fait que pi et πi sont tous deux inférieurs à 1. Dans le mo-

dèle ZIB de la classe latente, on suppose que les modèles pour pi et πi (en prenant
soin de 0 ≤ pi , πi ≤ 1) et (2.7) sont automatiquement satisfaits. Dans le modèle
marginal ZIB, on suppose des modèles pour qi et πi . Mais ces quantités ne peuvent
être modélisées indépendamment, puisque pi = qi (1 − πi )−1 doit être inférieur à 1.
Plus précisément, une fois que qi a été spécifié, πi doit être choisi de telle sorte que
q i ≤ 1 − πi .
Considérons le modèle marginal ZIB défini par (2.2), (2.5) et (2.6). Il n’est pas
difficile de voir que la condition qi ≤ 1 − πi est équivalente à
β > Xi + γ > Wi ≤ 0,
et cela devrait être le cas pour chaque i = 1, . . . , n, ce qui semble très peu plau-
sible en pratique. Les résultats de la simulation présentés dans le tableau 1 de
Martin and Hall, ( 2017, [75]) sont obtenus pour Xi = Wi = (1, Xi2 , Xi3 )> , où Xi2
prend sa valeur en {0, 1} et β = (β1 , β2 , β3 )> et γ = (γ1 , γ2 , γ3 )> sont choisis de telle
sorte que β3 = −γ3 . Dans ce cas, la condition β > Xi + γ > Wi ≤ 0 se réduit à :
β1 + γ1 ≤ min(0, −(β2 + γ2 )), (2.8)
qui est satisfait dans Martin and Hall, (2017, [75]) puisque β = (−.405, .811, −.25)>
et γ = (−1.386, .539, .25)> . Ce cas particulier masque toutefois la question soule-
vée par les contraintes (2.7). Par exemple, considérons γ = (−1.386, .989, .25)> (γ2
ci-dessus a été modifié de .539 à .989, γ1 et γ3 sont inchangés). Cette valeur peut
apparaître, a priori, comme admissible comme γ = (−1.386, .539, .25)> . Cependant,
le modèle marginal ZIB correspondant ne peut être défini puisque sous cette valeur,
qi > 1 − πi pour certains i = 1, . . . , n et les pi correspondants sont supérieurs à 1.
Remarque 2.3 Les modèles ZIP et ZINB marginalisés ne sont pas affectés par
le type de contrainte décrit ci-dessus. Par exemple, un modèle ZIP pour Z est
défini comme Z ∼ πδ0 + (1 − π)P(λ), où P(λ) désigne une distribution de Pois-
son avec une moyenne λ > 0. Un modèle ZIP marginal spécifie la probabilité
de susceptibilité π ∈ [0, 1] et la moyenne marginale ν := λ(1 − π) de Z (voir
Long et al.,(2014, [72]). La moyenne de classe latente λ est impliquée par la
relation λ = ν(1 − π)−1 . Puisque λ est illimité, aucune restriction ne s’applique
sur π une fois que ν est spécifié. Par conséquent, π et ν peuvent être modélisés
indépendamment l’un de l’autre.
2.2.3 Un modèle de régression ZIB marginal sous contraintes

Dans cette section, nous proposons un modèle de régression ZIB marginal qui
tient compte des contraintes décrites ci-dessus. Tout d’abord, nous formulons le mo-
dèle.
2.2.3.1 Formulation et estimation du modèle
Considérons le modèle ZIB (2.2), défini comme Zi ∼ πi δ0 + (1 − πi )B(mi , pi ),

i = 1, . . . , n. Afin de construire un modèle ZIB marginal, nous relions d’abord la
probabilité marginale de succès qi := P(Zi = 1|Xi ) à la covariable Xi en utilisant un
lien logit :
logit(qi ) = β > Xi . (2.9)
Ensuite, nous spécifions la probabilité de susceptibilité πi , qui doit satisfaire πi ≤

>
1 − qi = (1 + eβ Xi )−1 . Notre proposition est de fixer :
1
πi = β>X
, (2.10)
1+e i + eγ > Xi
où β et γ sont des vecteurs inconnus à dimension p de coefficients de régression.
Notez qu’ici, nous ne faisons pas de distinction entre les covariables qui agissent sur
la probabilité marginale de succès et les covariables qui agissent sur la probabilité
de susceptibilité. Toutes les covariables sont incluses dans les deux sous-modèles
(sous la notation commune Xi ) et les tests de Wald seront utilisés pour identifier
celles qui influencent significativement chaque processus.
Remarque 2.4 L’intuition derrière (2.10) est la suivante. Il faut que πi ≤

> >
1 − qi = (1 + eβ Xi )−1 ou équivalent : 1 + eβ Xi ≤ πi−1 . Si Xi est délimité et
que nous supposons que β appartient à un ensemble compact de Rp , il existe
>
une constante finie M telle que 1 + eβ Xi ≤ M , et πi = M −1 fournit un modèle
mathématiquement admissible pour πi . Cela n’est toutefois pas satisfaisant, car
la probabilité de susceptibilité dépend probablement de i, par le biais de cova-
riables. Ainsi, une véritable limite supérieure pour πi devrait dépendre d’une
>
certaine manière de 1 + eβ Xi .
> >
Une limite supérieure plus précise pour 1 + eβ Xi est donnée par 1 + a · eβ Xi
>
avec a > 1, ou de manière équivalente par 1 + eβ Xi (1 + eα ), où α est un nombre
réel fini (le paramétrage 1 + eα est pratique car il assure que 1 + eα > 1 pour
chaque α). Maintenant,
>X >X >X
1 + eβ i
(1 + eα ) = 1 + eβ i
+ eα+β i
,
β > Xi β̃ > Xi
:= 1 + e +e ,
où β̃ coïncide avec β = (β1 , . . . , βp ), sauf sa première composante qui est donnée

> >
par α + β1 . On a donc (1 + eβ Xi + eβ̃ Xi )−1 ≤ 1 − qi . Par conséquent, un modèle
alternatif et plutôt général pour πi , satisfaisant la contrainte πi ≤ 1 − qi , est
> >
donné par πi = (1 + eβ Xi + eβ̃ Xi )−1 . Enfin, afin d’accroître encore la flexibilité
> >
du modèle, nous fixons πi = (1+eβ Xi +eγ Xi )−1 , où γ est un vecteur à dimension
p éventuellement sans rapport avec β.
Le modèle de régression ZIB marginal proposé est donc défini par les équations
(2.2), (2.9) et (2.10). La probabilité de succès latente de la classe impliquée par ce

modèle est :
> > >
eβ Xi (1 + eβ Xi + eγ Xi )
pi = .
(1 + eβ > Xi )(eβ > Xi + eγ > Xi )
Remarque 2.5 L’interprétation des effets des covariables sur pi n’est pas tri-
viale. Cependant, dans un modèle marginal à inflation de zéros, la probabilité
de succès latente de la classe est d’un intérêt secondaire puisque l’on s’intéresse
principalement à la probabilité de succès marginale qi . D’autre part, on peut fa-
cilement faire des inférences sur la relation entre les covariables et la moyenne
marginale E[Zi |Xi ] = mi logit−1 (β > Xi ). Cette inférence peut être abordée de dif-
férentes manières. Par exemple, on peut vouloir comparer les moyennes margi-
nales de deux valeurs distinctes x et x∗ de Xi . Cela peut être réalisé en compa-
> ∗ > ∗ > ∗
rant le rapport E[Zi |Xi = x∗ ]/E[Zi |Xi = x] = (eβ (x −x) + eβ x )/(1 + eβ x ) à
1 (ou équivalent, en comparant β > (x∗ − x) à 0). Un test formel de l’hypothèse
H0 : E[Zi |Xi = x∗ ] = E[Zi |Xi = x] peut être dérivé du résultat asymptotique
indiqué dans le Théorème 2.8 ci-dessous. En utilisant la même idée, on peut
également évaluer, par exemple, l’effet sur la moyenne marginale d’une aug-
mentation unitaire d’une composante donnée de Xi .
Soit θ = (β > , γ > )> le paramètre de dimension 2p dans le modèle de régression

ZIB marginal (2.2)-(2.9)-(2.10). Pour i = 1, . . . , n, soit Ji = 1{Zi =0} et
>
β > Xi γ > Xi β > Xi γ > Xi eγ Xi
fi (θ) = 1 + e +e , gi (θ) = e +e , hi (θ) = .
(1 + eβ > Xi )gi (θ)
Ensuite, la log-vraisemblance de θ, basée sur des observations indépendantes n

(Zi , Xi ), i = 1, . . . , n, est :
n
X n
X
``n (θ) = Ji log(1 + gi (θ)hm
i (θ))
i
− log(fi (θ))
i=1 i=1
n
X
(1 − Ji ) Zi (β − γ)> Xi + log(gi (θ)) + Zi log(fi (θ)) + mi log(hi (θ)) ,

+
i=1
n
X
= ì (θ).
i=1
L’Estimateur de Maximum de Vraisemblance θ̂n = (β̂n> , γ̂n> )> de θ est obtenue en

˙ n (θ) = 0, où
résolvant l’équation de score ``
n
˙ n (θ) = √1 ∂``n (θ) = √1
X ∂ì (θ)
`` . (2.11)
n ∂θ n i=1 ∂θ
Dans la section 2.3, nous établissons une cohérence et une normalité asymptotique
de θ̂n . Avant cela, nous introduisons quelques notations supplémentaires.
2.2.3.2 Notations
Soit
 
1 ··· 1
X12 · · · Xn2 
 
X= .

... .. 
 .. . 

X1p · · · Xnp
la matrice de conception (p × n) et V la matrice bloc (2p × 2n) définie comme :

" #
X 0p,n
V= ,
0p,n X
où 0p,n désigne la matrice (p × n) dont les composantes sont toutes égales à zéro. Soit
également S(θ) = (Sj (θ))1≤j≤2n le vecteur colonne à 2n de dimensions défini par :
S(θ) = (`˙β,1 (θ), . . . , `˙β,n (θ), `˙γ,1 (θ), . . . , `˙γ,n (θ))> ,
où pour chaque i = 1, . . . , n,
> >
! > >
eβ Xi Qi (θ) eβ Xi eβ Xi eβ Xi Qi (θ)
`˙β,i (θ) = −Ji + Zi +1 − + ,
(1 + eβ > Xi )gi (θ)ki (θ) fi (θ) fi (θ) (1 + eβ > Xi )gi (θ)
et
> >X >
! > > >
mi eβ Xi + eγ i
eγ Xi eγ Xi mi eβ Xi + eγ Xi
`˙γ,i (θ) = −Ji + Zi −1 − + ,
gi (θ)ki (θ) fi (θ) fi (θ) gi (θ)
> >
avec ki (θ) = 1 + gi (θ)hm i (θ) et Qi (θ) = 1 + e
i β Xi
− mi (fi (θ) + eβ Xi ). Enfin, si A =
(Aij )1≤i≤a,1≤j≤b est une matrice (a × b), soit A•j sa j-ième colonne (j = 1, . . . , b) c’est-
˙ n (θ) peut être écrit comme
à-dire A•j = (A1j , . . . , Aaj )> . Ensuite, le vecteur de score ``
2n
˙ n (θ) = √1
X
`` V•j Sj (θ).
n j=1
2.3. Identifiabilité du modèle et résultats asymptotiques 42
2.3 Identifiabilité du modèle et résultats asympto-

tiques
Nous commençons par donner quelques conditions de régularité qui sont néces-
saires pour assurer l’identifiabilité du modèle proposé et pour établir les propriétés
de EMV en grand échantillon.
1. Il existe une constante positive finie c1 telle que |Xij | ≤ c1 pour chaque i =
1, 2, . . . et j = 1, . . . , p. Pour chaque i = 1, 2, . . . et j = 2, . . . , p, var[Xij ] > 0. Pour
chaque i = 1, 2, . . ., les Xij (j = 1, . . . , p) sont linéairement indépendants.
2. Les vraies valeurs des paramètres β0 et γ0 appartiennent à l’intérieur d’un
ensemble compact connu C de Rp .
h 2 i
3. Lorsque n → ∞, n−1 ni=1 E ∂∂θ∂θ
ì (θ)
P
> converge vers une matrice inversible L(θ)
et la plus petite valeur propre λn de VV> tend vers +∞.
4. Pour chaque i = 1, . . . , n, nous avons : mi ∈ {2, . . . , M } pour un entier fini M .
Dans ce qui suit, toutes les variables aléatoires Zi et Xi , i = 1, 2, . . . sont définies
sur un même espace de probabilité (Ω, A, P). L’espace R2p est équipé de la norme
euclidienne k · k2 et l’espace des matrices réelles (2p × 2p) est équipé de la norme
maxkxk2 =1 kAxk2 (pour la simplicité des notations, nous utilisons k · k pour les deux
normes). Nous sommes maintenant en mesure d’énoncer notre premier résultat :
Théorème 2.6 Supposons que les conditions 1 à 4 soient vérifiées. Alors le mo-
dèle de régression ZIB marginal défini par (2.2), (2.9) et (2.10) est identifiable,
c’est-à-dire ì (θ) = ì (θ∗ ) implique θ = θ∗ presque sûrement.
La preuve est donnée dans l’annexe A.

Les propriétés asymptotiques de θ̂n sont maintenant présentées dans les théorèmes
suivants. Nous présentons ici une esquisse des preuves; les détails sont fournis dans
l’annexe B.
Théorème 2.7 Supposons que les conditions 1 à 4 soient vérifiées. Alors,

lorsque n → ∞, θ̂n converge presque sûrement vers θ0 = (β0> , γ0> )> .
La preuve repose sur le fait que n−1/2 ``˙ n (θ) converge vers une limite qui est nulle en
θ0 . Nous faisons ensuite appel au théorème de la fonction inverse de Foutz (1977,
2.4. Etudes de simulations 43
[38]).
Théorème 2.8 Supposons que les conditions 1 à 4 soient vérifiées. Alors

√
n(θ̂n − θ0 ) est distribué asymptotiquement comme une loi normale multivariée
avec une moyenne nulle et une matrice de covariance L(θ0 )−1 . Un estimateur co-
˙ n (θ̂n )/∂θ> )−1 .
hérent de la variance asymptotique est donné par (n−1/2 ∂ ``
√
Pour prouver la normalité asymptotique, nous montrons que n(θ̂n − θ0 ) est asymp-
totiquement équivalent à une combinaison linéaire de vecteurs aléatoires (non iden-
tiquement distribués) et nous appliquons un théorème limite central multivarié
pour les formes vectorielles linéaires aléatoires de Eicker (1966, [36]). Plus préci-
sément, une expansion en série de Taylor de `˙n (θ̂n ) en θ0 donne
!−1 2n
√ ˙ n (θ0 )
1 ∂ `` 1 X
n(θ̂n − θ0 ) = − √ √ V•j Sj (θ0 ) + oP (1).
n ∂θ> n j=1
Par lemme 3.4 dans l’annexe B, n−1/2 ∂ `` ˙ n (θ0 )/∂θ> converge vers L(θ0 ), et nous mon-
trons que √1n 2n
P
j=1 V•j Sj (θ0 ) est distribué asymptotiquement comme une loi normale
multivariée avec pour moyenne nulle et une matrice de covariance L(θ0 ). Une appli-
cation du théorème de Slutsky conclut la preuve. Tous les détails sont donnés dans
l’annexe B, ainsi que les expressions des termes de la matrice des dérivées secondes
˙ n (θ0 )/∂θ> .
∂ ``
2.4 Etudes de simulations

Dans cette section, nous évaluons la performance de EMV en échantillon fini par
le biais d’expériences de Monte Carlo.
2.4.1 Expériences numériques par simulation

Les données de comptage Zi sont simulées à partir du modèle de régression ZIB
marginal (2.2)-(2.9)-(2.10) avec Xi = (Xi1 , . . . , Xi8 ) et Xi1 = 1. Les covariables Xi2
à Xi8 sont générées à partir de la distribution normale N (0, 1), la distribution uni-
forme U[−2, 2], la distribution normale N (1, 1.5), la distribution normale N (−2, 1), la
distribution de Bernoulli B(0.3) , la distribution uniforme U[1, 3] et la distribution de
Bernoulli B(0.8) respectivement. Ici, nous prenons β0 = (−0.25, −0.9, 0.3, −0.8, 1, 0, 0, 0)> ,
c’est-à-dire que Xi6 , Xi7 et Xi8 n’ont aucune influence sur la probabilité marginale
de succès qi .
Nous considérons successivement quatre valeurs pour γ, à savoir :

γ = (−0.7, 0, −0.4, 0.6, −0.5, 0.7, 0, 0)> , γ = (−0, 4, 0, 0.8, −0.6, −0.5, −0.7, 0, 0)> , γ =
(−0.4, 0, 0.8, −0.6, −0.5, −0.7, −0.7, −0.8)> et γ = (−0.9, 0, 0.8, −0.6, 0.5, −0.7, −0.7, −0.8)> .
Avec ces valeurs, la proportion moyenne c de données à inflation de zéro dans les
ensembles de données simulées est respectivement de 0.25, 0.50, 0.75 et 0.90. Nous
considérons les tailles d’échantillon suivantes : n = 500, 2000. Pour chaque individu
i, la taille binomiale mi est prise comme le maximum entre 2 et un tirage aléatoire
de la distribution binomiale B(15; 0.3).
Nous simulons N = 1000 réplicationspour chaque combinaison [taille de
l’échantillon × proportion de l’inflation zéro] des paramètres de
conception. Les simulations sont effectuées à l’aide du logiciel statistique R [93].
Nous utilisons le progiciel maxLik [54] pour résoudre l’équation de score (2.11) via
un algorithme de Newton-Raphson.
2.4.2 Résultats
Pour chaque scénario de simulation et chaque estimateur β̂j,n (j = 1, . . . , 8) et
γ̂k,n (k = 1, . . . , 8), nous calculons le biais moyen, l’écart-type, l’erreur standard
moyenne et l’erreur quadratique moyenne de l’estimation sur les N échantillons
simulés. Nous obtenons également la probabilité de couverture empirique et la lon-
gueur moyenne des intervalles de confiance de Wald à 95 % pour les estimateurs β̂j,n
(j = 1, . . . , 8) et γ̂k,n (k = 1, . . . , 8). Les Tableaux 2.1 et 2.2 présentent respectivement
les résultats pour n = 500 et n = 2000.
Nous évaluons également l’approximation normale indiquée par le théorème 2.8,
en traçant les densités estimées obtenues à partir des N estimations normalisées
(β̂j,n − βj )/standard error(β̂j,n ) and (γ̂k,n − γk )/standard error(γ̂k,n ), j, k = 1, . . . , 8,
et en comparant avec la densité de la distribution normale standard. Les erreurs
standard sont obtenues comme les racines carrées des éléments diagonaux de la
matrice de variance estimée (n−1/2 ∂ `` ˙ n (θ̂n )/∂θ> )−1 . Les figures 2.3 et 2.4 donnent les
résultats pour n = 500 de 50% de proportion de zéro. Les graphiques pour les autres
scénarios sont similaires et ne seront pas donnés dans ce document.
D’après ces résultats, il semble, comme prévu, que le biais, la variabilité et la
longueur des intervalles de confiance de toutes les estimations diminuent à mesure
que la taille de l’échantillon augmente. Pour un n fixe, nous observons que : i) les
performances du β̂j,n restent stables lorsque la proportion d’inflation zéro varie de
valeurs faibles à modérées (ici, de 0.25 à 0.50) et se détériorent lorsque l’inflation
zéro atteint des valeurs plus élevées, et : ii) les performances du γ̂k,n s’améliorent
puis se détériorent lorsque la proportion d’inflation de zéros augmente.
Ces observations illustrent le fait général qu’une estimation précise dans un
modèle de régression à inflation de zéros nécessite un équilibre entre les sous-

populations sensibles et non sensibles (c’est-à-dire qu’une quantité suffisante d’ob-
servations nulles et non nulles doit être disponible pour estimer avec précision les
probabilités d’inflation zéro et le sous-modèle de comptage). De plus, les probabi-
lités de couverture empirique sont proches du niveau nominal, ce qui indique que
l’approximation normale de la distribution de l’EMV est appropriée, même lorsque
la taille de l’échantillon est modérée. Ceci est confirmé par les figures 2.3 et 2.4.
2.4.3 Une comparaison avec le modèle de Martin et Hall

Dans cette section, nous comparons, par le biais de simulations, les performances
du modèle marginal ZIB de Martin et Hall (2017, [75]) (MZIB-MH par la suite) et
du modèle MZIB proposé (2.2)-(2.9)-(2.10). La conception de la simulation comprend
deux scénarios.
Tout d’abord, nous simulons 1000 échantillons (avec n = 100 puis n = 1000) à
partir du modèle MZIB-MH utilisé dans l’étude de simulation de Martin et Hall
2017, [75], c’est-à-dire :
(
0 avec une probabilité πi ,
Zi ∼ , logit(qi ) = β > Xi , logit(πi ) = γ > Xi ,
B(mi , pi ) avec une probabilité 1 − πi ,
où qi = pi (1 − πi ), β = (−0.405, 0.811, −0.25)> , γ = (−1.386, 0.539, 0.25)> , Xi1 = 1, Xi2

est un vecteur d’un nombre égal à 0 et 1 et Xi3 suit une loi uniforme sur [−1, 1].
Nous prenons mi comme maximum entre 2 et un tirage au sort de la distribution
B(15; 0, 3). Dans ce cas, la proportion moyenne de données à inflation zéro est de
0,25.
Ensuite, nous simulons 1000 échantillons à partir du modèle MZIB (2.2)-(2.9)-
(2.10):
(
0 avec une probabilité πi , 1
Zi ∼ , logit(qi ) = β > Xi , πi = β >X > ,
B(mi , pi ) avec une probabilité 1 − πi , 1+e i + eγ Xi
avec les mêmes paramètres que ci-dessus (ici, la proportion moyenne de données à
inflation zéro est de 0.45). Nous obtenons l’Estimateur de Maximum de Vraisem-
blance dans les deux modèles, pour les deux scénarios.
Dans le premier scénario, notre modèle MZIB spécifie mal la probabilité de sus-
ceptibilité πi . Dans le second scénario, le modèle MZIB-MH spécifie mal πi . Dans les
deux cas, les estimations de γ devraient être biaisées dans le modèle mal spécifié.
Cela est confirmé par les résultats de la simulation. Cependant, dans un modèle
marginal à inflation de zéro, l’intérêt porte généralement sur β, qui relie les cova-
riables à la moyenne marginale de la réponse du compte. C’est pourquoi nous ne
2.5. Application 46
fournissons les résultats que pour β. En outre, étant donné que les modèles MZIB-
MH et MZIB proposé adoptent la même spécification pour qi , une comparaison des
estimations de β des deux modèles est juste. Les résultats sont décrits dans le Ta-
bleau 2.3 (premier scénario) et dans le Tableau 2.4 (deuxième scénario).
Il apparaît que dans les deux modèles, l’estimation de β est assez robuste à une
mauvaise spécification de la probabilité de susceptibilité. Autrement dit, lorsque le
modèle MZIB-MH est utilisé pour générer les données, les estimations de β dans
notre modèle MZIB sont de bonne qualité. Inversement, lorsque notre modèle est
utilisé pour simuler les données, les estimations de β dans le modèle MZIB-MH se
comportent également bien.
Nous observons également que les estimations obtenues à partir de notre modèle
se comportent presque systématiquement mieux que les estimations basées sur le
modèle MZIB-MH, même lorsque le modèle MZIB-MH est utilisé pour simuler les
données.
En outre, pour être défini, le modèle MZIB-MH doit satisfaire à la contrainte
β Xi + γ > Wi ≤ 0 (voir section 2.2.2). Il est peu probable que cette condition forte
>
soit vérifiée à mesure que le nombre de covariables augmente. Par exemple, elle
n’est pas satisfaite dans le cadre de simulation décrit dans la section 2.4.1, ce qui
signifie que le modèle MZIB-MH ne peut même pas être utilisé pour estimer β à
partir de ces données.
2.5 Application
2.5.1 Description et modélisation des données
Dans cette section, nous décrivons une application du modèle de régression ZIB
marginal à l’analyse de l’utilisation des soins de santé par les personnes âgées aux
états-Unis. Nous utilisons les données de la National Medical Expenditure Survey
(NMES) menée en 1987-1988 aux États-Unis. Cette enquête donne une image com-
plète de la manière dont les Américains (âgés de 66 ans et plus) utilisent les services
de santé. Plusieurs mesures de l’utilisation des soins de santé ont été rapportées
dans cette étude, comme le nombre de visites à un professionnel de la santé non
médecin dans un bureau et le nombre de visites à un médecin dans un cabinet. Des
informations sur la santé des patients sont également communiquées, ainsi que des
variables socio-démographiques et économiques. Une description détaillée de ces
données se trouve dans Deb et Trivedi ( 1997, [25]).
Nous abordons ici la question de l’identification des facteurs qui déterminent
la décision des patients de consulter un professionnel de santé non médecin lors
d’une visite en cabinet. Soit Zi et mi , respectivement le nombre de visites en ca-
2.5. Application 47
binet de non-médecins et le nombre total de visites en cabinet du patient i. Étant

donné mi , on peut modéliser Zi par une distribution B(mi , πi ) (compte tenu de la
condition 4, nous considérons les patients ayant effectué au moins deux visites en
cabinet au cours de la période d’étude, c’est-à-dire mi ≥ 2). Cependant, la fréquence
élevée de zéro dans les Zi s (60,2% parmi les n = 3391 patients inclus dans notre
analyse, voir la figure 2.11) suggère que la réponse est à inflation de zéros et qu’un
modèle de régression ZIB devrait être utilisé à la place. Un modèle ZIB de classe
latente ne donnera des indications sur les déterminants de la décision des patients
que dans la classe inobservable des patients à risque (c’est-à-dire les patients qui
n’ont pas renoncé à consulter des non-médecins). Des interprétations plus signifi-
catives peuvent être obtenues au niveau de la population, et pour cela, nous suggé-
rons d’utiliser un modèle de régression ZIB marginal. Comme mentionné ci-dessus,
les covariables disponibles comprennent : i) des variables socio-économiques : sexe
(1 pour les femmes, 0 pour les hommes), âge (en années, divisé par 10), état ci-
vil, niveau d’éducation (nombre d’années d’éducation), revenu, ii) diverses mesures
de l’état de santé : nombre de maladies chroniques (cancer, arthrite, problèmes de
vésicule biliaire · · · ) et une variable indiquant le niveau de santé perçu (mauvais,
moyen, excellent) et iii) une variable binaire indiquant si l’individu est couvert par
medicaid ou non (medicaid est une assurance maladie américaine pour les individus
ayant des revenus et des ressources limités, nous la codons comme 1 si l’individu est
couvert et 0 sinon). La santé perçue est recodée sous la forme de deux variables fic-
tives désignées par "santé1" (1 si la santé est perçue comme mauvaise, 0 sinon) et
"santé2" (1 si la santé est perçue comme excellente, 0 sinon). Nous ajustons un mo-
dèle de régression ZIB marginal aux données, où la probabilité marginale de succès
qi et la probabilité de susceptibilité πi sont données par (2.9) et (2.10) respective-
ment, et Xi comprend toutes les covariables disponibles énumérées ci-dessus. Nous
utilisons des tests de Wald pour sélectionner les covariables significatives (la cova-
riable la moins significative au niveau de 5% est supprimée et le modèle est ajusté
à nouveau, jusqu’à ce que toutes les covariables restantes soient significatives ; à
noter que le critère BIC diminue à chaque étape de cette procédure). À titre de com-
paraison, nous effectuons une analyse similaire en utilisant le modèle MZIB-MH.
Les résultats sont fournis dans le Tableau 2.5.
2.5.2 Résultats de l’analyse

2.5.2.1 Résultats pour le modèle MZIB proposé
La plupart des facteurs qui influencent la décision de ne jamais avoir recours à

un non-médecin sont l’état de santé, l’âge, le sexe, le niveau d’éducation et le statut
au regard de Medicaid. La probabilité de ne jamais avoir recours à un médecin aug-
2.5. Application 48
mente lorsque l’état de santé se dégrade. Une hypothèse est que les patients dont
l’état de santé se dégrade auront tendance à privilégier les visites chez un médecin
plutôt que chez un non-médecin. La probabilité de ne jamais avoir recours à un non-
médecin diminue lorsque le nombre d’années d’études augmente. Cela est cohérent
avec les conclusions précédentes de la littérature. étant donné l’insignifiance des re-
venus, cette observation pourrait être due à un effet de revenu signalé par le niveau
d’éducation. Une autre explication, émise par Deb et Trivedi ( 1997, [25]), est que
l’éducation peut faire des individus des consommateurs mieux informés des services
de soins médicaux. Des patients mieux informés peuvent à leur tour avoir tendance
à diversifier leur utilisation des soins de santé. Les hommes sont plus susceptibles
que les femmes de renoncer aux visites en cabinet médical. Une observation simi-
laire a été rapportée à plusieurs reprises dans la littérature, et peut s’expliquer par
les codes sociaux et l’influence des stéréotypes (comme la masculinité étant associée
à la résistance au mal). Enfin, les bénéficiaires de Medicaid sont plus susceptibles
de renoncer aux visites en cabinet médical. Une explication est que les bénéficiaires
de medicaid, qui ont de faibles revenus, peuvent limiter leurs consultations à celles
qui sont nécessaires, c’est-à-dire aux visites chez le médecin. Dans le modèle ZIB
à classe latente, les effets des covariables sur la probabilité de consulter un non-
médecin lors d’une visite dans un bureau doivent être interprétés par rapport à la
sous-population sensible. Cette sous-population n’étant pas observée, ces effets sont
difficiles à interpréter. Au contraire, le modèle de régression ZIB marginal permet
des interprétations à l’échelle de la population. Le tableau 2.5 montre que, dans
l’ensemble de la population, les déterminants importants de la décision de consul-
ter un non-médecin lors d’une visite dans un cabinet médical comprennent l’état de
santé, l’âge, le sexe, le niveau d’éducation et le statut au regard de l’assurance ma-
ladie. Les patients en mauvaise santé préféreront les visites chez un médecin plutôt
que chez un non médecin, ce qui semble une observation naturelle. Les femmes et
les personnes ayant fait des études supérieures ont plus de chances de consulter
un non-médecin, tandis que les bénéficiaires de Medicaid sont plus susceptibles de
consulter des médecins que des non médecins. La probabilité de consulter un non-
médecin lors d’une consultation en cabinet diminue avec l’âge. Cela peut être dû à
plusieurs facteurs, tels que la diminution de la mobilité associée au vieillissement
(les patients âgés auront tendance à limiter leurs consultations à celles considérées
comme les plus nécessaires, c’est-à-dire aux visites chez le médecin) et l’aggravation
de l’état de santé avec le vieillissement (les patients dont l’état de santé décline sont
susceptibles de favoriser les visites chez un médecin).
2.5. Application 49
2.5.2.2 Résultats pour le modèle MZIB-MH
Le modèle MZIB-MH identifie presque le même ensemble de covariables signi-

ficatives en qi (le niveau d’éducation et le statut vis-à-vis de l’assurance-maladie
ne sont pas significatifs, alors que l’état civil l’est). L’ampleur et le signe des pa-
ramètres significatifs sont similaires dans les deux modèles, ce qui conduit à des
interprétations similaires.
Les déterminants de la décision de ne jamais avoir recours à un non-médecin
sont le sexe, le niveau d’éducation, la variable fictives de la santé1 et l’état civil.
Le modèle MZIB-MH et le modèle MZIB proposé reposent sur des spécifications
différentes pour la probabilité de susceptibilité πi , et il faut faire preuve de pru-
dence pour interpréter γ dans ces modèles. Par exemple, une covariable positive
dont l’augmentation entraîne une augmentation de πi correspondra à un coefficient
positif dans le modèle MZIB-MH et à un coefficient négatif dans notre modèle. Dans
cette optique, nous observons que les deux modèles fournissent les mêmes conclu-
sions sur l’effet du sexe, du niveau d’éducation et d’un mauvais état de santé sur
la probabilité de ne jamais avoir recours à un non-médecin. Environ πi : le modèle
MZIB-MH identifie l’état civil comme une covariable significative mais, de manière
surprenante, ne met en évidence aucun effet de l’âge ou du statut médical [les deux
ont été trouvés significatifs dans des analyses précédentes utilisant divers autres
modèles, voir 26, 27].
2.5.2.3 Une évaluation empirique de la qualité de l’ajustement
La vérification de la qualité de l’ajustement est un aspect important de la mo-

délisation de la régression. Jusqu’à présent, cependant, peu de choses ont été faites
pour étudier cette question dans des modèles marginaux à inflation de zéro. Nous
nous référons à Todem et al. (2016, [98]), qui utilisent l’AIC et le BIC pour comparer
plusieurs modèles marginaux à inflation de zéro. Nous suggérons quelques outils
empiriques supplémentaires et les appliquons à notre modèle.
Tout d’abord, notez que dans le modèle ZIB, la variance de Zi est :
var(Zi |Xi , Wi ) = mi qi (1 − pi (1 − mi πi )).
Sur cette base, nous définissons le résidu de Pearson pour ième observation comme
Zi − mi q̂i
ri = p ,
mi q̂i (1 − p̂i (1 − mi π̂i ))
où p̂i , q̂i et π̂i sont obtenus en remplaçant β et γ par leurs estimations dans pi , qi et πi .
Si le modèle est correct, on peut s’attendre à ce que ces résidus se situent dans une
fourchette limitée (par exemple, pas plus de 5 % ne devrait être supérieur à 1,96
2.6. Conclusion et Perspectives 50
en valeur absolue). Dans notre modèle final, la proportion de résidus supérieurs à

1,96 est de 7,5 %, ce qui n’est que légèrement supérieur à 5 % et suggère que notre
modèle correspond raisonnablement bien aux données.
Nous proposons également de calculer la statistique du chi carré de Pearson
N
2
X (Z̃k − m̃k q̂k )2
X = ,
k=1
m̃k q̂k (1 − p̂k (1 − m̃k π̂k ))
où N est le nombre de modèles de covariables distincts (c’est-à-dire des observations

ayant les mêmes valeurs pour toutes les covariables) et Z̃k (respectivement m̃k ) est
la somme des Zi (respectivement mi ) sur les individus i ayant le même schéma de
covariables. Nous comparons X 2 avec le α-quantile du χ2 (N − `), où ` est le nombre
de paramètres estimés. Le résultat du test pour notre modèle final est significatif
(valeur p = 0, 008), ce qui suggère que notre modèle correspond bien aux données.
Cependant, cette apparente mauvaise concordance est due au fait que deux valeurs
aberrantes (parmi les modèles à covariables uniques N = 2142) ont les deux plus
grands résidus rk = 6, 28 et rk0 = 7, 18. En retirant rk (respectivement rk et rk0 ) de
l’analyse, on obtient une valeur X 2 p-value égale à 0,048 (respectivement 0,138), ce
qui suggère que notre modèle correspond bien aux données. Nous avons effectué une
analyse similaire pour le modèle MZIB-MH et avons obtenu des résultats similaires.
Cependant, selon les critères AIC et BIC du tableau 2.5, notre modèle fournit un
ajustement légèrement meilleur que le modèle MZIB-MH.
Dans l’ensemble, les deux modèles s’accordent sur l’influence de plusieurs cova-
riables. Cependant, le modèle MZIB-MH n’identifie pas l’âge et le statut de l’assu-
rance maladie comme étant significatifs pour πi , bien que plusieurs analyses précé-
dentes suggèrent l’influence de ces variables. De plus, et peut-être plus important
encore, avec un grand nombre de covariables, il est difficile de comprendre comment
la contrainte β > Xi + γ > Wi ≤ 0, i = 1, . . . , n sous-jacente au modèle MZIB-MH peut
affecter le processus d’ajustement du modèle et de sélection des variables. Pour ces
raisons, nous préférons recommander l’utilisation du modèle MZIB proposé, basé
sur les équations (2.2)-(2.9)-(2.10).
2.6 Conclusion et Perspectives

Les modèles de régression à inflation de zéros fournissent un cadre utile pour
l’analyse des données de comptage comportant des zéros en excès. La plupart des
modèles classiques à inflation de zéros sont basés sur une formulation de classe
latente. Dans ce cadre, les paramètres de régression du sous-modèle de comptage
doivent être interprétés en fonction de la classe des individus susceptibles, ce qui
donne souvent lieu à des déclarations trompeuses, voire erronées. Par exemple,
Preisser et al. (2012, [88]) observe qu’en épidémiologie dentaire, de nombreux cher-
cheurs interprètent mal les paramètres dans les modèles de régression de Poisson à
inflation de zéros en termes d’incidence globale des caries, au lieu de l’incidence au
sein de la sous-population sensible. Des modèles marginaux à inflation de zéros ont
récemment été proposés pour permettre une inférence à l’échelle de la population à
partir de données de comptage comportant un excès de zéros. Cette approche mo-
délise directement la moyenne marginale de la réponse au comptage, plutôt que la
moyenne conditionnelle étant donné que l’individu est susceptible. Par exemple, des
modèles marginaux de Poisson à inflation de zéros et des modèles binomiaux néga-
tifs ont été introduits par Long et al. (2014, [72]) et Preisser et al. (2016, [89] respec-
tivement. La formulation de ces modèles est relativement simple. Au contraire, la
formulation d’un modèle binomial marginal à inflation de zéros nécessite un certain
soin, en raison des contraintes inhérentes qui s’appliquent, dans ce cas, à la proba-
bilité de susceptibilité et à la moyenne marginale de la réponse de comptage. Dans
ce chapitre, nous proposons une formulation qui tient compte de ces contraintes.
La théorie asymptotique et les études de simulation suggèrent toutes deux la perti-
nence de l’inférence du maximum de vraisemblance dans ce nouveau modèle.
Plusieurs questions méritent maintenant d’être examinées et le modèle ZIB mar-
ginal proposé devrait être étendu pour tenir compte de la complexité supplémen-
taire des données. Par exemple, des effets aléatoires pourraient être incorporés au
modèle, afin de tenir compte de la corrélation entre les individus. Des effets non
linéaires peuvent également être introduits dans les prédicteurs linéaires, par le
biais de fonctions inconnues des covariables. Ces extensions nécessitent des déve-
loppements théoriques et numériques spécifiques qui sont les sujets de nos travaux
futurs.
c β̂n γ̂n
β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂6,n β̂7,n β̂8,n γ̂1,n γ̂2,n γ̂3,n γ̂4,n γ̂5,n γ̂6,n γ̂7,n γ̂8,n
0.25
bias -0.0308 -0.0116 0.0015 -0.0073 0.0117 0.0062 0.0094 0.0052 -0.1443 0.0959 -0.0982 0.2043 -0.2137 0.1716 0.0007 0.0235
SD 0.4602 0.1117 0.0935 0.0843 0.1163 0.2170 0.1774 0.2533 1.3297 0.4019 0.3135 0.4312 0.5275 0.7809 0.5245 0.7620
SE 0.4648 0.1105 0.0883 0.0825 0.1156 0.2131 0.1727 0.2520 1.2953 0.3744 0.2950 0.3885 0.4697 0.7365 0.4851 0.7235
RMSE 0.6546 0.1575 0.1286 0.1182 0.1644 0.3041 0.2477 0.3573 1.8615 0.5574 0.4414 0.6151 0.7378 1.0867 0.7142 1.0507
CP 0.9530 0.9490 0.9450 0.9460 0.9580 0.9450 0.9380 0.9430 0.9610 0.9470 0.9570 0.9530 0.9490 0.9540 0.9450 0.9490
`(CI) 1.8180 0.4321 0.3457 0.3228 0.4522 0.8338 0.6757 0.9837 4.9720 1.4017 1.1135 1.4151 1.7266 2.6520 1.8743 2.7536
0.50
bias -0.0214 -0.0103 0.0048 -0.0081 0.0159 -0.0045 0.0031 0.0232 -0.0787 0.0850 0.0898 -0.0114 -0.1679 -0.0767 0.0023 0.0139
2.6. Conclusion et Perspectives
SD 0.4710 0.1156 0.0890 0.0776 0.1171 0.2252 0.1726 0.2539 1.2360 0.3615 0.2649 0.2359 0.4394 0.5723 0.4864 0.7114
moyenne des intervalles de confiance.

SE 0.4610 0.1105 0.0894 0.0772 0.1167 0.2229 0.1714 0.2499 1.1857 0.3334 0.2514 0.2142 0.4125 0.5549 0.4492 0.6714
RMSE 0.6593 0.1602 0.1262 0.1097 0.1661 0.3168 0.2432 0.3569 1.7141 0.4989 0.3759 0.3188 0.6255 0.8006 0.6619 0.9780
CP 0.9510 0.9349 0.9570 0.9520 0.9499 0.9469 0.9469 0.9469 0.9429 0.9550 0.9550 0.9309 0.9499 0.9520 0.9439 0.9489
`(CI) 1.8031 0.4322 0.3498 0.3018 0.4567 0.8715 0.6707 0.9757 4.5859 1.2776 0.9634 0.8272 1.5634 2.1471 1.7401 2.5600
0.75
bias 0.0081 -0.0293 0.0119 -0.0224 0.0189 -0.0080 -0.0109 0.0079 0.0176 0.0163 0.0540 -0.0304 -0.0693 -0.0690 -0.0555 -0.0529
SD 0.5719 0.1434 0.1154 0.1000 0.1456 0.2818 0.2241 0.2986 1.0455 0.2647 0.2177 0.1875 0.3201 0.5067 0.3946 0.5990
SE 0.5646 0.1377 0.1135 0.0977 0.1390 0.2852 0.2184 0.2996 1.0152 0.2685 0.2073 0.1797 0.3126 0.4964 0.3921 0.5616
RMSE 0.8035 0.2009 0.1622 0.1415 0.2022 0.4009 0.3130 0.4229 1.4570 0.3773 0.3054 0.2614 0.4527 0.7125 0.5589 0.8226
CP 0.9500 0.9350 0.9470 0.9410 0.9420 0.9550 0.9480 0.9600 0.9470 0.9610 0.9380 0.9450 0.9460 0.9470 0.9580 0.9360
`(CI) 2.2071 0.5383 0.4439 0.3818 0.5435 1.1146 0.8543 1.1691 3.9598 1.0440 0.8073 0.7007 1.2118 1.9369 1.5307 2.1860
0.90
bias -0.0233 -0.0299 0.0115 -0.0297 0.0338 -0.0078 0.0020 0.0130 -0.1404 0.0133 0.0615 -0.0229 0.0132 -0.1967 -0.0558 0.0226
SD 0.7438 0.1869 0.1462 0.1337 0.1789 0.3626 0.2797 0.4134 1.5928 0.3651 0.3118 0.2656 0.3670 1.1673 0.5991 0.9384
SE 0.7129 0.1742 0.1422 0.1264 0.1802 0.3544 0.2762 0.3921 1.4259 0.3644 0.3053 0.2506 0.3616 0.9626 0.5584 0.7911
RMSE 1.0303 0.2571 0.2042 0.1863 0.2561 0.5070 0.3930 0.5698 2.1419 0.5159 0.4406 0.3658 0.5152 1.5252 0.8207 1.2272
CP 0.9440 0.9390 0.9490 0.9390 0.9500 0.9490 0.9490 0.9380 0.9490 0.9560 0.9530 0.9500 0.9520 0.9620 0.9480 0.9470
`(CI) 2.7847 0.6797 0.5559 0.4932 0.7034 1.3849 1.0799 1.5289 5.4261 1.4063 1.1754 0.9683 1.3958 3.1572 2.1576 2.8570
bilité de couverture empirique des intervalles de confiance à 95 %. `(CI) : longueur

d’inflation de zéro. SD : écart-type empirique. SE : erreur type moyenne. CP : proba-
Tableau 2.1 – Résultats de la simulation pour n = 500. c : proportion moyenne
52
c β̂n γ̂n
β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂6,n β̂7,n β̂8,n γ̂1,n γ̂2,n γ̂3,n γ̂4,n γ̂5,n γ̂6,n γ̂7,n γ̂8,n
0.25
bias -0.0042 -0.0027 -0.0001 -0.0033 0.0011 -0.0010 -0.0021 0.0052 -0.0034 0.0104 -0.0172 0.0243 -0.0278 0.0260 -0.0057 -0.0039
SD 0.2273 0.0557 0.0411 0.0405 0.0583 0.1058 0.0861 0.1244 0.5636 0.1546 0.1219 0.1451 0.1797 0.2835 0.2190 0.3114
SE 0.2281 0.0542 0.0434 0.0407 0.0567 0.1047 0.0851 0.1230 0.5519 0.1526 0.1211 0.1460 0.1805 0.2844 0.2096 0.3035
RMSE 0.3220 0.0777 0.0598 0.0575 0.0813 0.1488 0.1210 0.1749 0.7886 0.2174 0.1727 0.2072 0.2562 0.4023 0.3031 0.4348
CP 0.9580 0.9380 0.9620 0.9560 0.9390 0.9500 0.9480 0.9500 0.9510 0.9580 0.9590 0.9560 0.9560 0.9520 0.9430 0.9450
`(CI) 0.8937 0.2125 0.1702 0.1594 0.2222 0.4104 0.3334 0.4816 2.1595 0.5968 0.4734 0.5697 0.7050 1.1123 0.8207 1.1873
0.50
bias -0.0039 -0.0008 0.0010 -0.0037 0.0031 0.0024 -0.0022 0.0085 0.0031 0.0189 0.0156 -0.0071 -0.0343 -0.0168 -0.0031 -0.0037
SD 0.2245 0.0551 0.0442 0.0385 0.0587 0.1124 0.0856 0.1246 0.5032 0.1464 0.1122 0.0941 0.1710 0.2488 0.1956 0.3059
moyenne des intervalles de confiance.

SE 0.2251 0.0541 0.0438 0.0377 0.0571 0.1090 0.0839 0.1214 0.5210 0.1434 0.1075 0.0944 0.1704 0.2436 0.1976 0.2864
RMSE 0.3179 0.0772 0.0622 0.0540 0.0819 0.1566 0.1199 0.1741 0.7242 0.2057 0.1561 0.1335 0.2438 0.3485 0.2780 0.4189
CP 0.9510 0.9430 0.9550 0.9510 0.9380 0.9370 0.9400 0.9560 0.9620 0.9470 0.9450 0.9520 0.9600 0.9410 0.9540 0.9320
`(CI) 0.8820 0.2119 0.1716 0.1476 0.2237 0.4271 0.3286 0.4753 2.0388 0.5606 0.4204 0.3694 0.6658 0.9539 0.7737 1.1204
0.75
bias -0.0256 -0.0001 0.0033 -0.0024 0.0014 -0.0005 0.0075 0.0047 -0.0233 0.0074 0.0134 -0.0035 -0.0158 -0.0062 -0.0055 -0.0006
SD 0.2759 0.0652 0.0580 0.0479 0.0662 0.1380 0.1049 0.1508 0.4898 0.1247 0.0953 0.0833 0.1390 0.2241 0.1894 0.2590
SE 0.2745 0.0668 0.0554 0.0473 0.0675 0.1388 0.1063 0.1455 0.4704 0.1233 0.0954 0.0829 0.1418 0.2303 0.1819 0.2575
RMSE 0.3899 0.0933 0.0803 0.0674 0.0945 0.1957 0.1495 0.2095 0.6794 0.1755 0.1355 0.1175 0.1991 0.3213 0.2626 0.3652
CP 0.9460 0.9600 0.9380 0.9560 0.9530 0.9510 0.9530 0.9510 0.9400 0.9430 0.9380 0.9460 0.9540 0.9590 0.9510 0.9510
`(CI) 1.0752 0.2616 0.2170 0.1852 0.2646 0.5437 0.4166 0.5698 1.8425 0.4826 0.3736 0.3245 0.5548 0.9021 0.7127 1.0085
0.90
bias 0.0219 -0.0076 0.0037 -0.0080 0.0118 -0.0007 -0.0088 -0.0028 -0.0007 0.0026 0.0091 -0.0055 0.0130 -0.0291 -0.0186 0.0073
SD 0.3475 0.0835 0.0704 0.0608 0.0888 0.1710 0.1333 0.1923 0.6263 0.1609 0.1355 0.1088 0.1584 0.3300 0.2464 0.3290
SE 0.3438 0.0839 0.0688 0.0608 0.0869 0.1715 0.1340 0.1882 0.6126 0.1583 0.1336 0.1095 0.1572 0.3356 0.2464 0.3173
RMSE 0.4892 0.1186 0.0985 0.0863 0.1247 0.2421 0.1892 0.2690 0.8758 0.2257 0.1904 0.1545 0.2235 0.4715 0.3489 0.4570
CP 0.9520 0.9500 0.9450 0.9510 0.9380 0.9640 0.9530 0.9520 0.9470 0.9530 0.9450 0.9490 0.9470 0.9610 0.9530 0.9420
`(CI) 1.3465 0.3286 0.2695 0.2380 0.3402 0.6719 0.5249 0.7368 2.3972 0.6192 0.5224 0.4284 0.6149 1.3102 0.9645 1.2413
bilité de couverture empirique des intervalles de confiance à 95 %. `(CI) : longueur

d’inflation de zéro. SD : écart-type empirique. SE : erreur type moyenne. CP : proba-
Tableau 2.2 – Résultats de la simulation pour n = 2000. c : proportion moyenne
53
n MZIB-MH MZIB proposé

β̂1,n β̂2,n β̂3,n β̂1,n β̂2,n β̂3,n
100 bias -0.0074 0.0223 0.0172 -0.0086 0.0186 0.0161

SD 0.1709 0.3029 0.2443 0.1667 0.2912 0.2413
SE 0.1617 0.2944 0.2331 0.1618 0.2934 0.2359
RMSE 0.2354 0.4229 0.3380 0.2324 0.4137 0.3377
CP 0.9340 0.9470 0.9420 0.9420 0.9520 0.9500
`(CI) 0.6322 1.1529 0.9102 0.6322 1.1492 0.9215
1000 bias -0.0021 0.0036 0.0007 -0.0015 0.0010 0.0003

SD 0.0558 0.1029 0.0804 0.0515 0.0943 0.0744
SE 0.0506 0.0920 0.0719 0.0506 0.0919 0.0732
RMSE 0.0753 0.1380 0.1079 0.0722 0.1316 0.1043
CP 0.9300 0.9170 0.9170 0.9450 0.9430 0.9420
`(CI) 0.1983 0.3606 0.2818 0.1983 0.3602 0.2869
Tableau 2.3 – Résultats de la simulation [les données sont simulées à partir du

modèle MZIB-MH, 75].
n MZIB-MH MZIB proposé

β̂1,n β̂2,n β̂3,n β̂1,n β̂2,n β̂3,n
100 bias -0.0030 0.0167 -0.0334 -0.0013 0.0059 -0.0243

SD 0.2770 0.3832 0.3418 0.2676 0.3695 0.3273
SE 0.2617 0.3763 0.3301 0.2608 0.3730 0.3256
RMSE 0.3810 0.5372 0.4762 0.3736 0.5250 0.4622
CP 0.9470 0.9480 0.9510 0.9530 0.9580 0.9580
`(CI) 1.0246 1.4730 1.2895 1.0212 1.4614 1.2740
1000 bias 0.0011 0.0048 -0.0039 0.0008 0.0035 -0.0031

SD 0.0898 0.1318 0.1131 0.0785 0.1165 0.1016
SE 0.0813 0.1162 0.1004 0.0812 0.1162 0.1003
RMSE 0.1211 0.1757 0.1513 0.1129 0.1646 0.1428
CP 0.9250 0.9230 0.9190 0.9570 0.9500 0.9470
`(CI) 0.3185 0.4555 0.3935 0.3183 0.4555 0.3933
Tableau 2.4 – Résultats de la simulation (les données sont simulées à partir du

modèle MZIB (2.2)-(2.9)-(2.10)).
MZIB proposé MZIB-MH

parameter estimate standard error estimate standard error
β intercept -0.8182 0.2200 -0.7732 0.1820

health1 -0.4284 0.0530 -0.6518 0.0887
health2 0.2547 0.0599 0.2193 0.0470
chronic -0.1049 0.0116 -0.0922 0.0099
age -0.1315 0.0261 -0.1083 0.0220
gender 0.1714 0.0565 0.2269 0.0623
education 0.0326 0.0077
medicaid -0.2532 0.1151
marital status 0.1722 0.0600
γ intercept -1.4925 0.1485 0.7594 0.1066

gender 0.3573 0.0904 -0.3589 0.0888
education 0.0742 0.0119 -0.0262 0.0049
medicaid -0.3992 0.1656
health1 0.4299 0.1160
marital status -0.1964 0.0870
AIC 26339.4 26357.4

BIC 67007.4 67025.4
Tableau 2.5 – Analyse des donnés sur les soins de santé (pour chaque modèle,
seules les covariables significatives au niveau de 5 % sont signalés).
Density plot for β1,n Density plot for β2,n Density plot for β3,n
0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
0.0 0.1 0.2 0.3 0.4
0.4
0.3
Density
Density
Density
0.2
0.2
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2 −2 0 2 4
Density plot for β7,n Density plot for β8,n

0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −4 −2 0 2 4
Figure 2.1 – Estimations de la densité des (β̂j,n − βj )/erreur standard(β̂j,n ), j =

1, . . . , 8 avec n = 500 et 25% d’inflation de zéros.
Density plot for γ1,n Density plot for γ2,n Density plot for γ3,n
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
0.0
−2 0 2 −2 0 2 4 −4 −2 0 2
0.4
0.4
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
−4 −2 0 2 −4 −2 0 2 0.0 −4 −2 0 2
Density plot for γ7,n Density plot for γ8,n

Density
Density
0.20
0.2
0.00
0.0
−3 −1 1 3 −2 0 2 4
Figure 2.2 – Estimations de la densité des (γ̂k,n − γk )/standard error(γ̂k,n ), k =

1, . . . , 8 avec n = 500 et 25% d’inflationde zéros.
0.4
Density
Density
Density
0.2
0.2
0.2
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −3 −1 1 3
0.4
0.4
Density
Density
Density
0.2
0.2
0.2
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 0.0 −2 0 2 4

Density
Density
0.2
0.2
0.0
0.0
−4 −2 0 2 4 −2 0 2 4

Density
Density
Density
0.20
0.2
0.2
0.00
0.0
0.0
−2 0 2 −2 0 2 4 −4 −2 0 2
0.4
0.4
Density
Density
Density
0.20
0.2
0.2
0.00
0.0
−4 −2 0 2 −4 −2 0 2 0.0 −4 −2 0 2
Density plot for γ7,n Density plot for γ8,n

Density
Density
0.20
0.2
0.00
0.0
−3 −1 1 3 −2 0 2 4

0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4

Density
Density
Density
−2 0 2 4 −4 −2 0 2 4 −4 −2 0 2
0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 −2 0 2 4 −2 0 2

0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

Density plot for γ1,1 Density plot for γ1,2 Density plot for γ1,3
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4

Density
Density
Density
−2 0 2 4 −3 −2 −1 0 1 2 3 −2 0 2 4
0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4

0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2
Density plot for γ1,7 Density plot for γ1,8

0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 −4 −2 0 2 4

0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2 4 −4 −2 0 2 4
0.4
0.0 0.1 0.2 0.3 0.4

0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −2 0 2 4

0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4
Figure 2.7 – Estimations de la densité des (β̂j,n − βj )/standard error(β̂j,n ), j =

0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
0.0 0.1 0.2 0.3 0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2

0.4
0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
0.2
0.1
0.0
−2 0 2 −3 −2 −1 0 1 2 3 4

1, . . . , 8 avec n = 2000 and 25% d’inflation de zéros.
0.0 0.1 0.2 0.3 0.4

0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4

0.3
Density
Density
Density
0.2
0.1
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −4 −2 0 2 4

0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −4 −2 0 2 4

0.4
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −3 −2 −1 0 1 2 3 −4 −2 0 2 4
0.4
0.0 0.1 0.2 0.3 0.4
0.0 0.1 0.2 0.3 0.4
0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −3 −2 −1 0 1 2 3 4 −4 −2 0 2

0.0 0.1 0.2 0.3 0.4
0.4
Density
Density
0.2
0.0
−4 −2 0 2 4 −4 −2 0 2 4

2000
1500
Frequency
1000
500
0
0 4 8 12 17 22 27 32 37 42 47 52 57 62
Number of non−physician office visits
Figure 2.11 – Diagramme en barres du nombre de visites dans les cabinets de

médecins.
3
Une étude basée sur la simulation de la régression
ZIP avec divers sous-modèles à inflation de zéros
Résumé
L es modèles à inflation de zéros pour les données de comptage surdispersées ont

reçu peu d’attention jusqu’à présent, à l’exception du modèle de Poisson à inflation
de zéros (ZIP), qui suppose que la surdispersion est entièrement causée par l’infla-
tion de zéros. Une question essentielle dans la modélisation des données de réponse
de comptage est le choix approprié des fonctions de liaison. La fonction de lien cou-
ramment utilisée pour modéliser la probabilité d’inflation de zéros est le lien logit.
Pour surmonter cette limitation, ce chapitre étudie les propriétés de l’Estimateur du
Maximum de Vraisemblance (EMV) du modèle de régression ZIP dans lequel la pro-
babilité de susceptibilité est modélisée par des fonctions de lien alternatives. Des
simulations sont utilisées pour examiner les performances (biais, erreur quadratique
moyenne, probabilités de couverture et calculs de l’erreur standard) de l’EMV.
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Modèles, données, notations . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.1 Modèle de régression ZIP-GEV . . . . . . . . . . . . . . . . . . . . 71
3.2.2 Modèle de régression ZIP-cloglog . . . . . . . . . . . . . . . . . . . 72
3.2.3 Modèle de régression ZIP-probit . . . . . . . . . . . . . . . . . . . 73
3.3 Expériences numériques . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Simulation des données . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 Résultats de simulations . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4 Applications sur des données réelles . . . . . . . . . . . . . . . . . . 77
3.4.1 Description des données et modèles concurrents . . . . . . . . . . 77
3.5 Conclusion et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1 Introduction
La modélisation statistique est une étape importante de l’analyse des données
dans de nombreux domaines de la recherche scientifique ou à des fins de décision.
Pour mener à bien cette démarche, il faut spécifier une distribution de probabi-
lité qui rende compte le plus précisément possible de la variabilité observée dans
les données. Étant donné la pléthore de distributions discrètes ou continues dispo-
nibles par exemple Johnson et al. (2005, [58]), des lignes directrices sont nécessaires
pour identifier de manière non aléatoire la famille de distributions à un ou deux
paramètres adaptées à la modélisation des données disponibles. La pratique dans
cette procédure est de considérer en plus certains phénomènes tels que : sur/sous-
dispersion ou inflation/déflation de zéros pour les données de comptage, voir Bonat
et al. (2018, [8]) et, sur/sous-variation ou masse de zéros pour les données continues
par exemple Abid et al. (2020, [1]).
Le phénomène de dispersion de Poisson est bien connu et très largement uti-
lisé dans la pratique ; voir Kokonendji (2014, [63]) pour un examen des modèles de
comptage (ou de valeurs entières discrètes). Divers modèles ont été mis au point
pour traiter l’exès de zéros, comme les modèles à inflation de zéros (ZI) qui mé-
langent une distribution dégénérée à zéro avec un modèle de comptage standard.
Le modèle de régression de Poisson à inflation de zéros (ZIP) a été proposé par
Lambert (1992, [64]) et développé par Dietz (2000, [32]), Lim (2006, [70] et Monod
(2014, [79]), parmi beaucoup d’autres. Les variantes récentes de la régression ZIP
comprennent les modèles ZIP à effets aléatoires voir, Hall (2020, [49]) ; Min et al.
(2005, [77]) et les modèles ZIP semi-paramétriques par exemple Lam (2006, [65]).
Un modèle de régression binomial négatif à inflation de zéros (ZINB) a été proposé
par Ridout et al. (2001, [91]), voir aussi Moghimbeigi et al. (2008, [78].
Ainsi, Hall (2000, [49] a introduit le modèle binomial à inflation de zéros (ZIB),
voir aussi Hall et Berenhaut (2002), Diop et al. (2011, [29]), et Diallo et al. (2017,
[26]). Dans [85], les auteurs ont proposés une régression de Poisson à inflation de zé-
ros avec des données censurées à droite. La façon habituelle de modéliser la variable
réponse est d’utiliser un modèle linéaire généralisé (GLM), où nous modélisons la
probabilité latente de "succès" une fonction de liaison ( voir McCullagh et Nelder
(1989, [76]). Les fonctions de lien logit et probit sont des liens communs utilisés
dans le GLM. Cependant, les fonctions de liaison mentionnées ci-dessus sont des
liaisons "symétriques" en ce sens qu’elles supposent que la probabilité latente d’une
variable de réponse donnée s’approche de 0 avec le même taux qu’elle s’approche
de 1. De même, la fonction de densité de probabilité qui correspond à la fonction de
distribution cumulative inverse de la fonction de liaison est symétrique. Toutefois,
cette hypothèse peut ne pas être raisonnable dans de nombreux cas. Une fonction
de liaison asymétrique communément adoptée est la fonction de liaison loglog (clo-
glog) complémentaire. Cependant, la fonction de lien cloglog présente une asymétrie
négative fixe. Par conséquent, il manque à la fois la souplesse nécessaire pour per-
mettre aux données d’afficher le degré d’asymétrie à incorporer et la possibilité d’au-
toriser une asymétrie positive. En bref, les données de comptage pourraient souvent
être mieux modélisées avec des fonctions de lien flexibles qui permettent à la fois
une asymétrie positive et négative et qui permettent aux données de déterminer la
quantité d’asymétrie requise.
De nombreux travaux de recherche ont été menés qui introduisent de la flexibi-
lité dans les fonctions de liaison. Aranda-Ordaz (1989, [5]) a proposé deux modèles
séparés à un paramètre pour une flexibilité supplémentaire dans le modèle logis-
tique. Guerrero (1982, [48]) a utilisé la transformation Box-Cox sur le rapport de
cotes pour former une classe de modèle plus flexible. Jones (2004, [59]) a proposé
une famille de distributions flexibles basées sur la distribution des statistiques de
commandes. Stukel (1988, [97] a proposé une classe de modèles logistiques géné-
ralisés à deux paramètres. Récemment, Wang et Dey (2010, [103]) ont proposé la
fonction de liaison généralisée des valeurs extrêmes donnant une asymétrie plus
souple contrôlée par le paramètre de forme. Mais les liens logistiques et probit stan-
dard ne font pas partie des cas particuliers de cette famille.
Un problème critique dans la modélisation des données de réponse au comptage
est le choix approprié des fonctions de liens. Pour surmonter cette limitation, nous
proposons un modèle flexible de régression de Poisson à inflation de zéro qui com-
bine une fonction de liaison généralisée de valeur extrême avec les autres fonctions
de liaison. Dans la théorie des valeurs extrêmes, la distribution GEV est utilisée
pour modéliser la queue d’une distribution voir Coles (2014,[19]). Actuellement, le
modèle de régression logistique, avec son interprétation et sa mise en œuvre pra-
tique, a été couramment utilisé pour estimer et prédire. Comme dans ce travail,
nous nous concentrons sur les paramètres de Poisson que nous avons choisis pour
faire varier plusieurs fonctions de liaison afin de voir la flexibilité de la distribu-
tion GEV par rapport aux autres. Dans le GLM, Agresti (2002, [2], les fonctions
de liaison loglog et loglog complémentaires sont utilisées puisqu’il s’agit de fonc-
tions asymétriques. En particulier, la fonction de liaison loglog est la fonction quan-
tile de la variable aléatoire de Gumbel. La fonction inverse de la fonction loglog
3.2. Modèles, données, notations 70
complémentaire est égale à un moins la fonction de distribution cumulative de la

variable aléatoire de Gumbel. Les conséquences d’une mauvaise spécification des
liens ont été étudiées par de nombreux auteurs dans la littérature. En particulier,
pour les observations binaires indépendantes, voir Czado et Santner (1992, [20]) a
démontré que la supposition erronée d’un lien logistique entraîne une augmenta-
tion substantielle du biais et de l’erreur quadratique moyenne des estimations des
paramètres ainsi que des probabilités prédites, tant asymptotiquement que dans les
échantillons finis. En outre, ces effets indésirables sont plus importants lorsque la
spécification erronée implique une asymétrie que lorsqu’elle implique une aplatis-
sement (ou poids de la queue). Cheen et al.(2002, [104] ont également montrés que
dans certaines conditions, il existe des relations linéaires entre les coefficients de ré-
gression, bien que le choix des liens soit important pour la qualité de l’ajustement.
Afin de construire un modèle approprié et extrêmement flexible pour les données
de comptage et de surmonter la contrainte des modèles de liens généralisés biaisés,
nous proposons la distribution du cloglog, du probit et de la valeur extrême généra-
lisée (GEV) comme fonction de lien. Dans ce chapitre, nous suggérons ensuite une
nouvelle classe de fonctions de liaison pour modéliser les données de comptage, et
l’appliquer aux données d’utilisation des soins de santé.
Ce chapitre est organisé comme suit. Dans la section 3.2, nous rappelons la déf-
nition du modèle de régression ZIP, nous décrivons l’estimation du maximum de
vraisemblance sous différentes fonctions de liaison et nous introduisons quelques
notations utiles. Dans la section 3.3, nous présentons les résultats de nos simula-
tions. Une application à un ensemble de données sur l’utilisation des soins de santé
est décrite dans la section 3.4. La section 3.5 contient quelques remarques finales.
3.2 Modèles, données, notations

Soit Zi ∼ πi δ0 +(1−πi )P(λi ) une variable réponse de comptage et X = (1, X2 , · · · , Xp )>
un vecteur de covariables, (> l’opérateur de transposition et Ji = 1{Zi =0} ). Nous sup-
posons que la distribution conditionnelle de Z étant donné X est donnée par un
modèle de régression de Poisson avec le paramètre λi = exp(β > Xi ), où β ∈ Rp est un
vecteur de paramètres inconnus. D’autre part, un modèle de régression ZIP spéci-
fiera la probabilité de succès comme suit : logit(πi ) = γ > Wi . Dans ce cas, le modèle
reliant πi aux covariables Wi est donnée par la relation suivante :
πi = F (γ > Wi ) (3.1)
où F est une fonction de distribution cumulative et F −1 détermine la fonction de

liaison. Wi = (1, Wi2 , · · · , Wiq )> est un vecteur q de covariables et γ ∈ Rq est un
vecteur de paramètre inconnu.
Supposons que l’on dispose de n individus indépendants et que pour chacun

d’eux, on observe le triplet (Zi , Xi , Wi ) ( avec i ∈ {1, · · · n}). Sur la base de ces obser-
vations, la vraisemblance de θ = (β > , γ > )> est calculée comme suit
n J i Zi 1−Ji
−λi λi
Y
−λi
Ln (θ) = πi + (1 − πi )e · (1 − πi )e ,
i=1
Zi !
d’où l’on déduit facilement la log-vraisemblance `LC

n = log Ln (θ) :
n n > h i
> >
X
`LC
n (θ) = Ji log eγ Wi + e− exp(β Xi ) + (1 − Ji ) Zi β > Xi − eβ Xi − log (Zi !)
i=1
>
o
− log 1 + eγ Wi .
L’Estimateur du Maximum de Vraisemblance (EMV) θ̂n := (β̂n> , γ̂n> )> de θ est

obtenu en résolvant l’équation de score ∂`LC
n (θ)/∂θ = 0, ce qui peut être réalisé avec
l’algorithme EM [49] ou par maximisation directe de `LC
n (θ). L’EMV est cohérente et
asymptotiquement normalement distribuée (voir [22]).
3.2.1 Modèle de régression ZIP-GEV

Inspiré par Wang et Dey (2010, [103], qui ont montré que le lien symétrique a
une performance inférieure lorsque la structure des données exige une fonction de
probabilité de réponse asymétrique. Ils ont proposé une fonction de lien basée sur
la distribution GEV. La fonction de distribution de GEV (µ, σ, ξ) est donnée par :
 n o−1/ξ
 exp − 1 + ξ (x−µ)

, ξ 6= 0,
σ
G(x|µ, σ, ξ) = n + o (3.2)
exp − exp(− (x−µ) ) , ξ = 0,


σ
où µ ∈ R, σ ∈ R+ et ξ ∈ R sont, respectivement, les paramètres de localisation,

d’échelle et de forme, et x+ = max(0, x). La forme de cette fonction de distribution
est très flexible, le comportement de la queue étant contrôlé par le paramètre de
forme ξ. Lorsque ξ = 0, il s’agit de la distribution de Gumbel et décroît de manière
exponentielle. Lorsque ξ < 0, elle se réduit à la distribution de Weibull négative
avec un point final supérieur court et fini. Quand ξ > 0, elle devient la distribution
de Fréchet avec un comportement de queue lourde. Le lien GEV est l’inverse de F
qui est supposé être
 n o
 1 − exp −(1 − ξγ > Wi )−1/ξ
+ , ξ 6= 0,
πi = F (Wi |ξ) = 1 − GEV(−γ > Wi ; ξ) = n o (3.3)
 1 − exp − exp(− (x−µ)
σ
) , ξ = 0,
où GEV(x; ξ) représente la probabilité cumulative à x pour la distribution GEV

avec les paramètres φ = (µ = 0, σ = 1, ξ). Notez que µ et σ sont fixés à des constantes
fixes pour l’identifiabilité du modèle. Le modèle de régression GEV proposé par Ca-
labrese et al. (2013, [9] est défini par une fonction de liaison qui correspond à la
fonction cumulative inverse de la distribution GEV, que l’on peut appeler modèle de
régression GEV ou "gevit, par analogie avec le "logit". Le modèle de régression ZIP
sous le lien GEV est alors donné par
[− log(πi )]−ξ − 1
gevit(πi ) = = γ > Wi , (3.4)
ξ
et
log(λi ) = β > Xi , (3.5)
où ξ ∈ R est le paramètre de forme de la distribution GEV. D’après(3.4)-(3.5), la

log-vraisemblance de θ = (β > , γ > )> est:
  h 1
i 
n 
X exp −(1 + ξγ > Wi )− ξ >
`GEV
n (θ) = Ji log  h 1
i + e− exp(β Xi ) 
i=1
 1 − exp −(1 + ξγ > Wi )− ξ
h i h i
> β > Xi > − 1ξ
+(1 − Ji ) Zi β Xi − e − log (Zi !) + log 1 − exp −(1 + ξγ Wi ) .
L’Estimateur de Maximum de Vraisemblance (EMV) θ̂n = (β̂n> , γ̂n> )> de θ est ob-
tenue en résolvant l’équation de score
∂`GEV
n (θ)
= 0, (3.6)
∂θ
qui peut être réalisée par optimisation non linéaire.
3.2.2 Modèle de régression ZIP-cloglog

Dans cette section, nous supposons que la probabilité de suceptibilité est modé-
lisée par le lien de cloglog. Ce lien est spécifié par l’expression suivante :
F −1 (πi ) = − log(− log(πi )) = γ > Wi . (3.7)
Supposons que nous observions n vecteurs indépendants (Z1 , X1 , W1 ), · · · , (Zn , Xn , Wn )

à partir du modèle (3.5)-(3.7), tous définis sur l’espace de probabilité (Ω, C, P). La log-
vraisemblance de θ = (β > , γ > )> basée sur ces observations est

n
" #
− exp (−γ > Wi )
X e − exp(β > Xi )
`cloglog
n (θ) = Ji log − exp (−γ >W ) + e
i=1
1−e i
n h i
> >
X
+ (1 − Ji ) Zi β > Xi − eβ Xi − log (Zi !) + log 1 − e− exp (−γ Wi ) ,
i=1
n
X
= ì (θ).
i=1
L’Estimateur du Maximum de Vraisemblance θ̂n = (β̂n> , γ̂n> )> de θ est la solution

de l’équation de score dimensionnel k−
∂`cloglog (θ)
`˙i (θ) = n =0 (3.8)
∂θ
où k = p + q.
3.2.3 Modèle de régression ZIP-probit

Le modèle de Poisson à inflation nulle utilisant la fonction de lien probit peut
être défini de la même manière que le cas du modèle classique ZIP, où la probabilité
d’inflation de zéros est modélisée par le lien probit. Lorsque des facteurs de risque
sont disponibles, la probabilité de mélange πi est généralement modélisée par un
modèle probit :
F −1 (πi ) = Φ(γ > Wi ), (3.9)
où Φ est la fonction de distribution de N (0, 1). D’après (3.5)-(3.9), la log-vraisemblance

de θ = (β > , γ > )> est:
n
Φ(γ > Wi )

− exp (β > Xi )
X
`probit
n (θ) = Ji log >W )
+e
i=1
1 − Φ(γ i
h >
i o
+(1 − Ji ) Zi β > Xi − eβ Xi − log (Zi !) + log 1 − Φ(γ > Wi ) .
L’Estimateur de Maximum de Vraisemblance θ̂n = (β̂n> , γ̂n> )> de θ est la solution

de l’équation de score à dimension k
∂`probit
n (θ)
=0 (3.10)
∂θ
La résolution de cette équation (non linéaire) est relativement simple à l’aide de
logiciels mathématiques standard.
3.3. Expériences numériques 74
Remarque 3.1 Une évaluation rigoureuse des propriétés asymptotiques de θ̂n

est présentée dans le modèle ZIP censuré [85]. Dans ce chapitre, on peut s’at-
tendre à de telles propriétés dans le modèle ZIP, quelle que soit la fonction de
liaison utilisée pour modéliser la probabilité de susceptibilité. Cependant, en
laissant de côté la théorie des distributions, nous proposons d’étudier ces pro-
priétés au moyen de simulations. Lorsque les propriétés des estimateurs sont
asymptotiques, il est toujours intéressant d’étudier l’effet de la taille de l’échan-
tillon (et/ou d’autres paramètres) sur le comportement des estimateurs. De cette
façon, des règles générales d’application peuvent être obtenues. La contribution
de ce chapitre est de faire une étude basée sur la simulation de la régression
ZIP avec différents sous-modèles à inflation de zéros et de voir la sensibilité
des résultats.
3.3 Expériences numériques

Dans cette section, nous évaluons et comparons les performances de la régression
ZIP en échantillon fini avec différents sous-modèles à inflation de zéros.
3.3.1 Simulation des données

Des études de simulation ont été réalisées pour démontrer les avantages des
fonctions de lien alternatives par rapport au lien logit couramment utilsé dans la
regression ZIP, et pour examiner les propriétés des estimateurs de maximum de
vraisemblance et des inférences basées sur le rapport de vraisemblance dans ces
modèles. Le plan de simulation est le suivant. Pour chacun des n individus, la ré-
ponse de comptage Z est simulée à partir d’un modèle de régression de Poisson avec
le paramètre
λi (β) = exp(β1 + β2 Xi2 + β3 Xi3 + β4 Xi4 + β5 Xi5 ),

où β = (0.7, 0.1, 0.4, 0.85, −0.5, 0)> . Les covariables Xi2 à Xi5 sont générées respecti-
vement à partir d’un vecteur d’un nombre égal de zéros et de 1, d’une distribution
uniforme sur [2, 5], d’une distribution de Bernoulli avec une probabilité de 0.3, d’une
distribution exponentielle de paramètre 1. Les mécanismes des fonctions de liaison
alternatives qui modélisent la probabilité de succès sont définis comme suit :


 logit(πi ) = γ1 + γ2 Wi2 + γ3 Wi3 + γ4 Wi4 , +γ5 Wi5 ,

 − log(− log(π )) = γ + γ W + γ W + γ W , +γ W ,
i 1 2 i2 3 i3 4 i4 5 i5


 gevit(π i ) = γ1 + γ W
2 i2 + γ W
3 i3 + γ W
4 i4 , +γ W
5 i5 ,
 >
Φ(γ Wi ) = γ1 + γ2 Wi2 + γ3 Wi3 + γ4 Wi4 , +γ5 Wi5 ,
où Wi3 , Wi4 sont simulés indépendamment d’une distribution normale avec une
moyenne de 1 et un écart-type de 1.5 et de la distribution de Bernoulli avec une
probabilité de 0.5. On permet aux prédicteurs linéaires de partager des termes com-
muns en laissant Wi2 = Xi2 et Wi3 = Xi3 . Nous considérons successivement quatre
valeurs pour γ, à savoir : γ = (−0.9, −0.65, −0.2, 0.65, 0)> , γ = (0.9, 0.1, −0.4, 0.9, 0.6)> ,
γ = (0.9, 0.1, −0.4, 0.2, 0)> et γ = (−0.7, 0.6, −0.4, −0.5, 0.1)> . Les valeurs des para-
mètres des distributions normale, Bernoulli, exponentielle et uniforme, ainsi que
les paramètres de régression β et γ sont choisies de manière à ce que la proportion
moyenne de données à inflation de zéros dans les ensembles de données simulées
soit égale à 0.15. Nous considérons les tailles d’échantillon suivantes : n = 200, 1000
et 2000.
Nous comparons les estimations de ZIP-logit, ZIP-cloglog, ZIP-GEV et ZIP-probit
selon quatre scénarios : (i) seul logit(πi ) est correctement modélisé, et nous es-
timons, sur les données simulées, un modèle ZI-Poisson dans lequel la probabi-
lité d’une inflation de zéros est modélisée par cloglog, probit, puis GEV. (ii) seul
− log(− log(πi )) est correctement modélisé, et nous estimons, sur les données simu-
lées, un modèle ZI-Poisson dans lequel la probabilité d’inflation de zéros est mo-
délisée par le GEV, le cloglog, puis le probit. (iii) seuls gevit(πi ) sont correctement
modélisés, et nous estimons, sur les données simulées, un modèle ZI-Poisson dans
lequel la probabilité d’inflation zéros est modélisée par le logit, le cloglog, puis le
probit. (iv) seul Φ(γ > Wi ) est correctement modélisé, et nous estimons, sur les don-
nées simulées, un modèle ZI-Poisson dans lequel la probabilité d’inflation zéro est
modélisée par le logit, le GEV, puis le cloglog.
Nous simulons N = 1000 réplications pour chaque combinaison [taille de
l’échantillon × proportion d’inflation zéros] des paramètres du plan.
Les simulations sont réalisées à l’aide du logiciel statistique R [93]. Nous utilisons
le package maxLik [54] pour résoudre l’équation de score (3.6)-(3.8)-(3.10) via un
algorithme Newton-Raphson.
3.3.2 Résultats de simulations

Pour chaque échantillon de configuration [size× proportion d’inflation
zéros] des paramètres du plan de simulation, nous calculons le biais moyen, l’écart
type, l’erreur type moyenne et l’erreur quadratique moyenne de l’estimation sur les
N échantillons simulés. Nous obtenons également la probabilité de couverture em-

pirique et la longueur moyenne des intervalles de confiance de Wald à 95 % pour
les βj . D’après nos expériences numériques, les tailles d’échantillon utilisées sont
suffisantes pour garantir des estimations stables. Afin d’établir une référence pour
les comparaisons, nous incluons également un estimateur basé sur le le paramètre
β. Dans les quatre scénarios, les estimations de γ sont supposées être biaisées dans
le modèle mal spécifié. Ceci est confirmé par les résultats de la simulation. Cepen-
dant, l’intérêt porte généralement sur le paramètre β , qui relie les covariables à
l’intensité λi de la réponse du compte. Pour cette raison, nous ne fournissons des
résultats que pour le paramètre β.
De plus, étant donné que les modèles proposés adoptent la même spécification
pour πi , une comparaison des estimations de β des quatre modèles est juste. Les
résultats sont résumés dans le Tableau 3.1 (scénario (i)), le Tableau 3.2 (scénario
(ii)), le Tableau 3.3 (scénario (iii)) et le Tableau 3.4 (scénario (iv)). Dans les quatre
scénarios, les estimations des modèles ZIP-logit, ZIP-cloglog, ZIP-GEV et ZIP-probit
semblent avoir des performances similaires, avec une SE et une RMSE moyennes
légèrement inférieures pour les estimations ZIP-logit. Les probabilités de couver-
ture sont proches du niveau de confiance nominale, ce qui indique que les variances
asymptotiques sont correctement estimées. Il apparaît que dans les quatre modèles,
l’estimation du paramètre β est assez robuste à une mauvaise spécification de la
probabilité de susceptibilité. En d’autres termes, lorsque le modèle ZIP-logit est uti-
lisé pour générer les données, les estimations de β dans les autres modèles sont de
bonne qualité. Inversement, lorsque les modèles ZIP-cloglog, ZIP-probit et ZIP-GEV
sont utilisés pour simuler les données, les estimations dans les autres modèles sont
également de bonne qualité. Dans le scénario (ii), le biais des estimations des diffé-
rents modèles augmente considérablement, mais les probabilités de couverture sont
proches du niveau de confiance nominal, même s’il y a une mauvaise spécification
de la probabilité de succès. Dans le scénario (iv) le biais de l’estimation du modèle
ZIP-GEV reste modéré, et est similaire au premier scénario.les modèles ZIP-probit
et ZIP-cloglog obtiennent généralement les plus petites SE et RMSE, dans tous les
scénarios ses probabilités de couverture sont proches du niveau de confiance no-
minale. Enfin, les résultats de l’estimation des deux autres liens classiques et du
GEV sont bons dans tous les cas. Grâce à des simulations, nous évaluons égale-
ment l’approximation normale en traçant les densités estimées obtenues à partir
des N estimations normalisées (β̂j,n − βj )/erreur standard(β̂j,n )j = 1, · · · , 5, et en
les comparant à la densité de la distribution normale standard. Les erreurs stan-
dard sont obtenues comme les racines carrées des éléments diagonaux de la matrice
de variance estimée pour nos modèles. Les figures 3.4 et 3.10 montrent les résul-
tats pour les modèles ZIP-cloglog et ZIP-probit (n = 200 ,15% d’inflation zéro). Les
3.4. Applications sur des données réelles 77
graphiques pour les autres scénarios sont similaires et ne sont donc pas présentés.
D’après ces résultats, il apparaît, comme prévu, que le biais, la variabilité et la lon-
gueur des intervalles de confiance pour toutes les estimations diminuent lorsque la
taille de l’échantillon augmente. Pour n fixe, nous observons que la performance des
β̂j,n reste stable. Ces observations illustrent le fait général qu’une estimation pré-
cise dans un modèle de régression à inflation nulle nécessite un équilibre entre les
sous-populations sensibles et non sensibles (c’est-à-dire qu’une quantité suffisante
d’observations nulles et non nulles doit être disponible pour estimer avec précision
les probabilités d’inflation nulle et le sous-modèle de comptage). De plus, les proba-
bilités de couverture empiriques sont proches du niveau nominal, ce qui indique que
l’approximation normale de la distribution de l’EMV est appropriée, même lorsque
la taille de l’échantillon est modérée. Ceci est confirmée par les figures 3.4 and 3.10.
Dans l’ensemble, cette étude de simulation confirme qu’il n’y a plus grand-chose
à craindre en termes de choix de modèle pour la probabilité d’inflation zéro. Que
la "vraie" distribution soit logit, probit ou cloglog, si le modèle GEV donne de bons
résultats, cela signifie qu’il est robuste et qu’il peut constituer un bon compromis
si l’on n’est pas certain de choisir l’un des trois liens classiques. Les estimations du
modèle ZIP-GEV sont surpassées par les trois autres liens dans tous les scénarios.
Des résultats de simulation non publiés avec d’autres tailles d’échantillon et des
proportions d’inflation de zéros fournissent des observations similaires.
3.4 Applications sur des données réelles

3.4.1 Description des données et modèles concurrents
Les données proviennent de l’enquête nationale sur les dépenses médicales (NMES),
menée en 1987 et 1988, afin de dresser un tableau complet de la manière dont les
Américains utilisent et paient les services de santé.La NMES est basée sur un
échantillon national représentatif de la population civile, non institutionnalisée,
de la la population et les personnes admises dans des établissements de soins de
longue durée au cours de l’année 1987. Dans le cadre de l’enquête sur les ménages
du NMES, plus de 38 000 personnes dans 15 000 ménages à travers les états-Unis
ont été interrogées chaque trimestre sur leur couverture d’assurance maladie, les
services qu’elles utilisent, ainsi que le coût et la source de paiement de ces services.
Ces données ont été vérifiées par recoupement des informations fournies par les ré-
pondants à l’enquête avec les prestataires de services de santé. En plus des données
sur les soins de santé, NMES fournit des informations sur l’état de santé, l’emploi,
les caractéristiques sociodémographiques et la situation économique.
Dans ce document, nous considérons un sous-échantillon de personnes âgées de
3.4. Applications sur des données réelles 78
66 ans et plus (soit un total de 4406 observations) qui sont toutes couvertes par
l’assurance maladie, un programme d’assurance public qui offre une protection sub-
stantielle contre les coûts des soins de santé. Les résidents des états-Unis peuvent
bénéficier de la couverture de Medicare à l’âge de 65 ans. Certaines personnes com-
mencent à bénéficier des prestations de Medicare quelques mois après leur 65e an-
née, principalement parce qu’elles n’ont pas demandé à être couvertes au moment
opportun. Pratiquement toutes les personnes âgées de 66 ans ou plus sont couvertes
par Medicare.
En outre, la plupart des personnes choisissent une assurance privée complémen-
taire peu avant ou pendant leur 65e année, car le prix de cette assurance augmente
fortement avec l’âge et la couverture devient plus restrictive. La variable de ré-
ponse est le nombre de visites chez un médecin dans un cabinet médical (désigné
par ofp dans ce qui suit). Les covariables disponibles comprennent : i) des variables
socio-économiques : sexe (1 pour les femmes, 0 pour les hommes), âge (en années,
divisé par 10), état civil, niveau d’éducation (nombre d’années d’éducation), revenu,
ii) diverses mesures de l’état de santé : nombre de maladies chroniques (cancer,
arthrite, problèmes de vésicule biliaire · · · ) et une variable indiquant le niveau de
santé auto-perçu (mauvais, moyen, excellent) et iii) une variable binaire indiquant
si l’individu est couvert par medicaid ou non (medicaid est une assurance maladie
américaine pour les individus ayant des revenus et des ressources limités, nous la
codons comme 1 si l’individu est couvert et 0 sinon). La santé perçue est recodée sous
la forme de deux variables fictives désignées par "health1" (1 si la santé est perçue
comme mauvaise, 0 sinon) et "health2" (1 si la santé est perçue comme excellente, 0
sinon).
Nous utilisons les quatre modèles suivants : ZIP-logit, ZIP-cloglog, ZIP-GEV et
ZIP-probit. La sélection des régresseurs à inclure dans πi nécessite une certaine at-
tention. En effet, il a été observé précédemment dans divers autres modèles à infla-
tion de zéros que l’inclusion de tous les régresseurs disponibles dans les probabilités
de comptage et de zéro inflation peut entraîner un manque d’identification des pa-
ramètres du modèle. Voir par exemple [33], qui suggère de résoudre ce problème
en laissant au moins une des covariables incluses dans le modèle de comptage être
exclue du modèle d’inflation zéro (ou l’inverse). Une telle condition n’est pas requise
dans le modèle ZIP. En utilisant le test de Wald, nous identifions les prédicteurs
significatifs qui sont inclus dans πi .
Les estimations des paramètres, les erreurs standard et les valeurs p des tests
de Wald correspondants sont indiqués dans le Tableau 3.5. à des fins de compa-
raison, nous indiquons également les valeurs AIC et BIC pour les quatre modèles.
Le modèle ZIP-GEV apparaît comme le meilleur modèle en termes d’AIC et de BIC.
Un examen plus approfondi des résultats du modèle de régression à lien logit, large-
ment utilisé dans la recherche sur l’utilisation des soins de santé, et de notre modèle
de régression GEV révèle quelques différences dans l’estimation des effets des co-
variables. Le sexe, le niveau d’éducation et le statut de bénéficiaire de l’aide sociale
sont identifiés par le modèle ZIP-GEV comme étant les facteurs les plus influents
pour être un non-usager permanent, les bénéficiaires de l’aide sociale étant plus
susceptibles d’être des non-usagers permanents. Les quatre modèles identifient le
même sous-ensemble de facteurs influents pour le recours aux soins de santé, avec
des estimations de paramètres similaires.
A partir du Tableau 3.5, nous observons que dans la population globale, les dé-
terminants significatifs de la décision de consulter un non-médecin incluent l’état
de santé, l’âge, le sexe, le niveau d’éducation et le statut medicaid. En outre, confor-
mément à l’analyse précédente, Medicaid et la couverture d’assurance privée sont
des déterminants importants de la décision de consulter un médecin et du nombre
de visites (comme prévu, les individus couverts sont moins susceptibles de renoncer
à des consultations, ils se font également soigner plus souvent). Comme déjà ob-
servé dans nos simulations, les estimations des paramètres et les erreurs standard
de πi (γ) ne sont que légèrement affectées du fait de la spécification de la fonction
de lien. Par conséquent, les tests de signification de Wald concordent quelle que soit
la fonction de lien. Les estimations des paramètres et les erreurs standard dans
la partie du modèle de Poisson sont plus sensibles. Dans l’ensemble, les EMVs de
la régression ZIP semblent être assez robuste lorsque la probabilité de succès est
modélisée par le lien GEV.
3.5 Conclusion et Perspectives

Dans ce chapitre, nous avons étudié les propriétés de l’EMV dans les modèles
de régression ZIP lorsque la fonction de probabilité de susceptibilité est modélisée
avec différentes fonctions de liens. Nos simulations suggèrent que l’EMV fonctionne
bien et que des inférences statistiques sont fiables sur les paramètres d’intérêt dans
les différents modèles peuvent être basées sur l’approximation normale de la dis-
tribution de l’EMV. L’estimation de la probabilité maximale se révèle efficace dans
ce modèle, dans une série de scénarios. En outre, dans notre analyse de l’utilisation
des soins de santé, le modèle proposé fournit des explications et des interpréta-
tions plausibles et donne un aperçu utile de la décision d’utiliser ou non les services
de soins de santé disponibles. Plusieurs questions requièrent désormais une plus
grande attention, comme l’estimation dans la régression bivariée ZIP-GEV sous di-
verses formes. Il est également souhaitable d’étudier l’estimation d’un modèle de
régression ZIP flexible qui combine une fonction de liaison de valeur extrême géné-
ralisée avec un processus gaussien. Toutes ces questions seront abordées dans les
travaux futurs.
Sample size n = 200 Sample size n = 1000 Sample size n = 2000
estimator β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n β̂1,n β̂2,n β̂3,n β̂4,n β̂5,n
bias 0.00167 0.00052 -0.00082 -0.00078 0.00040 -0.00219 -0.00049 0.00067 0.00053 -0.00041 -0.00109 0.00022 0.00011 0.00093 -0.00014
SD 0.07911 0.03278 0.01908 0.03131 0.02359 0.06069 0.02205 0.01431 0.02338 0.01707 0.04093 0.01511 0.0097 0.01612 0.01269
logit SE 0.08156 0.03244 0.01954 0.03239 0.02461 0.05759 0.02288 0.01379 0.02282 0.01740 0.04062 0.01615 0.00972 0.01611 0.01225
RMSE 0.11361 0.04611 0.02732 0.04505 0.03409 0.08367 0.03177 0.01988 0.03267 0.02437 0.05766 0.02212 0.01373 0.02281 0.01763
CP 0.94689 0.95892 0.95190 0.96593 0.96693 0.94294 0.95495 0.94895 0.94595 0.95495 0.94689 0.95892 0.95190 0.96593 0.96693
`(CI) 0.31958 0.12714 0.07656 0.12695 0.09638 0.22571 0.08966 0.05404 0.08946 0.06816 0.15922 0.06331 0.03809 0.06314 0.04801
bias 0.00165 0.00051 -0.00081 -0.00075 0.00037 -0.00220 -0.00053 0.00068 0.00056 -0.00042 -0.00111 0.00020 0.00012 0.00096 -0.00016
SD 0.07913 0.03279 0.01908 0.03132 0.02359 0.06070 0.02206 0.01431 0.02339 0.01707 0.04093 0.01513 0.0097 0.01613 0.01269
cloglog SE 0.08149 0.03244 0.01952 0.03239 0.02461 0.05754 0.02287 0.01378 0.02282 0.01739 0.04060 0.01615 0.00971 0.01611 0.01225
RMSE 0.11357 0.04611 0.02730 0.04505 0.03408 0.08364 0.03178 0.01987 0.03268 0.02437 0.05765 0.02212 0.01372 0.02281 0.01763
CP 0.94489 0.95892 0.95391 0.96493 0.96493 0.94294 0.95495 0.94995 0.94595 0.95596 0.94489 0.95892 0.95391 0.96493 0.96493
`(CI) 0.31927 0.12712 0.07648 0.12694 0.09636 0.22550 0.08966 0.05399 0.08945 0.06816 0.15914 0.06330 0.03807 0.06314 0.04801
bias 0.00168 0.00050 -0.00082 -0.00077 0.00039 -0.00217 -0.00052 0.00067 0.00054 -0.00041 -0.00107 0.00020 0.00011 0.00094 -0.00015
SD 0.07911 0.03279 0.01908 0.03131 0.02359 0.06069 0.02206 0.01431 0.02339 0.01707 0.04093 0.01512 0.0097 0.01613 0.01269
probit SE 0.08148 0.03244 0.01952 0.03239 0.02461 0.05754 0.02287 0.01378 0.02282 0.01739 0.04060 0.01615 0.00971 0.01611 0.01225
RMSE 0.11355 0.04611 0.02730 0.04505 0.03408 0.08364 0.03177 0.01987 0.03267 0.02437 0.05765 0.02212 0.01372 0.02281 0.01763
CP 0.94589 0.95892 0.95391 0.96393 0.96693 0.94294 0.95495 0.94995 0.94595 0.95495 0.94589 0.95892 0.95391 0.96393 0.96693
`(CI) 0.31926 0.12712 0.07648 0.12694 0.09636 0.22550 0.08965 0.05399 0.08945 0.06816 0.15915 0.06330 0.03807 0.06314 0.04801
bias 0.00160 0.00053 -0.00080 -0.00074 0.00036 -0.00225 -0.00051 0.00069 0.00057 -0.00043 -0.00117 0.00022 0.00013 0.00097 -0.00017
lées à partir du modèle ZIP-logit, proportion moyenne de ZI = 15%).

SD 0.07915 0.03279 0.01908 0.03132 0.02359 0.06071 0.02207 0.01431 0.02340 0.01707 0.04094 0.01513 0.0097 0.01613 0.01269
GEV SE 0.08150 0.03244 0.01952 0.03239 0.02461 0.05754 0.02287 0.01378 0.02282 0.01739 0.04060 0.01615 0.00971 0.01611 0.01225
RMSE 0.11359 0.04612 0.02731 0.04505 0.03408 0.08365 0.03178 0.01987 0.03268 0.02437 0.05766 0.02213 0.01372 0.02281 0.01763
CP 0.94589 0.95892 0.95291 0.96493 0.96493 0.94294 0.95495 0.94895 0.94595 0.95495 0.94589 0.95892 0.95291 0.96493 0.96493
`(CI) 0.31931 0.12712 0.07649 0.12694 0.09637 0.22549 0.08966 0.05399 0.08945 0.06815 0.15914 0.06331 0.03807 0.06314 0.04801
Tableau 3.1 – Résultats de simulation pour le scénario (i) (les données sont simu-
81
bias -0.00536 0.00013 0.00097 0.00040 0.00017 -0.00099 0.00163 0.00007 -0.00091 -0.00021 0.00023 0.00016 -0.00007 -0.00011 0.00011
SD 0.08793 0.03242 0.02080 0.03280 0.02509 0.08509 0.03373 0.02050 0.03333 0.02594 0.04163 0.01628 0.00989 0.01635 0.01254
cloglog SE 0.08543 0.03326 0.02038 0.03327 0.02523 0.08539 0.03326 0.02038 0.03327 0.02524 0.04246 0.01654 0.01013 0.01654 0.01255
RMSE 0.12268 0.04644 0.02913 0.04671 0.03557 0.12052 0.04739 0.02890 0.04710 0.03618 0.05945 0.02321 0.01415 0.02325 0.01773
CP 0.94700 0.94400 0.94700 0.95300 0.95200 0.95391 0.94389 0.94389 0.9519 0.94589 0.95900 0.94900 0.95900 0.95600 0.95200
`(CI) 0.33469 0.13034 0.07984 0.13037 0.09879 0.33454 0.13035 0.07985 0.13040 0.09884 0.16641 0.06485 0.03968 0.06482 0.04917
bias -0.00578 0.00014 0.00105 0.00054 0.00008 -0.00138 0.00167 0.00014 -0.00077 -0.00032 -0.00020 0.00019 0.00000 0.00006 0.00001
SD 0.08807 0.03243 0.02082 0.03280 0.02509 0.08506 0.03377 0.02050 0.03337 0.02594 0.04161 0.01629 0.00989 0.01635 0.01254
GEV SE 0.08542 0.03326 0.02038 0.03326 0.02522 0.08536 0.03326 0.02038 0.03327 0.02523 0.04245 0.01654 0.01012 0.01654 0.01254
RMSE 0.12279 0.04644 0.02915 0.04671 0.03556 0.12048 0.04741 0.02890 0.04711 0.03618 0.05943 0.02321 0.01415 0.02325 0.01773
CP 0.94800 0.94400 0.94700 0.95600 0.95200 0.95391 0.94289 0.94188 0.9509 0.94589 0.95800 0.94900 0.95900 0.95600 0.95300
`(CI) 0.33466 0.13034 0.07984 0.13036 0.09876 0.33443 0.13034 0.07983 0.13038 0.09882 0.16640 0.06485 0.03968 0.06481 0.04915
bias -0.00479 0.00007 0.00086 0.00005 0.00057 -0.00030 0.00149 -0.00006 -0.00128 0.00021 0.00104 0.00007 -0.00022 -0.00056 0.00057
SD 0.08785 0.03242 0.02078 0.03279 0.02509 0.08508 0.03373 0.02049 0.03330 0.02589 0.04171 0.01628 0.00991 0.01635 0.01255
logit SE 0.08552 0.03327 0.02040 0.03327 0.02527 0.08547 0.03327 0.02040 0.03328 0.02528 0.04250 0.01655 0.01014 0.01654 0.01257
RMSE 0.12266 0.04644 0.02912 0.04670 0.03561 0.12057 0.04739 0.02891 0.04709 0.03617 0.05954 0.02321 0.01417 0.02326 0.01777
CP 0.94700 0.94600 0.94700 0.95300 0.95000 0.95591 0.94489 0.94489 0.9519 0.94589 0.95700 0.94900 0.96000 0.95600 0.95500
`(CI) 0.33504 0.13038 0.07992 0.13041 0.09895 0.33488 0.13038 0.07993 0.13043 0.09900 0.16658 0.06486 0.03972 0.06483 0.04925
partir du modèle ZIP-cloglog (3.5)-(3.7), proportion moyenne de ZI = 15%).

bias -0.00499 0.00010 0.00090 0.00020 0.00034 -0.00055 0.00155 -0.00001 -0.00112 -0.00002 0.00073 0.00011 -0.00015 -0.00037 0.00032
SD 0.08787 0.03243 0.02078 0.03280 0.02510 0.08507 0.03372 0.02049 0.03330 0.02591 0.04170 0.01628 0.00990 0.01634 0.01255
probit SE 0.08546 0.03326 0.02039 0.03327 0.02525 0.08541 0.03327 0.02039 0.03328 0.02526 0.04247 0.01655 0.01013 0.01654 0.01256
RMSE 0.12264 0.04644 0.02912 0.04671 0.03560 0.12052 0.04738 0.02890 0.04708 0.03618 0.05951 0.02320 0.01416 0.02325 0.01775
CP 0.94700 0.94600 0.94700 0.95300 0.95200 0.95491 0.94389 0.94489 0.9509 0.94589 0.95800 0.94800 0.95900 0.95600 0.95400
`(CI) 0.33482 0.13035 0.07987 0.13038 0.09888 0.33465 0.13037 0.07987 0.13041 0.09893 0.16646 0.06486 0.03970 0.06483 0.04922
Tableau 3.2 – Résultats de simulation pour le scénario (ii) (les données sont simulées à
82
bias -0.00223 -0.00168 0.00044 0.00176 -0.00071 -0.00284 -0.00058 0.00045 0.00097 0.00030 -0.00225 0.00057 0.00023 0.00065 0.00029
SD 0.08603 0.03314 0.02043 0.03343 0.02455 0.06125 0.02432 0.01449 0.02309 0.01727 0.04310 0.01662 0.01004 0.01672 0.01267
GEV SE 0.08689 0.0331 0.02066 0.03311 0.02530 0.06126 0.02333 0.01456 0.02333 0.01782 0.04325 0.01648 0.01027 0.01647 0.01256
RMSE 0.12227 0.04686 0.02905 0.04707 0.03525 0.08665 0.03369 0.02054 0.03283 0.02481 0.06109 0.02340 0.01437 0.02347 0.01784
CP 0.95300 0.95000 0.94700 0.93900 0.95600 0.94800 0.93400 0.95300 0.95500 0.96100 0.94800 0.95000 0.95300 0.95200 0.96000
`(CI) 0.34043 0.12970 0.08093 0.12974 0.09909 0.24007 0.09144 0.05704 0.09144 0.06980 0.16954 0.06459 0.04027 0.06457 0.04922
bias -0.00267 -0.00168 0.00054 0.00178 -0.00065 -0.00321 -0.00058 0.00054 0.00097 0.00037 -0.00267 0.00058 0.00033 0.00065 0.00035
SD 0.08603 0.03315 0.02043 0.03342 0.02451 0.06123 0.02430 0.01448 0.02308 0.01728 0.04312 0.01663 0.01004 0.01672 0.01268
logit SE 0.08694 0.0331 0.02067 0.03311 0.02532 0.06129 0.02333 0.01456 0.02333 0.01783 0.04327 0.01648 0.01028 0.01647 0.01257
RMSE 0.12231 0.04687 0.02906 0.04706 0.03524 0.08668 0.03368 0.02054 0.03282 0.02482 0.06113 0.02341 0.01437 0.02347 0.01785
CP 0.95400 0.94900 0.94700 0.94000 0.95900 0.94800 0.93500 0.95400 0.95400 0.96200 0.94600 0.95100 0.95300 0.95100 0.95900
`(CI) 0.34060 0.12972 0.08096 0.12976 0.09915 0.24020 0.09146 0.05707 0.09145 0.06985 0.16960 0.06460 0.04028 0.06458 0.04926
bias -0.00219 -0.00167 0.00043 0.00175 -0.00069 -0.00277 -0.00057 0.00044 0.00095 0.00032 -0.00220 0.00059 0.00022 0.00063 0.00031
SD 0.08602 0.03314 0.02043 0.03343 0.02454 0.06123 0.02431 0.01448 0.02308 0.01727 0.04310 0.01662 0.01004 0.01672 0.01267
cloglog SE 0.08689 0.0331 0.02066 0.03311 0.02531 0.06126 0.02333 0.01455 0.02333 0.01782 0.04326 0.01648 0.01028 0.01647 0.01256
RMSE 0.12226 0.04686 0.02905 0.04707 0.03525 0.08664 0.03369 0.02053 0.03282 0.02481 0.06109 0.02341 0.01436 0.02347 0.01784
CP 0.95300 0.95000 0.94700 0.94000 0.95900 0.94900 0.93400 0.95400 0.95500 0.96100 0.94800 0.95000 0.95200 0.95200 0.96000
`(CI) 0.34043 0.12970 0.08093 0.12974 0.09910 0.24006 0.09145 0.05704 0.09144 0.06981 0.16955 0.06459 0.04027 0.06457 0.04923
bias -0.00242 -0.00167 0.00048 0.00177 -0.00069 -0.00297 -0.00057 0.00048 0.00096 0.00033 -0.00242 0.00059 0.00027 0.00065 0.00031
SD 0.08602 0.03315 0.02042 0.03342 0.02453 0.06123 0.02430 0.01448 0.02308 0.01728 0.04311 0.01663 0.01004 0.01672 0.01268
probit SE 0.08689 0.0331 0.02066 0.03311 0.02531 0.06127 0.02333 0.01456 0.02333 0.01782 0.04326 0.01648 0.01027 0.01647 0.01257
RMSE 0.12226 0.04686 0.02905 0.04706 0.03524 0.08664 0.03369 0.02053 0.03282 0.02482 0.06110 0.02341 0.01436 0.02347 0.01785
CP 0.95400 0.94800 0.94700 0.94100 0.96000 0.94800 0.93400 0.95400 0.95500 0.96200 0.94800 0.95100 0.95200 0.95200 0.96000
lées à partir du modèle ZIP-GEV (3.4)-(3.5), proportion moyenne de ZI = 15%).

`(CI) 0.34044 0.12971 0.08093 0.12975 0.09913 0.24010 0.09145 0.05704 0.09144 0.06983 0.16955 0.06459 0.04027 0.06457 0.04924
Tableau 3.3 – Résultats de simulation pour le scénario (iii) (les données sont simu-
83
bias -0.00144 0.00166 0.00025 -0.00079 -0.00046 0.00489 0.00045 -0.00100 -0.00154 -0.00125 -0.00022 0.00025 -0.00015 0.00024 0.00050
SD 0.08433 0.03327 0.02052 0.03257 0.02549 0.05942 0.02235 0.01406 0.02334 0.01787 0.04293 0.01645 0.01037 0.01647 0.01238
probit SE 0.08559 0.03327 0.02052 0.0333 0.02538 0.06030 0.02347 0.01446 0.02348 0.01793 0.04255 0.01656 0.0102 0.01656 0.01263
RMSE 0.12268 0.04644 0.02913 0.04671 0.03557 0.08478 0.03240 0.02019 0.03314 0.02533 0.06043 0.02334 0.01454 0.02335 0.01769
CP 0.95100 0.94500 0.94800 0.95800 0.94900 0.94000 0.96000 0.95300 0.94600 0.94900 0.94800 0.95200 0.94500 0.95200 0.94600
`(CI) 0.33534 0.13038 0.08041 0.13050 0.09941 0.23631 0.09200 0.05666 0.09203 0.07024 0.16676 0.06492 0.03998 0.06492 0.04949
bias -0.00158 0.00159 0.00030 -0.00084 -0.00039 0.00472 0.00038 -0.00095 -0.00157 -0.00117 -0.00038 0.00017 -0.00010 0.00019 0.00057
SD 0.08434 0.03327 0.02052 0.03257 0.02550 0.05941 0.02234 0.01405 0.02334 0.01788 0.04293 0.01645 0.01036 0.01647 0.01238
logit SE 0.08563 0.03327 0.02053 0.0333 0.02539 0.06034 0.02347 0.01447 0.02348 0.01793 0.04257 0.01656 0.0102 0.01656 0.01263
RMSE 0.12279 0.04644 0.02915 0.04671 0.03556 0.08479 0.03240 0.02019 0.03314 0.02534 0.06044 0.02334 0.01454 0.02335 0.01769
CP 0.95100 0.94500 0.94900 0.95700 0.94800 0.94100 0.95900 0.95200 0.94600 0.94900 0.94900 0.95200 0.94500 0.95300 0.94600
`(CI) 0.33549 0.13039 0.08044 0.13051 0.09944 0.23646 0.09201 0.05670 0.09204 0.07026 0.16684 0.06493 0.03999 0.06493 0.04950
bias -0.00164 0.00169 0.00027 -0.00060 -0.00061 0.00485 0.00046 -0.00101 -0.00140 -0.00137 -0.00028 0.00026 -0.00016 0.00040 0.00040
SD 0.08438 0.03332 0.02052 0.03259 0.02547 0.05952 0.02236 0.01409 0.02335 0.01784 0.04296 0.01645 0.01038 0.01648 0.01239
GEV SE 0.08558 0.03327 0.02052 0.0333 0.02538 0.06031 0.02347 0.01446 0.02348 0.01792 0.04255 0.01657 0.0102 0.01656 0.01262
RMSE 0.12266 0.04644 0.02912 0.04670 0.03561 0.08485 0.03242 0.02021 0.03314 0.02532 0.06045 0.02334 0.01455 0.02336 0.01769
CP 0.95000 0.94500 0.94700 0.95900 0.95000 0.94000 0.96000 0.95500 0.94700 0.94500 0.94700 0.95100 0.94500 0.95100 0.94400
`(CI) 0.33528 0.13039 0.08040 0.13051 0.09938 0.23634 0.09201 0.05668 0.09204 0.07022 0.16678 0.06493 0.03999 0.06493 0.04947
bias -0.00143 0.00171 0.00023 -0.00070 -0.00055 0.00497 0.00049 -0.00103 -0.00147 -0.00132 -0.00015 0.00028 -0.00018 0.00032 0.00044
partir du modĺe ZIP-Probit : (3.5)-(3.9), proportion moyenne de ZI = 15%)).

SD 0.08433 0.03329 0.02052 0.03257 0.02547 0.05946 0.02236 0.01407 0.02334 0.01785 0.04294 0.01645 0.01037 0.01647 0.01239
cloglog SE 0.08559 0.03327 0.02052 0.0333 0.02538 0.06030 0.02347 0.01446 0.02348 0.01792 0.04254 0.01656 0.0102 0.01656 0.01262
RMSE 0.12264 0.04644 0.02912 0.04671 0.03560 0.08481 0.03241 0.02019 0.03314 0.02532 0.06043 0.02334 0.01454 0.02336 0.01769
CP 0.95100 0.94500 0.94700 0.95900 0.95200 0.94000 0.96000 0.95500 0.94700 0.94500 0.94700 0.95200 0.94500 0.95200 0.94600
`(CI) 0.33532 0.13038 0.08040 0.13051 0.09938 0.23632 0.09200 0.05667 0.09204 0.07022 0.16675 0.06493 0.03998 0.06492 0.04947
Tableau 3.4 – Résultats de simulation pour le scénario (iv) (les données sont simulées à
84
ZIP-logit ZIP-cloglog ZIP-probit ZIP-GEV
parameter estimate std. error p-value estimate std. error p-value estimate std. error p-value estimate std. error p-value
β intercept 2.107600 0.083845 < 2e-16 2.107307 0.083966 < 2e-16 2.107322 0.084116 < 2e-16 2.107298 0.083924 < 2e-16
health1 0.216096 0.017475 < 2e-16 0.216141 0.017476 < 2e-16 0.216145 0.017466 < 2e-16 0.216139 0.017475 < 2e-16
health2 -0.309847 0.032088 < 2e-16 -0.309823 0.032008 < 2e-16 -0.309820 0.032017 < 2e-16 -0.309828 0.032007 < 2e-16
chronic 0.101100 0.004687 < 2e-16 0.101130 0.004687 < 2e-16 0.101130 0.004686 < 2e-16 0.101130 0.004687 < 2e-16
age -0.041543 0.010780 0.000116 -0.041510 0.010789 0.000119 -0.041513 0.010818 0.000124 -0.041509 0.010787 0.000119
gender 0.040590 0.014565 0.00532 0.040632 0.014575 0.005308 0.040632 0.014577 0.005314 0.040632 0.014570 0.005290
marital status -0.057870 0.014549 6.96e-05 -0.058063 0.014560 6.67e-05 -0.058059 0.014560 6.67e-05 -0.058065 0.014552 6.6e-05
medicaid -4.146603 0.604049 6.66e-12 -1.387464 0.141618 < 2e-16 -2.091134 0.240377 < 2e-16 -1.211755 0.105226 < 2e-16
γ intercept -1.087734 0.417460 0.009171 -0.246212 0.139332 0.007214 -0.423944 0.274905 0.001230 -0.181759 0.103488 0.079033
health1 0.156647 0.309113 0.001232 0.046947 0.091010 0.005962 0.080328 0.148813 0.005893 0.034773 0.067249 0.006051
gender -0.029280 0.300195 0.009223 -0.027812 0.086833 0.004874 -0.045913 0.147320 0.007553 -0.020948 0.065192 0.007479
marital status -0.033666 0.050604 0.005058 -0.011360 0.011039 0.003034 -0.019310 0.019383 0.0003191 -0.008435 0.008168 0.003017
education -0.0531 0.0365 7.94e-05 -0.1642 0.0087 8.68e-08 -1.1599 0.2616 0.00431 -1.5664 0.01250 0.001278
AIC -50107.13 -50107.56 -50107.49 -50107.60

BIC -9439.134 -9439.564 -9439.488 -9439.603
Tableau 3.5 – Analyse des données sur les soins de santé : estimations, erreurs standard et valeurs p−value des modèles
ZIP-logit, ZIP cloglog, ZIP-probit et ZIP-GEV.
85
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −4 −2 0 2 4
0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −4 −2 0 2

1, . . . , 5 avec n = 200 et 15% de zero-inflation dans le modèle ZIP-logit
0.0 0.1 0.2 0.3 0.4
0.00 0.10 0.20 0.30

0.3
Density
Density
Density
0.2
0.1
0.0
−4 −2 0 2 4 −2 0 2 4 −2 0 2 4

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

1, . . . , 5 avec n = 1000 et 15% de zero-inflation dans le modèle ZIP-logit
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −4 −2 0 2 4

0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

1, . . . , 5 avec n = 2000 and 15% de zero-inflation dans le modèle ZIP-logit
0.4
0.00 0.10 0.20 0.30
0.3
0.3
Density
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −2 0 2 4

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −2 0 2 4

1, . . . , 5 avec n = 200 et 15% de zero-inflation dans le modèle ZIP-cloglog
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4

0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 −4 −2 0 2 4 −2 0 2 4

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −3 −2 −1 0 1 2 3

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−2 0 2 4 −2 0 2 4

1, . . . , 5 and n = 200 et 15% de zéro-inflation dans le modèle ZIP-GEV
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 4 −4 −2 0 2 4

1, . . . , 5 avec n = 1000 et 15% de zéro-inflation dans le modèle ZIP-GEV
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−4 −2 0 2 4 −2 0 2 4 −3 −2 −1 0 1 2 3

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−6 −4 −2 0 2 4 −4 −2 0 2 4

1, . . . , 5 avec n = 2000 et 15% de zéro-inflation dans le modèle ZIP-GEV
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −2 0 2 4 −2 0 2 4

0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

1, . . . , 5 avec n = 200 et 15% de zéro-inflation dans le modèle ZIP-probit
0.4
0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −2 0 2 4

0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −3 −2 −1 0 1 2 3 −4 −2 0 2 4

0.4
0.4
0.3
0.3
0.3
Density
Density
Density
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 0 2 4 −4 −2 0 2 4 −4 −2 0 2

0.4
0.4
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4

Conclusion et perspectives
C ette thèse porte sur les problèmes de l’inférence statistique dans des modèles de
comptage sur-dispersés. C’est un travail qui s’articule autour de deux contributions.
Pour faciliter la lecture du document, nous avons rappelé dans le chapitre 1

quelques concepts fondamentaux sur les modèles généralisés. Dans cette même lan-
cée, nous avons aussi rappelé dans ce chapitre quelques notions fondamentales sur
les modèles de comptage à inflation de zéro et les modèles dits "modèles marginaux"
pour mieux appréhender le domaine.
Dans le chapitre 2, nous avons proposé un nouveau modèle pour données de

comptages avec inflation de zéro appelé modèle marginal binomial qui satisfait à
certaines contraintes et en expliquant comment ces contraintes affectent la formu-
lation d’un modèle ZIB marginal. nous avons établi rigoureusement l’existence et
les propriétés asymptotiques ( identifiabilité, consistance, normalité asymptotique,
estimation convergente de la variance asymptotique) de l’Estimateur du Maximum
de Vraisemblance (EMV) des paramètres du modèle marginal ZIB. Pour compléter
cette étude théorique, nous avons mené une étude de simulations exhaustive, et
qui a permis d’étudier les propriétés à distance finie des estimateurs du MV. Une
application du modèle sur des données réelles d’économie de la santé, issues d’une
étude portant sur la consommation de soins médicaux des patients âgés aux USA,
a ensuite été réalisée.
Enfin, dans le chapitre 3, nous nous sommes intéressés aussi au problème de

l’inférence statistique du modèle ZIP lorsque la probabilité d’inflation de zéros est
modélisée par une classe de fonction de lien. Les propriétés ont été étudiées au
moyen de simulations pour voir l’effet de la taille de l’échantillon (et/ou d’autres
paramètres) sur le comportement des estimateurs. À l’aide d’ensembles de données
simulées et d’une analyse de l’utilisation des soins de santé, nous montrons que les
fonctions de lien alternatives proposées sont assez flexibles et surpassent la fonction
de lien standard.
Au terme de ces travaux satisfaisants, plusieurs axes de recherche sont envisa-

gés. nous préconiserons à court terme de proposer une méthodes d’estimation appe-
lée "Generalized Estimating Equations" adaptées au modèle ZIP censuré, les implé-
menter informatiquement et mener des études de simulation permettant d’évaluer
les performances du modèle construit.
Dans l’avenir, nous proposons d’étendre le champ d’utilisation de ce nouveau

MZIB en augmentant sa complexité, afin de mieux rendre compte de la complexité
des données rencontrées (présence d’effets non-linéaires, grande dimension /Big
Data). Ce modèle devra prendre en compte des effets non linéaires) -plus proche
de la réalité des phénomènes observés que l’approximation linéaire -entre les va-
riables explicatives et les comptages observés (ces effets pourront être introduits
par l’intermédiaire des fonctions inconnues, à estimer). Ce modèle devra également
prendre en compte la nature imparfaite des comptages observés, et en particulier,
la présence de censure.
Annexe: Démonstrations des Théorèmes
Annexe A : preuve du Théorème 2.6

Supposons que ì (θ) = ì (θ∗ ) converge presque sûrement et notons que sous θ,
P(Ji = 0|Xi ) = 1 − P(Zi = 0|Xi )

= 1 − (πi + (1 − πi )(1 − pi )mi )
>
!mi
1 gi (θ) eγ Xi
= 1− −
fi (θ) fi (θ) (1 + eβ > Xi )gi (θ)
ki (θ)
= 1− .
fi (θ)
Dans les conditions 1 et 2, il n’est pas difficile de voir que 0 < P(Ji = 0|Xi ) < 1 pour
chaque xi et θ. Ainsi, il existe un ω ∈ Ω, avec ω en dehors de l’ensemble négligeable
où ì (θ) 6= ì (θ∗ ), de sorte que Ji (ω) = 0. Pour ce ω, l’égalité ì (θ) = ì (θ∗ ) se réduit à :
zi (β − γ)> xi + log(gi (θ)) + (zi − 1) log(fi (θ)) + mi log(hi (θ))

= zi (β ∗ − γ ∗ )> xi + log(gi (θ∗ )) + (zi − 1) log(fi (θ∗ )) + mi log(hi (θ∗ )),
ou équivalent, à :
fi (θ) gi (θ∗ ) hi (θ∗ )
zi (β − γ − β ∗ + γ ∗ )> xi + (zi − 1) log = log + mi log . (3.11)
fi (θ∗ ) gi (θ) hi (θ)
La partie droite de (3.11) ne dépend pas de zi et est donc constante pour des valeurs
positives distinctes de zi . Considérons, par exemple, zi = z et zi = z + 1 (selon
la condition 4, zi peut prendre au moins deux valeurs positives distinctes). Nous
obtenons :
fi (θ)
(β − γ − β ∗ + γ ∗ )> xi = − log . (3.12)
fi (θ∗ )
Supposons que log(fi (θ)/fi (θ∗ )) 6= 0 et différencier (3.12) par rapport à β. On obtient
> >
xi (1 + eβ xi /fi (θ)) = 0. La condition 1 implique que 1 + eβ xi /fi (θ) = 0, ce qui est
une contradiction puisque fi (θ) > 0. Donc fi (θ) = fi (θ∗ ), ce qui implique que (β − γ −
β ∗ + γ ∗ )> xi = 0. L’indépendance linéaire des xi1 , . . . , xip (condition 1) implique que
> > ∗> ∗>
β − γ = β ∗ − γ ∗ . Or, fi (θ) = fi (θ∗ ) est équivalent à eβ xi + eγ xi = eβ xi + eγ xi , ce qui
implique :
>
>
∗>
∗ ∗>
eγ xi e(β−γ) xi + 1 = eγ xi e(β −γ ) xi + 1 ,
et enfin, (γ − γ ∗ )> xi = 0. La condition 1 implique que γ = γ ∗ , qui à son tour implique

que β = β ∗ . Nous avons prouvé que θ = θ∗ , ce qui conclut la preuve.
Annexe B : preuves de résultats asymptotiques

Preuve du théorème 2.7. Pour prouver la cohérence de θ̂n , on vérifie les conditions
du théorème de la fonction inverse de Foutz [38]. Ces conditions sont prouvées dans
une série de lemmes techniques.
Lemme 3.2 ∂ ``˙ n (θ)/∂θ> existe et est continu dans un voisinage ouvert de θ0 .
Preuve du Lemme 3.2. Les ì (θ), i = 1, . . . , n sont doublement différentiables par

rapport à θ. La continuité de ∂ 2 ì (θ)/∂θ∂θ> est simple et est omise (l’expression de
∂ 2 ì (θ)/∂θ` ∂θj est donnée par (3.17), voir ci-dessous).
Lemme 3.3 Comme n → ∞, n−1/2 ``˙ n (θ0 ) converge presque sûrement vers 0.
Preuve du Lemme 3.3. Pour prouver ce lemme, nous vérifions les conditions de
la loi forte des grands nombres [voir 60, Théorème 6.7]. D’abord, un peu d’algèbre
simple permet d’obtenir : :
˙
 1 Pn 
n i=1 Xi1 `β,i (θ0 )
 .. 

 P . 

 1 n X `˙ (θ )
ip β,i 0
n−1/2 ``˙ n (θ0 ) =  n1 Pi=1 .
 
n ˙
 n i=1 Xi1 `γ,i (θ0 )
..
 
.
 
 
1
Pn ˙
n i=1 Xip `γ,i (θ0 )
Nous commençons par prouver que E[Xij `˙γ,i (θ0 )] = 0 pour chaque = 1, . . . , n et j =
1, . . . , p. Pour voir cela, noter que :
h i h h ii
˙ ˙
E Xij `γ,i (θ0 ) = E Xij E `γ,i (θ0 )|Xi ,
et
> > >
!
h
˙
i mi eβ0 Xi + eγ0 Xi eγ0 Xi
E `γ,i (θ0 )|Xi = −E [Ji |Xi ] + E [Zi |Xi ] −1
gi (θ0 )ki (θ0 ) fi (θ0 )
> > >
eγ0 Xi mi eβ0 Xi + eγ0 Xi
− + . (3.13)
fi (θ0 ) gi (θ0 )
Maintenant,
E [Ji |Xi ] = P(Zi = 0|Xi )

ki (θ0 )
= , (3.14)
fi (θ0 )
et
E [Zi |Xi ] = mi pi (1 − πi )
>
eβ0 Xi
= mi > . (3.15)
1 + eβ0 Xi
On remplace (3.14) et (3.15) dans (3.13) et on obtient :
> > > >
!
h
˙
i mi eβ0 Xi + eγ0 Xi ki (θ0 ) eβ0 Xi eγ0 Xi
E `γ,i (θ0 )|Xi = − + mi > −1
gi (θ0 )ki (θ0 ) fi (θ0 ) 1 + eβ0 Xi fi (θ0 )
> > >
eγ0 Xi mi eβ0 Xi + eγ0 Xi fi (θ0 )
− +
fi (θ0 ) gi (θ0 ) fi (θ0 )
!
β0> Xi γ0> Xi β0> Xi β0> Xi >
mi e +e gi (θ0 ) e 1+e eγ0 Xi
= − mi > −
gi (θ0 ) fi (θ0 ) 1 + eβ0 Xi fi (θ0 ) fi (θ0 )
= 0,
qui implique à son tour :

h i
E Xij `˙γ,i (θ0 ) = 0.
Maintenant, pour chaque = 1, . . . , n et j = 1, . . . , p, nous avons :

h i h i
var Xij `˙γ,i (θ0 ) = E var Xij `˙γ,i (θ0 )|Xi + var E Xij `˙γ,i (θ0 )|Xi
h i
= E Xij2 var `˙γ,i (θ0 )|Xi
h i
≤ c21 E var `˙γ,i (θ0 )|Xi (d’après la condition 1).
Il n’est pas difficile de vérifier que E[var(`˙γ,i (θ0 )|Xi )] est délimité. Pour le voir, notez
que :
!2 !2
β0> Xi γ0> Xi γ0> Xi
m i e + e e
var `˙γ,i (θ0 )|Xi = var (Ji |Xi ) + − 1 var (Zi |Xi )
gi (θ0 )ki (θ0 ) fi (θ0 )
> >
! >
!
mi eβ0 Xi + eγ0 Xi eγ0 Xi
+2 − 1 E [Ji |Xi ] E [Zi |Xi ]
gi (θ0 )ki (θ0 ) fi (θ0 )
> >
!2 >
!2
mi eβ0 Xi + eγ0 Xi eγ0 Xi
≤ + − 1 M 2, (3.16)
gi (θ0 )ki (θ0 ) fi (θ0 )
>
depuis var(Ji |Xi ) ≤ 1, var(Zi |Xi ) ≤ M 2 et (eγ0 Xi /fi (θ0 ) − 1) est négatif. Soit MX =
> >
maxu∈C,X∈X eu X et mX = minu∈C,X∈X eu X , où X = [−c1 , c1 ]p . Nous déduisons de (3.16)
que :
2
(M + 1)M X
var `˙γ,i (θ0 )|Xi ≤ c2 := + M 2 < ∞,
mX
et donc,

var Xij `˙γ,i (θ0 ) ≤ c21 c2 .
Il s’ensuit que
∞ ∞
X var(Xij `˙γ,i (θ0 )) X 1
≤ c21 c2 < ∞.
i=1
i2 i=1
i 2
Par la loi forte des grands nombres [60, Théorème 6.7], nous concluons que
n n
1 Xn h io 1 X
Xij `˙γ,i (θ0 ) − E Xij `˙γ,i (θ0 ) = Xij `˙γ,i (θ0 ), j = 1, . . . , p
n i=1 n i=1
convergent presque sûrement vers 0 comme n → ∞. En utilisant des arguments si-

milaires, nous pouvons prouver que n1 ni=1 Xij `˙β,i (θ0 ), j = 1, . . . , p convergent presque
P
sûrement vers 0. Par conséquent, n−1/2 `˙n (θ0 ) converge presque sûrement vers 0, ce
qui conclut la preuve.
Lemme 3.4 Comme n → ∞, n−1/2 ∂ ``˙ n (θ)/∂θ> converge presque sûrement vers L(θ),
uniformément dans un voisinage ouvert de θ0 . De plus, L est continu.
Preuve de lemme 3.4. Soit `` e n (θ) = n−1/2 ∂ `˙n (θ)/∂θ> et Vθ soit un voisinage ouvert
0
de θ0 . Soit θ ∈ Vθ0 et considérons le (`, j)-ième élément de ``n (θ), à savoir :

e
n
1 X ∂ 2 ì (θ)
``
e n (θ) = .
(`,j) n i=1 ∂θ` ∂θj
On a :
n n
∂ 2 ì (θ)
2 2
1X ∂ ì (θ) 1X ∂ ì (θ)
``
e n (θ) = −E + E .
(`,j) n i=1 ∂θ` ∂θj ∂θ` ∂θj n i=1 ∂θ` ∂θj
Maintenant,
2
2
2 !
∂ ì (θ) ∂ ì (θ)
var ≤E .
∂θ` ∂θj ∂θ` ∂θj
Nous prouvons que var(∂ 2 ì (θ)/∂θ` ∂θj ) est délimité. Un peu d’algèbre fastidieuse
(bien que peu compliquée) montre que ∂ 2 ì (θ)/∂θ` ∂θj est le (`, j)-ième élément de la
matrice (2p × 2p) − Vi Di (θ)Vi> , où Vi est la matrice (2p × 2) définie comme
!
Xi 0p,1
Vi =
0p,1 Xi
et
!
D1,i (θ) D3,i (θ)
Di (θ) =
D3,i (θ) D2,i (θ)
est la matrice symétrique (2 × 2) définie par

> >X >X >X
eβ Xi Ui (θ) eβ i
(1 + eγ i
) eβ i
Vi (θ)
D1,i (θ) = Ji 2 + (Z i − 1) + 2 ,
(1 + eβ > Xi )gi (θ)ki (θ) fi2 (θ) (1 + eβ > Xi )gi (θ)
>X >X ) >X
Wi (θ) eγ i
(1 + eβ i
(1 − mi )e(β+γ) i
D2,i (θ) = Ji + (Z i − 1) + ,
[gi (θ)ki (θ)]2 fi2 (θ) gi2 (θ)
>X > >X
Yi (θ) eβ i
e(β+γ) Xi (mi − 1)e(β+γ) i
D3,i (θ) = −Ji + (1 − Zi ) + ,
(1 + eβ > Xi ) [gi (θ)ki (θ)]2 fi2 (θ) gi2 (θ)
avec
>X
h >
>
i
Ui (θ) = eβ i
Qi (θ) gi (θ)ki (θ) + 1 + eβ Xi ki (θ) + eβ Xi Qi (θ)gi (θ)hm
i
i
(θ)
>
>

− Qi (θ) + eβ Xi (1 − 2mi ) 1 + eβ Xi gi (θ)ki (θ),
h >
i >
>
>

Vi (θ) = Qi (θ) + eβ Xi (1 − 2mi ) 1 + eβ Xi gi (θ) − eβ Xi Qi (θ) fi (θ) + eβ Xi ,
>X
2
β > Xi γ > Xi
Wi (θ) = e(β+γ) i
ki (θ)(mi − 1) + gi (θ)hm
i
i
(θ) m i e + e ,
>X
h > i
β > Xi γ > Xi
Yi (θ) = mi eγ i
gi (θ)ki (θ) + eγ Xi ki (θ) + gi (θ)hm
i
i
(θ) mi e + e Qi (θ).
Avec ces notations, il est facile de voir que

∂ 2 ì (θ)
= − Vi,(`,1) D1,i (θ) + Vi,(`,2) D3,i (θ) Vi,(j,1)
∂θ` ∂θj

− Vi,(`,1) D3,i (θ) + Vi,(`,2) D2,i (θ) Vi,(j,2) , (3.17)
où, par exemple, Vi,(`,1) désigne l’élément de la troisième ligne ` et de la première

colonne de Vi . Pour chaque ` (` = 1, . . . , 2p), au moins l’un des éléments Vi,(`,1) et
Vi,(`,2) doit être égal à 0 (ce qui est simple d’après l’expression de Vi ). Supposons par
exemple que Vi,(`,1) = 0 et Vi,(j,2) = 0. Alors :
∂ 2 ì (θ)
= −Vi,(`,2) D3,i (θ)Vi,(j,1) .
∂θ` ∂θj
Toute autre combinaison de valeurs nulles et non nulles parmi (Vi,(`,1) , Vi,(`,2) ) et
(Vi,(j,1) , Vi,(j,2) ) donne une expression similaire, de la forme −Vi,(`,a) Dc,i (θ)Vi,(j,b) , avec
a, b ∈ {1, 2} et c ∈ {1, 2, 3}. Il n’est pas difficile de voir que dans les conditions 1, 2 et
4, les termes Dc,i (θ) sont limités par une constante finie c3 (la preuve est omise), et
donc,
2
∂ ì (θ)
var ≤ c41 c23 .
∂θ` ∂θj
Il s’ensuit que

∞ var ∂ 2 ì (θ) ∞
X ∂θ` ∂θj X 1
≤ c41 c23 < ∞.
i=1
i2 i=1
i 2
Par conséquent, la loi forte des grands nombres implique que

n
1 X ∂ 2 ì (θ)
2
∂ ì (θ)
−E
n i=1 ∂θ` ∂θj ∂θ` ∂θj
converge presque sûrement vers 0 comme n → ∞ et par la condition 3, (`` e n (θ))(`,j)

converge presque sûrement vers le (`, j)-ième élément de la matrice L(θ). Dans les
conditions 1, 2 et 4, la dérivée de `,g j)n (θ) par rapport à θ est bornée, pour chaque n.
Par conséquent, la séquence (`` e n (θ))n est équicontinue. Il s’ensuit que la convergence
e n (θ))n vers L(θ) est uniforme sur Vθ , et que L doit être continu.
de (``
0
Après avoir vérifié les conditions du théorème de la fonction inverse de Foutz [38],
nous concluons que θ̂n converge presque sûrement vers θ0 .
˙ n (θ̂n ) à θ0
Preuve du théorème 2.8. Une expansion de la série de Taylor de ``
donne :
˙ √
˙ n (θ0 ) + √1 ∂ ``n (θ0 ) n(θ̂n − θ0 ) + oP (1),
˙ n (θ̂n ) = ``
0 = ``
n ∂θ>
et donc
!−1
√ ˙ n (θ0 )
1 ∂ ``
n(θ̂n − θ0 ) = − √ ˙ n (θ0 ) + oP (1)
``
n ∂θ>
!−1 2n
˙ n (θ0 )
1 ∂ `` X
= − √ V•j Sj,n (θ0 ) + oP (1),
n ∂θ> j=1
où Sj,n (θ) = √1n Sj (θ). D’abord, nous prouvons que 2n

P
j=1 V•j Sj,n (θ0 ) est asymptotique-
ment normal. Pour s’en rendre compte, nous appliquons le théorème de la limite cen-
trale multivariée pour les combinaisons linéaires de vecteurs aléatoires de Eicker,
P2n
F.(1966, [36]). Considérons la combinaison linéaire aléatoire Tn = S−1 n j=1 V•j Sj,n (θ0 ),
2
où Sn = var(`` ˙ n (θ0 )). Par Eicker, F.(1966, [36]), Tn est distribué asymptotiquement
comme une normale standard multivariée si les conditions suivantes sont remplies :
a) max V> > −1
•j (VV ) V•j → 0 as n → ∞,
1≤j≤2n
2
b) sup E[Sj,n (θ0 )1{|Sj,n (θ0 )|>c} ] → 0 as c → ∞,
1≤j≤2n
2
c) inf E[Sj,n (θ0 )] > 0.
1≤j≤2n
Notez d’abord que
0 < max V> > −1 2 > −1 2

•j (VV ) V•j ≤ max kV•j k k(VV ) k = max kV•j k /λn .
1≤j≤2n 1≤j≤2n 1≤j≤2n
Puisque kV•j k est délimité, la condition 3 implique que a) est satisfaite. La condi-
tion b) suit en notant que les Sj,n (θ0 ), j = 1, . . . , 2n sont délimités dans les condi-
2
tions 1, 2 et 4. Enfin, dans les conditions 1, 2 et 4, nous avons E[Sj,n (θ0 )] > 0
pour chaque j = 1, . . . , 2n. Maintenant, S2n = var(`` ˙ n (θ0 )) = n−1 Pn
i=1 var(∂ì (θ0 )/
−1
P n 2 >

∂θ) = −n i=1 E ∂ ì (θ)/∂θ∂θ converge vers −L(θ0 ) par la condition 3. Il s’ensuit
P2n
que j=1 V•j Sj,n (θ0 ) est distribué asymptotiquement comme une normale multiva-
riée avec une moyenne nulle et une variance L(θ0 ).
√
Enfin, par le lemme 3.4 et le théorème de Slutsky, nous concluons que n(θ̂n −θ0 )
est distribué asymptotiquement comme une normale multivariée avec une moyenne
nulle et une variance L(θ0 )−1 .
Maintenant, comme n → ∞, nous avons :
˙ n (θ̂n )/∂θ> − L(θ0 ) ≤ sup ``

n−1/2 ∂ `` e n (θ) − L(θ) + L(θ̂n ) − L(θ0 ) (3.18)
θ∈Vθ0
Le premier terme dans la partie droite de (3.18) converge vers 0 par lemme 3.4.
La cohérence de θ̂n et la continuité de L impliquent que le second terme converge
également vers 0. Il s’ensuit que n−1/2 ∂ `` ˙ n (θ̂n )/∂θ> converge vers L(θ0 ) et enfin,
que (n−1/2 ∂ `˙n (θ̂n )/∂θ> )−1 est une estimation cohérente de la variance asymptotique
L(θ0 )−1 .
Bibliographie
[1] Abid, R., Kokonendji, C.C., and Masmoudi, A., 2020. Geometric Tweedie re-
gression models for continuous and semicontinuous data with variation phe-
nomenon. AStA. Adv. Statist. Anal. 104, pp. 33-58
[2] Agresti, A., 2002. Categorical data analysis. 2nd Edition. Wiley Series in Pro-
bability and Mathematical Statistics. Applied Probability and Statistics. Chi-
chester : Wiley.
[3] Albert, J. M., Wang, W., Nelson, S., 2014. Estimating overall exposure effects
for zero-inflated regression models with application to dental caries. Statistical
Methods in Medical Research 23(3), 257-278.
[4] Ali, E., Diop, A. and Dupuy, J.-F., 2020. A constrained marginal zero-inflated
binomial regression model. Communications in Statistics-Theory and Methods,
doi : 10.1080/03610926.2020.1861296
[5] Aranda-Ordaz , F. J., 1981. On two families of transformations to additivity for

binary response data. Biometrika 68 357-363. 95
[6] B. H. Cohen,1963. Recall of categorized words lists, J. Exp. Psychol. 66, pp.
227-234
[7] B. Jorgensen,1987. Exponential dispersion models, J. R. Statist. Soc. Ser. B

(Statist. Methodol.), pp. 127-162.
[8] Bonat,W.H., Jorgensen, B., Kokonendji, C.C., Hinde, J. , and Demetrio C.G.B.,
2018. Extended Poisson-Tweedie : properties and regression models for count
data, Stat. Model. 18 , pp. 24-49
Bibliographie 108
[9] Calabrese, R. and Osmetti, S. A., 2013. Modelling Small and Medium Enter-
prise Loan Defaults as Rare Events: The Generalized Extreme Value Regres-
sion Model. Journal of Applied Statistics, 40(6), 1172-1188.
[10] Cameron, A.C.,Trivedi,P.K. , 1986. Econometric models based on count data:

comparisons and applications of some estimators and tests. Journal of Applied
Econometrics, 1:29-53.
[11] Cameron, A. Colin et Pravin K. Trivedi. 2005. Microeconometrics Methods and

Applications. Cambridge University Press
[12] Cameron, A. C., Trivedi, P. K., 2013. Regression Analysis of Count Data. Cam-
bridge University Press, Cambridge.
[13] Carroll,R. J., Ruppert,D., and Stefanski,L. A. 1995. Measurement error in non-
linear models. Chapman and Hall, New York.
[14] Consul, P.C., 1989. Generalized Poisson Distributions: Properties and Applica-
tions. Marcel Dekker,NewYork
[15] Consul, P.C., 1992. Famoye,F. Generalized Poisson regression mo-

del.Communications in Statistics?Theory and Method, 21,89-109.
[16] Consul, P.C., Jain,G.C. , 1973. A generalization of the Poisson distribu-

tion,Technometrics,15: 791-799.
[17] Chen, M.-H., Dey, D. K. and Shao, Q.-M. 1999 A new skewed link model for
dichotomous quantal response data. J. Amer. Statist. Assoc. 94 1172-1186.
[18] Chen, M.-H. and Shao, Q.-M., 2000. Propriety of posterior distribution for di-
chotomous quantal response models with general link functions. Proc. Amer.
Math. Soc. 129 293-302.
[19] Coles S. G. 2004. An Introduction to Statitical Modelling of Extreme Values.

Springer-Verlag, London.
[20] Czado, C. and Santner, T. J. 1992. The effect of link misspecification on binary
regression inference. J. Statist. Plann. Inference 33 213-231.
[21] Czado, C., Erhardt, V., Min, A., Wagner, S. 2007. Zero-inflated generalized Pois-
son models with regression effects on the mean, dispersion and zero-inflation
level applied to patent outsourcing rates. Statistical Modelling 7(2), 125-153.
Bibliographie 109
[22] Czado, C., Min, A., 2005. Consistency and asymptotic normality of the
maximum likelihood estimator in a zero-inflated generalized Poisson regres-
sion. Collaborative Research Center 386, Discussion Paper 423 , Ludwig-
Maximilians-Universität, München.
[23] Dean, C.B. Testing for overdispersion in Poisson and binomial regression mo-
dels. Journal of the American Statistical Association, 87:451-457,1992.
[24] Dean, C., Lawless, J.F. , 1989. Tests for detecting overdispersion in Poisson
regression models. Journal of the American Statistical Association, 84: 467-
471.
[25] Deb P., Trivedi P. K. , 1997. Demand for medical care by the elderly: a finite
mixture approach. Journal of Applied Econometrics, 12(3):313-336.
[26] Diallo A., Diop A., Dupuy J.-F., 2017. Asymptotic properties of the maximum
likelihood estimator in zero-inflated binomial regression. Communications in
Statistics - Theory and Methods,46(20), 9930-9948.
[27] Diallo A., Diop A., Dupuy J.-F., 2018. Analysis of multinomial counts with joint
zero-inflation, with an application to health economics. Journal of Statistical
Planning and Inference ,194, 85-105.
[28] Diallo, A. O., Diop, A., Dupuy, J.-F., 2019. Estimation in zero-inflated binomial
regression with missing covariates. Statistics 53(4), 839-865.
[29] Diop A., Diop A., Dupuy J.-F., 2011. Maximum likelihood estimation in the
logistic regression model with a cure fraction Electronic Journal of Statistics,5,
460-483.
[30] Diop A., Diop A., Dupuy J.-F., 2016. Simulation-based inference in a zero-
inflated Bernoulli regression model. Communications in Statistics - Simulation
and Computation,45(10), 3597-3614.
[31] Dupuy J.-F., 2017. Inference in a generalized endpoint-inflated binomial re-

gression model. Statistics,51(4):888-903.
[32] Dietz E, B ohning D.,2000. On estimation of the Poisson parameter in zero-

modified Poisson models. Comput Statist Data Anal.,34(4):441-459.
[33] Deng, D., Zhang, Y., 2015. Score tests for both extra zeros and extra ones in
binomial mixed regression models. Communications in Statistics - Theory and
Methods 44, 2881-2897.
Bibliographie 110
[34] Dempster,A., Laird,N., and Rubin, D. 1977. Maximum likelihood from incom-
plete data via the em algorithm (with discussion). J. Roy. Statist. Soc. Ser. B,
39 :1-38.
[35] Dupuy, J.-F., 2018. Statistical Methods for Overdispersed Count Data. ISTE
Press - Elsevier.
[36] Eicker, F., 1966. A multivariate central limit theorem for random linear vector
forms. The Annals of Mathematical Statistics 37(6), 1825-1828.
[37] Feng, J., Zhu, Z., 2011. Semiparametric analysis of longitudinal zero-inflated
count data. Journal of Multivariate Analysis 102, 61-72.
[38] Foutz, R. V., 1977. On the unique consistent solution to the likelihood equa-
tions. Journal of the American Statistical Association 72, 147-148.
[39] Fahrmeir, L. et Kaufmann, H., 1985. Consistency and asymptotic normality

of the maximum likelihood estimator in generalized linear models. Annals oF
Statistics, 13 :342-368.
[40] Famoye, F., Singh, K.P.,2003. On inflated generalized Poisson regression mo-
dels. Advances and Applications of Statistics, 3:145-158.
[41] Famoye, F., Singh, K.P.,2006. Zero-inflated generalized Poisson regression mo-
del with an application to domestic violence data. Journal of Data Science,
4:117-130.
[42] Feng J., Zhu Z.,2011. Semiparametric analysis of longitudinal zero-inflated

count data. J Multivariate Anal.,102, 61-72.
[43] Fong D.Y.T., Yip., 1995. A note on information loss in analysing a mixture mo-
del of count data. Comm. Statist. Theory Methods,24:3197-3209.
[44] Garay AM, Hashimoto EM, Ortega EMM.,2011. On estimation and influence
diagnostics for zero-inflated negative binomial regression models. Comput Sta-
tist Data Anal, 55(3):1304-1318.
[45] Greene W., 1994. Accounting for excess zeros and sample selection in poisson
and negative binomial regression models. Working Paper, Dep of Eco, New York
University.
[46] Gupta, P.L.,Gupta, R.C., Tripathi,R.C., 2004 Score test for zero inflated ge-
neralized Poisson regression model.Communication in Statistics?Theory and
Methods, 33:47-64.
Bibliographie 111
[47] Gurmu, S., Rilstone,P., Stern, S.,1999 Semiparametric estimation of count re-
gression models. Journal of Econometrics,88:123-150.
[48] Guerrero,V.M.and Johnson, R. A. 1982. Use of the Box-Cox transformation

with binary response models. Biometrika 69 309-314. 93
[49] Hall, DB.,2000. Zero-inflated Poisson and binomial regression with random ef-
fects: a case study. Biometrics.,56(4),1030-1039.
[50] Hall, DB., Berenhaut, KS., 2002. Score tests for heterogeneity and overdis-
persion in zero-inflated Poisson and binomial regression models. Canad J
Statist,30(3):415-430.
[51] Hall,D.B., Shen,J.2010. Robust estimation for zero-inflated poisson regression.

Scand. J. Statist.,37 :237-252
[52] Heilbron, D.C. Zero-alterned and other regression models for count data with
added zeros. Biometrical Journal, 36 :531-547, 1994.
[53] He, X., Xue, H., Shi, N.-Z.,2010. Sieve maximum likelihood estimation for dou-
bly semiparametric zero-inflated Poisson models. Journal of Multivariate Ana-
lysis 101, 2026-2038.
[54] Henningsen, A., Toomet, O., 2011. maxLik: A package for maximum likelihood
estimation in R. Computational Statistics 26(3), 443-458.
[55] Hilbe, J. M., 2009. Logistic regression models. Chapman & Hal.
[56] Hilbe, J. M., 2011. Negative Binomial Regression. 2nd ed. Cambridge : Cam-
bridge University Press.
[57] Hilbe, Joseph M. 2007. Negative Binomial Regression. Cambridge University-

Press.
[58] Johnson,N.L., Kemp, A.W. and Kotz S., 2005 Univariate Discrete Distributions,
3rd ed., Wiley, New York,
[59] Jones, M. C. 2004. Reply to Comments on "Families of distributions arising

from distributions "of order statistics. TEST 13 1-43.
[60] Jiang, J., 2010. Large Sample Techniques for Statistics. Springer, New York.
[61] Kemp,C.D., and Kemp,A.W., 1988. Rapid estimation for discrete distributions.
The Statistician, 37 :243-255.
Bibliographie 112
[62] Kleiber, C., Zeileis, A., 2008. Applied Econometrics with R. Springer-Verlag,
New York. http://CRAN.R-project.org/package=AER.
[63] Kokonendji, C.C. 2014. Over- and underdispersion models, in The Wiley En-
cyclopedia of Clinical Trials- Methods and Applications of Statistics in Clinical
Trials, N. Balakrishnan, ed., Vol. 2, Chapter 30, Wiley, New York, pp. 506-526
[64] Lambert, D., 1992. Zero-inflated Poisson regression, with an application to de-
fects in manufacturing. Technometrics,34:1-14.
[65] Lam, KF., Xue, H., Cheung, YB.,2006. Semiparametric analysis of zero-inflated
count data. Biometrics,62(4):996-1003.
[66] Lange, K., 2004. Optimization. Springer Texts in Statistics. New York
[67] Lawless,J.F.,1987. Negative binomial and mixed Poisson regression.The Cana-

dian Journal of Statistics ,15:209-225.
[68] Lerner, B., Lone,A., Rao,M., 1997. On generalized Poisson distribu-

tions.Probability and Mathematical Statistics ,17:377-385.
[69] Li, C-S. , 2011. A lack-of-fit test for parametric zero-inflated Poisson models. J
Stat Comput Simul.,81(9):1081-1098.
[70] Lim, HK., Li, WK., Yu, PLH., 2006. Zero-inflated Poisson regression mixture
model. Comput Statist Data Anal.,71:151-158.
[71] Lukusa, T.M., Lee, S.-M., Li, C-S. Semiparametric estimation of a zero-inflated
Poisson regression model with missing covariates. Metrika, 79(4):457-483,
2016.
[72] Long, D. L., Preisser, J. S., Herring, A. H., Golin, C. E., 2014. A marginalized
zero-inflated Poisson regression model with overall exposure effects. Statistics
in medicine 33(29), 5151-5165.
[73] Long, D. L., Preisser, J. S., Herring, A. H., Golin, C. E., 2015. A Marginalized
Zero-inflated Poisson Regression Model with Random Effects. Journal of the
Royal Statistical Society. Series C, Applied statistics 64(5), 815-830.
[74] Maller, R. A., 2003. Asymptotics of regressions with stationary and nonstatio-
nary residuals. Stochastic Processes and their Applications 105(1), 33-67.
[75] Martin, J., Hall, D. B., 2017. Marginal zero-inflated regression models for count
data. Journal of Applied Statistics 44(10), 1807-1826.
Bibliographie 113
[76] McCullagh, P., Nelder, J. A., 1989. Generalized linear models (Second edition).
Monographs on Statistics and Applied Probability. Chapman & Hall, London.
[77] Min, Y., Agresti, A. , 2005. Random effect models for repeated measures of
zero-inflated count data. Stat Model,5(1):1-19.
[78] Moghimbeigi, A., Eshraghian, M. R., Mohammad, K., McArdle, B., 2008. Mul-
tilevel zero-inflated negative binomial regression modeling for over-dispersed
count data with extra zeros. Journal of Applied Statistics 35(9), 1193-1202.
[79] Monod, A., 2014. Random effects modeling and the zero-inflated Poisson dis-
tribution. Communications in Statistics. Theory and Methods 43(4), 664-680.
[80] McCullagh, P., Nelder J.A., 1989. Generalized linear models. 2nd ed. Mono-
graphs on statistics and applied probability. London: Chapman & Hall.
[81] Mullahy, J., 1986. Specification and testing of some modified count data models.
Journal of Econometrics,33:341-365.
[82] Mullahy, J., 1997. Heterogeneity, excess zeros, and the structure of count data
models. Journal of Applied Econometrics,12(3) :337-350.
[83] Mwalili, SM., Lesaffre, E., Declerck, D., Demetrio, C.G.B. The zero-inflated
negative binomial regression model with correction for misclassification: an
example in caries research. Stat Methods Med Res.,17(2):123-139, 2008.
[84] Nelder,J.A. , Wedderburn, R.W.M., 1972. Generalized Linear Models. Journal

of the Royal Statistical Society, Series B, 56(1) :61-69
[85] Nguyen, V. T., Dupuy, J.-F.,2019. Asymptotic results in censored zero-inflated

Poisson regression. Communications in Statistics - Theory and Methods
[86] Puig, P. , 2003. Characterizing additively closed discrete models by a property

of their maximum likelihood estimators with application to generalized Her-
mite distributions. Journal of the American Statistical Association, 96:687-692.
[87] Puig, P., Valero, J. , 2006. Count data distributions: some characterizations
with applications. Journal of the American Statistical Association, 101:332-
340.
[88] Preisser, J.S., Long, D.L., Kincade, M. E. , 2012. Review and recommendations
for zero-inflated count regression modeling of dental caries indices in epide-
miological studies. Caries Research,54(4):413-423.
Bibliographie 114
[89] Preisser, J. S., Das, K., Long, D. L., and Divaris, K., 2016. Marginalized zero-
inflated negative binomial regression with application to dental caries. Statis-
tics in Medicine 35(10),1722-1735.
[90] Ridout, M., Demetrio, C.G.B., Hinde J., 1998. Models for count data with many
zeros. Invited paperpresented at the Nineteenth In Bio Conf, Cape Town, South
Africa, pages 179-190.
[91] Ridout, M., Hinde, J., Demetrio, C. G. B., 2001. A score test for testing a zero-
inflated Poisson regression model against zero-inflated negative binomial al-
ternatives. Biometrics 57(1), 219-223.
[92] Rosen,O., Jiang,W. X., and Tanner,M. A., 2000. Mixtures of marginal models.
Bio- metrika, 87 :391-404.
[93] R Core Team, 2018. R: A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing. Vienna, Austria. https://www.R-
project.org/
[94] Seber, G. A. F., Lee, A. J., 2012. Linear Regression Analysis. Wiley Series in
Probability and Statistics. Wiley.
[95] Smith, R. L., 2003. Statistics of extremes, with applications in environment,

insurance and finance. In Extreme Values in Finance, Telecommunications and
the Environment (B. Finkenstadt and H. Rootzen, eds.) 1-78. Chapman and
Hall/CRC Press, London.
[96] Staub, K. E., Winkelmann, R. Consistent estimation of zero-inflated count mo-

dels. Health Economics, 22(6):673-686, 2013.
[97] Stukel,T. A., 1988. Generalized logistic models. J. Amer. Statist. Assoc. 83 426-
431.
[98] Todem, D., Kim, K., Hsu, W. W., 2016. Marginal mean models for zero-inflated
count data. Biometrics 72(3), 986-994.
[99] Tuenter, H.J.H., 2000. On the generalized Poisson distribution. Statistica Neer-
landica, 54:374-376.
[100] Tu, w.,2002. Zero-inflated data. Encyclopedia of Environmetrics,4:2387-2391.
[101] Vieira, AMC., Hinde, JP., Demetrio, CGB. , 2000. Zero-inflated proportion
data models applied to a biological control assay. J Appl Stat.,27(3):373?389.
Bibliographie 115
[102] van der Vaart, A. W., Wellner, J., 1996. Weak convergence and empirical pro-
cesses: with applications to statistics. Springer Series in Statistics, Springer.
[103] Wang, X. and Dey, D. K., 2010. Generalized extreme value regression for
binary response data:An application to B2B electronic payments system adop-
tion. Ann. Appl. Stat. 4 2000-2023.
[104] Wu, Y., Chen, M.-H. and Dey, D., 2002. On the relationship between links for
binary response data. J. Stat. Stud. Special Volume in Honour of Professor Mir
Masoom Ali’s 65th Birthday 159-172.
[105] W. Greene,1994. Accounting for excess zeros and sample selection in Pois-
son and negative binomial regression models. Report EC-94-10, Department of
Economics, New York University, New York
[106] Zhao, W., Zhang, R., Liu, J. 2015. Semi varying coefficient zero-inflated gene-
ralized Poisson regression model. Comm Statist Theory Methods,44(1):171-185.
[107] Zeileis, A., Kleiber, C., Jackman, S., 2008. Regression models for count data
in R. Journal of Statistical Software 27(8).
Bibliographie 116

Thèse Essoham ALI

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Thèse Essoham ALI

Transféré par

Droits d'auteur :

Formats disponibles

Modèles de régression marginaux pour des données de

comptage à excès de zéros

To cite this version:

HAL Id: tel-03427236

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

UFR de Sciences Appliquées et de Technologie

Docteur de l’Université Gaston Berger

Soutenue publiquement le 23 Juillet 2021 par

Spécialité : Statistique Appliquée

MODÈLES DE RÉGRESSION MARGINAUX POUR DONNÉES

Directeur de Thèse : Aliou DIOP

Abdou Kâ DIONGUE Professeur Titulaire, UGB de Saint-Louis, Sénégal Président

Thèse Numéro EDST008-2021

Ce travail est le fruit d’énormes contribution en modélisation statistique, étude

Je ne trouve jamais les mots adéquats pour remercier M. Jean-François DUPUY,

l’organisation de mon accueil lors de mes séjours de recherche en France, au dérou-

Je voudrais exprimer ma gratitude à Monsieur Abdou Kâ DIONGUE, Professeur

Mes remerciements vont également à Monsieur El Hadji DEME, Maître de Confé-

Ce travail de thèse s’est principalement déroulé au Laboratoire d’études et de

P (A) : La probabilité de l’événement A.

Abréviations & Notations iv

1 Quelques rappels sur les modèles de comptages surdispersés 11

2 Modèle de régression marginal binomial à inflation de zéros avec

3 Une étude basée sur la simulation de la régression ZIP avec divers

3.2 Modèles, données, notations . . . . . . . . . . . . . . . . . . . . . . . . . 70

2.1 Estimations de la densité des (β̂j,n − βj )/erreur standard(β̂j,n ), j =

3.1 Estimations de la densité des (β̂j,n −βj )/standard error(β̂j,n ), j = 1, . . . , 5

3.2 Estimations de la densité des (β̂j,n −βj )/standard error(β̂j,n ), j = 1, . . . , 5

2.1 Résultats de la simulation pour n = 500. c : proportion moyenne d’in-

Dans la première partie, nous introduisons les notions de surdispersion, modèles

La deuxième partie de cette thèse concerne, l’étude de l’Estimateur du Maxi-

Dans la troisième partie, nous nous intéressons à la robustesse de l’estimation

Mots clés: Normalité asymptotique, consistance, données de comptage, modèles

In the first part, we introduce the notions of overdispersion, generalized linear

In the third part, we focus on the robustness of the estimation in zero-inflated

Keywords: Asymptotic normality, consistency, count data, marginal models, ex-

Une revue de la littérature

et Diop et al. (2016, [30]).

La deuxième contribution de cette thèse est énoncée dans le chapitre 3, où nous

1.2 Rappels sur les modèles linéaires généralisés

constante que par l’hypothèse de normalité. Depuis et principalement au début du

Les modèles linéaires généralisés permettent donc la modélisation de variables

où θi est un paramètre canonique et φ un paramètre de dispersion. Les fonctions

Il existe donc une relation directe entre l’espérance de Yi et sa variance:

Remarque 1.1 La fonction de lien permettant d’égaler le prédicteur linéaire

Nous nous intéressons maintenant à l’estimation des paramètres β d’un modèle

1.2.2 Méthodes d’estimation

1.2.3 Par maximum de vraisemblance

2. Algorithme des scores de Fisher

1.2.4 Par quasi-vraisemblance

1.3 Quelques rappels sur la modélisation des don-

1.3.2 Modèles de base de régression Poisson et de Binomial

La distribution de Poisson est l’hypothèse de base de plusieurs modélisations des

E(yi |Xi = xi ) = µi = exp(β > Xi )

Les paramètres sont choisis de façon à maximiser la valeur de la fonction log-

En statistique , la surdispersion est la présence d’une plus grande variabilité (

Dans le modèle de Poisson, la surdispersion se produit lorsque la variance est

1.3.2.3 Le modèle de régression binomial négatif

Le modèle de régression binomial négatif a l’utilité de traiter la surdispersion des

Dans la section suivante, nous introduisons la notion d’inflation de zéros et expli-

1.4 Modèles de régression à inflation de zéros

1.4.2 Le modèle de régression ZIP

Soit Z une variable de comptage sur un échantillon de n individus. On note Zi

où ωi et µi sont fonctions respectivement des vecteurs de covariables Wi = (Wi1 , · · · , Wiq )>