Vous êtes sur la page 1sur 57

La Régression de poisson

Exemple1:

-Exemple relatif à l’étude d’un portefeuille d’assurance automobile: on se


dispose d’un échantillon de 54 conducteurs pour qui on observe les variables
suivantes:

 genre: 1=femme, 2=homme;


 région: 1=rurale, 2=autre, 3=urbaine;
 type de la voiture: 1=petite, 2= moyenne, 3= grande;
 emploi: 1=fonctionnaire/autres…, 2=entre-deux, 3=dynamique
 npol: nombre total d’assurés dans cette cellule;
 n: nombre total de sinistres observés durant l’année précédente.
La Régression de poisson

Le nombre de sinistres et les facteurs de risque: pour un individu ayant la


combinaison (genre=1, région=3, type=1 et emploi=1), aura en moyenne exp(-
2.8401+0.2742)*100=7.68% plus de sinistres qu’un individu ayant la meilleure
combinaison (genre=1, region=1, type =1 et emploi=1)
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple2:
La Régression de poisson
Exemple3:

 The number of awards earned by students at one high school. Predictors of the
number of awards earned include the type of program in which the student was
enrolled (e.g., vocational, general or academic) and the score on their final exam
in math.

 num_awards is the outcome variable and indicates the number of awards


earned by students at a high school in a year,
 math is a continuous predictor variable and represents students’ scores on their
math final exam
 prog is a categorical predictor variable with three levels indicating the type of
program in which the students were enrolled. It is coded as 1 = “General”, 2 =
“Academic” and 3 = “Vocational”.
Régression de Poisson: Modèle de comptage
Régression de Poisson: Modèle de comptage
Régression de Poisson: Modèle de comptage
La Régression de poisson:
Ajustement par variable de décalage (offset)
Loi de Poisson avec offset: biodiversité des
fourmis

 Le but de l’étude est d’étudier la biodiversité des fourmis en forêt tropicale


dans différents milieux, en comparant leur richesse.

 Quatre type de milieux sont étudiés: la forêt de plateau (GPWT), la forêt


de liane (FLWT), la forêt de transition (FTWT) et la forêt D’Inselberg
(INWT)

 Une observation est la donnée du nombre d’espèces de fournis présentes


dans 1 m2 de litière récolté dans un milieu donné.

 Les échantillons de litière récoltés sont pesés (variable Poids exprimé


en kilogramme) et le poids est considéré comme un proxy (un
indicateur) de l’épaisseur de la litière. 50 points d’échantillonnage distants
d’au moins 10m ont été choisis dans chaque milieu, sauf pour la forêt
d’Inselberg, pour laquelle seuls 20 points d’échantillonnage ont été
sélectionnés en raison de sa relative petite taille.
Loi de Poisson avec offset: biodiversité des fourmis
Les graphiques illustrent la variabilité des poids de litière récoltés en fonction
du site, ainsi que la variabilité du nombre d’espèces de fourmis présentes dans
chaque échantillon pour chacun des sites.
Loi de Poisson avec offset: biodiversité des fourmis

 La variable Y que l’on cherche à expliquer est un nombre d’espèces de fourmis présentes dans
1m2 de litière sur un site donné.

En supposant que les différentes espèces de fourmis se répartissent au hasard et de façon homogène
dans la litière, il est naturel de modéliser le nombre d’espèces de fourmis présentes par une loi de
Poisson. Le paramètre de la loi de Poisson représente le nombre moyen d’espèces de fourmis attendu
pour chaque observation.

Pour que les différents prélèvements soient comparables, il faudrait que les volumes de litière prélevés
soient identiques, lambdai désignerait alors un nombre d’espèces de fourmis moyen par unité de
volume, c’est-à-dire une densité. Puisque ce n’est pas le cas dans l’expérience, il est nécessaire de
prendre en compte la différence de volume des observations.
Loi de Poisson avec offset: biodiversité des fourmis

- Vij désignant le volume de litière prélevé pour l’observation j sur le site i. cette information
n’étant pas disponible, le poids de litière va être utilisé comme indicateur de ce volume.

-Wij désignant le poids de litière prélevée pour l’observation j sur le site i. lambdai désigne
donc le nombre d’espèces de fourmis par unité de poids.

- En utilisant la fonction de lien naturel de la loi de Poisson, le modèle final est donné par:
Loi de Poisson avec offset: biodiversité des fourmis
-En appliquant l’algorithme de Newton-Raphson, on obtient les estimations pour les paramètres du
modèle.

- Lesvaleurs prédites pour 1 kg de litère sont donc lambda(FLWT)=31,0; lambda(FTWT)=21,0;


lambda(GPWT)=26,9; lambda(INWT)=27,8.
Loi de Poisson avec offset: biodiversité des fourmis

 Pour étudier les différences de richesse entre les différents sites, on est
amené à tester l’effet Site.

La table donne les déviances du modèle nul (sous l’hypothèse H0) et du
modèle complet, ainsi que la valeur critique du test de rapport de
vraisemblance.

 La déviance diminue de 432.2 à 389.3 avec l’introduction de l’effet site et la


valeur critique du test du rapport de vraisemblance est très faible: le milieu
a un effet significatif sur la richesse spécifique.
Loi de Poisson avec offset: biodiversité des fourmis

 Pour comparer les richesses de deux sites (l’égalité des densités


moyennes des deux sites ou l’égalité de leur logarithme):

-la table donne pour chaque paire de sites la valeur critique du test d’égalité
des richesses spécifiques.
- Les différences de richesse spécifique sont donc significatives pour chaque
paire de sites au risque de 5%.
Régression de Poisson: Modèle de comptage
Régression de Poisson: Modèle de comptage
Régression de Poisson: Qualité d’ajustement
La Régression de poisson:
Adéquation du modèle estimé
La Régression de poisson:
Adéquation du modèle estimé
La Régression de poisson:
Adéquation du modèle estimé
Régression de Poisson: Inférence statistique
Régression de Poisson: Inférence statistique
Régression de Poisson: Interprétation des coefficients
Régression de Poisson: Interprétation des coefficients
Régression de Poisson: Sélection des variables
Régression de Poisson: Etudes des résidus
Régression de Poisson: Etudes des résidus
Régression de Poisson: Points Levier
Régression de Poisson: Surdispersion
Régression de Poisson: Surdispersion
La Régression de poisson:
La sur-dispersion
La Régression de poisson:
La sur-dispersion: Exemple
La Régression de poisson:
La sur-dispersion: Exemple
La Régression de poisson:
La sur-dispersion: Exemple
La Régression de poisson:
Modèles à inflation de zéros
La Régression de poisson:
Modèles à inflation de zéros
La Régression de poisson:
La régression Binomiale négative
La Régression de poisson:
La régression Binomiale négative
La Régression de poisson:
La régression Binomiale négative
La Régression de poisson:
La régression Binomiale négative
La Régression de poisson:
La régression Binomiale négative
La Régression de poisson:
La régression Binomiale négative
Poisson tronquée en 0: portées d’agneaux

 On s’intéresse à l’influence du génotype sur la taille des portées chez la


brebis. Pour n=161 brebis qui ont mis bas, on a noté la taille de leur portée
ainsi que leur génotype: BC, BG et CG pour 4 générations de croisements
BG.

Cette table donne les nombres des


portées de tailles allant de 1 à 5 petits
pour chaque génotype.

Cette table donne pour chaque


génotype et pour tous génotypes
confondus: le nombre de portées,
le nombre total de petits et le
nombre moyen de petits par
portée.

L’examen de cette table montre qu’il semble y avoir une différence de taille
des portées selon le génotype, la question est de savoir si elle est
significative.
Poisson tronquée en 0: portées d’agneaux

 la variable Y que l’on cherche à expliquer est le nombre de petits qu'il est naturel
de modéliser par une distribution de Poisson. Cependant, ici on ne retient que la
taille des portées des brebis qui ont mis bas, et la valeur 0 ne sera jamais
observée.

 Pour prendre en compte cette information dans la modélisation, on va supposer


que le nombre de petits est distribué selon une loi de Poisson tronquée en 0.

 La loi de Poisson tronquée est donc un cas de sous-dispersion.


Poisson tronquée en 0: portées d’agneaux

-la table donne les estimations des paramètres du maximum de vraisemblance


obtenues par l’algorithme de Newton-Raphson. On en déduit
-omega1= mu+alpah1= 0.191, omega2=mu+alpha2=0.975
omega3=mu+alpha3=0.894,
-d’où lambda1=1.21, lambda2=2.65 et lambda3=2.44

Effet du génotype (rapport de vraisemblance)

Comparaison des génotypes


Poisson tronquée en 0: portées d’agneaux
Comparaison des génotypes
Poisson tronquée en 0: portées d’agneaux
Comparaison des génotypes
Loi Gamma: roulements à billes, durées de vie
Contexte général
La variable réponse est la durée de vie en heures. On soupçonne que 3 facteurs,
notés A, B et C, peuvent avoir un effet sur la fiabilité. Un plan factoriel complet 2
puissance 3 a été mis en place, et on a obtenu les résultats de la table:

Un modèle usuel pour ce type de données est la loi de probabilité gamma de densité.
Cette loi pour des données positives (comme les durées de vie) permet de prendre en
compte une forte dissymétrie fréquente pour ces données. La fonction de lien
canonique est la fonction inverse 1/mu qui représente le nombre de pannes à l’heure.
Loi Gamma: roulements à billes, durées de vie
Contexte général

Le modèle additif avec les facteurs A et B


suffit pour prédire correctement la durée
de vie. Le facteur et les interactions ne
sont pas significatives.

Pour augmenter la durée de vie (diminuer le nombre de pannes à la minute), il


faut mettre les facteurs A et B au niveau haut. Si on utlise un lien linéaire, l’effet C
et l’interaction AB sont significatives.

Vous aimerez peut-être aussi