Vous êtes sur la page 1sur 6

Année 2023-2024

Master 1ère année mention Economie du développement


Parcours "Développement durable", "Economie de la santé",
"Economie et transition territoriale", "Finances Publiques"
Exercices de statistique

Exercices sur une variable quantitative

I. Bienvenue à l’hôpital…
On a relevé les données suivantes sur les nombres d'hospitalisation par jour, de patients avec une
cardiopathie1, relevées tous les 4 jours de 2016 au CHU de Clermont-Ferrand.
xi nombre de ni nombre de jours
pi (loi de Poisson de
patients où on hospitalise xi ti
paramètre 𝜆̂)
hospitalisés patients
0 15 0,0867 7,9736
1 13 0,2120 19,5007
2 22 0,2592 23,8459
3 16 0,2113 19,4396
4 14 0,1292 11,8856
5 ou plus 12 0,1017 9,3546
nombre total de
92 1 92
jours
Tableau 1. Nombre de patients admis dans le service

On donne : ∑6𝑖=0 𝑛𝑖 𝑥𝑖 = 225 ; ∑6𝑖=0 𝑛𝑖 𝑥𝑖2 =813

Partie A – Estimation du paramètre d’une loi de Poisson


1. De quel type est la variable X "nombre de patients hospitalisés" ?
X est une variable quantitative discrète
2. Pourquoi peut-on s'attendre à ce que la distribution de X soit une distribution de Poisson ?
Parce que les événements d'hospitalisation sont indépendants pour tous les patients. Une loi de
Poisson résulte du comptage d'événements indépendants entre eux.
Pour estimer le paramètre d’une loi de Poisson, on dispose de deux estimateurs :
𝑛
1
λ̂ = X
̅ = ∑ 𝑋𝑖
𝑛
𝑖=1

1
Cardiopathie = maladie du cœur
n
̂2 = 1
λ̃ = σ ̅)2
∑(X i − X
n−1
i=1

3. Montrer que ces deux estimateurs sont sans biais.


E(𝜆̂) = E(𝑋̅) = 𝜇 (moyenne dans la population) =  (par définition d'une loi de Poisson).
E(𝜆̃) = 𝐸(𝜎̂2 ) = 𝜎 2 (variance dans la population) =  (par définition d'une loi de Poisson).
4. Lequel de ces deux estimateurs est-il préférable d’utiliser et pourquoi ?
Entre deux estimateurs sans biais on choisit le plus efficace, c'est-à-dire celui qui a la plus petite
𝜎2 2𝜎 4
variance. On sait que Var(𝜆̂) = Var(𝑋̅) = , et Var(𝜆̃) = 𝑉𝑎𝑟(𝜎̂2 ) = .
𝑛 𝑛−1
𝜎2 2𝜎 4
L'estimateur 𝜆̂ 𝑒𝑠𝑡 𝑑𝑜𝑛𝑐 𝑝𝑙𝑢𝑠 𝑒𝑓𝑓𝑖𝑐𝑎𝑐𝑒 𝑞𝑢𝑒 𝜆̃ si et seulement si 𝑛
< 𝑛−1.
𝜎2 2𝜎 4 𝑛−1 𝑛−1 𝜎2 2𝜎 4
𝑛
< 𝑛−1
⟺ 𝑛
< 2𝜎 2 . Si n est grand,
est proche de 1, on peut donc dire que 𝑛 < 𝑛−1 ssi 𝜎 2 >
𝑛
0,5, 𝑖. 𝑒. 𝜆 > 0,5. Sauf pour les événements très rares, l'estimateur 𝜆̂ est donc généralement plus
efficace que 𝜆̃.
5. Donner une estimation de .
225
𝜆̂
𝑜𝑏𝑠 = 𝑥̅ = 92 = 2,44565 𝑝𝑎𝑡𝑖𝑒𝑛𝑡𝑠 𝑝𝑎𝑟 𝑗𝑜𝑢𝑟

Partie B – le nombre d’admissions suit-il une loi de Poisson ?


On veut tester l'hypothèse nulle : "le nombre quotidien d'hospitalisations suit une distribution de
Poisson", avec un risque de première espèce de 2%.
6. Quel test doit être utilisé ? Comment fonctionne ce test ? Expliciter les hypothèses nulle et
alternative. Expliquer comment ont été calculées les valeurs des colonnes pi et ti, pourquoi on les a
calculées, et comment on calcule la statistique de test. Il faut utiliser un test du chi² d'ajustement à la
loi de Poisson.
L'hypothèse nulle est que la variable est bien distribuée selon une loi de Poisson.
L'hypothèse alternative est que la variable ne suit pas une loi de Poisson.
Les valeurs de la colonne pi correspondent aux probabilités d'hospitaliser 0; 1; 2; etc. patients le même
jour, si le nombre d'hospitalisation suit une loi de Poisson de paramètre 𝜆̂.
̂𝑘
̂𝜆
Le mode de calcul est : Proba(X =k) = 𝑒 −𝜆 𝑘!

Les valeurs ti sont les effectifs attendus de chaque valeur de X si l'hypothèse nulle est vraie, calculés
comme ti = 92pi
(𝑡𝑖 −𝑛𝑖 )2
La statistique de test à calculer est D = ∑6𝑖=1 𝑡𝑖
.

Si H0 est vraie, cette statistique suit une loi de chi² avec 5 ddl.
On peut utiliser ce test car tous les effectifs attendus sont supérieurs à 5.
7. Etablir la règle de décision associée à ce test
Pour  = 2%, on trouve dans la table de la distribution de chi² à 5 ddl le quantile q0.98 = 13,388.
On rejettera donc H0 si la statistique de test calculée sur l'échantillon (dobs) est supérieure à
13,388.
8. La statistique de test calculée est dobs = 10,234. Donner la conclusion du test.
Dobs < 13,399, donc on ne rejette pas l'hypothèse nulle.
On peut considérer que la variable "nombre d'hospitalisations" suit une distribution de Poisson.

Partie C – étude du nombre d’admissions moyen


9. Peut-on ici établir un intervalle de confiance de la variance de X ? Si oui, donner l'intervalle de
confiance à 95% de cette variance.
Ici la distribution de X n'est pas normale (c'est une loi de Poisson de paramètre λ < 18), et n < 200.
On ne peut donc pas calculer un IC de la variance.
10. Peut-on établir un intervalle de confiance à 95% du nombre moyen d'hospitalisations par jour ?
Si oui, donner cet intervalle de confiance.
Ici la distribution de X n'est pas normale, mais celle de 𝑋̅est normale car n > 30.
̂
𝜎 𝑠
On peut donc calculer l'Intervalle de confiance selon la formule : 𝑋̅ ± 𝑡0,975 = 𝑋̅ ± 𝑡0,975
√𝑛 √𝑛−1
où 𝑡0,975 est lu dans la table de Student à 91 ddl. 𝑡0,975 ≈ 1,986
813
Calculons 𝑠 2 = 92
− 2,445652 = 2,8557

2,8557
On obtient : 𝑏1 = 2,44565 − 1,986√ 91
= 2,0938

2,8557
𝑏2 = 2,44565 + 1,986√ = 2,7975
91

L'intervalle [2,094 ; 2,797] a 95% de contenir le nombre moyen de patients hospitalisés chaque jour
dans le service.
11. Supposons que la direction de l'hôpital établisse les plannings du personnel en considérant
qu'il y a en moyenne deux arrivées par jour dans ce service. Et supposons qu’un délégué syndical veuille
démontrer que le nombre moyen d'hospitalisations est significativement supérieur à deux. Ces
données confirment-elles l'hypothèse de la direction ou celles du délégué syndical ? (établir un test au
risque  = 0,05).
Pour répondre à cette question on effectue un test t de Student sur un échantillon.
H0 : μ = 2 ; H1 : μ > 2
𝑋̅−2
Statistique de test : T = 𝑠 .
√𝑛−1

Si H0 est vraie, T suit une loi de Student à 91 ddl.


Dans la table on lit la valeur critique (pour 90 ddl) : t0,95 = 1,662.
La règle de décision est donc de rejeter H0 si tobs>1,662.
2,44565−2
On calcule tobs = 2,8557
= 2,5157 > 1,662. On rejette donc l'hypothèse nulle.

91

Le délégué syndical a raison d'affirmer que le nombre quotidien moyen d'hospitalisations est
significativement supérieur à 2.

II. Distribution des salaires en France


Le graphique ci-dessous a été publié par Tristan GAUDIAUT, sur https://fr.statista.com/
infographie/25111/distribution-des-salaires-mensuels-nets-en-equivalent-temps-plein-en-france/)

1. Comment s'appelle ce type de graphique ?


C'est un histogramme, même s'il présente des
défauts (barres disjointes, barre "plus de 8000
€" de même largeur que les autres)
2. A partir de ce graphique, remplir la colonne Fi
du tableau 2 ci-dessous.
3. Sachant que le SMIC mensuel net était en 2020
de 1218,60 €, calculer par interpolation linéaire
les quantiles q0,1 et q0,9 de la distribution des
salaires en 2020. En déduire un indicateur de
concentration des salaires.
Pour le quantile q0,1 :
Borne Fréquence
cumulée
1218,60 0
q0,1 0,1
1500 0,195
On a :
𝑞0,1 − 1218,6 0,1 − 0
= ,
1500 − 1218,6 0,195 − 0
0,1
D'où 𝑞0,1 − 1218,6 = (1500 − 1218,6) × ,
0,195
281,4
D'où 𝑞0,1 = 1218,6 + 1,95
= 1362,91 €

Pour le quantile q0,9 :


Borne Fréquence 𝑞0,9 − 4000 0,9 − 0,897
cumulée = ,
6000 − 4000 0,964 − 0,897
4000 € 0,897 0,003
D'où 𝑞0,9 − 4000 = (6000 − 4000) × 0,067,
q0,9 0,9
3
6000 € 0,964 D'où 𝑞0,9 = 4000 + 2000 67 = 4089,55 €
Remarque : Au vu du graphique on voit bien que la répartition dans
la tranche ]4000 : 6000] n'est pas uniforme. La vraie valeur du quantile est sans doute plus proche de
4000 € que ce qui est calculé là.

4. Déterminer par interpolation linéaire le salaire net médian, et interpréter cette valeur
On recherche maintenant le quantile 0,5 :

Borne Fréquence
cumulée
2000 € 0,497
q0,5 0,5
2500 € 0,683 𝑞0,5 − 2000 0,5 − 0,497
= ,
2500 − 2000 0,683 − 0,497
0,003
D'où 𝑞0,5 − 2000 = (2500 − 2000) × ,
0,186
3
D'où 𝑞0,5 = 2000 + 500 = 2008,06 €
186
En France en 2020, 50% des salariés à plein temps touchaient moins de 2008 € nets par mois, et 50%
touchaient plus.

5. A partir de ces données, et en se basant sur les centres de classe comme approximations des
moyennes par classe, remplir le tableau 2 puis construire la courbe de Lorenz des salaires :

1500+1218,60
Calculs intermédiaires : c1 = 2
= 1359,30 €

∑8𝑖=1 𝑓𝑖 𝑥̅𝑖 ≈ ∑8𝑖=1 𝑓𝑖 𝑐𝑖 = 2552,0635 €

Remarque : il s'agit là d'une valeur APPRXIMEE du salaire mensuel net moyen.

Remarque sur la colonne "gi" : il s'agit là de la part de masse salariale globale qui revient aux
individus de la classe i.
Tableau 2. Construction de la courbe de Lorenz

Bornes sup gi = ∑8
𝑓𝑖 𝑥̅𝑖
fi Fi 𝑥̅𝑖 ≈ 𝑐𝑖 Gi
des classes 𝑖=1 𝑓𝑖 𝑥̅ 𝑖

0,195 0.195*1359,3/2552,06 0.1039


1500 € 0.195 1359,30 €
35 = 0,1039
2000 € 0,302 0.497 1750 € 0,2071 0,3109
2500 € 0,186 0,683 2250 0,1640 0,4749
3000 € 0,108 0,791 2750 0,1164 0,5913
4000 € 0,106 0,897 3500 0,1454 0,7367
6000 € 0,067 0,964 5000 0,1313 0,8679
8000 € 0,019 0,983 7000 0,0521 0,9201
inconnue 0,017* 1 12000 € (arbitraire) 0,0799 1
* cette valeur a été modifiée pour que la somme des fréquences des différentes classes soit 1.
Courbe de Lorenz :
1

0,9
Parts de masse salariale cumulées

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Fréquences cumulées
6. A partir de votre graphique :
- déterminer l'indice de Gini des salaires en France en 2020 (choisir la valeur la plus crédible) :
0.14 0.278 0.385 0.617 0.895
Remarque : on peut se baser sur le quadrillage pour évaluer la part que représente l'espace entre la
première bissectrice et la courbe par rapport à l'aire totale sous la première bissectrice)
- évaluer la part des salariés français les mieux rémunérés qui concentrent 20 % de la masse salariale
totale.
Environ 7 – 8 % des français les mieux payés reçoivent 20 % de la masse salariale totale (voir traits
bleus)
- évaluer la part de la masse salariale totale qui revient aux 20 % de salariés français les moins
rémunérés
Les 20 % de salariés français les moins rémunérés touchent ensemble un peu plus de 10 % de la masse
salariale totale (traits oranges + première ligne du tableau).
- Déterminer par interpolation linéaire la médiale des salaires, et interpréter cette valeur
La médiale se situe dans la classe ]2500 ; 3000 €]
Borne Masse 𝑀𝑒 − 2500 0,5 − 0,4749
salariale = ,
3000 − 2500 0,5913 − 0,4749
cumulée 0,0251
D'où 𝑀𝑒 − 2500 = (3000 − 2500) × 0,1164 = 2607,82 €
2500 € 0,4749
En France en 2020, 50% de la masse salariale totale revenait aux
Me 0,5
salariés touchant plus de 2608 € / mois.
3000 € 0,5913

Vous aimerez peut-être aussi