Vous êtes sur la page 1sur 15

Troisième bachelier en sciences de l’ingénieur, orientation

ingénieur civil
Année académique 2019-2020

Éléments de statistiques
Projet

Thomas Bastin s171170


Boris Martin s171900

Octobre-Décembre 2019
1 Analyse descriptives
1.1 Question a)

Figure 1 – Histogramme des frais hospitaliers

On observe très clairement sur la figure 1 que pour une grande partie de la population
de l’échantillon, les charges des soins médicaux sont inférieures à $13,000. Le reste des
données des charges est éparpillé entre $13,000 et le maximum situé à $60,000. Les frais
très élevés sont donc relativement rares pour la majorité de la population.

1.2 Question b)
On obtient les résultats suivant :

• Moyenne (mx ) = $12767

• Médiane (F̂ −1 (0.5)) = $9296

• Écart-type : sn−1 = $11 600 et sn = $11 589. Nous utiliserons ici sn−1 car il est moins
biaisé.

Statistique 1 Projet
On remarque que l’écart-type est fort grand, ce qui signifie que les données sont fort espa-
cées. Cela est directement observable sur la figure 1 où une grosse partie de la population
est située autour de la médiane et le reste est espacé sur un plus grand intervalle avec des
valeurs plus élevées.

Madame Smith paie des charge a hauteur de $16 885. C’est plus que la moyenne et la
médiane, mais elle est à moins d’une déviation standard au-dessus de la moyenne.

1.3 Question c)
Les frais hospitalier normaux sont tous les frais hospitalier se trouvant dans l’intervalle
centré autour de la moyenne et dont les éléments sont à moins d’une déviation standard
de celle-ci. On a donc l’intervalle : [mx − sn−1 ; mx + sn−1 ] = [1166.4; 24367]
La proportion de personnes ayant des frais normaux est de 84,2%. (Il suffit de compter le
nombre d’individus dans l’intervalle) On peut en déduire que Ms. Smith a des frais nor-
maux au sens de la loi normale, car elle a des frais à hauteur de 16 885$ et est donc compris
dans l’intervalle [1166.4; 24367].

1.4 Question d)
On remarque grâce à la boite à moustache (fig 2) qu’il y a beaucoup de données aber-
rantes. Les quartiles que nous avons trouvés sont :

• Premier quartile : $4892

• Second quartile (médiane) : $9296

• Troisième quartile : $15687

Le seuil inférieur d’aberration est Q1 − 1.5 (Q3 − Q1 ) ≈ $-13 000. Les frais étant positifs,
il n’y a donc pas de valeur aberrantes car trop petites.

Le seuil supérieur Q3 + 1.5 (Q3 − Q1 ) = $31 878. Comme on peut le voir sur l’histo-
gramme, il y a donc beaucoup d’aberrations par le haut.

1.5 Question e)
Le polynôme de fréquences cumulées est la figure 3.
La proportion de patients dont les frais sont inférieurs ou égaux à $25000 est de 86,4%.
(Donc 13.6% au-dessus)

Statistique 2 Projet
×10 4 Boiteà moustache des frais hospitalier

4
Charges

0
1

Figure 2 – Boite à moustache des charges

La proportion des personnes dont les frais sont inférieurs à ceux de monsieur Smith
($16 885) est de 76,6%, ce qui fait donc 23,4% de personnes au-dessus.
Il y a donc 23,4 - 13,6 = 9,8% de personnes dont les frais sont entre ceux de monsieur
Smith et $25 000.

1.6 Question f)
On obtient comme coefficients de corrélation :
• Pour les femmes : 0,2633

• Pour les hommes : 0,1582


On observe une corrélation positive mais relativement faible dans les deux cas.

Globalement, les frais croissent avec l’âge, mais croissent plus vite pour les femmes. Une
analyse plus en détail des scatter plots (figures 4 et 5) laisse à penser que les frais “de
base” pour les personnes en bonne santé croissent avec l’âge, mais que les maladies graves
(coûteuses) sont réparties de façon assez homogène, du moins sur notre échantillon.

Par ailleurs, on observe 3 “lignes” parallèles sur chacun des graphes (qui correspondent
à des frais faibles, frais modérés et des frais élevés). Il pourrait être intéressant d’étudier

Statistique 3 Projet
Fréquences cumulées des charges
1

0.9

0.8

0.7
Fréquences cumulées

0.6

0.5

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5 6 7
Charges ×10
4

Figure 3 – Fréquences cumulées des charges

la corrélation entre ces ensembles et d’autres caractéristiques. (fumeurs, etc...).

2 Génération d’échantillons i.i.d.


2.1 Question a)
2.1.1 Point i)
On a comme résultats :

Population Échantillon
Moyenne 12767 13264
Médiane 9296 9952
Ecart-type 11600 13099

On remarque des variations assez importantes (de l’ordre de 20%) entre les données
de l’échantillon et de la population. Cela s’explique par la faible taille de l’échantillon,
et surtout par le fait qu’on en ait tiré qu’un. En effet, les résultats obtenus pour cette
question peuvent changer d’échantillon à échantillon étant donné que ceux-ci sont tirés
aléatoirement. Si plusieurs échantillons avaient été tirés les résultats auraient été différents.

Statistique 4 Projet
104 Corrélation âge/frais (hommes)
7

4
Frais ($)

0
15 20 25 30 35 40 45 50 55 60 65
Age (années)

Figure 4 – Frais en fonction de l’âge pour les hommes

104 Corrélation âge/frais (femmes)


6

4
Frais ($)

0
15 20 25 30 35 40 45 50 55 60 65
Age (années)

Figure 5 – Frais en fonction de l’âge pour les femmes

Statistique 5 Projet
2.1.2 Point ii)

×10 4 Boite à moustache relative au frais hospitalier

4
Charges

0
1

Figure 6 – Boîte à moustache (frais hospitaliers)

On remarque (fig 6 et fig 2) que les deux boîtes à moustache sont d’allure fort identique.
Néanmoins on peut voir sur celle construite à partir de l’échantillon que les quartiles sont
quelque peu plus écartés et qu’ils sont tous un cran plus haut que pour le boxplot de la
population totale (les 500 individus). On remarque aussi, logiquement, moins de donnée
aberrantes sur le deuxième boxplot car il y a moins de monde, mais cela pourrait poser
problème si l’échantillon venait a prendre 50 personnes ayant des charges très élevées, on
aurait alors des résultats aberrants, comparé a la population de base.

2.1.3 Point iii)


On peut dire que les deux courbes (fig 7 et fig 3) sont plutôt similaires, c’est-à-dire que
la fonction de répartition augmente beaucoup au début et puis se stabilise aux alentours
de 60 000. La courbe des échantillons est un peu en dessous de la courbe de la population,
cela est dû au fait qu’il y a moins d’individus dans la population. Néanmoins, vu que les

Statistique 6 Projet
échantillons sont pris aléatoirement nous aurions pu avoir une courbe qui ne suit pas du
tout la courbe relative à toute la population.
La distance de Kolmogorov-Smirnov ici est de 0,054. Celle-ci a été trouvée en utilisant la
fonction ktest2 de Matlab. Analytiquement, nous aurions dû utiliser la formule :

DKS (FX , FY ) , sup |FX (z) − FY (z)| ≤ 1


z∈R

où FX , FY sont les fonctions de répartition pour lequel on veut calculer la distance de


Kolmogorov-Smirnov.

Polynomes de fréquence cumulées des frais hospitaliers


1

0.9

0.8

0.7
Fréquences relative

0.6

0.5

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5 6 7
Frais hospitaliers ($) ×10 4

Figure 7 – Fréquences cumulée de l’échantillon

2.2 Question b)
2.2.1 Point i)
On remarque aisément que l’histogramme (fig 8) a l’allure de la Loi de Gauss. Ceci est
normal car on a un grand nombre d’échantillon et donc les résultats ont plus de chances de

Statistique 7 Projet
Histogramme des frais hospitaliers moyen pour 500 échantillons
80

70

60
Nombres d'échantillon

50

40

30

20

10

0
0.8 1 1.2 1.4 1.6 1.8 2
Frais hospitaliers moyen ×10 4

Figure 8 – Histogramme des moyennes

se rapprocher d’une distribution normale. De plus, le théorème central limite garantit


que la moyenne d’un échantillon converge en loi vers une loi normale de moyenne et écart-
type correspondants à la population totale. Si on calcule la moyenne de toutes ces moyennes
on obtient 12 713$ de frais hospitalier en moyenne. Cette moyenne est très proche de la
moyenne faite sur la population qui est de 12767%. Puisque E{mX } = µX et σmX =
σX

n
≈ $1640, il est logique que cette estimation soit bonne, bien que l’écart-type soit encore
important.

2.2.2 Point ii)


Tout comme pour la question précédente, l’histogramme (fig 9) à l’allure de la loi de
Gauss. On ne peut en revanche pas le démontrer par le théorème central limite. La moyenne
des médianes est $9219,3 ce qui est assez proche de la médiane calculée pour la population,
qui est de 9296$. Elle n’est pas plus proche de la valeur de la population que la valeur
calculé au point précédent.

Statistique 8 Projet
Histogramme de la médiane des frais hospitaliers de 500 échantillons
60

50

40
Nombres d'échantillons

30

20

10

0
0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5
Médiane des frais hospitaliers ×10 4

Figure 9 – Histogramme des médianes

2.2.3 Point iii)


Encore une fois l’histogramme (fig 10) semble suivre une loi gaussienne. La moyenne
des écart-types est de 11474$ est est assez proche de celle trouvée a la question 1.a) qui est
de 11600$. Nous remarquons que jusque là toute les moyennes des données calculées sont
plus faibles que les valeurs réelles calculées à partir de la population.

2.2.4 Point iv)


L’histogramme (fig 11) semble également suivre une loi de Gauss (quoique peu symé-
trique), et on remarque que la maximum de la courbe se trouve au niveau de la distance
de Kolmogorov trouvé au point a)iii), ce qui veut dire que nous sommes plutôt bien dans
les données correctes pour cette distance. La dissymétrie peut s’expliquer par le fait que
certains échantillons ont peut-être des donnée situées dans un intervalle bien plus faible
que les intervalles moyens.

Statistique 9 Projet
Histogramme des écart-types des frais hospitaliers des 500 échantillons
70

60

50
Nombres d'échantillons

40

30

20

10

0
0.6 0.8 1 1.2 1.4 1.6 1.8
écart-types des frais hospitaliers ×10 4

Figure 10 – Histogramme des écarts-types

3 Estimation
3.1 Question a)
Pour cette question nous avons obtenu les résultats suivant : Variance = 0,6002 et Biais
= -0,0080. (Ces estimations étant les moyennes sur les 100 échantillons des variances et
biais mesurés. La mesure du biais se fait en comparant avec la moyenne générale.)
Le biais étant l’espérance de la différence entre mX et µX
Biais = E{Tn − θ∗ } = E{mX − µX }
. Concernant la variance , celle-ci est donnée comme étant :
¶ ©
V {Tn } = E (Tn − θ∗ )2 − (E {Tn − θ∗ })2
Il paraît raisonnable de considérer le biais nul, sa faible valeur étant sans doute une
petite fluctuation. De plus, on sait que E{mX } = µX , ce qui garantit que le biais est
réellement nul.

Statistique 10 Projet
Histogramme des distances de Kolmogorov-Smirnov sur les 500 échantillons
70

60

50
Nombres d'échantillons

40

30

20

10

0
0 0.05 0.1 0.15 0.2 0.25 0.3
Distance de Kolmogorov-Smirnov entre les échantillons et le vecteur de base

Figure 11 – Histogramme des distance de Kolmogorov

3.2 Question b)
Ici, nous avons les résultats suivants : Variance = 1,3018 et Biais = 0,0283.
Ces valeurs diffèrent évidemment d’une exécution à l’autre, mais nous obtenons systéma-
tiquement un biais positif. La médiane semble donc constamment surestimée.

3.3 Question c)
On obtient les résultats suivants :

Biais Variance
Moyenne 0,0124 0,3585
Médian -0,1679 0,8703

On peut remarquer que les valeurs de la variance et du biais sont plus faibles lorsque l’on

Statistique 11 Projet
prend des échantillons de 100 individus. (Ce qui est assez logique : un grand échantillon
tend à minimiser les erreurs). Néanmoins, ces grandeurs varient toujours autant d’une
exécution à l’autre.
On peut remarquer (y compris en faisant plusieurs itérations) que la variance de la moyenne
est systématiquement plus faible : celle-ci est donc plus facile à estimer que la médiane.

3.4 Question d)
3.4.1 Loi de Student
Pour une loi de Student, l’intervalle est :
sn−1 sn−1
mx − tα/2 √ ≤ µ ≤ mx + tα/2 √
n n
Où les coefficients t sont calculés à n − 1 degrés de liberté, c’est-à-dire 19. On trouve
t0.95 = 2.861.

Sur 100 échantillons, 89 donnent un intervalle qui contient effectivement la moyenne.

3.4.2 Loi de Gauss


Pour une loi de Gauss, l’intervalle centré sur la moyenne d’une variable aléatoire X ayant
une probabilité de 95% de contenir la valeur est [µ − 1.96σ; µ + 1.96σ]. (Car u α2 = 1.96
pour α = 0.05).
Ici, l’intervalle est donc de la forme
σ σ
mx − uα/2 √ ≤ µ ≤ mx + uα/2 √
n n
L’écart-type réel étant supposé connu, nous prendrons la valeur de 6.11, calculée sur
l’ensemble de la population.
Sur 100 échantillons, 93 donnent un intervalle qui contient effectivement la moyenne.

3.4.3 Interprétation
La loi de Gauss semble plus efficace ici, malgré la petite taille de l’échantillon. On peut
supposer que c’est dû au fait qu’on connaît l’écart-type, alors que dans la loi de Student il
est estimé. Cependant, t α2 étant plus grand que u α2 , il aurait été vraisembable que la loi de
Student soit meilleure car plus large. Il semblerait que la variance de sn−1 compense cette
largeur d’intervalle.

Supposer la variable gaussienne semble modérément pertinent, car nous obtenons des
mesures avec un peu plus d’erreurs que prévu, mais finalement assez proches. Sur le plan
théorique, cela peut se justifier par le fait que toute moyenne converge vers une loi normale
(par le théorème central limite).

Statistique 12 Projet
4 Tests d’hypothèse
4.1 Question a)
Processus et hypothèses
Nous commençons par calculer x, la différence de moyenne de frais entre les fumeurs
et les non-fumeurs, sur le total de notre population. La moyenne est de $8126 pour les
non-fumeurs et de $31099 pour les fumeurs. On a donc x = $22937.

Pour réaliser un test, on prend un échantillon de 50 fumeurs et un de 50 non-fumeurs,


et on étudie la différence de moyenne entre les deux. L’hypothèse H0 est que cette moyenne
est proche de x. Nous allons réaliser un test bilatéral pour vérifier cette hypothèse. Si la
distribution de cette différence de moyenne normale 1 , l’intervalle de confiance pour un
risque α = 5% est [µ − 1.96σ; µ + 1.96σ]. Au vu des règles d’addition des variances de
variables indépendants, il vient :

»
σ= V {mfumeurs } + V {mnon−fumeurs }
 
V {fumeurs} V {non − fumeurs}
= +
n n
 
V {fumeurs} + V {non − fumeurs}
=
n

(Où "m" est une moyenne de frais, et V {fumeurs} désigne la variance des frais chez
les fumeurs, etc.) Nous estimons les variances par les variances des deux sous-populations.
(L’ensemble des fumeurs, et l’ensemble des non-fumeurs) Naturellement, nous prenons ici
µ = x, et nous regardons si ∆m = mfumeurs − mnon−fumeurs rentre dans cet intervalle. Dans
le cas contraire, nous rejetons l’hypothèse H0 .

Résultats
Sur 100 échantillons (ou plus précisément, paires d’échantillons), 96 conduisent à ac-
cepter H0 et 4 à la rejeter. Nous avons donc un taux de rejet de 5%, égal de α. Puisque α
est la probabilité de rejeter H0 alors qu’elle est vraie, il paraît raisonnable de la supposer
vraie.

1. Par le théorème central limite, la moyenne des fumeurs et la moyenne des non-fumeurs tend vers une
loi normale. Par extension, leurs combinaisons linéaires aussi.

Statistique 13 Projet
4.2 Question b)
La méthode est similaire, au détail près qu’on étudie une sous-population restreinte aux
personnes de plus de 50 ans. Nous obtenons cette fois un taux de rejet de 4%, ce qui n’est
pas suffisamment significatif pour conclure différemment du cas général.

Statistique 14 Projet

Vous aimerez peut-être aussi