Académique Documents
Professionnel Documents
Culture Documents
ingénieur civil
Année académique 2019-2020
Éléments de statistiques
Projet
Octobre-Décembre 2019
1 Analyse descriptives
1.1 Question a)
On observe très clairement sur la figure 1 que pour une grande partie de la population
de l’échantillon, les charges des soins médicaux sont inférieures à $13,000. Le reste des
données des charges est éparpillé entre $13,000 et le maximum situé à $60,000. Les frais
très élevés sont donc relativement rares pour la majorité de la population.
1.2 Question b)
On obtient les résultats suivant :
• Écart-type : sn−1 = $11 600 et sn = $11 589. Nous utiliserons ici sn−1 car il est moins
biaisé.
Statistique 1 Projet
On remarque que l’écart-type est fort grand, ce qui signifie que les données sont fort espa-
cées. Cela est directement observable sur la figure 1 où une grosse partie de la population
est située autour de la médiane et le reste est espacé sur un plus grand intervalle avec des
valeurs plus élevées.
Madame Smith paie des charge a hauteur de $16 885. C’est plus que la moyenne et la
médiane, mais elle est à moins d’une déviation standard au-dessus de la moyenne.
1.3 Question c)
Les frais hospitalier normaux sont tous les frais hospitalier se trouvant dans l’intervalle
centré autour de la moyenne et dont les éléments sont à moins d’une déviation standard
de celle-ci. On a donc l’intervalle : [mx − sn−1 ; mx + sn−1 ] = [1166.4; 24367]
La proportion de personnes ayant des frais normaux est de 84,2%. (Il suffit de compter le
nombre d’individus dans l’intervalle) On peut en déduire que Ms. Smith a des frais nor-
maux au sens de la loi normale, car elle a des frais à hauteur de 16 885$ et est donc compris
dans l’intervalle [1166.4; 24367].
1.4 Question d)
On remarque grâce à la boite à moustache (fig 2) qu’il y a beaucoup de données aber-
rantes. Les quartiles que nous avons trouvés sont :
Le seuil inférieur d’aberration est Q1 − 1.5 (Q3 − Q1 ) ≈ $-13 000. Les frais étant positifs,
il n’y a donc pas de valeur aberrantes car trop petites.
Le seuil supérieur Q3 + 1.5 (Q3 − Q1 ) = $31 878. Comme on peut le voir sur l’histo-
gramme, il y a donc beaucoup d’aberrations par le haut.
1.5 Question e)
Le polynôme de fréquences cumulées est la figure 3.
La proportion de patients dont les frais sont inférieurs ou égaux à $25000 est de 86,4%.
(Donc 13.6% au-dessus)
Statistique 2 Projet
×10 4 Boiteà moustache des frais hospitalier
4
Charges
0
1
La proportion des personnes dont les frais sont inférieurs à ceux de monsieur Smith
($16 885) est de 76,6%, ce qui fait donc 23,4% de personnes au-dessus.
Il y a donc 23,4 - 13,6 = 9,8% de personnes dont les frais sont entre ceux de monsieur
Smith et $25 000.
1.6 Question f)
On obtient comme coefficients de corrélation :
• Pour les femmes : 0,2633
Globalement, les frais croissent avec l’âge, mais croissent plus vite pour les femmes. Une
analyse plus en détail des scatter plots (figures 4 et 5) laisse à penser que les frais “de
base” pour les personnes en bonne santé croissent avec l’âge, mais que les maladies graves
(coûteuses) sont réparties de façon assez homogène, du moins sur notre échantillon.
Par ailleurs, on observe 3 “lignes” parallèles sur chacun des graphes (qui correspondent
à des frais faibles, frais modérés et des frais élevés). Il pourrait être intéressant d’étudier
Statistique 3 Projet
Fréquences cumulées des charges
1
0.9
0.8
0.7
Fréquences cumulées
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7
Charges ×10
4
Population Échantillon
Moyenne 12767 13264
Médiane 9296 9952
Ecart-type 11600 13099
On remarque des variations assez importantes (de l’ordre de 20%) entre les données
de l’échantillon et de la population. Cela s’explique par la faible taille de l’échantillon,
et surtout par le fait qu’on en ait tiré qu’un. En effet, les résultats obtenus pour cette
question peuvent changer d’échantillon à échantillon étant donné que ceux-ci sont tirés
aléatoirement. Si plusieurs échantillons avaient été tirés les résultats auraient été différents.
Statistique 4 Projet
104 Corrélation âge/frais (hommes)
7
4
Frais ($)
0
15 20 25 30 35 40 45 50 55 60 65
Age (années)
4
Frais ($)
0
15 20 25 30 35 40 45 50 55 60 65
Age (années)
Statistique 5 Projet
2.1.2 Point ii)
4
Charges
0
1
On remarque (fig 6 et fig 2) que les deux boîtes à moustache sont d’allure fort identique.
Néanmoins on peut voir sur celle construite à partir de l’échantillon que les quartiles sont
quelque peu plus écartés et qu’ils sont tous un cran plus haut que pour le boxplot de la
population totale (les 500 individus). On remarque aussi, logiquement, moins de donnée
aberrantes sur le deuxième boxplot car il y a moins de monde, mais cela pourrait poser
problème si l’échantillon venait a prendre 50 personnes ayant des charges très élevées, on
aurait alors des résultats aberrants, comparé a la population de base.
Statistique 6 Projet
échantillons sont pris aléatoirement nous aurions pu avoir une courbe qui ne suit pas du
tout la courbe relative à toute la population.
La distance de Kolmogorov-Smirnov ici est de 0,054. Celle-ci a été trouvée en utilisant la
fonction ktest2 de Matlab. Analytiquement, nous aurions dû utiliser la formule :
0.9
0.8
0.7
Fréquences relative
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7
Frais hospitaliers ($) ×10 4
2.2 Question b)
2.2.1 Point i)
On remarque aisément que l’histogramme (fig 8) a l’allure de la Loi de Gauss. Ceci est
normal car on a un grand nombre d’échantillon et donc les résultats ont plus de chances de
Statistique 7 Projet
Histogramme des frais hospitaliers moyen pour 500 échantillons
80
70
60
Nombres d'échantillon
50
40
30
20
10
0
0.8 1 1.2 1.4 1.6 1.8 2
Frais hospitaliers moyen ×10 4
Statistique 8 Projet
Histogramme de la médiane des frais hospitaliers de 500 échantillons
60
50
40
Nombres d'échantillons
30
20
10
0
0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5
Médiane des frais hospitaliers ×10 4
Statistique 9 Projet
Histogramme des écart-types des frais hospitaliers des 500 échantillons
70
60
50
Nombres d'échantillons
40
30
20
10
0
0.6 0.8 1 1.2 1.4 1.6 1.8
écart-types des frais hospitaliers ×10 4
3 Estimation
3.1 Question a)
Pour cette question nous avons obtenu les résultats suivant : Variance = 0,6002 et Biais
= -0,0080. (Ces estimations étant les moyennes sur les 100 échantillons des variances et
biais mesurés. La mesure du biais se fait en comparant avec la moyenne générale.)
Le biais étant l’espérance de la différence entre mX et µX
Biais = E{Tn − θ∗ } = E{mX − µX }
. Concernant la variance , celle-ci est donnée comme étant :
¶ ©
V {Tn } = E (Tn − θ∗ )2 − (E {Tn − θ∗ })2
Il paraît raisonnable de considérer le biais nul, sa faible valeur étant sans doute une
petite fluctuation. De plus, on sait que E{mX } = µX , ce qui garantit que le biais est
réellement nul.
Statistique 10 Projet
Histogramme des distances de Kolmogorov-Smirnov sur les 500 échantillons
70
60
50
Nombres d'échantillons
40
30
20
10
0
0 0.05 0.1 0.15 0.2 0.25 0.3
Distance de Kolmogorov-Smirnov entre les échantillons et le vecteur de base
3.2 Question b)
Ici, nous avons les résultats suivants : Variance = 1,3018 et Biais = 0,0283.
Ces valeurs diffèrent évidemment d’une exécution à l’autre, mais nous obtenons systéma-
tiquement un biais positif. La médiane semble donc constamment surestimée.
3.3 Question c)
On obtient les résultats suivants :
Biais Variance
Moyenne 0,0124 0,3585
Médian -0,1679 0,8703
On peut remarquer que les valeurs de la variance et du biais sont plus faibles lorsque l’on
Statistique 11 Projet
prend des échantillons de 100 individus. (Ce qui est assez logique : un grand échantillon
tend à minimiser les erreurs). Néanmoins, ces grandeurs varient toujours autant d’une
exécution à l’autre.
On peut remarquer (y compris en faisant plusieurs itérations) que la variance de la moyenne
est systématiquement plus faible : celle-ci est donc plus facile à estimer que la médiane.
3.4 Question d)
3.4.1 Loi de Student
Pour une loi de Student, l’intervalle est :
sn−1 sn−1
mx − tα/2 √ ≤ µ ≤ mx + tα/2 √
n n
Où les coefficients t sont calculés à n − 1 degrés de liberté, c’est-à-dire 19. On trouve
t0.95 = 2.861.
3.4.3 Interprétation
La loi de Gauss semble plus efficace ici, malgré la petite taille de l’échantillon. On peut
supposer que c’est dû au fait qu’on connaît l’écart-type, alors que dans la loi de Student il
est estimé. Cependant, t α2 étant plus grand que u α2 , il aurait été vraisembable que la loi de
Student soit meilleure car plus large. Il semblerait que la variance de sn−1 compense cette
largeur d’intervalle.
Supposer la variable gaussienne semble modérément pertinent, car nous obtenons des
mesures avec un peu plus d’erreurs que prévu, mais finalement assez proches. Sur le plan
théorique, cela peut se justifier par le fait que toute moyenne converge vers une loi normale
(par le théorème central limite).
Statistique 12 Projet
4 Tests d’hypothèse
4.1 Question a)
Processus et hypothèses
Nous commençons par calculer x, la différence de moyenne de frais entre les fumeurs
et les non-fumeurs, sur le total de notre population. La moyenne est de $8126 pour les
non-fumeurs et de $31099 pour les fumeurs. On a donc x = $22937.
»
σ= V {mfumeurs } + V {mnon−fumeurs }
V {fumeurs} V {non − fumeurs}
= +
n n
V {fumeurs} + V {non − fumeurs}
=
n
(Où "m" est une moyenne de frais, et V {fumeurs} désigne la variance des frais chez
les fumeurs, etc.) Nous estimons les variances par les variances des deux sous-populations.
(L’ensemble des fumeurs, et l’ensemble des non-fumeurs) Naturellement, nous prenons ici
µ = x, et nous regardons si ∆m = mfumeurs − mnon−fumeurs rentre dans cet intervalle. Dans
le cas contraire, nous rejetons l’hypothèse H0 .
Résultats
Sur 100 échantillons (ou plus précisément, paires d’échantillons), 96 conduisent à ac-
cepter H0 et 4 à la rejeter. Nous avons donc un taux de rejet de 5%, égal de α. Puisque α
est la probabilité de rejeter H0 alors qu’elle est vraie, il paraît raisonnable de la supposer
vraie.
1. Par le théorème central limite, la moyenne des fumeurs et la moyenne des non-fumeurs tend vers une
loi normale. Par extension, leurs combinaisons linéaires aussi.
Statistique 13 Projet
4.2 Question b)
La méthode est similaire, au détail près qu’on étudie une sous-population restreinte aux
personnes de plus de 50 ans. Nous obtenons cette fois un taux de rejet de 4%, ce qui n’est
pas suffisamment significatif pour conclure différemment du cas général.
Statistique 14 Projet