Vous êtes sur la page 1sur 3

TP 2

Description des données unidimensionnelles et


graphiques associés

Ces exercices ont pour but d'introduire les outils de statistiques descriptives d'une seule
variable.
Exercice 1
Un histogramme est une représentation graphique précise de la distribution des données numériques.
Il s'agit d'une estimation de la distribution de probabilité d'une variable continue (variable
quantitative) et a été introduit pour la première fois par Karl Pearson. C'est un type de graphique à
barres. Pour construire un histogramme, la première étape consiste à diviser toute la plage de valeurs
en une série d'intervalles, puis à compter le nombre de valeurs comprises dans chaque intervalle. Les
groupes sont généralement spécifiés comme des intervalles consécutifs et non chevauchants d'une
variable. Les bacs (intervalles) doivent être adjacents et sont souvent (mais ce n'est pas obligatoire) de
taille égale.

Un histogramme est un excellent outil pour visualiser et comprendre la distribution probabiliste de


données numériques ou d'images qui est intuitivement comprise par presque tout le monde.

Dessin d’un histogramme en Python


import matplotlib.pyplot as plt
x = [value1, value2, value3,....]
plt.hist(x, bins = number of bins)
plt.show()

1- Appliquer l’exemple sur les données suivantes :


x = [1,1,2,3,3,5,7,8,9,10,

10,11,11,13,13,15,16,17,18,18,

18,19,20,21,21,23,24,24,25,25,

25,25,26,26,26,27,27,27,27,27,

29,30,30,31,33,34,34,34,35,36,

36,37,37,38,38,39,40,41,41,42,

43,44,45,45,46,47,48,48,49,50,

51,52,53,54,55,55,56,57,58,60,

61,63,64,65,66,68,70,71,72,74,

75,77,81,83,84,87,89,90,90,96

]
2- Faites varier le nombre de Bins (50, 25, 10). Quel est le nombre qui permet d’avoir
une meilleure interprétation visuelle.
3- En observant l’histogramme conclure sur la répartition des données.
4- En utilisant Python (fonction prédéfinie ou votre propre fonction), donner la valeur du
skewness.
5- Conclure concernant la concordance entre l’interprétation visuelle (Histogramme) et
l’évaluation quantitative relativement à la symétrie des données.

Exercice 2
Au poste de péage, on compte le nombre de voitures se présentant sur une période de 5mn.
Sur 100 observations de 5mn, on obtient les résultats suivants :

Nombre de
1 2 3 4 5 6 7 8 9 10 11 12
voitures
Nombre
2 8 14 20 19 15 9 6 2 3 1 1
d’observations

1- Construire la table des fréquences et le diagramme en bâtons en fréquences de la série du


nombre de voitures.
2- Calculer la moyenne et l’écart-type de cette série.
3- Déterminer la médiane, les quartiles et tracer le box-plot.
4- Etudier la symétrie de la série.

Exercice 3
Une enquête menée auprès de 1500 ménages d'une certaine région géographique rurale s'est
intéressée à la variable correspondant à la taille du ménage, c'est-à-dire au nombre de
personnes constituant le ménage. Les données recueillies peuvent être présentées sous la
forme du diagramme en bâtons suivant.

Taille du ménage Effectif


1 380
2 455
3 245
4 230
5 100
6 75
7 10
8 5

1. En utilisant python, donner une représentation graphique de la variable à l’aide


d’un diagramme en bâtons.
2. Dessiner au-dessus de l’histogramme la gaussienne qui correspond au jeu de données
étudiées.
3. Calculer le skewness et indiquer s’il y a une asymétrie des données ou non.
4. Vérifier si le graphique confirme le skewness ou non.

Exercice 4
On dispose de trois fichiers (temp 1.csv, temp 2.csv et temp 3.csv) contenant des mesures de
températures de centaines de thermomètres au même instant. Les observations peuvent
donc être considérées comme indépendantes.
1- Pour chaque série de mesures, décrire qualitativement la distribution des
températures mesurées à l’aide de la fonction hist.
2- Pour chaque série de mesures, calculer le nombre de données, la moyenne, la
variance, l'écart type et les quartiles.
3- Comparer les 3 distributions de mesures à l’aide de la boîte à moustache. Commenter

Vous aimerez peut-être aussi