Vous êtes sur la page 1sur 19

Statistique Descriptive

Atelier 2
Les statistiques descriptives sont utiles
lorsqu'on veut calculer différents paramètres
d'un échantillon, sans faire d'hypothèse sur la
population.
Créer un projet nommé Atelier2AD

1. File
2. New Project…
3. New Directory
4. New Project
Créer un projet nommé Atelier2AD

5. Directory name:
nommé le projet
6. Choix de l'emplacement du fichier
Create project as subdirectory of
(Browser..):
7. Create Project
Exercice 1
1. Rentrez les données sous forme d’un vecteur nommé arbres

arbres = c(1,2,4,1,6,3,2,1,2,0,1,2,2,1,3,0,3,2,1,2,2,3,2,3)
arbres
[1] 1 2 4 1 6 3 2 1 2 0 1 2 2 1 3 0 3 2 1 2 2 3 2 3

2. Triez les valeurs de ce vecteur par ordre croissant

sort(arbres)
[1] 0 0 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4 6

3. La taille de l’échantillon

n = length(arbres)
n
[1] 24
4. Les modalités de « arbres »
unique(arbres)
[1] 1 2 4 6 3 0

5. l’effectif de « arbres »
eff=table(arbres)
eff
arbres
0 1 2 3 4 6
2 6 9 5 1 1

6. La fréquence de « arbres »
# Le tableau des fréquences s'obtient en divisant les effectifs par la taille n de l'échantillon :
freq=eff/n
freq
arbres
0 1 2 3 4 6
0.08333333 0.25000000 0.37500000 0.20833333 0.04166667 0.04166667
# Le tableau des fréquences en pourcentage est obtenu en multipliant par 100 et en divisant par la
taille de l'échantillon n :
freq=eff*100/n
freq
arbres
0 1 2 3 4 6
8.333333 25.000000 37.500000 20.833333 4.166667 4.166667
7. les effectifs cumulés

effcum=cumsum(eff)
Effcum
0 1 2 3 4 6
2 8 17 22 23 24

#De la même façon que pour les fréquences, vous pouvez obtenir les fréquences cumulées par :

freqcum = effcum*100/n
freqcum
0 1 2 3 4 6
8.333333 33.333333 70.833333 91.666667 95.833333 100.000000
Indicateur de position et dispersion

8. # La fonction summary() permet d'obtenir un tableau de synthèse des indicateurs avec en complément
les premier et troisième quartiles
summary(arbres)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.000 2.000 2.042 3.000 6.000
9. Moyen d'arbres par parcelle
mean(arbres)
[1] 2.041667
10. nombre maximum d'arbres sur une parcelle
max(arbres)
[1] 6
11. nombre minimum d'arbres sur une parcelle
min(arbres)
[1] 0
12.intervalle des valeurs possibles
range(arbres)
[1] 0 6
13.nombre médian d'arbres par parcelle
median(arbres)
[1] 2
14. l’interquartile
IQR(arbres) # Le second quartile (Q2).
[1] 2

Les quartiles divisent les données en quatre parties


correspondant chacune à 25% des valeurs.
- Le premier quartile (Q1) est la valeur qui divise
l'échantillon de telle sorte que 25% des valeurs lui sont
inférieures et 75% des valeurs lui sont supérieures.
- Le second quartile (Q2) est la médiane.
- Le troisième quartile (Q3) divise l'échantillon de telle
sorte que 75% des valeurs lui sont inférieures et 25% des
valeurs lui sont supérieures.
15. La variance
var(arbres)
[1] 1.693841
16. L’écart type Les paramètres de dispersion sont des
sd(arbres) indices permettant de savoir si une
[1] 1.301476 série de données est fort resserrée
autour d'un paramètre de tendance
centrale ou si, au contraire, les données
sont plus dispersées : plus les données
sont dispersées et plus les valeurs des
paramètres de dispersion sont grandes.
Représentation graphique

17. La fonction plot() affiche un nuage de points avec en abscisse le numéro de l'observation (ici de 1 à 24)
et en ordonnée le nombre d'arbres :
18. Vous pouvez aussi demander la courbe des effectifs, avec en abscisse le nombre
d'arbres par parcelles et en ordonnée les effectifs :

19. Vous pouvez aussi demander la courbe des effectifs cumulés, avec en abscisse le nombre
d'arbres par parcelles et en ordonnée les effectifs cumulés :
20. Vous pouvez également tracer un diagramme en bâtons par la fonction barplot() à
partir du tableau des effectifs :

21. Vous pouvez également tracer un diagramme en bâtons par la fonction barplot() à
partir du tableau des fréquences :
le titre de l'axe des
abscisses : xlab=
le titre de l'axe des
ordonnées: ylab=
22. La boîte à moustaches (boxplot) permet de représenter la distribution d'une variable avec les
éléments suivants (de bas en haut) :
le minimum, le 1er quartile, la médiane, le 3ème quartile et le maximum.
Plus la boîte est étirée en hauteur, plus les valeurs de la variable sont dispersées.

max

3ème quartile
la médiane
le 1er quartile
min
23. Vous pouvez également représenter les données en traçant un histogramme

1.Le logiciel R a choisi, par défaut, de regrouper les


données par classes d'amplitude 1, la première [0,1] et
ensuit du type ]a, b] .
Si on souhaite obtenir des classes ouvertes à droite
c’est-a-dire [a, b[ , il suffit de le préciser :
right =FALSE
right =FALSE ([a, b[ ) 2. R a marqué en ordonnée Frequency mais en fait, ce
qu'il représente correspond plutôt aux effectifs.
Ceci vient d'une légère différence de vocabulaire entre
pays.
Exercice 2
1. Créez la séquence souris et l’afficher.

souris=c(74, 85, 95, 84, 68, 93, 84, 87, 78, 72, 81, 91, 80, 65, 76, 81, 97, 69, 70, 98)
souris
[1] 74 85 95 84 68 93 84 87 78 72 81 91 80 65 76 81 97 69 70 98

2. Vérifiez que les effectifs des modalités sont pratiquement tous égaux à 1 en affichant le tableau des effectifs.
eff2=table(souris)
eff2
souris
65 68 69 70 72 74 76 78 80 81 84 85 87 91 93 95 97 98
1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 1

- Une des principales caractéristiques des données continues réside dans le fait qu'elles sont pratiquement
toutes différentes (les égalités sont dues à la nécessité d'arrondir et/ou au fait que les instruments de mesure
sont gradués) ; les effectifs des modalités sont alors pratiquement tous égaux à 1.

- Si nous voulons faire une expérience, nous essaierons de l'appliquer à différentes modalités pour obtenir des
résultats différents.
2. Combien de souris ont subi l'expérience.

sum(eff2)
[1] 20

mais dans la pratique, c'est 18.

3. les indicateurs de tendance centrale:

max(souris) # maximum
[1] 98
min(souris) # minimum
[1] 65
range(souris) # intervall des valeurs possibles
[1] 65 98
mean(souris) # moyenne empirique ou arithmétique
[1] 81.4
# ou encore
summary(souris)
Min. 1st Qu. Median Mean 3rd Qu. Max.
65.0 73.5 81.0 81.4 88.0 98.0

Vous aimerez peut-être aussi