Vous êtes sur la page 1sur 8

Statistique en logiciel R

TP statistique descriptive univarié


Activité 1 : variable statistique quantitative discrète
Une enquête menée auprès de 40 ménages portant sur le revenu mensuel a donné les résultats suivants :

2500,3700 ,8000 ,3000, 8000 , 8000 , 3000 , 3700 , 2500 , 3700 , 3000 , 2500 , 3700 , 3000 , 3700 , 2500 ,
3700 , 3700 , 3000 , 3000 , 2500 , 3700 , 8000 , 3000 , 8000 , 8000 , 3000 , 3700 , 2500 , 3700 , 3000 ,
2500 , 3700 , 3000 , 3700 , 2500 , 3700 , 3700 , 3000 , 3000.

Travail à faire :
1. Utiliser l’une des fonctions scan() ou c() pour créer le vecteur de données de cette distribution statistique.

> x=c(2500 , 3700


>x
, 8000 , 3000 , 8000 , 8000 , 3000 , 3700 , 2500 , 3700 , 3000 , 2500 , 3700 , 3000 , 3700 , 2500 , 3700 , 3700 , 3000 , 3000 , 2500 , 3700 , 8000 , 3000 , 8000 , 8000 , 3000 , 3700 , 2500 , 3700 , 3000 , 2500 , 3700 , 3000 , 3700 , 2500 , 3700 , 3700 , 3000 , 3000)

[1] 2500 3700 8000 3000 8000 8000 3000 3700 2500 3700 3000 2500 3700 3000 3700 2500
++
[18] 3700 3000 3000 2500 3700 8000 3000 8000 8000 3000 3700 2500 3700 3000 2500 3700
3000
[35] 3700 2500 3700 3700 3000 3000
2. Trier les données en utilisant la fonction sort()
> sort(x)
[1] 2500 2500 2500 2500 2500 2500 2500 2500 3000 3000 3000 3000 3000 3000 3000 3000 3000
[18] 3000 3000 3000 3700 3700 3700 3700 3700 3700 3700 3700 3700 3700 3700 3700 3700 3700
[35] 8000 8000 8000 8000 8000 8000

3. Déterminer les éléments suivants :


a. La population
b. La taille de l’échantillon (utiliser la fonction length())

> length(
[1] 40
>
x)

c. Le caractère statistique et sa nature (pour la nature utiliser la fonction mode())


> mode(x)
[1] "numeric"
>

d. La liste des modalités (indication : utiliser la fonction unique())


> unique(x)
[1] 2500 3700 8000 3000
>

4. Construire table la statistique contenant les modalités, les effectifs, les fréquences, les

personnages, les effectifs cumulés, les fréquences cumulées et les pourcentages (indication :
utiliser la fonction table(), cumsum() et length() pour construire les vecteurs colonnes puis utiliser
la data.frame() pour
fonction

construire la table statistique)


> eff = table(x)
> freq = eff/length(x)

> effCum = cumsum(eff)


> freqCum = cumsum(freq)
> pourc= freq*100
>
> tableStat = data.frame(eff, freq, effCum, freqCum, pourc)
> tableStat
x Freq x.1 Freq.1 effCum ferqCum x.2 Freq.2
2500 2500 8 2500 0.20 8 0.20 2500 20
3000 3000 12 3000 0.30 20 0.50 3000 30
3700 3700 14 3700 0.35 34 0.85 3700 35
8000 8000 6 8000 0.15 40 1.00 8000 15
>

Pour empêcher la duplication de la colonne des modalités


> eff = c(table(x)) #on a ajouté la fonction c() pour convertir table(x) à un vecteur
> freq = eff/length(x)
> effCum = cumsum(eff)
> freqCum = cumsum(freq)
> pourc= freq*100
> pourcCum = cumsum(pourc)
> tableStat = data.frame(eff, freq, effCum, freqCum, pourc, pourcCum)
> tableStat
eff freq effCum freqCum pourc pourcCum
2500 8 0.20 8 0.20 20
3000 12 0.30 20 0.50 30 50
20
3700 14 0.35 34 0.85 35 85
8000 6 0.15 40 1.00 15 100
>

5. Représentation graphique
a. Diagramme en bâton (fonction barplot)
> barplot(x)

>
> barplot(table(x))

ou bien
> barplot(eff)

a. Histogramme (fonction hist())


> hist(x)

NB : La représentation graphique en histogramme n’est pas compatible avec une distribution
statistique discrète. Dans cette exemple, la fonction hist a regroupé les observations dans des
intervalles d’amplitude 1000, ce qui explique l’effectif 20 pour l’intervalle [2000 3000[ : 8 de 2000
+ 12 de 2500.
b. Diagram
me
circulaire
des
pourcentag
es (fonction
pie())
> pie(pourc)
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

c. Nuage de points (fonction plot())

Nuage de points de la distribution statistique Nuage de points des effectifs


> plot(eff)
> plot(x)
d. Boite à moustaches (fonction boxplot()
> boxplot(x)
6. Indicateurs de tendance centrale (paramètres de position), calculer :
a. La modalité minimale et la modalité maximale (utiliser les fonction min() et max())
> min(x)
[1] 2500
> max(x)
[1] 8000

b. > Déterminer l’étendu (utiliser la fonction range())


> range(x)
[1] 2500 8000
>

c. Calculer la moyenne (utiliser la fonction mean())


> mean(x)
[1] 3895
>

d. Déterminer la médiane (utiliser la fonction median())


> median(x)
[1] 3350
>

7. Indicateurs de dispersion (paramètres de dispersion), calculer :


a. Les quartiles Q1, Q2 et Q3
> quantile(x)
0% 25% 50% 75% 100%
2500 3000 3350 3700 8000
>

b. Tester la fonction summary()


> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2500 3000 3350 3895 3700 8000

a. Variance (application de la définition de la variance)


> sum((x-mean(x))^2)/length(x)
[1] 3170475
>

a. Variance théorique (application de la formule de la variance)


> mean(x^2)-mean(x)^2
[1] 3170475

b. Variance corrigée (application de la fonction var)


> var(x)
[1] 3251769

c. Relation entre la variance théorique et la variance corrigée


Variance = variance corrigé*(N-1)/N
d. Écart type (racine de la variance corrigée)
> sd(x)
[1] 1803.266

e. Écart médian
L'écart médian absolu est égal à la moyenne des valeurs absolues des écarts entre chaque
valeur et la médiane. L'écart médian absolu donne une mesure de la distance moyenne
d'une valeur à la médiane 
> mad(x)
[1] 518.91

Vous aimerez peut-être aussi