Vous êtes sur la page 1sur 10

Statistique en logiciel R

TP statistique descriptive univarié


Activité 1 : variable statistique quantitative discrète
Une enquête menée auprès de 40 ménages portant sur le
revenu mensuel a donné les résultats suivants :
2500 ; 3700 ; 8000 ; 3000 ; 8000 ; 8000 ; 3000 ; 3700 ; 2500 ;
3700 ; 3000 ; 2500 ; 3700 ; 3000 ; 3700 ; 2500 ; 3700 ; 3700 ;
3000 ; 3000 ; 2500 ; 3700 ; 8000 ; 3000 ; 8000 ; 8000 ; 3000 ;
3700 ; 2500 ; 3700 ; 3000 ; 2500 ; 3700 ; 3000 ; 3700 ; 2500 ;
3700 ; 3700 ; 3000 ; 3000.

Travail à faire :
1. Utiliser l’une des fonctions scan() ou c() pour créer le
vecteur de données de cette distribution statistique.
> x=c(2500 , 3700 , 8000 , 3000 , 8000 , 8000 , 3000 , 3700 ,
2500 , 3700 , 3000 , 2500 , 3700 , 3000 , 3700 , 2500 , 3700 ,
3700 , 3000 , 3000 , 2500 , 3700 , 8000 , 3000 , 8000 , 8000 ,
3000 , 3700 , 2500 , 3700 , 3000 , 2500 , 3700 , 3000 , 3700 ,
2500 , 3700 , 3700 , 3000 , 3000)
>x
[1] 2500 3700 8000 3000 8000 8000 3000 3700 2500 3700
3000 2500 3700 3000 3700 2500 3700
[18] 3700 3000 3000 2500 3700 8000 3000 8000 8000 3000
3700 2500 3700 3000 2500 3700 3000
[35] 3700 2500 3700 3700 3000 3000
2. Trier les données en utilisant la fonction sort()
> sort(x)
[1] 2500 2500 2500 2500 2500 2500 2500 2500 3000 3000
3000 3000 3000 3000 3000 3000 3000
[18] 3000 3000 3000 3700 3700 3700 3700 3700 3700 3700
3700 3700 3700 3700 3700 3700 3700
[35] 8000 8000 8000 8000 8000 8000
3. Déterminer les éléments suivants :
a. La population
b. La taille de l’échantillon (utiliser la fonction length())
> length(x)
[1] 40
>
c. Le caractère statistique et sa nature (pour la nature
utiliser la fonction mode())
> mode(x)
[1] "numeric"
>
d. La liste des modalités (indication : utiliser la fonction
unique())
> unique(x)
[1] 2500 3700 8000 3000
>
4. Construire table la statistique contenant les modalités, les
effectifs, les fréquences, les personnages, les effectifs
cumulés, les fréquences cumulées et les pourcentages
(indication : utiliser la fonction table(), cumsum() et
length() pour construire les vecteurs colonnes puis utiliser
la fonction data.frame() pour construire la table statistique)
> eff = table(x)
> freq = eff/length(x)
> effCum = cumsum(eff)
> freqCum = cumsum(freq)
> pourc= freq*100
>
> tableStat = data.frame(eff, freq, effCum, freqCum, pourc)
> tableStat
x Freq x.1 Freq.1 effCum ferqCum x.2 Freq.2
2500 2500 8 2500 0.20 8 0.20 2500 20
3000 3000 12 3000 0.30 20 0.50 3000 30
3700 3700 14 3700 0.35 34 0.85 3700 35
8000 8000 6 8000 0.15 40 1.00 8000 15
>
Pour empêcher la duplication de la colonne des modalités
> eff = c(table(x)) #on a ajouté la fonction c() pour
convertir table(x) à un vecteur
> freq = eff/length(x)
> effCum = cumsum(eff)
> freqCum = cumsum(freq)
> pourc= freq*100
> pourcCum = cumsum(pourc)
> tableStat = data.frame(eff, freq, effCum, freqCum, pourc,
pourcCum)
> tableStat
eff freq effCum freqCum pourc pourcCum
2500 8 0.20 8 0.20 20 20
3000 12 0.30 20 0.50 30 50
3700 14 0.35 34 0.85 35 85
8000 6 0.15 40 1.00 15 100
>
5. Représentation graphique
a. Diagramme en bâton (fonction barplot)
> barplot(x)
>
> barplot(table(x))
ou bien
> barplot(eff)

a. Histogramme (fonction hist())


> hist(x)
NB : La représentation graphique en histogramme n’est pas
compatible avec une distribution statistique discrète. Dans cette
exemple, la fonction hist a regroupé les observations dans des
intervalles d’amplitude 1000, ce qui explique l’effectif 20 pour
l’intervalle [2000 3000[ : 8 de 2000 + 12 de 2500.
b. Diagramme circulaire des pourcentages (fonction pie())
> pie(pourc)

c. Nuage de points (fonction plot())


Nuage de points de la
distribution statistique
> plot(x)
Nuage de points des
effectifs
> plot(eff)

d. Boite à moustaches (fonction boxplot()


> boxplot(x)
6. Indicateurs de tendance centrale (paramètres de position),
calculer :
a. La modalité minimale et la modalité maximale (utiliser
les fonction min() et max())
> min(x)
[1] 2500
> max(x)
[1] 8000
b. > Déterminer l’étendu (utiliser la fonction range())
> range(x)
[1] 2500 8000
>
c. Calculer la moyenne (utiliser la fonction mean())
> mean(x)
[1] 3895
>
d. Déterminer la médiane (utiliser la fonction median())
> median(x)
[1] 3350
>
7. Indicateurs de dispersion (paramètres de dispersion),
calculer :
a. Les quartiles Q1, Q2 et Q3
> quantile(x)
0% 25% 50% 75% 100%
2500 3000 3350 3700 8000
>
b. Tester la fonction summary()
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2500 3000 3350 3895 3700 8000
a. Variance (application de la définition de la variance)
> sum((x-mean(x))^2)/length(x)
[1] 3170475
>
a. Variance théorique (application de la formule de la
variance)
> mean(x^2)-mean(x)^2
[1] 3170475
b. Variance corrigée (application de la fonction var)
> var(x)
[1] 3251769
c. Relation entre la variance théorique et la variance
corrigée
Variance = variance corrigé*(N-1)/N
d. Écart type (racine de la variance corrigée)
> sd(x)
[1] 1803.266
e. Écart médian
L'écart médian absolu est égal à la moyenne des valeurs
absolues des écarts entre chaque valeur et la médiane.
L'écart médian absolu donne une mesure de la distance
moyenne d'une valeur à la médiane 
> mad(x)
[1] 518.91

Vous aimerez peut-être aussi