Vous êtes sur la page 1sur 37

Statistiques 1A-S5

TD 1
- Prise en main de R

Exercice (données TD1 sur Arche)


- Analyses descriptives
- Tests à la main et sous R
Prise en main de R
Pourquoi R ?
Plusieurs avantages :
• Logiciel multiplateforme, (systèmes Linux, Mac OS X ou Windows)

• Libre, développé par ses utilisateurs, diffusable et modifiable

• Logiciel très puissant, dont les fonctionnalités de base peuvent être


étendues à l’aide d’extensions développées par la communauté. Il en
existe plusieurs milliers.

• Logiciel dont le développement est très actif -> la communauté


d’utilisateurs et l’usage ne cessent de grandir

• Logiciel avec d’excellentes capacités graphiques

• Gratuit !
3
Installation de R et RStudio
➢Télécharger et installer R : https://cran.r-project.org/

➢Télécharger et installer RStudio :


https://rstudio.com/products/rstudio/download/

➢Pour utiliser R à partir de RStudio il suffit d’ouvrir RStudio :


« Tous les programmes »
« Logiciels spécifiques »
« RStudio »

4
Interface de RStudio

C. Environnement
A. Edition des codes de travail
(script)

B. Console D. Multi-onglets
(graphiques, aide, …)

5
Spécifier le répertoire courant
➢ Créer un dossier (répertoire) « Stats » sur le bureau : c’est le
dossier où seront rangés les fichiers de données à analyser

➢Une fois dans RStudio,


➢ « Session » → « Set Working Directory » → « Choose Directory… »
➢ Indiquez votre dossier « Stats »

➢ setwd("/Users/…") : pour changer le répertoire courant


➢ getwd() : pour vérifier le répertoire considéré par R 6
Créer un script
➢ Un script est un programme
informatique chargé d’exécuter
une ou plusieurs actions
➢ Un script peut être exécuté
partiellement et/ou annoté

Comment créer un script sous RStudio ?


➢Ouvrir un nouveau script :
➢aller dans « File » → « New File » → « R Script »
➢L’enregistrer « scriptTD1.R » dans le dossier « Stats » :
➢aller dans « File » → « Save File »
7
Apprentissage de base
Ecrire un script et ses commentaires :
➢Taper les lignes suivantes dans le script :
Commentaire (précédé de #)
Code (fonction exécutable)
Numéro de ligne (automatique)

Exécuter un script :
➢Sélectionner les lignes à exécuter
➢« Code » → « Run Selected Line(s) »
➢ou CTRL+Enter
8
Apprentissage de base
Ecrire un script et ses commentaires :
➢Taper les lignes suivantes dans le script :
Commentaire (précédé de #)
Code (fonction exécutable)
Numéro de ligne (automatique)

Créer un objet :
➢ L’objet peut être un nombre, une liste, un graphique…
➢ Les objets sont manipulables
➢ Objet <- 46*2
➢ Objet2 <- 456/54651
➢ Objet + Objet2 Attention !
- Le séparateur des décimales est le point
9
- R considère les majuscules, les accents, les espaces…
Installer un package
➢Les packages sont des collections de fonctions R
➢ Seuls certains packages sont téléchargés et installés
automatiquement avec le logiciel R

Comment télécharger et installer un package sous RStudio ?


➢Télécharger un package avec la zone D de R Studio

➢Nécessaire de charger le package avant chaque utilisation


➢library(funModeling) 10
Créer et importer un fichier de données
Création d’un fichier de données
➢ Ecrire les données (avec en-têtes) sous Excel
➢Remplacer « , » par « . » (séparateur de décimales)
➢Enregistrer « fichier.txt » dans le dossier « Stats »

➢ Plusieurs formats possibles : .txt, .csv, .xlsx, …


➢ Nécessaire de connaître les caractères de séparation utilisés

Importer le fichier de données sous RStudio


➢ Plusieurs fonctions existent, les plus courantes sont :
➢ read.table() : il faut spécifier si header=TRUE
➢ read.delim() : considère par défaut header=T et dec="."
Attribue le nom « jus »
aux données sous R
jus<-read.table("jus.txt", header=T) 11
Créer et importer un fichier de données
Importer le fichier de données sous RStudio
➢ Si le jeu de données n’a pas beaucoup de valeurs

jus2<-c(123, 156, 1531, …, 213)

Aperçu et vérification des données


➢ Aperçu, résumé des données
➢ jus : visualiser toutes les données du fichier jus
➢ head(jus) : visualiser juste les 6 premières lignes
➢ str(jus) : résumé des variables (type de variables, nombre de modalités, …)

➢ Changer le type de variable Toujours mentionner une


➢ as.factor : convertir une variable numérique en facteur variable en commençant
par nomdonnées$12
jus$cuve<-as.factor(jus$cuve)
Statistiques descriptives
Paramètres numériques Graphiques

- Moyenne - Nuage de points


mean(jus$txsucre) plot(jus$txsucre, xlab= "titre x", ylab= "titre y", main= "Titre")

- écart-type # échelles réglables avec (ylim ou xlim)


sd(jus$txsucre) # type=" " permet de choisir le type de graph (ici points reliés
par des lignes avec espaces entre lignes et points)
- médiane # abline : pour afficher une ligne
median(jus$txsucre)
plot(jus$txsucre, xlab= "titre x", ylab= "titre y", main= "Titre",
- valeurs min et max ylim=c(0,100), type="b")
range(jus$txsucre) abline(h=25, col="red") #pour représenter une moyenne, une
min(jus$txsucre) valeur seuil, …
max(jus$txsucre)
- Histogramme de la répartition des valeurs
- Variance hist(jus$txsucre, xlab= "titre x", ylab= "titre y", main= "Titre")
var(jus$txsucre)
Le t-test ou test de Student
Le test de Student est un test de comparaison de moyennes

- Test t de comparaison de la moyenne d’1 échantillon à une valeur de référence


- Test t de comparaison des moyennes de 2 échantillons indépendants
- Test t de comparaison des moyennes de 2 échantillons appariés

Dans R :
t.test(x, y, …)

Arguments possibles :
x : échantillon 1
y : échantillon 2 (si besoin)
mu= valeur de référence (si besoin)
paired= TRUE / FALSE (échantillons indépendants ou appariés)
alternative= « two.sided » / « less » / « greater »
var.equal= TRUE / FALSE (homogénéité ou non des variances)
Conditions du t-test

Vérifications sur R :
- Normalité
shapiro.test(x)

- Homogénéité des variances


var.test(x, y)
Exercice (données TD1 sur Arche)
- Analyses descriptives
- Tests à la main et sous R
Question 1
Importer ou créer les données sous R

Pour la suite de l’exercice on utilisera les données importées (td1a)


Analyse descriptive – paramètres numériques
Analyse descriptive - graphiques
Question 1 : Les bovins du troupeau de cet éleveur ont-ils un
poids vif supérieur à la moyenne régionale de 650 kg ?

➢Choix du test
➢On veut savoir si le troupeau (=population) a un poids
significativement supérieur à 650 kg
➢On connait le poids de 11 bovins (=échantillon) du troupeau
➢Si l‘on considère que les 11 bovins sont représentatifs du troupeau,
il faut regarder si la moyenne de l‘échantillon est significativement
supérieure à 650 kg

➢Test t de comparaison d’une moyenne observée


(μ=668,3) à une valeur théorique (μ0=650)

→H0: μ = μ0
→H1: μ > μ0 Test unilatéral
Question 1 : Les bovins du troupeau de cet éleveur ont-ils un
poids vif supérieur à la moyenne régionale de 650 kg ?
➢La comparaison de la moyenne observée à la valeur
théorique est permise par la formule :
𝜇 − 𝜇0 Avec : 𝜇 = 668,3
𝒕𝒐𝒃𝒔 = 2,137
𝑡𝑜𝑏𝑠 = 𝜇0 = 650
𝑠Τ 𝑛 𝑠 = 28,4
𝑛 = 11

➢Lire dans la table du t de Student la valeur critique (tα)


correspondant au risque α de 5% pour :
ⅆⅆ𝑙 = 𝑛 − 1 = 10
Pour un test unilatéral au seuil α de 0,05 et avec un ddl de 10 :
tα = 1,8125
𝒕𝒐𝒃𝒔 > tα : on rejette H0 et on accepte H1 au risque α de se tromper
Les 11 bovins ont un poids vif significativement supérieur à 650 kg, on en déduit que
le troupeau de l’éleveur est significativement plus lourd que la moyenne régionale
Question 1 : Les bovins du troupeau de cet éleveur ont-ils un
poids vif supérieur à la moyenne régionale de 650 kg ?

p < 0,05 : on rejette H0 et on accepte H1 au risque α de se tromper


Les 11 bovins ont un poids vif significativement supérieur à 650 kg, on en déduit que
le troupeau de l’éleveur est significativement plus lourd que la moyenne régionale

p > 0,05 : on accepte H0, les données suivent une loi normale
Question 2
Analyse descriptive – paramètres numériques
Analyse descriptive – paramètres numériques
Analyse descriptive - graphique
Question 2 : Le poids vif des bœufs est-il identique entre les
deux exploitations ?
➢Choix du test
➢On veut savoir si le troupeau (=population 1) de l‘éleveur 1 a un poids
significativement différent du troupeau (=population 2) de l‘éleveur 2
➢On connait le poids de 11 bovins (=échantillon 1) du troupeau 1,
et de 12 bovins (=échantillon 2) du troupeau 2
➢Si l‘on considère que les échantillons sont représentatifs des troupeaux, il
faut regarder si la moyenne de l‘échantillon 1 est significativement
différente de celle de l‘échantillon 2
➢Les bovins de l‘échantillon 1 sont différents de ceux de l‘échantillon 2
(deux exploitations différentes)

➢Test t de comparaison de deux moyennes observées


(μ1 et μ2) pour échantillons indépendants
→H0: μ1 = μ2
→H1: μ1 ≠ μ2 Test bilatéral
Question 2 : Le poids vif des bœufs est-il identique entre les
deux exploitations ?
➢La comparaison des deux moyennes observées est
permise par la formule :
Avec : 𝑚𝐴= 668,3
𝑚 = 683,3
𝒕𝒐𝒃𝒔 = -0,75
𝐵
𝑆² = formule ci-dessous
𝑛𝐴 = 11
𝑛𝐵 = 12
(Formules si les
variances sont égales)

➢ Lire dans la table du t de Student la valeur critique (tα/2) correspondant au risque


α de 5% (test bilatéral) pour ddl = 11 + 12 – 2 = 21
tα/2 = 2,0796
𝒕𝒐𝒃𝒔 < tα/2 : on accepte H0
Il n’y a pas de différence significative entre le poids des bovins de l’exploitation 1 et le
poids des bovins de l’exploitation 2
Question 2 : Le poids vif des bœufs est-il identique entre les
deux exploitations ?

p < 0,05 : on rejette H0, les


variances des deux échantillons
sont significativement différentes

p > 0,05 : on accepte H0


Il n’y a pas de différence
significative entre le poids des
bovins de l’exploitation 1 et le
poids des bovins de l’exploitation 2

p > 0,05 : on accepte H0, les données suivent une loi normale
Question 3
Analyse descriptive – paramètres numériques
Analyse descriptive – graphique
Question 3 : Le vaccin induit-il une perte de poids des bovins ?

➢Choix du test
➢On veut savoir si le poids des bovins est significativement plus
faible après le vaccin
➢On connait le poids avant et après vaccin de 9 bovins (=échantillon)
➢Si l‘on considère que l‘échantillon est représentatif de l‘effet du
vaccin, il faut regarder si la moyenne des poids après vaccin est
significativement plus faible de celle avant vaccin
➢Ce sont les 9 mêmes bovins qui ont été pesés avant et après vaccin

➢Test t de comparaison de deux moyennes observées


(μ1 et μ2) pour échantillons appariés
→H0: μ1 = μ2
→H1: μ1 > μ2
Test unilatéral
Question 3 : Le vaccin induit-il une perte de poids des bovins ?

➢La comparaison des deux moyennes observées est


permise par la formule :
𝑚 Avec : 𝑚 = moyenne des écarts avant-après = 0,333
𝑡𝑜𝑏𝑠 = 𝑠 = écart-type des écarts avant-après = 0,707
𝑠Τ 𝑛 𝑛= 9 𝒕𝒐𝒃𝒔 = 1,4142
➢Lire dans la table du t de Student la valeur critique (tα)
correspondant au risque α de 5% pour :
ⅆⅆ𝑙 = 𝑛 − 1 = 8
Pour un test unilatéral au seuil α de 0,05 et avec un ddl de 8 :
tα = 1,8595
𝒕𝒐𝒃𝒔 < tα : on accepte H0 et on rejette H1 au risque α de se tromper
Les poids des 9 bovins après le vaccin n’est pas significativement inférieur au poids
d’avant le vaccin, on en déduit que le vaccin n’induit pas de perte de poids des bovins
Question 3 : Le vaccin induit-il une perte de poids des bovins ?

𝒑 > 0,05 : on accepte H0 au


risque α de se tromper
Les poids des 9 bovins après le
vaccin n’est pas significativement
inférieur au poids d’avant le vaccin,
on en déduit que le vaccin n’induit
pas de perte de poids des bovins

p < 0,05 : on rejette H0, hypothèse de Normalité non respectée


Exercice à préparer pour le TD2 :
sujet TD2 sur Arche

Vous aimerez peut-être aussi