Vous êtes sur la page 1sur 14

Statistiques 1A-S5

TD 2
Exercice (données TD2 sur Arche)
- Analyse descriptive
- Test à la main et sous R
Analyse descriptive – paramètres numériques
La boite à outils
- Faire un boxplot + afficher les moyennes par modalité
tab1 <- read.table(« nom_du_fichier.txt », header = TRUE)

boxplot(tab1$y~tab1$x, xlab="titre axe x", ylab="titre axe y",


main="titre graph", col=c("deeppink", "darkviolet", "darkturquoise"))
points(1,mean(tab1$y[tab1$x=="modalité1"]),pch=4, col="white")
points(2, mean(tab1$y[tab1$x=="modalité2"]),pch=4, col="white")
points(3, mean(tab1$y[tab1$x=="modalité3"]),pch=4, col="white")

#Faire varier : pch, col…

Attention, il faut créer un tableau avec une colonne par variable !


Analyse descriptive – graphiques
Question : Le rendement est-il influencé par l’âge de l’arbre ?

➢Choix du test
➢On veut savoir si l‘âge des arbres influence leur rendement
➢On connait le rendement pour 4 arbres de chacune des 3 catégories
d‘âge, soit 12 arbres (= 3 échantillons)
➢Si l‘on considère que les échantillons sont représentatifs de leur
âge, il faut regarder si les rendements moyens sont
significativement différents entre les 3 catégories d‘âge

➢Analyse de variance (ANOVA) (= généralisation du test t)


1 variable quantitative (à expliquer) = rendement
1 variable qualitative (explicative) à 3 modalités = âge (<20, 20-30, 30-35)
→H0: pas de différences de rendement entre les catégories d‘âge
→H1: différence significative de rendement entre au-moins 2 catégories d‘âge
Question : Le rendement est-il influencé par l’âge de l’arbre ?

➢ANOVA = test paramétrique


➢ Vérifier les pré-requis du modèle linéaire :
➢ Indépendance des données
➢ Rendements mesurés sur des arbres différents

➢ Normalité des résidus (et normalité de la distribution c‘est-à-dire que les


échantillons sont issus d'une même population et suivent une loi normale)
➢ Graphique
➢ Statistique : test de Shapiro-Wilk (ou test de Kolmogorov-Smirnov)

➢ Homoscédasticité : homogénéité des variances


➢ Graphique
➢ Statistique : test de Bartlett (ou test de Levene)
Le rendement est-il influencé par l’âge de l’arbre ?
ANOVA à la main
➢Somme des carrés (des écarts à la moyenne) pour le facteur âge (SCf) :
a

𝑆𝐶𝑓 = ෍ 𝑛 𝑥𝑖 − 𝑥 2 Avec : a = nb de modalités = 3


𝑛 = nb d’observations par modalité = 4
𝑥𝑖= moyenne par modalité = 45,9 ou 65,3 ou 70,3
SCf = 1328,96 𝑥 = moyenne globale = 60,5

➢ Ddl pour le facteur âge : 3 – 1 = 2


𝑆𝐶𝑓
➢Carré moyen pour le facteur âge : 𝐶𝑀𝑓 = CMf = 664,48
𝑑𝑑𝑙 𝑓𝑎𝑐𝑡𝑒𝑢𝑟 â𝑔𝑒
➢Somme des carrés (des écarts à la moyenne) pour les résidus (SCr) :
a b
Avec : a = nb de modalités = 3
2
𝑆𝐶𝑟 = ෍ ෍ 𝑥𝑖 − 𝑥𝑖 b = nb d’observations = 12
𝑥𝑖= valeur individuelle de chaque observation
𝑥𝑖= moyenne par modalité = 45,9 ou 65,3 ou 70,3
SCr = 1245,17
➢ Ddl pour les résidus : nb d‘observations – nb de modalités = 12 – 3 = 9
➢Carré moyen pour les résidus : 𝑆𝐶𝑟
𝐶𝑀𝑟 = CMr = 138,35
𝑑𝑑𝑙 𝑟é𝑠𝑖𝑑𝑢𝑠
Question : Le rendement est-il influencé par l’âge de l’arbre ?
➢On peut calculer le F de Fisher (= statistique du test) (Fobs) :
𝐶𝑀𝑓
𝐹𝑜𝑏𝑠 = Fobs = 4,80
𝐶𝑀𝑟

➢On regarde dans la table de Fisher quel est le F théorique (Ftheo)


pour un risque α de 5%
Ftheo = 4,26

Fobs > Ftheo : on rejette H0 et on accepte H1 au risque α de se tromper


Le rendement est significativement différent entre les 3 catégories d’âge, on en déduit que
l’âge des arbres influence le rendement des mirabelliers
La boite à outils
- Ecrire le modèle linéaire (ici appelé mod1)

mod1 <- lm(y ~ x, data = tab1) OU mod1 <- lm(tab1$y ~tab1$x)

- Vérifier les pré-requis de l’ANOVA

Vérifier la normalité des résidus


Par graph :
qqnorm(mod1$residuals)
qqline(mod1$residuals)
Par la statistique : TD1 (attention on travaille sur les résidus du modèle)

Vérifier l’homogénéité des variances


bartlett.test(tab1$y ~ tab1$x)

Vérifier l’indépendance -> énoncé

Attention, il faut créer un tableau avec une colonne par variable !


La boite à outils
- L’ANOVA 1 facteur

mod1 <- lm(y ~ x, data = tab1) OU mod1 <- lm(tab1$y ~tab1$x)


summary(mod1)
anova(mod1) Avec la fonction lm : summary et anova
apportent des infos différentes
OU

aov1<-aov(tab1$y ~ tab1$x) Avec la fonction aov : summary et anova


anova(aov1) apportent les mêmes infos

- Le test de Tukey => pour faire les comparaisons 2 à 2 si un facteur est significatif
TukeyHSD(aov1) TukeyHSD fonctionne avec le modèle aov (et pas lm)

- Pour ajouter les lettres pour représenter les différences significatives (2 lettres
similaires = pas de différence ; 2 lettres différentes = différence au seuil de 0,05)

library(agricolae)
Tukey<-HSD.test(mod1, "tab1$x", group=TRUE, alpha = 0.05)
Tukey
Le rendement est-il influencé par l’âge de l’arbre ?
Modèle linéaire et pré-requis

p > 0,05 : on accepte H0, les données


suivent une loi normale

p > 0,05 : on accepte H0, les variances des deux


échantillons sont homogènes
Le rendement est-il influencé par l’âge de l’arbre ?
ANOVA

p < 0,05 : on rejette H0 au risque α


de se tromper
Le rendement est significativement différent
pour au moins 1 catégorie d’âge, on en déduit
que l’âge des arbres influence le rendement
R² : 40% de la variabilité de rendement sont des mirabelliers
expliqués par le modèle (donc par l’âge)
Le rendement est-il influencé par l’âge de l’arbre ?
Comparaisons multiples

p < 0,05 pour la comparaison


« 30-35 » vs « <20 »
Le rendement des mirabelliers les plus âgés
(30-35 ans) est significativement supérieur au
rendement des mirabelliers les plus jeunes
(moins de 20 ans)

Il n’y a pas de différence significative de


rendement entre les autres catégories d’âge
Exercice à préparer pour le TD3 :
sujet TD3 sur Arche

Vous aimerez peut-être aussi