Vous êtes sur la page 1sur 9

Master Biologie Intégrative 2017-2018

Biostatistiques avancées
Responsable du cours : Yves Desdevises

Travaux Dirigés n 3 o

Corrigé
Exercice 1
Le tableau suivant présente des mesures de la hauteur (en mm) de la plante Saede brassica,
réalisées dans plusieurs milieux différents, sur des prélèvements échantillonnés aléatoirement.
Un chercheur désire comparer ces données afin de connaître l'effet du milieu sur la taille de
S. brassica.

Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 5


12 141 56 87 241
15 146 67 105 264
12 135 43 79 225
18 147 78 123 257
24 154 45 114 248
32 69 258
31 236
15

1. Tracez les boîtes à moustaches (boxplots) de la taille des plantes dans chaque milieu.
plantes=read.table(file.choose(),header=T)
attach(plantes)
boxplot(Haut~Mil)
250
200
150
100
50

A B C D E

2. Quelle analyse permet d'estimer l'effet du milieu sur la hauteur des plantes ? Quelles sont les
conditions requises pour pouvoir réaliser cette analyse ?

1
Il faut faire une analyse de variance à 1 facteur.
Conditions : normalité de la distribution, homogénéité des variances, indépendance des
observations, variable quantitative, au moins 5 observations/groupe.
3. Vérifiez ces conditions et réalisez l'analyse statistique appropriée.
Normalité :
tapply(Haut,Mil,shapiro.test)
$A
Shapiro-Wilk normality test
data: X[[i]]
W = 0.8518, p-value = 0.09935

$B
Shapiro-Wilk normality test
data: X[[i]]
W = 0.9848, p-value = 0.9586

$C
Shapiro-Wilk normality test
data: X[[i]]
W = 0.92823, p-value = 0.5665

$D
Shapiro-Wilk normality test
data: X[[i]]
W = 0.94926, p-value = 0.7319

$E
Shapiro-Wilk normality test
data: X[[i]]
W = 0.95828, p-value = 0.8039
Pour tous les groupes, l’hypothèse nulle de normalité ne peut être rejetée
Test de Bartlett :
bartlett.test(Haut~Mil)
Bartlett test of homogeneity of variances
data: Haut by Mil
Bartlett's K-squared = 5.2061, df = 4, p-value = 0.2668

On ne rejette pas l’hypothèse nulle (égalité des variances) : les 5 variances peuvent être
considérées comme homogènes.
Il est possible d'effectuer une ANOVA avec ces données.

ANOVA :
summary(aov(Haut~Mil))
Df Sum Sq Mean Sq F value Pr(>F)
Mil 4 217758 54439 341.3 <2e-16 ***
Residuals 26 4147 159

2
On rejette l’hypothèse nulle d’égalité des moyennes.
4. Testez si les moyennes sont toutes différentes entre elles.
Il faut faire un test post-hoc (= test a posteriori)
On utilise ici le test HSD de Tukey :

TukeyHSD(aov(Haut~Mil))
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = Haut ~ Mil)

$Mil
diff lwr upr p adj
B-A 124.72500 103.64166 145.80834 0.0000000
C-A 39.79167 19.81876 59.76457 0.0000349
D-A 81.72500 60.64166 102.80834 0.0000000
E-A 227.12500 207.98467 246.26533 0.0000000
C-B -84.93333 -107.32743 -62.53924 0.0000000
D-B -43.00000 -66.38987 -19.61013 0.0001114
E-B 102.40000 80.74519 124.05481 0.0000000
D-C 41.93333 19.53924 64.32743 0.0000860
E-C 187.33333 166.75810 207.90857 0.0000000
E-D 145.40000 123.74519 167.05481 0.0000000
Ce résultat confirme l’observation visuelle des boxplots : les moyennes sont toutes différentes
entre elles.

Exercice 2
Un botaniste veut déterminer si la présence d'insectes a un effet sur la fécondité des plantes dans
un champ. Afin d’empêcher les insectes d’attaquer ses plantes, le botaniste a l'idée d'installer des
cages au-dessus de quadrats expérimentaux. Il s’inquiète du fait que la cage elle-même pourrait
avoir un effet sur la fécondité des plantes, il propose donc d’utiliser un facteur à trois niveaux
(traitements) : contrôle (plantes non couvertes), plantes recouvertes de cages laissant les insectes
entrer et plantes recouvertes de cages empêchant les insectes d'atteindre les plantes. Pour
s’assurer que les différences qu’il observe à la fin de l’étude sont dues aux manipulations et non
à un effet quelconque des propriétés des cages utilisées, il utilise 5 quadrats par traitement, et il
échantillonne 6 plantes par quadrat. Pour chaque plante, la variable mesurée est la fécondité (le
nombre de graines produit par la plante durant la saison reproductrice). Les données ci-dessous
se trouvent dans le fichier fecondite.txt.

CONTRÔLE CAGES FERMEES


Quadrats Quadrats
Plante 1 2 3 4 5 Plante 1 2 3 4 5
1 82 79 90 85 68 1 74 47 60 43 47
2 67 84 100 93 64 2 86 71 88 53 44

3
3 73 70 65 99 80 3 72 54 86 48 46
4 70 71 99 95 74 4 71 56 84 79 43
5 83 67 84 92 87 5 65 77 45 70 49
6 95 80 63 95 79 6 74 66 68 45 55

CAGES OUVERTES
Quadrats
Plante 1 2 3 4 5
1 92 62 67 95 70
2 80 97 64 93 62
3 83 63 85 100 77
4 77 77 83 80 80
5 52 88 79 83 71
6 73 77 88 76 87

1. Quelle analyse paramétrique permet de savoir si le facteur a un effet sur la fécondité des
plantes ? Quelles sont ses conditions d’applications ?
Il faut faire une ANOVA hiérarchique, et vérifier auparavant normalité et homogénéité des
variances.
2. Si les conditions d’applications sont vérifiées, réalisez l’analyse paramétrique puis la même
analyse par permutations et comparez les résultats.
Normalité :
fec=read.table(file.choose(),header=T)
attach(fec)
tapply(Fecondite,Quadrats,shapiro.test)
$Q1
Shapiro-Wilk normality test
data: X[[i]]
W = 0.93422, p-value = 0.6131
$Q10
p-value = 0.4255
$Q11
p-value = 0.4637
$Q12
p-value = 0.5485
$Q13
p-value = 0.2864
$Q14
p-value = 0.6144
$Q15
p-value = 0.9826
$Q2
p-value = 0.5032
$Q3
p-value = 0.2278

4
$Q4
p-value = 0.524
$Q5
p-value = 0.9146
$Q6
p-value = 0.3102
$Q7
p-value = 0.8343
$Q8
p-value = 0.3197
$Q9
p-value = 0.1943
Normalité dans tous les groupes.
Homogénéité des variances :
bartlett.test(Fecondite,Quadrats)
Bartlett test of homogeneity of variances
data: Fecondite and Quadrats
Bartlett's K-squared = 19.855, df = 14, p-value = 0.1348
Les variances peuvent être considérées comme homogènes.
ANOVA hiérarchique :
summary(aov(Fecondite~Cages/Quadrats))
Df Sum Sq Mean Sq F value Pr(>F)
Cages 2 6352 3176 25.698 3.16e-09 ***
Cages:Quadrats 12 4906 409 3.308 0.000705 *** # Effet du
sous/facteur
Residuals 75 9269 124

summary(aov(Fecondite~Cages+Error(Cages:Quadrats)))
Error: Cages:Quadrats
Df Sum Sq Mean Sq F value Pr(>F)
Cages 2 6352 3176 7.768 0.00685 ** # Effet du facteur
principal
Residuals 12 4906 409
Error: Within
Df Sum Sq Mean Sq F value Pr(>F)
Residuals 75 9269 123.6
Il y a un effet significatif du sous-facteur (quadrats) qui n’est pas assez fort pour masquer celui du
facteur principal (cages).
Test par permutations :

source("/…/Fonctions_R/nest.anova.perm.R")
nest.anova.perm(Fecondite,Cages,Quadrats,nperm=999)
$anova.type
[1] "Nested anova, parametric and permutation tests"
$nperm

5
[1] 999
$anova.table
Df Sum Sq Mean Sq F value Prob(param) Prob(perm)
a.fac 2 6352.200 3176.1000 7.767952 0.0068500123 0.011
a.fac:b.fac 12 4906.467 408.8722 3.308266 0.0007045802 0.001
Residuals 75 9269.333 123.5911 NA NA NA

Exercice 3
Des écologues ont mesuré la longueur de la queue sur 40 merles d’une forêt d’Amérique du Nord
(fichier merle.txt). Ces individus ont été échantillonnés aléatoirement dans 4 zones
géographiques (Z1-4) entre lesquelles les populations ne se mélangent pas. Les scientifiques
désirent savoir si la longueur de la queue de ces merles diffère selon la zone et le sexe (M :
mâles ; F : femelles), et si une interaction existe entre ces facteurs.

1. Réalisez un test statistique et des diagrammes d’interaction permettant de répondre à


l’interrogation des chercheurs, et interprétez les résultats.
Il faut faire une ANOVA à 2 facteurs croisés avec répétitions (les effectifs sont suffisant), si les
conditions de normalité et d’homogénéité des variances sont vérifiées :
Normalité :
tapply(queue,zone:sexe,shapiro.test)
$`Z1:F`
W = 0.8713, p-value = 0.2717
$`Z1:M`
data: X[[i]]
W = 0.95235, p-value = 0.754
$`Z2:F`
W = 0.85991, p-value = 0.2279
$`Z2:M`
W = 0.91408, p-value = 0.4925
$`Z3:F`
W = 0.95235, p-value = 0.754
$`Z3:M`
W = 0.83274, p-value = 0.1458
$`Z4:F`
W = 0.90345, p-value = 0.4292
$`Z4:M`
W = 0.96358, p-value = 0.8327
Distribution normale dans tous les groupes.
Homogénéité des variances :
bartlett.test(queue,zone:sexe)
Bartlett test of homogeneity of variances
data: queue and zone:sexe
Bartlett's K-squared = 4.0823, df = 7, p-value = 0.7703
Homoscédasticité non rejetée.

6
ANOVA factorielle :
summary(aov(queue~zone*sexe))
Df Sum Sq Mean Sq F value Pr(>F)
zone 3 10.28 3.43 0.697 0.56063
sexe 1 50.63 50.63 10.305 0.00301 **
zone:sexe 3 27.27 9.09 1.851 0.15788
Residuals 32 157.20 4.91
Seul le facteur « sexe » a un effet significatif sur la longueur de la queue.
L’interaction entre les facteur n’est pas significative au niveau 5 %, bien qu’assez forte. Les
diagrammes d’interactions montrent que cela est du à la différence de longueur de queue entre
mâles et femelles qui n’est pas la même dans la zone 1.

interaction.plot(zone,sexe,queue)
99

sexe

M
F
98
mean of queue

97
96
95

Z1 Z2 Z3 Z4

zone

7
interaction.plot(sexe,zone,queue)

99
zone

Z3
Z2
Z4

98
Z1
mean of queue

97
96
95

F M

sexe

Exercice 4
On a cherché à connaître l'effet de différents types d'alcool (bière ou vin) et de tabac (cigarette
ou cigare) sur le sens du goût chez l'homme. Une technique biochimique permet de quantifier la
variable "goût" (variable quantitative discrète) sur une échelle de 0 (aucune sensation) à 6 (goût
extrêmement développé). 36 hommes non fumeurs et non buveurs d'âges variables ont été séparés
en 9 groupes égaux. Dans chaque groupe, pendant une journée, chaque personne a consommé
une dose égale d'alcool (250 ml répartis dans la journée) et fumé une quantité égale de tabac
sous différentes formes. Un groupe a servi de contrôle : les individus n'ont pas fumé et/ou n'ont
bu que de l'eau. À la fin de la journée, le goût a été mesuré chez chaque individu. Les résultats
sont présentés dans le tableau suivant (fichier gout.txt) :

Contrôle (ST) Cigarette (Cgt) Cigare (Cgr)


Contrôle (SA) 4, 5, 3, 6 3, 2, 3, 1 1, 2, 2, 0
Bière (Bie) 3, 3, 4, 4 2, 2, 1, 3 2, 1, 0, 0
Vin (Vin) 2, 3, 4, 3 2, 2, 0, 2 0, 0, 1, 1

1. Réalisez un test statistique permettant d'estimer l'influence de l'alcool et du tabac sur le goût et
interprétez les résultats.
On ne peut réaliser une ANOVA à 2 facteurs croisés avec répétitions, car les effectifs sont
insuffisants.
On va donc effectuer un test non paramétrique de Sheirer-Ray-Hare :

8
gout=read.table(file.choose(),header=T)
attach(gout)
source("/Users/yves/…/SRH.R")
SRH(Gout,Tabac,Alcool)
Df Sum Sq Mean Sq H pvalue
fact1 2 2488.50 1244.25 22.4189 0.00001
fact2 2 222.17 111.08 2.0015 0.36760
fact1:fact2 4 4.83 1.21 0.0435 0.99977
Seul le facteur 1 (Tabac) a ici un effet, et il n’y a pas d’interaction entre les facteurs sur le goût.
On peut aussi utiliser une ANOVA par permutation :
Test de l’homogénéité des variances par permutations :
source("/Users/yves/…/bartlett.perm.R")
bartlett.perm(split(Gout,list(Tabac,Alcool)),nperm=999)
Bartlett K Param.prob Permut.prob
[1,] 2.715484 0.9509 1
On ne rejette pas l’hypothèse nulle d’homoscédasticité.
ANOVA permutationnelle :
source("/Users/yves/…/anova.2way.R")
anova.2way(Gout~Tabac*Alcool,model=1,nperm=999)
$anova.type
[1] "Model I anova (two fixed factors) with permutation tests"
$nperm
[1] 999
$response.var
[1] "Gout"
$anova.table
Df Sum Sq Mean Sq F value Prob(param) Prob(perm)
Tabac 2 49.0555556 24.5277778 29.7640449 1.485216e-07 0.001
Alcool 2 6.0555556 3.0277778 3.6741573 3.878712e-02 0.043
Tabac:Alcool 4 0.9444444 0.2361111 0.2865169 8.841366e-01 0.881
Residuals 27 22.2500000 0.8240741 NA NA NA

Cette fois les 2 facteurs ont un effet (le test est plus puissant que le test non paramétrique), et
n’interagissent pas sur le goût.

Vous aimerez peut-être aussi