Académique Documents
Professionnel Documents
Culture Documents
[http://perso.univ-rennes1.fr/denis.poinsot]
Type de variable
Qualitative Quantitative
Variable
0.5
%
0.4
0.3
0.2
explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Répartition du
Var.
sex ratio
catégorielle
♀♂ ANOVA
Distribution
d’une espèce
0.2 Var. quantitative ANCOVA
ex: continue
0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Choix de traiter ces
problématiques via des
tests paramétriques et
Variable non paramétriques
explicative
Var. Analyse de
catégorielle fréquence /
comparaison de
pourcentage
Var. Analyse de
catégorielle fréquence /
comparaison de
pourcentage
Faire des
Var.
catégories
catégorielle
Transformer en
variable quantitative
Var. quantitative
ex: continue
Variable
explicative
Var.
catégorielle
Modèles
Linéaires Généralisés
Var. quantitative (résultats exprimé à l’aide de
ex: continue l’ANOVA sens large)
Proportion
Variable
explicative
%
Var. Analyse de
catégorielle fréquence /
comparaison de
Distribution pourcentage
d’une espèce
0.2
On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.
1. COMPARAISONS DE MOYENNES
On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.
La loi Normale
La loi Normale
La loi Normale
Distribution de
fréquence
Point d’inflexion
● Elle possède de points d’inflexion situés à égale distance de l’axe de symétrie, ils
ont pour abscisses : m - σ et m + σ
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
• Moyenne : 0
• Écart type : 3
• Moyenne : 4
• Écart type : 1
• Moyenne : -1
• Écart type : 0,5
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
120
Population 100
Paramètres de la
80 population :
60
40 N,; μ ; σ
20
0
> library(shiny)
Echantillonnage 1 11 21 31 41 51 61 71 81 91
> runExample("06_tabsets")
Echantillon 2 :
La variation (m1, m2, m3, …) de mon indicateur
Echantillon 1 : n2=100
est liée aux fluctuations d’échantillonnage
n1=100 m2=155
m1=170 s2=170
s1=150 0,03
Echantillon 3 : P( x m )
n3=100 0,025
m3=165 0,02
s3=165 0,015
0,01
0,005
0 m2 m3 m1
1 11 21 31 41
51 61 71 81 91
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
note
Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00
8 étudiants 10/20
1 étudiante 20/20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
Loi normale
(12.68, 3.48) note
Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00
Test de Shapiro
Test l’hypothèse d’une
différence significative
avec la loi normale
p-value = 0.72
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
Loi normale
(12.68, 3.48)
>plot(notes~classeNote)
>moy <- 12.78
>std <- 3.48
>plot(function(x) dnorm(x,moy,std), moy-
2*std, moy+2*std, add=TRUE)
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
0.25
0.2
0.15
0.1
0.05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 350 étudiants
0.25
0.15
0.1
0.05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 350 étudiants
0.25
N = 35 étudiants
0.1 P-value = 0.72
N = 350
0.05 p-value = 1.322e-06
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
On ne pourra pas comparer
des échantillons avec des
variances qui n’ont pas le
même ordre de grandeur
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
Test d’homogénéité des variances (homoscédasticité)
Nombre de groupe
2 >2
« Les meilleures THV pour tester l'homogénéité des variances sont, en mode
univariable, les tests de Bartlett et de Brown-Forsythe (ce dernier est une
variante du test de Levene). Même lorsque les données sont distribuées
normalement, on devrait éviter le test de Cochran, [..].
En présence de données non normales, les tests de Bartlett et de Brown-
Forsythe peuvent être utilisés si l'échantillon est très grand (nj > 145). Les
données d'abondance d'espèces devraient être transformées en logs, et
soumises au test de Bartlett permutationnel ou au test de Brown-Forsythe. »
le plus souvent ce biais doit avoir été contrôlé par le plan d’échantillonnage
- pas de structure emboité des données
spatial : plusieurs points dans des mêmes parcelles
temporelle : des groupes de relevés effectués le même jours
Prévoir un échantillonnage aléatoire
μ1 ≠ μ2
μ1 μ2
m1 m2
Question :
Existe d’importantes
différences de mesure
entre deux observateurs
(FC & GB)
1. COMPARAISONS DE MOYENNES
attach(mysta1)
summary(mysta1)
GB FC
attach(mysta1)
summary(mysta1)
GB FC
6
mysta1<-read.table(« mystacinus_1.txt",h=TRUE)
Fréquence (%)
5 Moyenne
4
3 (mean)
attach(mysta1)
2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Revenu mensuel en euros
Médiane summary(mysta1)
GB FC
(median)
Min. :33.10 Min. :33.40
1st Qu.:34.60 1st Qu.:34.70
1er quartile 3e quartile Median :35.40 Median :35.10
(1st Qu) (3rd Qu) Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17
1. COMPARAISONS DE MOYENNES
Test de normalité
shapiro.test(GB)
data: GB
W = 0.9886, p-value = 0.7964
shapiro.test(FC)
Shapiro-Wilk normality test
data: FC
W = 0.9815, p-value = 0.2647
1. COMPARAISONS DE MOYENNES
Test de normalité
Approche graphique
> library(car)
> qqPlot(GB)
Le diagramme Quantile-
Quantile qqPlot est un outil
graphique permettant
d'évaluer la pertinence de
l'ajustement d'une distribution
empirique donnée à un
modèle théorique (par défaut
la distribution normale) .
1. COMPARAISONS DE MOYENNES
Données
empirique
1. COMPARAISONS DE MOYENNES
Données
empirique
Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne
Données
empirique
Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne
mysta2<-read.table("mystacinus_2.txt", h=TRUE)
attach(mysta2)
summary(mysta2)
var.test(AB~OBSERVATEUR)
data: AB by OBSERVATEUR
F = 0.6921, num df = 84, denom df = 67, p-value = 0.1099
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4353795 1.0871368 Pas de différences
sample estimates: significatives des variances
ratio of variances entre les mesures de
0.6920924 l’observateur FC et GB
1. COMPARAISONS DE MOYENNES
Normalement c’est surtout qu’ici que doit intervenir un avis d’expert sur
les données. Car globalement assez difficile de savoir, sans à priori, si
le jeu de données présente un caractère aléatoire…..
data: AB
Standardized Bartels Statistic = -0.7641,
RVN Ratio = 1.815,
p-value = 0.4448
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3687172 0.1363642
sample estimates: Intervalle de confiance à
mean of x mean of y 95% de la différence entre
35.17059 35.28676 les deux moyennes
Moyenne de FC Moyenne de GB
1. COMPARAISONS DE MOYENNES
Si on avait supposé que les variances n’étaient pas forcément égales, par
défaut var.equal = FALSE
> t.test(FC,GB)
data: FC and GB
t = -0.8906, df = 129.956, p-value = 0.3748
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3742487 0.1418957
sample estimates: IDEM
mean of x mean of y Pas de différences
35.17059 35.28676 significatives des
(ici df décimal car moyennes des mesures
approximation de d’avant bras entre
Welsh)
l’observateur FC et GB
1. COMPARAISONS DE MOYENNES
P2 P2
P1 P1
P3 P3 P9
P9
P4 P4
P7 P7 P8 P10
P5 P6 P8 P10 P5 P6
Gestion par
le pâturage
2008 2009
1. COMPARAISONS DE MOYENNES
2008 2009
P2
P1
PARCELLE effectif2008 effectif2009
P3 P9 P1 80 83
P4
P2 97 110
P7
P3 102 110
P5 P6 P8 P10
P4 34 37
P5 21 24
P6 10 20
P7 45 47
P8 7 24
P9 126 130
P10 34 33
1. COMPARAISONS DE MOYENNES
La variable parcelle est en alpha numérique, elle n’est pas numérique, dans
le summary il y a juste une énumération des catégories ici 10 parcelles
1. COMPARAISONS DE MOYENNES
sqrt(var(effectif2008)/length(effectif2008))
[1] 13.37593
sqrt(var(effectif2009)/length(effectif2009))
[1] 13.33983
Effectif 2008 : 55 ± 13 SE
Effectif 2009 : 62 ± 13 SE
1. COMPARAISONS DE MOYENNES
Test de normalité
shapiro.test(effectif2008)
data: effectif2008
W = 0.908, p-value = 0.2675
2008 2009
Vérifier l’homogénéité des variances
PARCEL effectif20 effectif20
t.test(effectif2008, effectif2009) LE 08 09
P1 80 83
Welch Two Sample t-test P2 97 110
P3 102 110
data: effectif2008 and effectif2009 P4 34 37
t = -0.3282, df = 18, p-value = 0.7465 P5 21 24
alternative hypothesis: true difference in means is not P6 10 20
equal to 0 P7 45 47
95 percent confidence interval: P8 7 24
-45.88836 33.48836 P9 126 130
sample estimates: P10 34 33
mean of x mean of y
55.6 61.8
1. COMPARAISONS DE MOYENNES
2008 2009
2008 2009
P2 Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement
P1 80 83 0,04
P3 P9 P2 97 110 0,12
P4 P3 102 110 0,07
P4 34 37 0,08
P7 P5 21 24 0,13
P5 P6 P8 P10
P6 10 20 0,50
P7 45 47 0,04
P8 7 24 0,71
P9 126 130 0,03
P10 34 33 -0,03
1. COMPARAISONS DE MOYENNES
2008 2009
P2 Conclusion:Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement
2008 2009
P2 Conclusion:Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement
P10 34 33 -0,03
1. COMPARAISONS DE MOYENNES
Espece LP
ACROLA 65
ACROLA 66.5
ACROLA 68
ACROLA 61
ACROLA 61
ACRSCH 63
ACRSCH 66
ACRSCI 64
ACRSCH 64
1. COMPARAISONS DE MOYENNES
acrolp<-read.table("lpacrocephalus.txt",h=TRUE)
attach(acrolp)
summary(acrolp)
Espece LP
ACROLA: 880 Min. :52.00
ACRSCH: 1128 1st Qu.:63.50
ACRSCI: 3538 Median :64.50
Mean :64.58
3rd Qu.:66.00
Max. :72.50
1. COMPARAISONS DE MOYENNES
summary(acrola)
Espece LP
ACROLA:880 Min. :59.00 On vient ici d’
écraser la variable
ACRSCH: 0 1st Qu.:63.00
LP du jeux de
ACRSCI: 0 Median :64.00 donnée acrolp par
Mean :63.87 celle de la table
3rd Qu.:65.00 acrola, qui ne
contient aussi une
Max. :68.00 variable nommée
LP !!!!
1. COMPARAISONS DE MOYENNES
graduation
Echelle de X,
min, max
boxplot(LP~Espèce, notch=TRUE,
outline=FALSE, ylim=c(60,70))
1. COMPARAISONS DE MOYENNES
ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1
1. COMPARAISONS DE MOYENNES
ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1
Frank Wilcoxon
(1892–1965)
Attention dans la littérature il existe un test dit de Wilcoxon qui lui est
spécifiquement dédiée au données appariées. Tout comme le test de
Student appariées il faudra le préciser
Fonction wilcox.test(X, Y , paired=TRUE)
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test
Age Richesse
Ici on souhaite
0 12
considérer la
0 11
0 16
variable « Age »
2 17
comme une
2 12 variable en
2 17 catégorie, mais
3 12 on aurait aussi
3 8 pu la considérer
3 16
comme
3 25
continue…ça
3 17
4 20
aurait été un
5 10
autre test
(corrélation)
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
Age Richesse
0 12
rich<-read.table("Richesse.txt",h=TRUE)
0 11
attach(rich)
0 16
2 17
summary(rich)
2 12
Age Richesse
2 17 Min. : 0.000 Min. : 1.00
3 12 1st Qu.: 1.000 1st Qu.:10.00
3 8 Median :3.000 Median :12.00
3 16 Mean : 2.453 Mean :12.95
3 25
3rd Qu.: 3.000 3rd Qu.:16.25
3 17
Max. : 5.000 Max. :25.00
4 20
5 10
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
Richesse
Age Richesse
0 12
0 11
0 16
2 17
2 12
2 17
3 12
3 8
3 16
3 25
3 17
4 20
5 10
Age
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
kruskal.test(Richesse~Age) Richesse
kruskal.test(VarQuantitative, VarQualitative)
Age
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
kruskal.test(Richesse,Age) Richesse
0 1 2 3 4
1 1.00 - - - -
2 0.43 1.00 - - -
3 0.14 1.00 1.00 - -
4 0.94 1.00 1.00 1.00 -
5 1.00 1.00 1.00 1.00 1.00
0 1 2 3 4
1 1.0000 - - - -
2 0.5724 1.0000 - - -
3 0.0055 0.8321 1.0000 - -
4 0.2384 1.0000 1.0000 1.0000 -
5 1.0000 1.0000 1.0000 0.6878 1.0000
Répartition du
Var. Analyse de
sex ratio
catégorielle fréquence /
comparaison de
♀♂ pourcentage
Hypothèse Ho les proportions sont les mêmes entre les deux populations !
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)
William Cochran
(1909-1980)
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)
William Cochran
(1909-1980)
William Cochran
(1909-1980)
Résultat : 6 10-7 ; donc chance infime pour que ce soit Ho soit vraie, donc il
existe une différence dans la proportion de jeunes oiseaux entre les sites
Avec R
chisq.test(table1)
Pearson's Chi-squared test
data: table1
X-squared = 16.1487, df = 4, p-value = 0.002826
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?
Effectifs théoriques
tab2<-read.table("table2.txt",h=TRUE, row.names=1)
37.8 30.0 20.2
attach(tab2)
29.2 23.2 15.6
chisq.test(tab2)
Pearson's Chi-squared test 6.0 4.8 3.2
data: table22
X-squared = 11.1177, df = 4, p-value = 0.02527
Warning message:
In chisq.test(chi2) : Chi-squared approximation may be incorrect
2.2 Comparaison entre elles de plusieurs distributions observées (N petit),
test exact de Fisher
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?
Effectifs théoriques
Dans le cas de très petits effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
Sir Ronald Aylmer 6.0 4.8 3.2
Fisher,
(1890 – 1962)
2.2 Comparaison entre elles de plusieurs distributions observées (N petit), test
exact de Fisher
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?
Effectifs théoriques
Dans le cas de très petitq effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
6.0 4.8 3.2
fisher.test(table2)
Fisher's Exact Test for Count Data
data: table2
p-value = 0.02775
alternative hypothesis: two.sided
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
3A OUI (0.8 juv/femelle) 0.89 0.15
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Attention au format des données Age Structure d’âge
dans R : données théorique en observée
proportion (avec somme = 1) et 1A 120 (0.15)
données observées brutes 2A 230 (0.29)
3A 180 (0.23)
theorique=c(0.12,0.21,0.15,0.52) 4A+ 250 (0.32)
observed=c(120,230,180,250)
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
3A OUI (0.8 juv/femelle) 0.89 0.15
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Age Structure d’âge
observée
1A 120 (0.15)
2A 230 (0.29)
3A 180 (0.23)
observed=c(120,230,180,250) 4A+ 250 (0.32)
theorique=c(0.12,0.21,0.15,0.52)
chisq.test(observed,p=theorique)
196 champions
4 championnes
2.4 Comparaison de 2 proportions: Binomial test
Geobatracomyscetes desctructor ?
Succès Echec
Succès 20 12
Echec 2 16
> GDestructorData <- matrix(c(20, 2, 12, 16), 2)
Milieu de Milieu de > mcnemar.test (GDestructorData)
culture A culture B
McNemar's Chi-squared test with continuity
correction
data: McNemData McNemar's chi-squared =
5.7857, df = 1, p-value = 0.01616
2.7 Comparaison de deux distributions, test de Kolmogorov-Smirnov
Question “biologique” : Les Pipistrelles des deux sexes ont-ils des territoires de
superficie comparable ?
Hypothèses stats : H0 = Il n’y a pas de différence dans la distribution de la variable
pour les deux sexes ; H1 = les distributions de la variable taille du domaine vital sont
différentes entre les deux sexes pour les pipistrelles.
-0.1 0 10 20 30 40
0
-2 0 5 10 15 20 25 30 35 40 -0.3
0.9
-4 -0.5 C
0.7
-6
-8 Nombre de jours entre deux captures 0.5
0.3
( Mr Mc)
G'
0.1
Mc -0.1 0
-0.3
5 10 15 20 25 30 35 40
10
8 -0.5
acrshc acrola
6
4
Gain -0.4034 -0.1579
2 -0.3438 -0.1417
0 -0.3247 -0.1176
-2 0 5 10 15 20 25 30 35 40
-0.2857 -0.1040
-4
-0.2759 -0.0866
-6 Perte
-0.2624 -0.0862
-8
-0.2593 -0.0849
-0.2576 -0.0833
-0.2424 -0.0721
… …
… …
2.7 Comparaison de deux distributions, toute conditions du Chi2 pas
forcément respectées : test de Kolmogorov-Smirnov
10
8
6
4
2
capture recapture
0
-2 0 5 10 15 20 25 30 35 40
-4
-6
-8 Nombre de jours entre deux captures
ks.test(acrsh,acrola)
« Première chose frappante parmi les résultats pour cette espèce, elle est
quasiment absente de la zone d’étude pendant les deux premières sessions
(exceptés sur les points D, F et J). Ceci confirme les informations
bibliographiques faisant état d’une disparition de l’espèce sur l’île de Janvier à
mai (Mouton 1982). Notre analyse sur la fréquentation spatiale de la zone
uniquement se fait donc sur les sessions 3 et 4 seulement. »
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012
450
400
350
300
250
200
150
100
50
0
1 2 3 4
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012
Variable
0.5
0.4
0.3
0.2
explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Var. Analyse de
catégorielle fréquence /
comparaison de
Distribution pourcentage
d’une espèce
0.2