3 TD TestUnivarié

Statistiques univariés
Master BEE année 2019-2020
Christian Kerbiriou & Cyril Gallut

UPMC, Muséum National d’Histoire Naturelle
Conservation des Espèces, Restauration et Suivis des Populations
Kerbiriou@mnhn.fr
Sources d’inspiration:
[http://perso.univ-rennes1.fr/denis.poinsot]
Type de variable
Qualitative Quantitative
nominale ordinale discrète continue
Ex: couleur Ex: appréciations : Ex : comptage : Ex: mesures :

(Très bien, bien, assez (1, 2, 3…) (T°, taille, masse,
bien, passable…) superficie.. 23,5°)
Concentration
Proportion 0.9
0.8 d’un polluant
0.7
0.6
Variable
0.5
%
0.4
0.3
0.2
explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X Var. Var. quantitative

Variable à catégorielle ex: continue
expliquer
(=Facteur)
Y
Répartition du
Var.
sex ratio
catégorielle
♀♂ ANOVA
Distribution
d’une espèce
0.2 Var. quantitative ANCOVA
ex: continue
0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Choix de traiter ces
problématiques via des
tests paramétriques et
Variable non paramétriques
explicative

expliquer
Y
Var. Analyse de
catégorielle fréquence /
comparaison de
pourcentage
Var. quantitative Comparaison

ex: continue de moyenne
Variable
explicative

expliquer
Y
Var. Analyse de
comparaison de
pourcentage
Var. quantitative Comparaison Corrélation

ex: continue de moyenne Régression
Variable
explicative

expliquer
Y
Faire des
Var.
catégories
catégorielle
Transformer en
variable quantitative
Var. quantitative
ex: continue
Variable
explicative

expliquer
Y
Var.
catégorielle
Modèles
Linéaires Généralisés
Var. quantitative (résultats exprimé à l’aide de
ex: continue l’ANOVA sens large)
Proportion
Variable
explicative
%

expliquer
Y
Var. Analyse de
comparaison de
Distribution pourcentage
d’une espèce
0.2

0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1. COMPARAISONS DE MOYENNES
1.1 Comparaison de deux moyennes, test t de Student

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées
1.3 Comparaison de plus de deux moyennes, deux à deux, pairwise t test
1.4 Comparaison de deux moyennes, test W de Wilcoxon
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.
On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.
Condition d’application des tests paramétriques:

1. La variable à expliquer suit au moins approximativement une loi
normale
2. Les variances sont homogènes
3. Le caractère aléatoire et simple des données
Le t-statistique a été introduite en

1908 par William Sealy Gosset,
un chimiste travaillant dans la
brasserie Guinness à Dublin pour
stabiliser le goût de la Guiness
( «Student» était un pseudo)
Condition d’application du test t de Student :

1. La variable à expliquer suit au moins approximativement une
loi normale
2. Les variances sont homogènes
3. Le caractère aléatoire et simple d’une série de données
1. la variable à expliquer suit au moins approximativement une loi normale
La loi Normale
La loi normale représente une distribution théorique qui est parfaitement

connue sur le plan mathématique.
Elle a été définie par Laplace et Gauss.
L’équation de la courbe de fréquence

d’une distribution normale ne dépend
que de deux paramètres :
la moyenne de la variable 1777 - 1855 1749 - 1827

et
l’écart-type de la variable
La loi Normale
La loi normale représente une distribution théorique qui est parfaitement

connue sur le plan mathématique.
 ( x  m) 2
si x suit une loi normale : 1
f ( x)  e 2 2
avec e  2,71828  2
  3,14159
La loi Normale
Distribution de
fréquence
Point d’inflexion
● Symétrique par rapport à l’axe des Y qui passe par la moyenne

médiane = moyenne
● L’axe des X est asymptote
● Elle possède de points d’inflexion situés à égale distance de l’axe de symétrie, ils
ont pour abscisses : m - σ et m + σ
La loi Normale
• Moyenne : 0
• Écart type : 3
• Moyenne : 4
• Écart type : 1
• Moyenne : -1
• Écart type : 0,5
La loi Normale
120
Population 100
Paramètres de la
80 population :
60
40 N,; μ ; σ
20
0
> library(shiny)
Echantillonnage 1 11 21 31 41 51 61 71 81 91
> runExample("06_tabsets")
Echantillon 2 :
La variation (m1, m2, m3, …) de mon indicateur
Echantillon 1 : n2=100
est liée aux fluctuations d’échantillonnage
n1=100 m2=155
m1=170 s2=170
s1=150 0,03
Echantillon 3 : P( x  m )
n3=100 0,025
m3=165 0,02
s3=165 0,015
0,01
0,005
0 m2 m3 m1
1 11 21 31 41

51 61 71 81 91
La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
note
Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00
8 étudiants 10/20
1 étudiante 20/20
La loi Normale
Loi normale
(12.68, 3.48) note
Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00
Test de Shapiro
Test l’hypothèse d’une
différence significative
avec la loi normale
p-value = 0.72
La loi Normale
Loi normale
(12.68, 3.48)
>plot(notes~classeNote)
>moy <- 12.78
>std <- 3.48
>plot(function(x) dnorm(x,moy,std), moy-
2*std, moy+2*std, add=TRUE)
La loi Normale
0.25
Loi normale, n=35, (12.68, 3.48)
0.2
0.15
0.1
0.05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
La loi Normale
0.25
Loi normale, n=35, (12.68, 3.48)

Loi normale, n=350, (12.68, 3.48)
0.2
0.15
0.1
0.05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
La loi Normale
0.25
Loi normale, n=35, (12.68, 3.48)

Loi normale, n=350, (12.68, 3.48)
0.2
0.15 Shapiro test
N = 35 étudiants
0.1 P-value = 0.72
N = 350
0.05 p-value = 1.322e-06
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12
Pour les ECHANTILLLONS de Pour les GRANDS

taille moyenne ces tests sont 0.1
ECHANTILLONS, ces tests
pratiques pour déceler des sont utiles pour déceler de
gros défauts d’adéquation minces écarts avec une
0.08
avec une distribution théorique distribution théorique (ici loi
(ici loi normal) normal),
0.06
Par exemple un petit Par exemple tester la fiabilité

échantillon biologique 0.04 d’une machine
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2. les variances sont homogènes
On ne pourra pas comparer
des échantillons avec des
variances qui n’ont pas le
même ordre de grandeur
Test d’homogénéité des variances (homoscédasticité)
Nombre de groupe
2 >2
Distribution normale Distribution normale dans

dans chaque groupe chaque groupe et au moins 4
individus dans chaque groupe
non (ou non
oui testable) non (ou non
oui testable)
Test de Fisher Test de Fisher

des variances des variances Test de Test de Bartlett
par permutation Bartlett par permutation
Test d’homogénéité des variances (homoscédasticité)
Comparaison des variances de deux populations

Test de Fisher (paramétrique)
var.test (variable ~ facteur)
où variable est un vecteur contenant les
valeurs de la variable mesurée et facteur un vecteur contenant la classe de
chaque individu
Test de Fisher par permutation (non paramétrique)

perm.var.test(variable~facteur)
Comparaison des variances de plus de deux populations

Test de Bartlett (paramétrique)
bartlett.test(variable~facteur)
Test de Bartlett par permutation (non paramétrique)

perm.bartlett.test(variable~facteur)
« Il existe plus de 50 tests ou procédures de comparaison de variances

(Scherrer 2007 p. 396). L'opinion varie parmi les auteurs quant à la pertinence
et l'efficacité des tests d'homogénéité de variance. Certains auteur (p.ex. Zar,
1999) disent que les tests actuellement disponibles ont de si piètres
performances qu'ils ne sont pas réellement utiles, l'ANOVA étant plus robuste
aux écarts d'homoscédasticité que ce qui peut être détecté par les Tests
d’Homogénéité des Variances »
D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R

Legendre, P. & Borcard, D. Statistical comparison of univariate tests of
homogeneity of variances.
« Les meilleures THV pour tester l'homogénéité des variances sont, en mode
univariable, les tests de Bartlett et de Brown-Forsythe (ce dernier est une
variante du test de Levene). Même lorsque les données sont distribuées
normalement, on devrait éviter le test de Cochran, [..].
En présence de données non normales, les tests de Bartlett et de Brown-
Forsythe peuvent être utilisés si l'échantillon est très grand (nj > 145). Les
données d'abondance d'espèces devraient être transformées en logs, et
soumises au test de Bartlett permutationnel ou au test de Brown-Forsythe. »
« Données de type "abondances d'espèces" transformées en ln: dans ce cas, le

test de Bartlett paramétrique a une erreur de type I un peu trop élevée
(6 à 15%) lorsque nj est petit, ce qui est dangereux: on risque de
déclarer faussement que des variances sont hétérogènes. »
D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R

Legendre, P. & Borcard, D. Statistical comparison of univariate tests of
homogeneity of variances.
Enfin, lorsque les variances ne sont pas homogènes, le test reste « robuste » si on
utilise l’approximation de Welch
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired =

FALSE, var.equal = FALSE, conf.level = 0.95, ...)
par défaut le t.test envisage la non égalité des variances

3. Le caractère aléatoire et simple d’une série de données
le plus souvent ce biais doit avoir été contrôlé par le plan d’échantillonnage
- pas de structure emboité des données
spatial : plusieurs points dans des mêmes parcelles
temporelle : des groupes de relevés effectués le même jours
Prévoir un échantillonnage aléatoire
- Limiter les biais observateurs

Il existe des tests lorsqu’on n’a aucune idée !
Bartels test, Run test…
μ1 ≠ μ2
μ1 μ2
1,96 2,46 2,96

1,96 2,46 2,96
m1 m2
1,96 2,46 2,96


Données
Mesures d’avant bras

d’un chiroptère (Myotis
mystacinus).
Question :
Existe d’importantes
différences de mesure
entre deux observateurs
(FC & GB)

Données
mysta1<-read.table(" mystacinus_1.txt",h=TRUE)
attach(mysta1)
summary(mysta1)
GB FC
Min. :33.10 Min. :33.40

1st Qu.:34.60 1st Qu.:34.70
Median :35.40 Median :35.10
Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17

Données
mysta1<-read.table(« mystacinus_1.txt",h=TRUE)
attach(mysta1)
summary(mysta1)
GB FC
Min. :33.10 Min. :33.40

1st Qu.:34.60 1st Qu.:34.70
Median :35.40 Median :35.10
Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17

9
6
mysta1<-read.table(« mystacinus_1.txt",h=TRUE)
Fréquence (%)
5 Moyenne
4
3 (mean)
attach(mysta1)
2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Revenu mensuel en euros
Médiane summary(mysta1)
GB FC
(median)
Min. :33.10 Min. :33.40
1st Qu.:34.60 1st Qu.:34.70
1er quartile 3e quartile Median :35.40 Median :35.10
(1st Qu) (3rd Qu) Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17

Ici on ne détecte pas de différences
Test de normalité significatives entre la distribution des
variables et une distribution normale
shapiro.test(FC)
Shapiro-Wilk normality test … cependant bien souvent avec des
échantillons petits, le test est rarement
data: FC significatif…
W = 0.9815, p-value = 0.2647 ….Il est même recommandé de ne pas
utiliser un test de shapiro pour des
shapiro.test(GB) échantillons inférieurs à 30
Shapiro-Wilk normality test On peut donc faire un test de Student,

on peut raisonnablement faire
data: GB l’hypothèse que les tailles suivent
W = 0.9886, p-value = 0.7964 approximativement une distribution
normale
Test de normalité
shapiro.test(GB)
Shapiro-Wilk normality test
data: GB
W = 0.9886, p-value = 0.7964
shapiro.test(FC)
data: FC
W = 0.9815, p-value = 0.2647
Test de normalité
Approche graphique
> library(car)
> qqPlot(GB)
Le diagramme Quantile-
Quantile qqPlot est un outil
graphique permettant
d'évaluer la pertinence de
l'ajustement d'une distribution
empirique donnée à un
modèle théorique (par défaut
la distribution normale) .
Données
empirique
Données
empirique
Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne
Quantile d’une distribution normale

de moyenne 35.29 et sd : 0.83
Selon les fonctions
utilisées peut être brute ou
centrée normée
centrée
1.1 Comparaison de deux moyennes, test t de Student normée
Données
empirique
Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne
Quantile d’une distribution normale

de moyenne 35.29 et sd : 0.83
Test d’homogénéité des variances Il faut présenter les

données sous une
> mysta2<-read.table("mystacinus_2.txt", h=TRUE) autre forme
> attach(mysta2)
> summary(mysta2)
OBSERVATEUR AB
FC:85 Min. :33.10
GB:68 1st Qu.:34.70
Median :35.20
Mean :35.22
3rd Qu.:35.70
Max. :37.30
Test d’homogénéité des variances
mysta2<-read.table("mystacinus_2.txt", h=TRUE)
attach(mysta2)
summary(mysta2)
var.test(AB~OBSERVATEUR)
F test to compare two variances
data: AB by OBSERVATEUR
F = 0.6921, num df = 84, denom df = 67, p-value = 0.1099
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4353795 1.0871368 Pas de différences
sample estimates: significatives des variances
ratio of variances entre les mesures de
0.6920924 l’observateur FC et GB
Test du caractère aléatoire
Normalement c’est surtout qu’ici que doit intervenir un avis d’expert sur
les données. Car globalement assez difficile de savoir, sans à priori, si
le jeu de données présente un caractère aléatoire…..
Les test disponibles évaluent par exemple si l’ordre d’apparition des

valeurs dans le tableau de données présente un caractère aléatoire
= dernier recours quand on ne connait absolument pas son jeu de
données !!!!!
Car sinon explorer si d’autres variables pourraient rentrer en ligne de
compte (la date, l’heure, les instruments de mesures utilisés….)

> library(lawstat)
> mysta2GB<-read.table("mystacinus_2GB.txt", h=TRUE)
> attach(mysta2GB)
> summary(mysta2GB)
> bartels.test(AB)
Bartels Test - Two sided
data: AB
Standardized Bartels Statistic = -0.7641,
RVN Ratio = 1.815,
p-value = 0.4448
La série de donnée présente

un caractère aléatoire
p-value = 0.4448 p-value = 5.873e-07

Si données sont
ordonnée par la date,
1. COMPARAISONS DE MOYENNES peut être qu’il existe
une variation de la taille
liées à la date : arrivée
1.1 Comparaison de deux moyennes, test t de Student d’individus nordiques
(plus gros) ?
Modèle linéaire à
Test du caractère aléatoire envisager
p-value = 0.4448 p-value = 5.873e-07

Test de normalité OK Conditions d’applications

Test d’homogénéité des variances OK des tests paramétriques
Test du caractère aléatoire OK
> mysta1<-read.table("mystacinus_1.txt", h=TRUE)

> attach(mysta1)
> t.test(FC,GB, var.equal = TRUE)
On n’a pas trouver de
Two Sample t-test problème d’homogénéité des
variances, var.equal=TRUE
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
alternative hypothesis: true difference in means is not equal to 0
-0.3687172 0.1363642
sample estimates: Pas de différences
mean of x mean of y significatives des
35.17059 35.28676 moyennes des mesures
d’avant bras entre
l’observateur FC et GB
> mysta1<-read.table("mystacinus_1.txt", h=TRUE)

> attach(mysta1)
> t.test(FC,GB, var.equal = TRUE)
On n’a pas trouver de
Two Sample t-test problème d’homogénéité des
variances, var.equal=TRUE
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
-0.3687172 0.1363642
sample estimates: Pas de différences
mean of x mean of y significatives des
35.17059 35.28676 moyennes des mesures
d’avant bras entre
Test d’homogénéité des variances Valeur du test t (t)

Nombre de degré de liberté (df)
> t.test(FC,GB, var.equal = TRUE) Valeur de la probabilité associé (p)
Two Sample t-test
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
-0.3687172 0.1363642
sample estimates: Intervalle de confiance à
mean of x mean of y 95% de la différence entre
35.17059 35.28676 les deux moyennes
Moyenne de FC Moyenne de GB
Si on avait supposé que les variances n’étaient pas forcément égales, par
défaut var.equal = FALSE
> t.test(FC,GB)
Welch Two Sample t-test
data: FC and GB
t = -0.8906, df = 129.956, p-value = 0.3748
-0.3742487 0.1418957
sample estimates: IDEM
mean of x mean of y Pas de différences
35.17059 35.28676 significatives des
(ici df décimal car moyennes des mesures
approximation de d’avant bras entre
Welsh)
P2 P2
P1 P1
P3 P3 P9
P9
P4 P4
P7 P7 P8 P10
P5 P6 P8 P10 P5 P6
Gestion par
le pâturage
2008 2009
2008 2009
P2
P1
PARCELLE effectif2008 effectif2009
P3 P9 P1 80 83
P4
P2 97 110
P7
P3 102 110
P5 P6 P8 P10
P4 34 37
P5 21 24
P6 10 20
P7 45 47
P8 7 24
P9 126 130
P10 34 33

P1 80 83
P2 97 gestion<-read.table("gestion_parcelle.txt",h=TRUE)
110
P3 102 110
attach(gestion)
P4 34 37
P5 21 24
summary(gestion)
P6 10 PARCELLE
20 effectif2008 effectif2009
P7 45
P1 :1 47
Min. : 7.00 Min. : 20.00
P10 :1 1st Qu.: 24.25 1st Qu.: 26.25
P8 7 24
P2 :1 Median : 39.50 Median : 42.00
P9 126 P3 130
:1 Mean : 55.60 Mean : 61.80
P10 34 P4 :1 33 3rd Qu.: 92.75 3rd Qu.: 103.25
P5 :1 Max. : 126.00 Max. : 130.00
(Other):4

P1 80 83
P2 97 gestion<-read.table("gestion_parcelle.txt",h=TRUE)
110
P3 102 110
attach(gestion)
P4 34 37
P5 21 24
summary(gestion)
P6 10 PARCELLE
20 effectif2008 effectif2009
P7 45
P1 :1 47
Min. : 7.00 Min. : 20.00
P10 :1 1st Qu.: 24.25 1st Qu.: 26.25
P8 7 24
P2 :1 Median : 39.50 Median : 42.00
P9 126 P3 130
:1 Mean : 55.60 Mean : 61.80
P10 34 P4 :1 33 3rd Qu.: 92.75 3rd Qu.: 103.25
P5 :1 Max. : 126.00 Max. : 130.00
(Other):4
La variable parcelle est en alpha numérique, elle n’est pas numérique, dans
le summary il y a juste une énumération des catégories ici 10 parcelles
En plus de la moyenne on souhaite obtenir l’erreur standard

 Erreur Standard SE = Sx /√n Sx = √variance
sqrt(var(effectif2008)/length(effectif2008))
[1] 13.37593
sqrt(var(effectif2009)/length(effectif2009))
[1] 13.33983
Effectif 2008 : 55 ± 13 SE
Effectif 2009 : 62 ± 13 SE
Test de normalité
shapiro.test(effectif2008)
data: effectif2008
W = 0.908, p-value = 0.2675
shapiro.test(effectif2009) …pas de différences significatives

entre la distribution des variables
Shapiro-Wilk normality test et une distribution normale
data: effectif2009 … cependant c’est juste limite…

W = 0.8456, p-value = 0.0515
2008 2009
Vérifier l’homogénéité des variances
PARCEL effectif20 effectif20
t.test(effectif2008, effectif2009) LE 08 09
P1 80 83
Welch Two Sample t-test P2 97 110
P3 102 110
data: effectif2008 and effectif2009 P4 34 37
t = -0.3282, df = 18, p-value = 0.7465 P5 21 24
alternative hypothesis: true difference in means is not P6 10 20
equal to 0 P7 45 47
95 percent confidence interval: P8 7 24
-45.88836 33.48836 P9 126 130
sample estimates: P10 34 33
mean of x mean of y
55.6 61.8
2008 2009
PARCEL effectif20 effectif20

t.test(effectif2008, effectif2009, paired=TRUE) LE 08 09
P1 80 83
Paired t-test P2 97 110
P3 102 110
data: effectif2008 and effectif2009 P4 34 37
t = -3.4804, df = 9, p-value = 0.006934 P5 21 24
alternative hypothesis: true difference in means is not P6 10 20
equal to 0 P7 45 47
95 percent confidence interval: P8 7 24
-10.229773 -2.170227 P9 126 130
sample estimates: P10 34 33
mean of the differences
-6.2
2008 2009
P2 Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement
P1 80 83 0,04
P3 P9 P2 97 110 0,12
P4 P3 102 110 0,07
P4 34 37 0,08
P7 P5 21 24 0,13
P5 P6 P8 P10
P6 10 20 0,50
P7 45 47 0,04
P8 7 24 0,71
P9 126 130 0,03
P10 34 33 -0,03
2008 2009
P2 Conclusion:Effectif Effectif
P3 UnP1 plan d’échantillonnage

80 83 basé0,04sur des
P9 110 le plus à0,12
données
P2 appariées
97 sera même de
P4 P3
détecter 102
des effets 0,07
des110variations d’abondance
P4 le temps. 34
dans 37 0,08
P7 P5 21 24 0,13
P5 P6 P8 P10
P6 10 20 0,50
C’est le cas de nombreux programmes
0,04
de
P7 45 47
surveillance
P8
de la
7
biodiversité
24 0,71
- P9STOC EPS,126STOC Capture
130 0,03
- Vigie Chiro, Vigie Flore, STERF…
Comptage d’oiseaux
- P10 34 d’eau
33 -0,03
hivernant
- ………..
2008 2009
P2 Conclusion:Effectif Effectif
P3 CeP1 dispositif teste

80 t-il réellement
83 un0,04
effet de la
P9 0,12
gestion
P2 ou un effet
97 année 110?
P4 P3 102 110 0,07
P4 dispositif pour
Quel 34 être 37 0,08 un
certain de tester
P5 0,13
P5 P6
P7 P8 P10 effet gestion ? 21 24
P6 10 20 0,50
P7 45 47 0,04
P8 7 24 0,71
P9 126 130 0,03
P10 34 33 -0,03
1. 3 Comparaison de plus de deux moyennes, deux à deux, pairwise t test
Longueur d’aile de 3 fauvettes paludicole
Espece LP
ACROLA 65
ACROLA 66.5
ACROLA 68
ACROLA 61
ACROLA 61
ACRSCH 63
ACRSCH 66
ACRSCI 64
ACRSCH 64
1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test
acrolp<-read.table("lpacrocephalus.txt",h=TRUE)
attach(acrolp)
summary(acrolp)
Espece LP
ACROLA: 880 Min. :52.00
ACRSCH: 1128 1st Qu.:63.50
ACRSCI: 3538 Median :64.50
Mean :64.58
3rd Qu.:66.00
Max. :72.50
ACROLA: 880 acrola<-subset(acrolp, Espece=='ACROLA')

ACRSCH: 1128 attach(acrola)
ACRSCI: 3538 The following object(s) are masked _by_ .GlobalEnv : Espece
The following object(s) are masked from acrolp : Espece LP
summary(acrola)
Espece LP
ACROLA:880 Min. :59.00 On vient ici d’
écraser la variable
ACRSCH: 0 1st Qu.:63.00
LP du jeux de
ACRSCI: 0 Median :64.00 donnée acrolp par
Mean :63.87 celle de la table
3rd Qu.:65.00 acrola, qui ne
contient aussi une
Max. :68.00 variable nommée
LP !!!!
ACROLA: 880 acrola<-subset(acrolp, Espece=='ACROLA')

ACRSCH: 1128 attach(acrola)
ACRSCI: 3538 The following object(s) are masked _by_ .GlobalEnv : Espece
The following object(s) are masked from acrolp : Espece LP
summary(acrola)
Espece LP
ACROLA:880 Min. :59.00
ACRSCH: 0 1st Qu.:63.00
ACRSCI: 0 Median :64.00
Mean :63.87
3rd Qu.:65.00
Max. :68.00
shapiro.test(LP)
Data: LP
W = 0.9859, p-value = 1.790e-07

shapiro.test(LP)
Data: LP
W = 0.9859, p-value = 1.790e-07
Ici on détecte une différence significative entre la

distribution des variables et une distribution normale
… cependant bien souvent avec de grand échantillons, le
test est « très sensible »…
Peut-on raisonnablement faire l’hypothèse que les tailles

suivent approximativement une distribution normale ?
Approche graphique
Peut-on raisonnablement faire l’hypothèse que les tailles suivent

approximativement une distribution normale ? Approche graphique
Distribution des tailles du

phragmite aquatique (acrola)
Longueur d’aile de 3 fauvettes paludicoles

Profitons pour explorer la commande hist
hist(LP, breaks=seq(59,71, 0.5))
graduation
Echelle de X,
min, max
Certains observateurs ne mesurent pas les demi

millimètres !!!!

boxplot(LP~Espèce, notch=TRUE,
outline=FALSE, ylim=c(60,70))

boxplot(LP~Espece, notch=TRUE, Les «notch», invention de John Tuckey

outline=FALSE, ylim=c(60,70))

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmentent avec

outline=FALSE, ylim=c(60,70)) l’amplitude de l’interquantile (IQR) et décline
en fonction de la taille de l’échantillon.
IQR
Notch = ± 1.58
√n
IQR
Valeur multiplicative « empirique » parfois

discutée….

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmente avec

IQR
Notch = ± 1.58
√n
Quand les notches ne se chevauchent pas on

peut raisonnablement penser qu’il y existe une
différence significative entre les médianes…

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmente avec

IQR
Notch = ± 1.58
√n
Quand les notch dépassent le 75

percentile ou le 25 percentile…
c’est que la distribution
?
commence à présenter des
«défauts» sérieux et
incontournable !
pairwise.t.test(LP, Espece, p.adj =

"bonferroni")
Pairwise comparisons using t tests with

pooled SD
data: LP and Espèce
ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1
Longueur d’aile de 3 fauvettes paludicoles
pairwise.t.test(LP, Espèce, p.adj =

"bonferroni")
Pairwise comparisons using t tests with

pooled SD
data: LP and Espèce
ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1
Bonferroni méthode très conservative,

on pourra choisir hochberg
Les tests non paramétriques ne font

aucune hypothèse sur la distribution
sous-jacente des données. On les
qualifie souvent de tests distribution free.
Lorsque les données sont quantitatives,
les tests non paramétriques transforment
les valeurs en rangs.
L’appellation tests de rangs est souvent
rencontrée.
Frank Wilcoxon
(1892–1965)
Condition d’application des tests non paramétriques:

1. Le caractère aléatoire et simple des données
2. Pour le Wilcoxon et Kruskal : la relative symétrie de la distribution
Le test Mann-Whitney-Wilcoxon Test, également appelé test de la somme des

rangs de Wilcoxon, est un test non-paramétrique utilisé pour tester les
différences entre médianes de deux groupes indépendants. Ce test est
l’équivalent non-paramétrique du test t de Student pour deux échantillons
indépendants. Fonction wilcox.test(X,Y)
Attention dans la littérature il existe un test dit de Wilcoxon qui lui est
spécifiquement dédiée au données appariées. Tout comme le test de
Student appariées il faudra le préciser
Fonction wilcox.test(X, Y , paired=TRUE)
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test
Petits échantillons et variables de loi inconnue ou non normale

Masse des poussins de Données Pour être sur que ce
cormoran huppé d’âge 1 soit bien reconnu
X2001 X2005
comme en tête ça
580 600
fait pas de mal de
580 660 mettre un caractère
580 680 alphabétique
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980
730 1000
750 NA
770 NA
770 NA
780 NA
800 NA
810 NA

Masse des poussins de Données corm<-read.table("PoussinCormoran.txt",h=TRUE)
cormoran huppé d’âge 1 attach(corm)
X2001 X2005 summary(corm)
580 600 X2001 X2005
580 660 Min. :580.0 Min. : 600
580 680 1st Qu.:612.5 1st Qu.: 695
590 700 Median :680.0 Median : 820
610 800 Mean :685.6 Mean : 810
620 820 3rd Qu.:765.0 3rd Qu.: 895
650 820 Max. :810.0 Max. :1000
660 820 NA's : 6
660 870
700 970 shapiro.test(X2001)
700 980 Shapiro-Wilk normality test
730 1000 data: X2001
750 NA W = 0.9126, p-value = 0.09561
770 NA
770 NA shapiro.test(X2005)
780 NA Shapiro-Wilk normality test
800 NA data: X2005
810 NA W = 0.9375, p-value = 0.4663

Masse des poussins de Données
cormoran huppé d’âge 1
X2001 X2005
580 600
580 660
580 680 Une raison valable pour ce méfier de la
590 700 normalité de ces données malgré le passage
610 800 du feu réussi par le test de Shapiro et du
620 820 coup de ne pas faire un t.test :
650 820
660 820 C’est la nature des données, il s’agit de
660 870 masse,
700 970
700 980
730 1000
750 NA
770 NA
770 NA
780 NA
800 NA
810 NA
Masse des poussins de

X2001 X2005
580 600
580 660
580 680
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980
wilcox.test(X2001,X2005) 730 1000

750 NA
Wilcoxon rank sum test with continuity correction
770 NA
data: X2001 and X2005
770 NA
W = 42.5, p-value = 0.00583 780 NA
alternative hypothesis: true location shift is not equal to 0 800 NA
810 NA

cormoran huppé d’âge 1 wilcox.test(X2001,X2005)
2001 2005 Wilcoxon rank sum test with continuity
580 600 correction
580 660
580 680
W = 42.5, p-value = 0.00583
590 700
610 800
alternative hypothesis: true location shift is
620 820
not equal to 0
650 820 Warning message:
660 820 In wilcox.test.default(X2001, X2005) :
660 870 cannot compute exact p-value with ties
700 970
700 980
t.test(X2001,X2005)
730 1000
Welch Two Sample t-test
750 NA
770 NA
770 NA
t = -2.9237, df = 16.674, p-value = 0.009618
780 NA
800 NA
810 NA

X2001 X2005
580 600
580 660
580 680
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980
730 1000
750 NA Ici les notch se recouvrent, pourtant le test
770 NA est significatif…
770 NA
780 NA
En fait lorsque les notch ne se recouvrent
800 NA pas le test a de grande chance d’être
810 NA significatif, mais pas forcément l’inverse….
1.5 Comparaison simultanée de plus de « deux moyennes »,
test H de Kruskal-Wallis
William Henry Kruskal Wilson Allen Wallis

(1919 – 2005) (1912 – 1998)
….En fait avec ce test on compare les médianes !!!!

Age Richesse
Ici on souhaite
0 12
considérer la
0 11
0 16
variable « Age »
2 17
comme une
2 12 variable en
2 17 catégorie, mais
3 12 on aurait aussi
3 8 pu la considérer
3 16
comme
3 25
continue…ça
3 17
4 20
aurait été un
5 10
autre test
(corrélation)
Age Richesse
0 12
rich<-read.table("Richesse.txt",h=TRUE)
0 11
attach(rich)
0 16
2 17
summary(rich)
2 12
Age Richesse
2 17 Min. : 0.000 Min. : 1.00
3 12 1st Qu.: 1.000 1st Qu.:10.00
3 8 Median :3.000 Median :12.00
3 16 Mean : 2.453 Mean :12.95
3 25
3rd Qu.: 3.000 3rd Qu.:16.25
3 17
Max. : 5.000 Max. :25.00
4 20
5 10
Richesse
Age Richesse
0 12
0 11
0 16
2 17
2 12
2 17
3 12
3 8
3 16
3 25
3 17
4 20
5 10
Age
kruskal.test(Richesse~Age) Richesse
Richesse (Y) ~ Age (X)

Le test de Kruskal-Wallis est souvent
utilisé pour comparer une variable
quantitative et une variable 3
qualitative.
L’ordre dans la ligne de commande 0

est a respecter !
kruskal.test(VarQuantitative, VarQualitative)
Age
kruskal.test(Richesse,Age) Richesse
Kruskal-Wallis rank sum test
data: Richesse and Age 3

Kruskal-Wallis chi-squared = 11.4515,
df = 5, p-value = 0.04313
Ici on a comparé des moyennes, mais

on pourrait aussi traiter ce problème
comme deux variables quantitatives
et être dans le domaine des
régression/corrélation Age
pairwise.wilcoxon.test ()
pairwise.wilcox.test(Richesse, Age, p.adj = "bonf")
0 1 2 3 4
1 1.00 - - - -
2 0.43 1.00 - - -
3 0.14 1.00 1.00 - -
4 0.94 1.00 1.00 1.00 -
5 1.00 1.00 1.00 1.00 1.00
P value adjustment method: bonferroni
pairwise.t.test(Richesse, Age, p.adj = "bonf")
0 1 2 3 4
1 1.0000 - - - -
2 0.5724 1.0000 - - -
3 0.0055 0.8321 1.0000 - -
4 0.2384 1.0000 1.0000 1.0000 -
5 1.0000 1.0000 1.0000 0.6878 1.0000
P value adjustment method: bonferroni

Proportion dans
des Habitats

catégorielle ex: continue
Répartition du
Var. Analyse de
sex ratio
comparaison de
♀♂ pourcentage

2. COMPARAISON DE POURCENTAGES
2.1 Comparaison entre elles de plusieurs distributions observées, chi2

d’homogénéité
2.2 Comparaison entre elles de plusieurs distributions observées (N petit),

test exact de Fisher
2.3 Comparaison d’une distribution observée avec une distribution

théorique : chi2 de conformité
2.4 Comparaison de 2 proportions: Binomial test
2.5 Test de conformité d’une proportion
2.6. Le test de Mac Nemar (khi-carré de McNemar) pour comparer les

proportions d’observations appariées.
2.7 Comparaison de deux distributions, toute conditions du Chi2 pas

forcément respectées : test de Kolmogorov-Smirnov
2.1 Comparaison entre elles de plusieurs distributions observées, chi2
d’homogénéité
La proportion de jeunes dans la population varie t’elle entre deux sites ?
Indice de production (Nb jeunes/nb adultes) proxi de la qualité du milieu
Sites 1 : 80% de jeunes site 2 : 32%
1er étape revenir aux valeurs brutes !
Site 1 Site 2 Total

Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103
Hypothèse Ho les proportions sont les mêmes entre les deux populations !
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)
William Cochran
(1909-1980)
William Cochran
(1909-1980)
…de pas oublier les non occurrences !!!!

Sobre Ivre
Accident 70 15
Non accident 2500 40
William Cochran
(1909-1980)
…de pas oublier les non occurrences !!!!

Sobre Ivre
Accident 70 15
Non accident 2500 40
Nb d’évènements observés :
Site 1 Site 2 Total
Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103
Site 1 Site 2 Total

Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103
Statistique :
(56x60)/103 somme des carrés
des écarts entre
Nb d’évènements attendus sous Ho : valeurs attendues
Site 1 Site 2 Total et valeurs
observées
Jeunes 32.6 27.4 60
divisées par
Adultes 23.4 19.6 43 valeurs attendues,
si Ho vrai Khi2 = 0
Total 56 47 103
Avec Excel
Résultat : 6 10-7 ; donc chance infime pour que ce soit Ho soit vraie, donc il
existe une différence dans la proportion de jeunes oiseaux entre les sites
Avec R
Question : existe t-il une ségrégation

des individus en fonction de la qualité
de l’habitat ?
Hab.1 Hab.2 Hab.3

Jeunes 45 25 18
Immature 26 28 14
Adultes 7 14 17
chisq.test(table1)
Pearson's Chi-squared test
data: table1
X-squared = 16.1487, df = 4, p-value = 0.002826
de l’habitat ?
Hab.1 Hab.2 Hab.3

Jeunes 45 25 18
Immature 26 28 14
Adultes 2 5 7
Effectifs théoriques
tab2<-read.table("table2.txt",h=TRUE, row.names=1)
37.8 30.0 20.2
attach(tab2)
29.2 23.2 15.6
chisq.test(tab2)
Pearson's Chi-squared test 6.0 4.8 3.2
data: table22
Warning message:
In chisq.test(chi2) : Chi-squared approximation may be incorrect
2.2 Comparaison entre elles de plusieurs distributions observées (N petit),
test exact de Fisher
de l’habitat ?
Hab.1 Hab.2 Hab.3

Jeunes 45 25 18
Immatures 26 28 14
Adultes 2 5 7
Dans le cas de très petits effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
Sir Ronald Aylmer 6.0 4.8 3.2
Fisher,
(1890 – 1962)
2.2 Comparaison entre elles de plusieurs distributions observées (N petit), test
exact de Fisher
de l’habitat ?
Hab.1 Hab.2 Hab.3

Jeunes 45 25 18
Immature 26 28 14
Adultes 2 5 7
Dans le cas de très petitq effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
6.0 4.8 3.2
fisher.test(table2)
Fisher's Exact Test for Count Data
data: table2
p-value = 0.02775
alternative hypothesis: two.sided
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Attention au format des données Age Structure d’âge
dans R : données théorique en observée
proportion (avec somme = 1) et 1A 120 (0.15)
données observées brutes 2A 230 (0.29)
3A 180 (0.23)
theorique=c(0.12,0.21,0.15,0.52) 4A+ 250 (0.32)
observed=c(120,230,180,250)
1 An
1A NON 0.67 0.12
2 Ans
3 Ans
4 Ans +
0 20 40 60
Age Structure d’âge
observée
1A 120 (0.15)
2A 230 (0.29)
3A 180 (0.23)
observed=c(120,230,180,250) 4A+ 250 (0.32)
theorique=c(0.12,0.21,0.15,0.52)
chisq.test(observed,p=theorique)
Chi-squared test for given probabilities

data: observed
X-squared = 127.8168, df = 3, p-value < 2.2e-16
resultat <- chisq.test(observed, p=theorique)

round(100*resultat$residuals,1) Ici on identifie que la
classe d’âge 4A+ est plus
[1] 272.9 517.3 582.4 - 772.6 faible qu’attendue par
rapport à la distribution
théorique modélisée
Nombre de chiffre après la virgule
1 An
1A NON 0.67 0.12
2 Ans
3 Ans
4 Ans +
0 20 40 60
Age Structure d’âge
observée
1A 120 (0.15)
2A 230 (0.29)
3A 180 (0.23)
4A+ 250 (0.32)
La distribution observée diffère de la prédiction du modèle, donc le modèle n’est

pas réaliste : au moins une hypothèse n’est pas respectée : la population étudiée
n’est peut être pas à l’équilibre, ou n’est pas close (immigration)…etc.
196 champions
4 championnes
196 champions / 3270 candidats 6%

4 championnes / 40 candidates 10%
196 champions / 3270 candidats 6%

4 championnes / 40 candidates 10%
prop.test(c(4,196), c(40, 3270))
2-sample test for equality of proportions with continuity correction

data: c(4, 196) out of c(40, 3270)
alternative hypothesis: two.sided
-0.06591631 0.14603864
sample estimates:
prop 1 prop 2
0.10000000 0.05993884
2.5 Test de conformité d’une proportion
Sex-ratio chez le murin échancré 155

71 femelles (46%), 84 mâles (54%)
Question : on teste l’égalité de la proportion à 50%
> binom.test(84, n=155, p=0.5, alternative="greater")
Exact binomial test
data: 84 and 155

number of successes = 84, number of trials = 155, p-value = 0.1676
alternative hypothesis: true probability of success is greater than 0.5
0.4727095 1.0000000
sample estimates:
probability of success
0.5419355
2.6 Le test de Mac Nemar (khi-carré de McNemar) pour comparer les
proportions d’observations appariées.
Geobatracomyscetes desctructor ?
Succès Echec
Succès 20 12
Echec 2 16
> GDestructorData <- matrix(c(20, 2, 12, 16), 2)
Milieu de Milieu de > mcnemar.test (GDestructorData)
culture A culture B
McNemar's Chi-squared test with continuity
correction
data: McNemData McNemar's chi-squared =
5.7857, df = 1, p-value = 0.01616
2.7 Comparaison de deux distributions, test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov est, à la base, un test d’hypothèse de conformité

d’une distribution à une Loi (test d’adéquation). Aucune hypothèse sur les données
(c’est-à-dire que c’est un test non-paramétrique à distribution libre
Exemple test de normalité :
ks.test (echantillon, "pnorm",mean (echantillon),sd(echantillon))
Une extension du test permet de l’utiliser pour comparer deux distributions.

Il permet de tester si deux échantillons indépendants sont extraits de la même
population ou de populations ayant la même distribution.
Andrey Nikolaevich Kolmogorov Vladimir Ivanovich Smirnov

(1903-1987) (1887- 1974)
2.7 Comparaison de deux distributions, test de Kolmogorov-Smirnov
Question “biologique” : Les Pipistrelles des deux sexes ont-ils des territoires de
superficie comparable ?
Hypothèses stats : H0 = Il n’y a pas de différence dans la distribution de la variable
pour les deux sexes ; H1 = les distributions de la variable taille du domaine vital sont
différentes entre les deux sexes pour les pipistrelles.
> PipistrelleMale <- c (163, 154, 173, 260, 274, 318)

> PipistrellesFemelles <-c (118, 72, 40, 29, 18, 7, 102, 49, 20)
> ks.test (PipistrelleMale, PipistrellesFemelles)
Two-sample Kolmogorov-Smirnov test
data: PipistrelleMale and PipistrellesFemelles

D = 1, p-value = 0.0003996
alternative hypothesis: two-sided
Les variables de type surface

(domaines vitaux…etc) se
comportent rarement
« normalement » de plus il ne s’agit
pas d’individus au sens Chi²
0.9
B
10 0.7
8
0.5
6
0.3
4
2
capture recapture 0.1
-0.1 0 10 20 30 40
0
-2 0 5 10 15 20 25 30 35 40 -0.3
0.9
-4 -0.5 C
0.7
-6
-8 Nombre de jours entre deux captures 0.5
0.3
( Mr  Mc)
G' 
0.1
Mc -0.1 0
-0.3
5 10 15 20 25 30 35 40
10
8 -0.5
acrshc acrola
6
4
Gain -0.4034 -0.1579
2 -0.3438 -0.1417
0 -0.3247 -0.1176
-2 0 5 10 15 20 25 30 35 40
-0.2857 -0.1040
-4
-0.2759 -0.0866
-6 Perte
-0.2624 -0.0862
-8
-0.2593 -0.0849
-0.2576 -0.0833
-0.2424 -0.0721
… …
… …
10
8
6
4
2
capture recapture
0
-2 0 5 10 15 20 25 30 35 40
-4
-6
-8 Nombre de jours entre deux captures
ks.test(acrsh,acrola)
Two-sample Kolmogorov-Smirnov test
data: acrsh and acrola Donc pas de différence

D = 0.1586, p-value = 0.1675 significative entre les deux
alternative hypothesis: two-sided distributions de gain relatif de
masse
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012
Données relatives aux Taphien de Maurice (Taphozous mauritianus)

SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
« Première chose frappante parmi les résultats pour cette espèce, elle est
quasiment absente de la zone d’étude pendant les deux premières sessions
(exceptés sur les points D, F et J). Ceci confirme les informations
bibliographiques faisant état d’une disparition de l’espèce sur l’île de Janvier à
mai (Mouton 1982). Notre analyse sur la fréquentation spatiale de la zone
uniquement se fait donc sur les sessions 3 et 4 seulement. »

A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
450
400
350
300
250
200
150
100
50
0
1 2 3 4

A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
SITE sesssion abondance

A sesssion_1 6 > pairwise.wilcox.test(abondance, sesssion,
B sesssion_1 0 paired=TRUE, p.adj = "bonf ")
C sesssion_1 77
D sesssion_1 331
E sesssion_1 0
F sesssion_1 135
G sesssion_1 44 sesssion_1 sesssion_2 sesssion_3
H sesssion_1 0 sesssion_2 1.00 - -
I sesssion_1 38 sesssion_3 0.12 0.12 -
J sesssion_1 342 sesssion_4 0.93 1.00 0.29
A sesssion_2 82
B sesssion_2 0
C sesssion_2 2

A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
« Il apparait que les deux sites

correspondant au ravines (B et
E) ne sont pas du tout
fréquentés par l’espèce. Celle-ci
préfère les milieux plus ouverts
du pied de falaise pour chasser,
avec une préférence pour les
secteurs (F et J). »

A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
« Il apparait que les deux sites

correspondant au ravines (B et
E) ne sont pas du tout
fréquentés par l’espèce. Celle-ci
préfère les milieux plus ouverts
du pied de falaise pour chasser,
avec une préférence pour les
secteurs (F et J). »
Concentration
0.9
0.8 d’un polluant
0.7
0.6
Variable
0.5
0.4
0.3
0.2
explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

expliquée
Y
Var. Analyse de
comparaison de
Distribution pourcentage
d’une espèce
0.2

0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

3 TD TestUnivarié

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

3 TD TestUnivarié

Transféré par

Droits d'auteur :

Formats disponibles

Statistiques univariés

Master BEE année 2019-2020

Christian Kerbiriou & Cyril Gallut

nominale ordinale discrète continue

Ex: couleur Ex: appréciations : Ex : comptage : Ex: mesures :

X Var. Var. quantitative

X Var. Var. quantitative

Var. quantitative Comparaison

X Var. Var. quantitative

Var. quantitative Comparaison Corrélation

X Var. Var. quantitative

X Var. Var. quantitative

X Var. Var. quantitative

Var. quantitative Comparaison Corrélation

1.1 Comparaison de deux moyennes, test t de Student

1.1 Comparaison de deux moyennes, test t de Student

1.1 Comparaison de deux moyennes, test t de Student

Condition d’application des tests paramétriques:

1.1 Comparaison de deux moyennes, test t de Student

Le t-statistique a été introduite en

1.1 Comparaison de deux moyennes, test t de Student

Condition d’application du test t de Student :

La loi normale représente une distribution théorique qui est parfaitement

Elle a été définie par Laplace et Gauss.

L’équation de la courbe de fréquence

la moyenne de la variable 1777 - 1855 1749 - 1827

La loi normale représente une distribution théorique qui est parfaitement

● Symétrique par rapport à l’axe des Y qui passe par la moyenne

● L’axe des X est asymptote

Loi normale, n=35, (12.68, 3.48)

Loi normale, n=35, (12.68, 3.48)

Loi normale, n=35, (12.68, 3.48)

0.15 Shapiro test

Pour les ECHANTILLLONS de Pour les GRANDS

Par exemple un petit Par exemple tester la fiabilité

Distribution normale Distribution normale dans

Test de Fisher Test de Fisher

Comparaison des variances de deux populations

Test de Fisher par permutation (non paramétrique)

Comparaison des variances de plus de deux populations

Test de Bartlett par permutation (non paramétrique)

« Il existe plus de 50 tests ou procédures de comparaison de variances

D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R

« Données de type "abondances d'espèces" transformées en ln: dans ce cas, le

D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired =

par défaut le t.test envisage la non égalité des variances

- Limiter les biais observateurs

1.1 Comparaison de deux moyennes, test t de Student

1,96 2,46 2,96

1,96 2,46 2,96

1.1 Comparaison de deux moyennes, test t de Student

Mesures d’avant bras

1.1 Comparaison de deux moyennes, test t de Student

Min. :33.10 Min. :33.40

1.1 Comparaison de deux moyennes, test t de Student

Min. :33.10 Min. :33.40

1.1 Comparaison de deux moyennes, test t de Student

1.1 Comparaison de deux moyennes, test t de Student

Shapiro-Wilk normality test On peut donc faire un test de Student,

1.1 Comparaison de deux moyennes, test t de Student

Shapiro-Wilk normality test

1.1 Comparaison de deux moyennes, test t de Student