Vous êtes sur la page 1sur 128

Statistiques univariés

Master BEE année 2019-2020

Christian Kerbiriou & Cyril Gallut


UPMC, Muséum National d’Histoire Naturelle
Conservation des Espèces, Restauration et Suivis des Populations
Kerbiriou@mnhn.fr
Sources d’inspiration:

[http://perso.univ-rennes1.fr/denis.poinsot]
Type de variable

Qualitative Quantitative

nominale ordinale discrète continue

Ex: couleur Ex: appréciations : Ex : comptage : Ex: mesures :


(Très bien, bien, assez (1, 2, 3…) (T°, taille, masse,
bien, passable…) superficie.. 23,5°)
Concentration
Proportion 0.9
0.8 d’un polluant
0.7
0.6

Variable
0.5

%
0.4
0.3
0.2

explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
(=Facteur)
Y

Répartition du
Var.
sex ratio
catégorielle
♀♂ ANOVA

Distribution
d’une espèce
0.2 Var. quantitative ANCOVA
ex: continue
0.1

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Choix de traiter ces
problématiques via des
tests paramétriques et
Variable non paramétriques
explicative

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
Y

Var. Analyse de
catégorielle fréquence /
comparaison de
pourcentage

Var. quantitative Comparaison


ex: continue de moyenne
Variable
explicative

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
Y

Var. Analyse de
catégorielle fréquence /
comparaison de
pourcentage

Var. quantitative Comparaison Corrélation


ex: continue de moyenne Régression
Variable
explicative

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
Y

Faire des
Var.
catégories
catégorielle

Transformer en
variable quantitative

Var. quantitative
ex: continue
Variable
explicative

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
Y

Var.
catégorielle

Modèles
Linéaires Généralisés
Var. quantitative (résultats exprimé à l’aide de
ex: continue l’ANOVA sens large)
Proportion

Variable
explicative
%

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquer
Y

Var. Analyse de
catégorielle fréquence /
comparaison de
Distribution pourcentage
d’une espèce
0.2

Var. quantitative Comparaison Corrélation


0.1
ex: continue de moyenne Régression
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


1.2 Comparaison de deux moyennes, test t de Student pour séries appariées
1.3 Comparaison de plus de deux moyennes, deux à deux, pairwise t test
1.4 Comparaison de deux moyennes, test W de Wilcoxon
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

On parle de tests paramétriques lorsque l’on stipule que les données sont
issues d’une distribution paramétrée. Le plus souvent c’est une hypothèse de
normalité des données qui est requise.

Condition d’application des tests paramétriques:


1. La variable à expliquer suit au moins approximativement une loi
normale
2. Les variances sont homogènes
3. Le caractère aléatoire et simple des données
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Le t-statistique a été introduite en


1908 par William Sealy Gosset,
un chimiste travaillant dans la
brasserie Guinness à Dublin pour
stabiliser le goût de la Guiness
( «Student» était un pseudo)
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Condition d’application du test t de Student :


1. La variable à expliquer suit au moins approximativement une
loi normale
2. Les variances sont homogènes
3. Le caractère aléatoire et simple d’une série de données
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale

La loi normale représente une distribution théorique qui est parfaitement


connue sur le plan mathématique.

Elle a été définie par Laplace et Gauss.

L’équation de la courbe de fréquence


d’une distribution normale ne dépend
que de deux paramètres :

la moyenne de la variable 1777 - 1855 1749 - 1827


et
l’écart-type de la variable
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale

La loi normale représente une distribution théorique qui est parfaitement


connue sur le plan mathématique.
 ( x  m) 2
si x suit une loi normale : 1
f ( x)  e 2 2
avec e  2,71828  2
  3,14159
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution de
fréquence
Point d’inflexion

● Symétrique par rapport à l’axe des Y qui passe par la moyenne


médiane = moyenne

● L’axe des X est asymptote

● Elle possède de points d’inflexion situés à égale distance de l’axe de symétrie, ils
ont pour abscisses : m - σ et m + σ
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale

• Moyenne : 0
• Écart type : 3

• Moyenne : 4
• Écart type : 1

• Moyenne : -1
• Écart type : 0,5
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
120

Population 100
Paramètres de la
80 population :
60

40 N,; μ ; σ
20

0
> library(shiny)
Echantillonnage 1 11 21 31 41 51 61 71 81 91

> runExample("06_tabsets")
Echantillon 2 :
La variation (m1, m2, m3, …) de mon indicateur
Echantillon 1 : n2=100
est liée aux fluctuations d’échantillonnage
n1=100 m2=155
m1=170 s2=170
s1=150 0,03
Echantillon 3 : P( x  m )
n3=100 0,025

m3=165 0,02

s3=165 0,015

0,01

0,005

0 m2 m3 m1
1 11 21 31 41

51 61 71 81 91
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants

note

Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00

8 étudiants 10/20

1 étudiante 20/20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants

Loi normale
(12.68, 3.48) note

Min. : 4.00
1st Qu.:10.00
Median :12.50
Mean :12.69
3rd Qu.:15.00
Max. :20.00

Test de Shapiro
Test l’hypothèse d’une
différence significative
avec la loi normale

p-value = 0.72
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants

Loi normale
(12.68, 3.48)

>plot(notes~classeNote)
>moy <- 12.78
>std <- 3.48
>plot(function(x) dnorm(x,moy,std), moy-
2*std, moy+2*std, add=TRUE)
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 35 étudiants
0.25

Loi normale, n=35, (12.68, 3.48)

0.2

0.15

0.1

0.05

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 350 étudiants
0.25

Loi normale, n=35, (12.68, 3.48)


Loi normale, n=350, (12.68, 3.48)
0.2

0.15

0.1

0.05

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
Distribution des note de l’UE STAP 2011 – 1ére session – 350 étudiants
0.25

Loi normale, n=35, (12.68, 3.48)


Loi normale, n=350, (12.68, 3.48)
0.2

0.15 Shapiro test

N = 35 étudiants
0.1 P-value = 0.72

N = 350
0.05 p-value = 1.322e-06

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12

0.1

0.08

0.06

0.04

0.02

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale

La loi Normale
0.14
N = 35 p-value = 0.72 N = 975 p-value = 0.03
0.12

Pour les ECHANTILLLONS de Pour les GRANDS


taille moyenne ces tests sont 0.1
ECHANTILLONS, ces tests
pratiques pour déceler des sont utiles pour déceler de
gros défauts d’adéquation minces écarts avec une
0.08
avec une distribution théorique distribution théorique (ici loi
(ici loi normal) normal),
0.06

Par exemple un petit Par exemple tester la fiabilité


échantillon biologique 0.04 d’une machine

0.02

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
On ne pourra pas comparer
des échantillons avec des
variances qui n’ont pas le
même ordre de grandeur
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
Test d’homogénéité des variances (homoscédasticité)
Nombre de groupe
2 >2

Distribution normale Distribution normale dans


dans chaque groupe chaque groupe et au moins 4
individus dans chaque groupe
non (ou non
oui testable) non (ou non
oui testable)

Test de Fisher Test de Fisher


des variances des variances Test de Test de Bartlett
par permutation Bartlett par permutation
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
Test d’homogénéité des variances (homoscédasticité)

Comparaison des variances de deux populations


Test de Fisher (paramétrique)
var.test (variable ~ facteur)
où variable est un vecteur contenant les
valeurs de la variable mesurée et facteur un vecteur contenant la classe de
chaque individu

Test de Fisher par permutation (non paramétrique)


perm.var.test(variable~facteur)

Comparaison des variances de plus de deux populations


Test de Bartlett (paramétrique)
bartlett.test(variable~facteur)

Test de Bartlett par permutation (non paramétrique)


perm.bartlett.test(variable~facteur)
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes

« Il existe plus de 50 tests ou procédures de comparaison de variances


(Scherrer 2007 p. 396). L'opinion varie parmi les auteurs quant à la pertinence
et l'efficacité des tests d'homogénéité de variance. Certains auteur (p.ex. Zar,
1999) disent que les tests actuellement disponibles ont de si piètres
performances qu'ils ne sont pas réellement utiles, l'ANOVA étant plus robuste
aux écarts d'homoscédasticité que ce qui peut être détecté par les Tests
d’Homogénéité des Variances »

D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R


Legendre, P. & Borcard, D. Statistical comparison of univariate tests of
homogeneity of variances.
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes

« Les meilleures THV pour tester l'homogénéité des variances sont, en mode
univariable, les tests de Bartlett et de Brown-Forsythe (ce dernier est une
variante du test de Levene). Même lorsque les données sont distribuées
normalement, on devrait éviter le test de Cochran, [..].
En présence de données non normales, les tests de Bartlett et de Brown-
Forsythe peuvent être utilisés si l'échantillon est très grand (nj > 145). Les
données d'abondance d'espèces devraient être transformées en logs, et
soumises au test de Bartlett permutationnel ou au test de Brown-Forsythe. »

« Données de type "abondances d'espèces" transformées en ln: dans ce cas, le


test de Bartlett paramétrique a une erreur de type I un peu trop élevée
(6 à 15%) lorsque nj est petit, ce qui est dangereux: on risque de
déclarer faussement que des variances sont hétérogènes. »

D Borcard, F Gillet, P Legendre 2011. Numerical ecology with R


Legendre, P. & Borcard, D. Statistical comparison of univariate tests of
homogeneity of variances.
Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
Enfin, lorsque les variances ne sont pas homogènes, le test reste « robuste » si on
utilise l’approximation de Welch

t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired =


FALSE, var.equal = FALSE, conf.level = 0.95, ...)

par défaut le t.test envisage la non égalité des variances


Condition d’application du test t de Student :
1. la variable à expliquer suit au moins approximativement une loi normale
2. les variances sont homogènes
3. Le caractère aléatoire et simple d’une série de données

le plus souvent ce biais doit avoir été contrôlé par le plan d’échantillonnage
- pas de structure emboité des données
spatial : plusieurs points dans des mêmes parcelles
temporelle : des groupes de relevés effectués le même jours
Prévoir un échantillonnage aléatoire

- Limiter les biais observateurs


Il existe des tests lorsqu’on n’a aucune idée !
Bartels test, Run test…
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

μ1 ≠ μ2
μ1 μ2

1,96 2,46 2,96


1,96 2,46 2,96

m1 m2

1,96 2,46 2,96


1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


Données

Mesures d’avant bras


d’un chiroptère (Myotis
mystacinus).

Question :
Existe d’importantes
différences de mesure
entre deux observateurs
(FC & GB)
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


Données
mysta1<-read.table(" mystacinus_1.txt",h=TRUE)

attach(mysta1)

summary(mysta1)
GB FC

Min. :33.10 Min. :33.40


1st Qu.:34.60 1st Qu.:34.70
Median :35.40 Median :35.10
Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


Données
mysta1<-read.table(« mystacinus_1.txt",h=TRUE)

attach(mysta1)

summary(mysta1)
GB FC

Min. :33.10 Min. :33.40


1st Qu.:34.60 1st Qu.:34.70
Median :35.40 Median :35.10
Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


9

6
mysta1<-read.table(« mystacinus_1.txt",h=TRUE)
Fréquence (%)

5 Moyenne
4

3 (mean)
attach(mysta1)
2

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Revenu mensuel en euros

Médiane summary(mysta1)
GB FC
(median)
Min. :33.10 Min. :33.40
1st Qu.:34.60 1st Qu.:34.70
1er quartile 3e quartile Median :35.40 Median :35.10
(1st Qu) (3rd Qu) Mean :35.29 Mean :35.17
3rd Qu.:35.83 3rd Qu.:35.50
Max. :37.30 Max. :37.00
NA's :17
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student


Ici on ne détecte pas de différences
Test de normalité significatives entre la distribution des
variables et une distribution normale
shapiro.test(FC)
Shapiro-Wilk normality test … cependant bien souvent avec des
échantillons petits, le test est rarement
data: FC significatif…
W = 0.9815, p-value = 0.2647 ….Il est même recommandé de ne pas
utiliser un test de shapiro pour des
shapiro.test(GB) échantillons inférieurs à 30

Shapiro-Wilk normality test On peut donc faire un test de Student,


on peut raisonnablement faire
data: GB l’hypothèse que les tailles suivent
W = 0.9886, p-value = 0.7964 approximativement une distribution
normale
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test de normalité

shapiro.test(GB)

Shapiro-Wilk normality test

data: GB
W = 0.9886, p-value = 0.7964

shapiro.test(FC)
Shapiro-Wilk normality test

data: FC
W = 0.9815, p-value = 0.2647
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test de normalité
Approche graphique

> library(car)
> qqPlot(GB)

Le diagramme Quantile-
Quantile qqPlot est un outil
graphique permettant
d'évaluer la pertinence de
l'ajustement d'une distribution
empirique donnée à un
modèle théorique (par défaut
la distribution normale) .
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Données
empirique
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Données
empirique

Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne

Quantile d’une distribution normale


de moyenne 35.29 et sd : 0.83
Selon les fonctions
utilisées peut être brute ou
centrée normée
1. COMPARAISONS DE MOYENNES
centrée
1.1 Comparaison de deux moyennes, test t de Student normée

Données
empirique

Moyenne = 35.29
Ecart type = 0.83
Distribution
gaussienne

Quantile d’une distribution normale


de moyenne 35.29 et sd : 0.83
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test d’homogénéité des variances Il faut présenter les


données sous une
> mysta2<-read.table("mystacinus_2.txt", h=TRUE) autre forme
> attach(mysta2)
> summary(mysta2)
OBSERVATEUR AB
FC:85 Min. :33.10
GB:68 1st Qu.:34.70
Median :35.20
Mean :35.22
3rd Qu.:35.70
Max. :37.30
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test d’homogénéité des variances

mysta2<-read.table("mystacinus_2.txt", h=TRUE)
attach(mysta2)
summary(mysta2)
var.test(AB~OBSERVATEUR)

F test to compare two variances

data: AB by OBSERVATEUR
F = 0.6921, num df = 84, denom df = 67, p-value = 0.1099
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4353795 1.0871368 Pas de différences
sample estimates: significatives des variances
ratio of variances entre les mesures de
0.6920924 l’observateur FC et GB
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test du caractère aléatoire

Normalement c’est surtout qu’ici que doit intervenir un avis d’expert sur
les données. Car globalement assez difficile de savoir, sans à priori, si
le jeu de données présente un caractère aléatoire…..

Les test disponibles évaluent par exemple si l’ordre d’apparition des


valeurs dans le tableau de données présente un caractère aléatoire
= dernier recours quand on ne connait absolument pas son jeu de
données !!!!!
Car sinon explorer si d’autres variables pourraient rentrer en ligne de
compte (la date, l’heure, les instruments de mesures utilisés….)
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test du caractère aléatoire


> library(lawstat)
> mysta2GB<-read.table("mystacinus_2GB.txt", h=TRUE)
> attach(mysta2GB)
> summary(mysta2GB)
> bartels.test(AB)

Bartels Test - Two sided

data: AB
Standardized Bartels Statistic = -0.7641,
RVN Ratio = 1.815,
p-value = 0.4448

La série de donnée présente


un caractère aléatoire
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test du caractère aléatoire

p-value = 0.4448 p-value = 5.873e-07


Si données sont
ordonnée par la date,
1. COMPARAISONS DE MOYENNES peut être qu’il existe
une variation de la taille
liées à la date : arrivée
1.1 Comparaison de deux moyennes, test t de Student d’individus nordiques
(plus gros) ?
Modèle linéaire à
Test du caractère aléatoire envisager

p-value = 0.4448 p-value = 5.873e-07


1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test de normalité OK Conditions d’applications


Test d’homogénéité des variances OK des tests paramétriques
Test du caractère aléatoire OK
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

> mysta1<-read.table("mystacinus_1.txt", h=TRUE)


> attach(mysta1)
> t.test(FC,GB, var.equal = TRUE)
On n’a pas trouver de
Two Sample t-test problème d’homogénéité des
variances, var.equal=TRUE
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3687172 0.1363642
sample estimates: Pas de différences
mean of x mean of y significatives des
35.17059 35.28676 moyennes des mesures
d’avant bras entre
l’observateur FC et GB
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

> mysta1<-read.table("mystacinus_1.txt", h=TRUE)


> attach(mysta1)
> t.test(FC,GB, var.equal = TRUE)
On n’a pas trouver de
Two Sample t-test problème d’homogénéité des
variances, var.equal=TRUE
data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3687172 0.1363642
sample estimates: Pas de différences
mean of x mean of y significatives des
35.17059 35.28676 moyennes des mesures
d’avant bras entre
l’observateur FC et GB
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Test d’homogénéité des variances Valeur du test t (t)


Nombre de degré de liberté (df)
> t.test(FC,GB, var.equal = TRUE) Valeur de la probabilité associé (p)

Two Sample t-test

data: FC and GB
t = -0.9089, df = 151, p-value = 0.3648
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3687172 0.1363642
sample estimates: Intervalle de confiance à
mean of x mean of y 95% de la différence entre
35.17059 35.28676 les deux moyennes

Moyenne de FC Moyenne de GB
1. COMPARAISONS DE MOYENNES

1.1 Comparaison de deux moyennes, test t de Student

Si on avait supposé que les variances n’étaient pas forcément égales, par
défaut var.equal = FALSE

> t.test(FC,GB)

Welch Two Sample t-test

data: FC and GB
t = -0.8906, df = 129.956, p-value = 0.3748
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3742487 0.1418957
sample estimates: IDEM
mean of x mean of y Pas de différences
35.17059 35.28676 significatives des
(ici df décimal car moyennes des mesures
approximation de d’avant bras entre
Welsh)
l’observateur FC et GB
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

P2 P2
P1 P1

P3 P3 P9
P9
P4 P4

P7 P7 P8 P10
P5 P6 P8 P10 P5 P6
Gestion par
le pâturage

2008 2009
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009
P2
P1
PARCELLE effectif2008 effectif2009
P3 P9 P1 80 83
P4
P2 97 110

P7
P3 102 110
P5 P6 P8 P10
P4 34 37
P5 21 24
P6 10 20
P7 45 47
P8 7 24
P9 126 130
P10 34 33
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées


PARCELLE effectif2008 effectif2009
P1 80 83
P2 97 gestion<-read.table("gestion_parcelle.txt",h=TRUE)
110
P3 102 110
attach(gestion)
P4 34 37
P5 21 24
summary(gestion)
P6 10 PARCELLE
20 effectif2008 effectif2009
P7 45
P1 :1 47
Min. : 7.00 Min. : 20.00
P10 :1 1st Qu.: 24.25 1st Qu.: 26.25
P8 7 24
P2 :1 Median : 39.50 Median : 42.00
P9 126 P3 130
:1 Mean : 55.60 Mean : 61.80
P10 34 P4 :1 33 3rd Qu.: 92.75 3rd Qu.: 103.25
P5 :1 Max. : 126.00 Max. : 130.00
(Other):4
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées


PARCELLE effectif2008 effectif2009
P1 80 83
P2 97 gestion<-read.table("gestion_parcelle.txt",h=TRUE)
110
P3 102 110
attach(gestion)
P4 34 37
P5 21 24
summary(gestion)
P6 10 PARCELLE
20 effectif2008 effectif2009
P7 45
P1 :1 47
Min. : 7.00 Min. : 20.00
P10 :1 1st Qu.: 24.25 1st Qu.: 26.25
P8 7 24
P2 :1 Median : 39.50 Median : 42.00
P9 126 P3 130
:1 Mean : 55.60 Mean : 61.80
P10 34 P4 :1 33 3rd Qu.: 92.75 3rd Qu.: 103.25
P5 :1 Max. : 126.00 Max. : 130.00
(Other):4

La variable parcelle est en alpha numérique, elle n’est pas numérique, dans
le summary il y a juste une énumération des catégories ici 10 parcelles
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

En plus de la moyenne on souhaite obtenir l’erreur standard


 Erreur Standard SE = Sx /√n Sx = √variance

sqrt(var(effectif2008)/length(effectif2008))
[1] 13.37593
sqrt(var(effectif2009)/length(effectif2009))
[1] 13.33983

Effectif 2008 : 55 ± 13 SE
Effectif 2009 : 62 ± 13 SE
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

Test de normalité

shapiro.test(effectif2008)

Shapiro-Wilk normality test

data: effectif2008
W = 0.908, p-value = 0.2675

shapiro.test(effectif2009) …pas de différences significatives


entre la distribution des variables
Shapiro-Wilk normality test et une distribution normale

data: effectif2009 … cependant c’est juste limite…


W = 0.8456, p-value = 0.0515
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009
Vérifier l’homogénéité des variances
PARCEL effectif20 effectif20
t.test(effectif2008, effectif2009) LE 08 09
P1 80 83
Welch Two Sample t-test P2 97 110
P3 102 110
data: effectif2008 and effectif2009 P4 34 37
t = -0.3282, df = 18, p-value = 0.7465 P5 21 24
alternative hypothesis: true difference in means is not P6 10 20
equal to 0 P7 45 47
95 percent confidence interval: P8 7 24
-45.88836 33.48836 P9 126 130
sample estimates: P10 34 33
mean of x mean of y
55.6 61.8
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009

PARCEL effectif20 effectif20


t.test(effectif2008, effectif2009, paired=TRUE) LE 08 09
P1 80 83
Paired t-test P2 97 110
P3 102 110
data: effectif2008 and effectif2009 P4 34 37
t = -3.4804, df = 9, p-value = 0.006934 P5 21 24
alternative hypothesis: true difference in means is not P6 10 20
equal to 0 P7 45 47
95 percent confidence interval: P8 7 24
-10.229773 -2.170227 P9 126 130
sample estimates: P10 34 33
mean of the differences
-6.2
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009
P2 Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement
P1 80 83 0,04
P3 P9 P2 97 110 0,12
P4 P3 102 110 0,07
P4 34 37 0,08
P7 P5 21 24 0,13
P5 P6 P8 P10
P6 10 20 0,50
P7 45 47 0,04
P8 7 24 0,71
P9 126 130 0,03

P10 34 33 -0,03
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009
P2 Conclusion:Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement

P3 UnP1 plan d’échantillonnage


80 83 basé0,04sur des
P9 110 le plus à0,12
données
P2 appariées
97 sera même de
P4 P3
détecter 102
des effets 0,07
des110variations d’abondance
P4 le temps. 34
dans 37 0,08
P7 P5 21 24 0,13
P5 P6 P8 P10
P6 10 20 0,50
C’est le cas de nombreux programmes
0,04
de
P7 45 47
surveillance
P8
de la
7
biodiversité
24 0,71
- P9STOC EPS,126STOC Capture
130 0,03
- Vigie Chiro, Vigie Flore, STERF…
Comptage d’oiseaux
- P10 34 d’eau
33 -0,03
hivernant
- ………..
1. COMPARAISONS DE MOYENNES

1.2 Comparaison de deux moyennes, test t de Student pour séries appariées

2008 2009
P2 Conclusion:Effectif Effectif
P1 Parcelle 2008 2009 Taux accroissement

P3 CeP1 dispositif teste


80 t-il réellement
83 un0,04
effet de la
P9 0,12
gestion
P2 ou un effet
97 année 110?
P4 P3 102 110 0,07
P4 dispositif pour
Quel 34 être 37 0,08 un
certain de tester
P5 0,13
P5 P6
P7 P8 P10 effet gestion ? 21 24
P6 10 20 0,50
P7 45 47 0,04
P8 7 24 0,71
P9 126 130 0,03

P10 34 33 -0,03
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes, deux à deux, pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Espece LP
ACROLA 65
ACROLA 66.5
ACROLA 68
ACROLA 61
ACROLA 61
ACRSCH 63
ACRSCH 66
ACRSCI 64
ACRSCH 64
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

acrolp<-read.table("lpacrocephalus.txt",h=TRUE)
attach(acrolp)
summary(acrolp)
Espece LP
ACROLA: 880 Min. :52.00
ACRSCH: 1128 1st Qu.:63.50
ACRSCI: 3538 Median :64.50
Mean :64.58
3rd Qu.:66.00
Max. :72.50
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

ACROLA: 880 acrola<-subset(acrolp, Espece=='ACROLA')


ACRSCH: 1128 attach(acrola)
ACRSCI: 3538 The following object(s) are masked _by_ .GlobalEnv : Espece
The following object(s) are masked from acrolp : Espece LP

summary(acrola)
Espece LP
ACROLA:880 Min. :59.00 On vient ici d’
écraser la variable
ACRSCH: 0 1st Qu.:63.00
LP du jeux de
ACRSCI: 0 Median :64.00 donnée acrolp par
Mean :63.87 celle de la table
3rd Qu.:65.00 acrola, qui ne
contient aussi une
Max. :68.00 variable nommée
LP !!!!
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

ACROLA: 880 acrola<-subset(acrolp, Espece=='ACROLA')


ACRSCH: 1128 attach(acrola)
ACRSCI: 3538 The following object(s) are masked _by_ .GlobalEnv : Espece
The following object(s) are masked from acrolp : Espece LP
summary(acrola)
Espece LP
ACROLA:880 Min. :59.00
ACRSCH: 0 1st Qu.:63.00
ACRSCI: 0 Median :64.00
Mean :63.87
3rd Qu.:65.00
Max. :68.00
shapiro.test(LP)
Shapiro-Wilk normality test
Data: LP
W = 0.9859, p-value = 1.790e-07
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole


shapiro.test(LP)
Shapiro-Wilk normality test
Data: LP
W = 0.9859, p-value = 1.790e-07

Ici on détecte une différence significative entre la


distribution des variables et une distribution normale
… cependant bien souvent avec de grand échantillons, le
test est « très sensible »…

Peut-on raisonnablement faire l’hypothèse que les tailles


suivent approximativement une distribution normale ?
Approche graphique
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

Distribution des tailles du


phragmite aquatique (acrola)
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicoles

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique
Profitons pour explorer la commande hist
hist(LP, breaks=seq(59,71, 0.5))

graduation

Echelle de X,
min, max

Certains observateurs ne mesurent pas les demi


millimètres !!!!
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

boxplot(LP~Espèce, notch=TRUE,
outline=FALSE, ylim=c(60,70))
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

boxplot(LP~Espece, notch=TRUE, Les «notch», invention de John Tuckey


outline=FALSE, ylim=c(60,70))
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmentent avec


outline=FALSE, ylim=c(60,70)) l’amplitude de l’interquantile (IQR) et décline
en fonction de la taille de l’échantillon.
IQR
Notch = ± 1.58
√n
IQR

Valeur multiplicative « empirique » parfois


discutée….
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmente avec


outline=FALSE, ylim=c(60,70)) l’amplitude de l’interquantile (IQR) et décline
en fonction de la taille de l’échantillon.
IQR
Notch = ± 1.58
√n

Quand les notches ne se chevauchent pas on


peut raisonnablement penser qu’il y existe une
différence significative entre les médianes…
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

Peut-on raisonnablement faire l’hypothèse que les tailles suivent


approximativement une distribution normale ? Approche graphique

boxplot(LP~Espece, notch=TRUE, Les «notch», elles augmente avec


outline=FALSE, ylim=c(60,70)) l’amplitude de l’interquantile (IQR) et décline
en fonction de la taille de l’échantillon.
IQR
Notch = ± 1.58
√n

Quand les notch dépassent le 75


percentile ou le 25 percentile…
c’est que la distribution
?
commence à présenter des
«défauts» sérieux et
incontournable !
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicole

pairwise.t.test(LP, Espece, p.adj =


"bonferroni")

Pairwise comparisons using t tests with


pooled SD

data: LP and Espèce

ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1
1. COMPARAISONS DE MOYENNES

1. 3 Comparaison de plus de deux moyennes deux à deux pairwise t test

Longueur d’aile de 3 fauvettes paludicoles

pairwise.t.test(LP, Espèce, p.adj =


"bonferroni")

Pairwise comparisons using t tests with


pooled SD

data: LP and Espèce

ACROLA ACRSCH
ACRSCH <2e-16 -
ACRSCI <2e-16 1

Bonferroni méthode très conservative,


on pourra choisir hochberg
1.4 Comparaison de deux moyennes, test W de Wilcoxon

Les tests non paramétriques ne font


aucune hypothèse sur la distribution
sous-jacente des données. On les
qualifie souvent de tests distribution free.
Lorsque les données sont quantitatives,
les tests non paramétriques transforment
les valeurs en rangs.
L’appellation tests de rangs est souvent
rencontrée.

Frank Wilcoxon
(1892–1965)

Condition d’application des tests non paramétriques:


1. Le caractère aléatoire et simple des données
2. Pour le Wilcoxon et Kruskal : la relative symétrie de la distribution
1.4 Comparaison de deux moyennes, test W de Wilcoxon

Le test Mann-Whitney-Wilcoxon Test, également appelé test de la somme des


rangs de Wilcoxon, est un test non-paramétrique utilisé pour tester les
différences entre médianes de deux groupes indépendants. Ce test est
l’équivalent non-paramétrique du test t de Student pour deux échantillons
indépendants. Fonction wilcox.test(X,Y)

Attention dans la littérature il existe un test dit de Wilcoxon qui lui est
spécifiquement dédiée au données appariées. Tout comme le test de
Student appariées il faudra le préciser
Fonction wilcox.test(X, Y , paired=TRUE)
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale


Masse des poussins de Données Pour être sur que ce
cormoran huppé d’âge 1 soit bien reconnu
X2001 X2005
comme en tête ça
580 600
fait pas de mal de
580 660 mettre un caractère
580 680 alphabétique
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980
730 1000
750 NA
770 NA
770 NA
780 NA
800 NA
810 NA
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale


Masse des poussins de Données corm<-read.table("PoussinCormoran.txt",h=TRUE)
cormoran huppé d’âge 1 attach(corm)
X2001 X2005 summary(corm)
580 600 X2001 X2005
580 660 Min. :580.0 Min. : 600
580 680 1st Qu.:612.5 1st Qu.: 695
590 700 Median :680.0 Median : 820
610 800 Mean :685.6 Mean : 810
620 820 3rd Qu.:765.0 3rd Qu.: 895
650 820 Max. :810.0 Max. :1000
660 820 NA's : 6
660 870
700 970 shapiro.test(X2001)
700 980 Shapiro-Wilk normality test
730 1000 data: X2001
750 NA W = 0.9126, p-value = 0.09561
770 NA
770 NA shapiro.test(X2005)
780 NA Shapiro-Wilk normality test
800 NA data: X2005
810 NA W = 0.9375, p-value = 0.4663
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale


Masse des poussins de Données
cormoran huppé d’âge 1
X2001 X2005
580 600
580 660
580 680 Une raison valable pour ce méfier de la
590 700 normalité de ces données malgré le passage
610 800 du feu réussi par le test de Shapiro et du
620 820 coup de ne pas faire un t.test :
650 820
660 820 C’est la nature des données, il s’agit de
660 870 masse,
700 970
700 980
730 1000
750 NA
770 NA
770 NA
780 NA
800 NA
810 NA
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale

Masse des poussins de


X2001 X2005
cormoran huppé d’âge 1
580 600
580 660
580 680
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980

wilcox.test(X2001,X2005) 730 1000


750 NA
Wilcoxon rank sum test with continuity correction
770 NA
data: X2001 and X2005
770 NA
W = 42.5, p-value = 0.00583 780 NA
alternative hypothesis: true location shift is not equal to 0 800 NA
810 NA
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale


Masse des poussins de Données
cormoran huppé d’âge 1 wilcox.test(X2001,X2005)
2001 2005 Wilcoxon rank sum test with continuity
580 600 correction
580 660
data: X2001 and X2005
580 680
W = 42.5, p-value = 0.00583
590 700
610 800
alternative hypothesis: true location shift is
620 820
not equal to 0
650 820 Warning message:
660 820 In wilcox.test.default(X2001, X2005) :
660 870 cannot compute exact p-value with ties
700 970
700 980
t.test(X2001,X2005)
730 1000
Welch Two Sample t-test
750 NA
770 NA
data: X2001 and X2005
770 NA
t = -2.9237, df = 16.674, p-value = 0.009618
780 NA
800 NA
810 NA
1.4 Comparaison de deux moyennes, test Mann-Whitney-Wilcoxon Test

Petits échantillons et variables de loi inconnue ou non normale


Masse des poussins de Données
cormoran huppé d’âge 1
X2001 X2005
580 600
580 660
580 680
590 700
610 800
620 820
650 820
660 820
660 870
700 970
700 980
730 1000
750 NA Ici les notch se recouvrent, pourtant le test
770 NA est significatif…
770 NA
780 NA
En fait lorsque les notch ne se recouvrent
800 NA pas le test a de grande chance d’être
810 NA significatif, mais pas forcément l’inverse….
1.5 Comparaison simultanée de plus de « deux moyennes »,
test H de Kruskal-Wallis
Petits échantillons et variables de loi inconnue ou non normale

William Henry Kruskal Wilson Allen Wallis


(1919 – 2005) (1912 – 1998)

….En fait avec ce test on compare les médianes !!!!


1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis

Petits échantillons et variables de loi inconnue ou non normale

Age Richesse
Ici on souhaite
0 12
considérer la
0 11
0 16
variable « Age »
2 17
comme une
2 12 variable en
2 17 catégorie, mais
3 12 on aurait aussi
3 8 pu la considérer
3 16
comme
3 25
continue…ça
3 17
4 20
aurait été un
5 10
autre test
(corrélation)
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis

Petits échantillons et variables de loi inconnue ou non normale

Age Richesse
0 12
rich<-read.table("Richesse.txt",h=TRUE)
0 11
attach(rich)
0 16
2 17
summary(rich)
2 12
Age Richesse
2 17 Min. : 0.000 Min. : 1.00
3 12 1st Qu.: 1.000 1st Qu.:10.00
3 8 Median :3.000 Median :12.00
3 16 Mean : 2.453 Mean :12.95
3 25
3rd Qu.: 3.000 3rd Qu.:16.25
3 17
Max. : 5.000 Max. :25.00
4 20
5 10
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis

Petits échantillons et variables de loi inconnue ou non normale

Richesse
Age Richesse
0 12
0 11
0 16
2 17
2 12
2 17
3 12
3 8
3 16
3 25
3 17
4 20
5 10

Age
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis

Petits échantillons et variables de loi inconnue ou non normale

kruskal.test(Richesse~Age) Richesse

Richesse (Y) ~ Age (X)


Le test de Kruskal-Wallis est souvent
utilisé pour comparer une variable
quantitative et une variable 3
qualitative.

L’ordre dans la ligne de commande 0


est a respecter !

kruskal.test(VarQuantitative, VarQualitative)
Age
1.5 Comparaison simultanée de plus de deux moyennes, test H de Kruskal-Wallis

Petits échantillons et variables de loi inconnue ou non normale

kruskal.test(Richesse,Age) Richesse

Kruskal-Wallis rank sum test

data: Richesse and Age 3


Kruskal-Wallis chi-squared = 11.4515,
df = 5, p-value = 0.04313

Ici on a comparé des moyennes, mais


on pourrait aussi traiter ce problème
comme deux variables quantitatives
et être dans le domaine des
régression/corrélation Age
pairwise.wilcoxon.test ()

pairwise.wilcox.test(Richesse, Age, p.adj = "bonf")

0 1 2 3 4
1 1.00 - - - -
2 0.43 1.00 - - -
3 0.14 1.00 1.00 - -
4 0.94 1.00 1.00 1.00 -
5 1.00 1.00 1.00 1.00 1.00

P value adjustment method: bonferroni

pairwise.t.test(Richesse, Age, p.adj = "bonf")

0 1 2 3 4
1 1.0000 - - - -
2 0.5724 1.0000 - - -
3 0.0055 0.8321 1.0000 - -
4 0.2384 1.0000 1.0000 1.0000 -
5 1.0000 1.0000 1.0000 0.6878 1.0000

P value adjustment method: bonferroni


Proportion dans
des Habitats

X Var. Var. quantitative


catégorielle ex: continue

Répartition du
Var. Analyse de
sex ratio
catégorielle fréquence /
comparaison de
♀♂ pourcentage

Var. quantitative Comparaison Corrélation


ex: continue de moyenne Régression
2. COMPARAISON DE POURCENTAGES

2.1 Comparaison entre elles de plusieurs distributions observées, chi2


d’homogénéité

2.2 Comparaison entre elles de plusieurs distributions observées (N petit),


test exact de Fisher

2.3 Comparaison d’une distribution observée avec une distribution


théorique : chi2 de conformité

2.4 Comparaison de 2 proportions: Binomial test

2.5 Test de conformité d’une proportion

2.6. Le test de Mac Nemar (khi-carré de McNemar) pour comparer les


proportions d’observations appariées.

2.7 Comparaison de deux distributions, toute conditions du Chi2 pas


forcément respectées : test de Kolmogorov-Smirnov
2.1 Comparaison entre elles de plusieurs distributions observées, chi2
d’homogénéité
La proportion de jeunes dans la population varie t’elle entre deux sites ?
Indice de production (Nb jeunes/nb adultes) proxi de la qualité du milieu
Sites 1 : 80% de jeunes site 2 : 32%
1er étape revenir aux valeurs brutes !

Site 1 Site 2 Total


Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103

Hypothèse Ho les proportions sont les mêmes entre les deux populations !
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)

William Cochran
(1909-1980)
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)

William Cochran
(1909-1980)

…de pas oublier les non occurrences !!!!


Sobre Ivre
Accident 70 15
Non accident 2500 40
Condition d’application du Chi2 : pas plus de 20% des effectifs
théoriques inférieurs à 5 (règle de Cochran)

William Cochran
(1909-1980)

…de pas oublier les non occurrences !!!!


Sobre Ivre
Accident 70 15
Non accident 2500 40
Nb d’évènements observés :
Site 1 Site 2 Total
Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103

Site 1 Site 2 Total


Jeunes 45 15 60
Adultes 11 32 43
Total 56 47 103
Statistique :
(56x60)/103 somme des carrés
des écarts entre
Nb d’évènements attendus sous Ho : valeurs attendues
Site 1 Site 2 Total et valeurs
observées
Jeunes 32.6 27.4 60
divisées par
Adultes 23.4 19.6 43 valeurs attendues,
si Ho vrai Khi2 = 0
Total 56 47 103
Avec Excel

Résultat : 6 10-7 ; donc chance infime pour que ce soit Ho soit vraie, donc il
existe une différence dans la proportion de jeunes oiseaux entre les sites
Avec R

Question : existe t-il une ségrégation


des individus en fonction de la qualité
de l’habitat ?

Hab.1 Hab.2 Hab.3


Jeunes 45 25 18
Immature 26 28 14
Adultes 7 14 17

chisq.test(table1)
Pearson's Chi-squared test

data: table1
X-squared = 16.1487, df = 4, p-value = 0.002826
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?

Hab.1 Hab.2 Hab.3


Jeunes 45 25 18
Immature 26 28 14
Adultes 2 5 7

Effectifs théoriques
tab2<-read.table("table2.txt",h=TRUE, row.names=1)
37.8 30.0 20.2
attach(tab2)
29.2 23.2 15.6
chisq.test(tab2)
Pearson's Chi-squared test 6.0 4.8 3.2
data: table22
X-squared = 11.1177, df = 4, p-value = 0.02527
Warning message:
In chisq.test(chi2) : Chi-squared approximation may be incorrect
2.2 Comparaison entre elles de plusieurs distributions observées (N petit),
test exact de Fisher
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?

Hab.1 Hab.2 Hab.3


Jeunes 45 25 18
Immatures 26 28 14
Adultes 2 5 7

Effectifs théoriques
Dans le cas de très petits effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
Sir Ronald Aylmer 6.0 4.8 3.2
Fisher,
(1890 – 1962)
2.2 Comparaison entre elles de plusieurs distributions observées (N petit), test
exact de Fisher
Question : existe t-il une ségrégation
des individus en fonction de la qualité
de l’habitat ?

Hab.1 Hab.2 Hab.3


Jeunes 45 25 18
Immature 26 28 14
Adultes 2 5 7

Effectifs théoriques
Dans le cas de très petitq effectifs ou de règle de
37.8 30.0 20.2
Cochran non respectée on utilise un test de Fisher
29.2 23.2 15.6
6.0 4.8 3.2
fisher.test(table2)
Fisher's Exact Test for Count Data
data: table2
p-value = 0.02775
alternative hypothesis: two.sided
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
3A OUI (0.8 juv/femelle) 0.89 0.15
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Attention au format des données Age Structure d’âge
dans R : données théorique en observée
proportion (avec somme = 1) et 1A 120 (0.15)
données observées brutes 2A 230 (0.29)
3A 180 (0.23)
theorique=c(0.12,0.21,0.15,0.52) 4A+ 250 (0.32)
observed=c(120,230,180,250)
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
3A OUI (0.8 juv/femelle) 0.89 0.15
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Age Structure d’âge
observée
1A 120 (0.15)
2A 230 (0.29)
3A 180 (0.23)
observed=c(120,230,180,250) 4A+ 250 (0.32)
theorique=c(0.12,0.21,0.15,0.52)
chisq.test(observed,p=theorique)

Chi-squared test for given probabilities


data: observed
X-squared = 127.8168, df = 3, p-value < 2.2e-16
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité

resultat <- chisq.test(observed, p=theorique)


round(100*resultat$residuals,1) Ici on identifie que la
classe d’âge 4A+ est plus
[1] 272.9 517.3 582.4 - 772.6 faible qu’attendue par
rapport à la distribution
théorique modélisée
Nombre de chiffre après la virgule
2.3 Comparaison d’une distribution observée avec une distribution
théorique : le test du chi2 de conformité
Age Reproduction Survie Structure d’âge à l’
équilibre (théorique)
1 An
1A NON 0.67 0.12
2 Ans
2A OUI (0.8 juv/femelle) 0.81 0.21
3 Ans
3A OUI (0.8 juv/femelle) 0.89 0.15
4 Ans +
4A+ OUI (0.8 juv/femelle) 0.98 0.52
0 20 40 60
Age Structure d’âge
observée
1A 120 (0.15)
2A 230 (0.29)
3A 180 (0.23)
4A+ 250 (0.32)

La distribution observée diffère de la prédiction du modèle, donc le modèle n’est


pas réaliste : au moins une hypothèse n’est pas respectée : la population étudiée
n’est peut être pas à l’équilibre, ou n’est pas close (immigration)…etc.
2.4 Comparaison de 2 proportions: Binomial test

196 champions
4 championnes
2.4 Comparaison de 2 proportions: Binomial test

196 champions / 3270 candidats 6%


4 championnes / 40 candidates 10%
2.4 Comparaison de 2 proportions: Binomial test

196 champions / 3270 candidats 6%


4 championnes / 40 candidates 10%

prop.test(c(4,196), c(40, 3270))

2-sample test for equality of proportions with continuity correction


data: c(4, 196) out of c(40, 3270)
X-squared = 0.5229, df = 1, p-value = 0.4696
alternative hypothesis: two.sided
95 percent confidence interval:
-0.06591631 0.14603864
sample estimates:
prop 1 prop 2
0.10000000 0.05993884
2.5 Test de conformité d’une proportion

Sex-ratio chez le murin échancré 155


71 femelles (46%), 84 mâles (54%)

Question : on teste l’égalité de la proportion à 50%

> binom.test(84, n=155, p=0.5, alternative="greater")

Exact binomial test

data: 84 and 155


number of successes = 84, number of trials = 155, p-value = 0.1676
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
0.4727095 1.0000000
sample estimates:
probability of success
0.5419355
2.6 Le test de Mac Nemar (khi-carré de McNemar) pour comparer les
proportions d’observations appariées.

Geobatracomyscetes desctructor ?

Succès Echec
Succès 20 12
Echec 2 16
> GDestructorData <- matrix(c(20, 2, 12, 16), 2)
Milieu de Milieu de > mcnemar.test (GDestructorData)
culture A culture B
McNemar's Chi-squared test with continuity
correction
data: McNemData McNemar's chi-squared =
5.7857, df = 1, p-value = 0.01616
2.7 Comparaison de deux distributions, test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est, à la base, un test d’hypothèse de conformité


d’une distribution à une Loi (test d’adéquation). Aucune hypothèse sur les données
(c’est-à-dire que c’est un test non-paramétrique à distribution libre
Exemple test de normalité :
ks.test (echantillon, "pnorm",mean (echantillon),sd(echantillon))

Une extension du test permet de l’utiliser pour comparer deux distributions.


Il permet de tester si deux échantillons indépendants sont extraits de la même
population ou de populations ayant la même distribution.

Andrey Nikolaevich Kolmogorov Vladimir Ivanovich Smirnov


(1903-1987) (1887- 1974)
2.7 Comparaison de deux distributions, test de Kolmogorov-Smirnov

Question “biologique” : Les Pipistrelles des deux sexes ont-ils des territoires de
superficie comparable ?
Hypothèses stats : H0 = Il n’y a pas de différence dans la distribution de la variable
pour les deux sexes ; H1 = les distributions de la variable taille du domaine vital sont
différentes entre les deux sexes pour les pipistrelles.

> PipistrelleMale <- c (163, 154, 173, 260, 274, 318)


> PipistrellesFemelles <-c (118, 72, 40, 29, 18, 7, 102, 49, 20)
> ks.test (PipistrelleMale, PipistrellesFemelles)
Two-sample Kolmogorov-Smirnov test

data: PipistrelleMale and PipistrellesFemelles


D = 1, p-value = 0.0003996
alternative hypothesis: two-sided

Les variables de type surface


(domaines vitaux…etc) se
comportent rarement
« normalement » de plus il ne s’agit
pas d’individus au sens Chi²
2.7 Comparaison de deux distributions, toute conditions du Chi2 pas
forcément respectées : test de Kolmogorov-Smirnov
0.9
B
10 0.7
8
0.5
6
0.3
4
2
capture recapture 0.1

-0.1 0 10 20 30 40
0
-2 0 5 10 15 20 25 30 35 40 -0.3
0.9
-4 -0.5 C
0.7
-6
-8 Nombre de jours entre deux captures 0.5

0.3

( Mr  Mc)
G' 
0.1

Mc -0.1 0

-0.3
5 10 15 20 25 30 35 40

10
8 -0.5
acrshc acrola
6
4
Gain -0.4034 -0.1579

2 -0.3438 -0.1417
0 -0.3247 -0.1176
-2 0 5 10 15 20 25 30 35 40
-0.2857 -0.1040
-4
-0.2759 -0.0866
-6 Perte
-0.2624 -0.0862
-8
-0.2593 -0.0849
-0.2576 -0.0833
-0.2424 -0.0721
… …
… …
2.7 Comparaison de deux distributions, toute conditions du Chi2 pas
forcément respectées : test de Kolmogorov-Smirnov
10
8
6
4
2
capture recapture
0
-2 0 5 10 15 20 25 30 35 40
-4
-6
-8 Nombre de jours entre deux captures

ks.test(acrsh,acrola)

Two-sample Kolmogorov-Smirnov test

data: acrsh and acrola Donc pas de différence


D = 0.1586, p-value = 0.1675 significative entre les deux
alternative hypothesis: two-sided distributions de gain relatif de
masse
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

« Première chose frappante parmi les résultats pour cette espèce, elle est
quasiment absente de la zone d’étude pendant les deux premières sessions
(exceptés sur les points D, F et J). Ceci confirme les informations
bibliographiques faisant état d’une disparition de l’espèce sur l’île de Janvier à
mai (Mouton 1982). Notre analyse sur la fréquentation spatiale de la zone
uniquement se fait donc sur les sessions 3 et 4 seulement. »
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

450
400
350
300
250
200
150
100
50
0
1 2 3 4
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

SITE sesssion abondance


A sesssion_1 6 > pairwise.wilcox.test(abondance, sesssion,
B sesssion_1 0 paired=TRUE, p.adj = "bonf ")
C sesssion_1 77
D sesssion_1 331
E sesssion_1 0
F sesssion_1 135
G sesssion_1 44 sesssion_1 sesssion_2 sesssion_3
H sesssion_1 0 sesssion_2 1.00 - -
I sesssion_1 38 sesssion_3 0.12 0.12 -
J sesssion_1 342 sesssion_4 0.93 1.00 0.29
A sesssion_2 82
B sesssion_2 0
C sesssion_2 2
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

« Il apparait que les deux sites


correspondant au ravines (B et
E) ne sont pas du tout
fréquentés par l’espèce. Celle-ci
préfère les milieux plus ouverts
du pied de falaise pour chasser,
avec une préférence pour les
secteurs (F et J). »
Prise en compte de la faune terrestre vertébrés dans le projet de la nouvelle
route du littoral, rapport M2 EBE 2011-2012

Données relatives aux Taphien de Maurice (Taphozous mauritianus)


SITE sesssion_1 sesssion_2 sesssion_3 sesssion_4
A 6 82 673 180
B 0 0 16 0
C 77 2 217 37
D 331 144 560 202
E 0 0 5 15
F 135 375 667 142
G 44 15 434 264
H 0 547 324 136
I 38 0 424 160
J 342 2 19 362

« Il apparait que les deux sites


correspondant au ravines (B et
E) ne sont pas du tout
fréquentés par l’espèce. Celle-ci
préfère les milieux plus ouverts
du pied de falaise pour chasser,
avec une préférence pour les
secteurs (F et J). »
Concentration
0.9
0.8 d’un polluant
0.7
0.6

Variable
0.5
0.4
0.3
0.2

explicative 0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

X Var. Var. quantitative


Variable à catégorielle ex: continue
expliquée
Y

Var. Analyse de
catégorielle fréquence /
comparaison de
Distribution pourcentage
d’une espèce
0.2

Var. quantitative Comparaison Corrélation


0.1
ex: continue de moyenne Régression
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16