Académique Documents
Professionnel Documents
Culture Documents
Population cible
Population statistique
Cadre d’échantillonnage
Unité d’échantillonnage
Éléments
3
paramètres d’intérêt ne soit pas biaisée. Le cadre d’échantillonnage consiste en la totalité des unités
d’échantillonnage qui ont la possibilité de constituer un échantillon. À titre d’exemple, l’ensemble des
étangs se trouvant au sein du Parc du Mont Saint-Bruno et qui sont accessibles pour des fins
d’échantillonnage. Il s’ensuit que les paramètres qui seront estimés ne pourront caractériser que ce
cadre d’échantillonnage ou population statistique. Il est donc préférable que le cadre d’échantillonnage
soit le plus représentatif possible de la population cible. L’estimation de paramètres caractérisant le
cadre d’échantillonnage ou population statistique est une inférence statistique basée sur des éléments
théoriques. Étendre les conclusions jusqu’à la population cible revient aux chercheurs et ne dépend
donc que de leur jugement.
5
E (C i ) = δ i N i .
En d’autres termes, la détectabilité ou probabilité de détection sera incomplète (i.e., δ < 1); une
détectabilité complète impliquerait que δi = δ = 1. Dans une situation où la détectabilité est incomplète,
mais constante dans l’espace, le temps ou une autre dimension (i.e., δi = δ < 1), l’estimation de la
densité d’individus ou de la taille d’une population sera biaisée, mais il sera possible d’effectuer des
comparaisons dans l’espace, le temps ou toute autre dimension. Lorsque la détectabilité est incomplète
et variable dans l’espace, le temps ou une autre dimension (i.e., δi ≠ δj et δ < 1), il est par contre
impératif d’utiliser une méthode qui estimera la probabilité de détection et corrigera les estimations des
paramètres d’intérêt. Sans quoi, les conclusions de l’étude seront probablement truffées d’erreurs
causées par des effets confondants. Malheureusement, il est difficile de distinguer les cas où la
probabilité de détection est constante ou variable. Il s’ensuit que celle-ci devrait toujours être prise en
considération. Les méthodes d’échantillonnage par distance, double-observateurs, ou par capture-
marquage-recapture offrent des solutions aux problème de détection incomplète (voir sections A1.15 et
A1.16).
6
probabilité de détection dans le cadre de dénombrements partiels (e.g., par capture-marquage-
recapture) ne peuvent éliminer les effets de bordure.
La probabilité de détection des organismes est aussi affectée par la forme des parcelles. De fait,
il est généralement plus facile de repérer des individus en parcourant une parcelle longue et étroite (i.e.,
ayant un fort ratio périmètre : surface) qu’une parcelle ayant une forme carrée ou circulaire.
Néanmoins, la probabilité de détection peut diminuer si la présence et le comportement des
observateurs rendent les organismes plus discrets.
La forme des parcelles joue sur la précision des estimations en fonction de la distribution
spatiale des éléments. Plus les éléments seront distribués de façon contagieuse, plus la fréquence des
parcelles incluant, soit aucun ou un grand nombre d’éléments, sera importante. Par conséquent, les
valeurs observées différeront grandement de la valeur attendue de la population statistique. En d’autres
termes, l’estimation de la valeur moyenne sera affligée d’une grande erreur type. Toute chose étant
égale par ailleurs, la précision d’une estimation sera meilleure si les éléments sont disposés
aléatoirement et encore meilleure si ceux-ci sont distribués uniformément. L’utilisation d’une parcelle
présentant un fort ratio périmètre :surface permet d’accroître la précision lorsque les éléments sont
distribués de façon contagieuse. De fait, une parcelle rectangulaire sera plus susceptible de croiser un
groupe d’éléments (en traversant divers habitats, par exemple) qu’une parcelle carrée ou circulaire, et
ce, si la parcelle n’est pas disposée parallèlement à des isoplèthes (e.g., de courbes de niveau ou de
profondeur, ou encore un écotone). Dans un tel cas, une parcelle carrée ou circulaire aurait plus de
chance d’inclure divers habitats et donc de contenir des éléments.
A1.5 Pseudoréplication
La pseudoréplication est le fait de considérer les mesures prises sur des éléments comme étant
indépendantes alors que ces derniers ont pour origine la même unité d’échantillonnage. Dans un tel cas,
les mesures risquent fort probablement d’être corrélées entre-elles. La pseudoréplication a pour effet de
sous-estimer la variance des paramètres et donc de surestimer leur précision. Il s’ensuit que les
inférences statistiques basées sur ces paramètres auront une erreur de type I (α) qui sera plus élevée que
la valeur nominale.
11
exclusive à ce plan d’échantillonnage. Puisque le nombre de combinaisons de n unités
d’échantillonnage est donné par :
N!
C nN =
n!( N − n)!
la probabilité qu’une combinaison de n unités d’échantillonnage soit sélectionnée est donnée par :
−1
⎛ N! ⎞
⎜⎜ ⎟⎟
⎝ n!( N − n)! ⎠
∑y i
µ= i =1
N
Un estimateur non biaisé de µ est :
n
∑y i
y= i =1
n
La variance de la population entière est exprimée par :
N 2
∑ (y i − µ)
σ =
2 i =1
N −1
y
L’estimateur non biaisé de cette variance, en d’autres termes, la variance de l’échantillon, est
simplement :
∑ (y )
n 2
i −y
s =
2 i =1
n −1
y
La variance de l’échantillon représente la variabilité des mesures prises entre les différentes unités
d’échantillonnage. Il ne faut pas confondre cette variance avec celle de la moyenne de l’échantillon. La
variance de la moyenne de la population se calcule selon :
⎛ N − n⎞σ y
2
σ =⎜
2
y ⎟
⎝ N ⎠ n
Un estimateur non biaisé de cette variance est :
12
⎛ N − n ⎞ sy
2
s y2 = ⎜ ⎟
⎝ N ⎠n
L’erreur type est simplement la racine carrée de la variance de la moyenne de l’échantillon :
⎛ N − n ⎞ sy
2
sy = ⎜ ⎟
⎝ N ⎠ n
L’intervalle de confiance à 100(1-α)% de la moyenne de la population µ s’estime approximativement
selon :
y ± tα 2, n −1s y
Cet intervalle suppose une distribution normale de la moyenne de l’échantillon. Cette supposition n’est
pas très contraignante du fait que si l’on échantillonne à plusieurs reprise la population selon un plan
d’échantillonnage aléatoire simple, la distribution des moyennes des échantillons devraient tendre vers
la normalité.
On peut estimer la taille de l’échantillon n requis pour estimer la moyenne de la population µ
avec une marge d’erreur de d unités, et ce, avec une erreur α donnée selon :
1
n=
d 2
z α 2σ 2 + 1 N
2
où z est la borne supérieure d’une distribution normale centrée réduite pour un seuil α/2 (voir section
6.6.3). Cette formule implique que la variance de la population soit connue, ce qui est généralement pas
le cas. On doit donc se référer à des valeurs publiées ou encore à une estimation (i.e., s2) qui découle
d’un pré-échantillonnage.
13
La variance du total de la population est décrit par :
σ y2
σ = N σ = N ( N − n)
2
τˆ
2 2
y
n
L’estimateur non biaisé de cette variance est :
s y2
sτ2ˆ = N 2 s y2 = N ( N − n)
n
Enfin, on peut calculer un intervalle de confiance approximatif du total de la population à l’aide de la
formule suivante :
τˆ ± tα 2,n−1 sτˆ
On peut estimer la taille de l’échantillon n requis pour estimer le total de la population τ avec
une marge d’erreur de d unités, et ce, avec une erreur α donnée selon :
1
n=
d 2
N z α 2σ 2 + 1 N
2 2
où z est la borne supérieure d’une distribution normale centrée réduite pour un seuil α/2 (voir section
6.6.3).
∑y i
p=µ= i =1
N
Un estimateur non biaisé de p est :
n
∑y i
pˆ = i =1
n
La variance de la population entière est exprimée par :
14
N 2
∑ ( yi − p ) N
σ y2 = i =1
= p(1 − p)
N −1 N −1
L’estimateur non biaisé de cette variance, en d’autres termes, la variance de l’échantillon, est
simplement :
n 2
∑ (y i − pˆ )
n
s =
2 i =1
= pˆ (1 − pˆ )
n −1 n −1
y
La variance de l’échantillon représente la variabilité des mesures prises entre les différentes unités
d’échantillonnage. Il ne faut pas confondre cette variance avec celle de la moyenne de l’échantillon. La
variance de la moyenne de la population se calcule selon :
⎛ N − n ⎞ p(1 − p)
σ p2ˆ = ⎜ ⎟
⎝ N −1 ⎠ n
Un estimateur non biaisé de cette variance est :
⎛ N − n ⎞ pˆ (1 − pˆ )
s 2pˆ = ⎜ ⎟
⎝ N ⎠ n −1
L’intervalle de confiance à 100(1-α)% de la moyenne de la population p s’estime approximativement
selon :
pˆ ± tα 2, n −1s pˆ
où z est la borne supérieure d’une distribution normale centrée réduite pour un seuil α/2 (voir section
6.6.3). Notez qu’il existe des formules permettant d’évaluer la taille d’échantillon nécessaire au calcul
de plusieurs proportions caractérisant une même population (voir Thompson 2002 : 42). Une telle
situation peut se présenter lorsque l’on veut évaluer la proportion d’individus au sein de différentes
classes d’âge (e.g., juvénile, immature, adulte).
15
adultes. Ce ratio nécessite l’estimation de deux variables aléatoires : le nombre de tétards et le nombre
d’adultes. On peut calculer le ratio d’une population r à l’aide de l’estimateur :
n
∑y i
y
r= i =1
n
=
∑x
x
i
i =1
Cet estimateur est par contre légèrement biaisé dans le cadre d’un plan d’échantillonnage aléatoire
simple. Je vous réfère à Thompson (2002) pour les formules à utiliser dans le cadre de l’estimation des
ratios.
où
n = n femelle + nmâle et asexe représente le nombre d’individus ayant des malformations. Tout comme dans
le cas des ratios, asexe et nsexe sont des variables aléatoires. Je vous réfère à Thompson (2002) pour les
formules à utiliser dans le cadre de l’estimation de paramètres basés sur des sous-populations.
⎛ N −1⎞ σ y
2
σ =⎜
2
y ⎟
⎝ N ⎠ n
L’estimateur non biaisé de cette variance est simplement :
s y2
s =
2
y
n
16
L’échantillonnage aléatoire avec remise et l’échantillonnage aléatoire simple donnent des résultats
similaires lorsque n/N -> 0.
et la taille de l’échantillon :
L
n = ∑ nh
h =1
17
τh
µh =
Nh
Par conséquent, le total de la population est :
L
τ = ∑τ h
h =1
et la moyenne de la population :
τ
µ=
N
par :
L
τˆ = ∑τˆh
h =1
Et si sτ2ˆh est un estimateur non biaisé de la variance de l’estimateur du total d’une strate σ τ2ˆh , alors la
et son estimateur :
L
sτ2ˆ = ∑ sτ2ˆh
h =1
18
sτ2ˆ
sµ2ˆ =
N2
Un intervalle de confiance approximatif à 100(1-α)% peut être construit selon :
µˆ ± tα 2, n−1sµˆ
∑N σ
k =1
k k
Si aucune estimation de la variance des strates est disponible, alors on peut utiliser des tailles
d’échantillon identiques pour chaque strate ou encore, sélectionner un nombre d’unités
d’échantillonnage proportionnel à la taille du cadre d’échantillonnage de chaque strate. Cette deuxième
option implique un rapport nh/Nh constant entre les strates.
n
N
τˆ = Ny =
n
∑y
i =1
i
σ u2
σ τ2ˆ = N ( N − n)
n
N 2
∑(y i − µ1 )
σ =
2 i =1
N −1
u
su2
sτ2ˆ = N ( N − n)
n
n 2
∑ ( yi − y )
su2 = i =1
n −1
20
A1.12 Échantillonnage multi-stades
Il est possible de combiner plusieurs plans d’échantillonnage (probabilistes) selon une hiérarchie
d’échelles, le plus souvent spatiales. Par exemple, on pourra choisir selon un plan d’échantillonnage
aléatoire simple une série d’étangs, au sein desquels un plan d’échantillonnage stratifié selon la
profondeur sera utilisé pour prendre des carottes de sols et mesurer la densité de bactéries. Un tel
emboîtement de plans d’échantillonnage est sans limite, mais au coût d’accroître la complexité du
calcul des paramètres et, surtout, de leur variance.
22
A1.18 Références (et autres lectures d’intérêt)
Anderson, D. R., K. P. Burnham, B. C. Lubow, L. Thomas, P. S. Corn, P. A. Medica, and R. W.
Marlow. 2001. Field trials of line transect methods applied to estimation of desert tortoise
abundance. Journal of Wildlife Management 65:583-597.
Bart, J., and S. Earnst. 2002. Double sampling to estimate density and population trends in birds. Auk
119:36 - 45.
Bibby, C. J., N. D. Burgess, and D. A. Hill. 1992. Bird census techniques. Academic Press, London.
Buckland, S. T., D. R. Anderson, K. P. Burnham, J. L. Laake, D. L. Borchers, and L. Thomas. 2001.
Introduction to distance sampling. Estimating abundance of biological populations. Oxford
University Press, Oxford, UK.
Buckland, S. T., D. R. Anderson, K. P. Burnham, J. L. Laake, D. L. Borchers, and L. Thomas. 2004.
Advanced distance sampling. Estimating abundance of biological populations. Oxford University
Press, Oxford, UK.
Burnham, K. P., D. R. Anderson, G. C. White, C. Brownie, and K. H. Pollock. 1987. Design and
analysis methods for fish survival experiments based on release-recapture. American Fisheries
Society, Bethesda, Maryland, USA.
Cochran, W. G. 1977. Sampling techniques, 3rd edition. Jhon Wiley & Sons, New York, New York,
USA.
Cooch, E., and G. C. White. 2005. Program MARK. A gentle introduction.
http://www.phidot.org/software/mark/docs/book/.
Farnsworth, G., K. Pollock, J. Nichols, T. Simons, J. Hines, and J. Sauer. 2002. A removal model for
estimating detection probabilities from point-count surveys. Auk 119:414 - 425.
Fortin, M.-J. 1999. Effects of sampling unit resolution on the estimation of spatial autocorrelation.
Écoscience 6:636-641.
Fortin, M.-J., P. Drapeau, and P. Legendre. 1989. Spatial autocorrelation and sampling design in plant
ecology. Vegetatio 83:209-222.
Hurlbert, S. H. 1984. Pseudoreplication and the design of ecological field experiments. Ecological
Monographs 54:187-211.
Knapp, R. A., K. R. Matthews, H. K. Preisler, and R. Jellison. 2003. Developing probabilistic models
to predict amphibian site occupancy in a patchy landscape. Ecological Applications 13:1069-
1082.
Krebs, C. J. 1989. Ecological methodology. Harper and Row, New York.
23
Lebreton, J.-D., K. P. Burnham, J. Clobert, and D. R. Anderson. 1992. Modeling survival and testing
biological hypotheses using marked animals: A unified approach with case studies. Ecological
Monographs 62:67-118.
Legendre, P. 1993. Spatial autocorrelation: trouble or new paradigm? Ecology 74:1659-1673.
Legendre, P., M. Troussellier, V. Jarry, and M.-J. Fortin. 1989. Design for simultaneous sampling of
ecological variables: from concepts to numerical solutions. Oikos 55:30-42.
Legendre, P., M. R. T. Dale, M. J. Fortin, J. Gurevitch, M. Hohn, and D. Myers. 2002. The
consequences of spatial structure for the design and analysis of ecological field surveys.
Ecography 25:601-615.
MacKenzie, D. I., and W. L. Kendall. 2002. How should detection probability be incorporated into
estimates of relative abundance? Ecology 83:2387-2393.
MacKenzie, D. I., and W. L. Kendall. 2002. How should detection probability be incorporated into
estimates of relative abundance? (vol 83, pg 2387, 2002). Ecology 83:3532.
MacKenzie, D. I., J. D. Nichols, G. B. Lachman, S. Droege, J. A. Royle, and C. A. Langtimm. 2002.
Estimating site occupancy rates when detection probabilities are less than one. Ecology 83:2248-
2255.
MacKenzie, D. I. 2005. What are the issues with presence-absence data for wildlife managers? Journal
of Wildlife Management 69:849-860.
MacKenzie, D. I. 2006. Modeling the probability of resource use: The effect of, and dealing with,
detecting a species imperfectly. Journal of Wildlife Management 70:367-374.
MacKenzie, D. I., and L. L. Bailey. 2004. Assessing the fit of site-occupancy models. Journal of
Agricultural Biological and Environmental Statistics 9:300-318.
MacKenzie, D. I., L. L. Bailey, and J. D. Nichols. 2004. Investigating species co-occurrence patterns
when species are detected imperfectly. Journal of Animal Ecology 73:546-555.
MacKenzie, D. I., J. D. Nichols, J. E. Hines, M. G. Knutson, and A. B. Franklin. 2003. Estimating site
occupancy, colonization, and local extinction when a species is detected imperfectly. Ecology
84:2200-2207.
MacKenzie, D. I., J. D. Nichols, N. Sutton, K. Kawanishi, and L. L. Bailey. 2005. Improving
inferences in population studies of rare species that are detected imperfectly. Ecology 86:1101-
1113.
Mackenzie, D. I., and J. A. Royle. 2005. Designing occupancy studies: general advice and allocating
survey effort. Journal of Applied Ecology 42:1105-1114.
24
MacKenzie, D. I., J. D. Nichols, J. A. Royle, K. H. Pollock, L. L. Bailey, and J. E. Hines. 2006.
Occupancy estimation and modeling. Academic Press, New York, New York, USA.
Mazerolle, M. J., A. Desrochers, and L. Rochefort. 2005. Landscape characteristics influence pond
occupancy by frogs after accounting for detectability. Ecological Applications 15:824-834.
Rosenstock, S., D. Anderson, K. Giesen, T. Leukering, and M. Carter. 2002. Landbird counting
techniques: Current practices and an alternative. Auk 119:46 - 53.
Royle, J. A. 2004. Modeling abundance index data from anuran calling surveys. Conservation Biology
18:1378-1385.
Royle, J. A. 2004. N-mixture models for estimating population size from spatially replicated counts.
Biometrics 60:108-115.
Royle, J. A. 2006. Site occupancy models with heterogeneous detection probabilities. Biometrics
62:97-102.
Royle, J. A., and J. D. Nichols. 2003. Estimating abundance from repeated presence-absence data or
point counts. Ecology 84:777-790.
Royle, J. A., and W. A. Link. 2006. Generalized site occupancy models allowing for false positive and
false negative errors. Ecology 87:835-841.
Royle, J. A., D. K. Dawson, and S. Bates. 2004. Modeling abundance effects in distance sampling.
Ecology 85:1591-1597.
Royle, J. A., J. D. Nichols, and M. Kery. 2005. Modelling occurrence and abundance of species when
detection is imperfect. Oikos 110:353-359.
Seber, G. A. F. 1982. The estimation of animal abundance and related parameters. MacMillan, New
York, New York, USA.
Seber, G. A. F. 1986. A review of estimating animal abundance. Biometrics 42:267-292.
Seber, G. A. F. 1992. A review of estimating animal abundance II. International Statistical Review
60:129-166.
Sutherland, W. J., editor. 1996. Ecological census techniques: a handbook. Cambridge University
Press, Cambridge, UK.
Thompson, S. K. 2002. Sampling, 2nd edition. John Wiley & Sons, New York, New York, USA.
Thompson, S. K., and G. A. F. Seber. 1996. Adaptive sampling. John Wiley & Sons, New York, New
York, USA.
Thompson, W. 2002. Towards reliable bird surveys: Accounting for individuals present but not
detected. Auk 119:18 - 25.
25
Thompson, W. L., C. Gowan, and G. C. White. 1998. Monitoring vertebrate populations. Academic
Press, New York, New York, USA.
Williams, B. K., J. D. Nichols, and M. J. Conroy. 2002. Analysis and management of animal
populations. Academic Press, New York, New York, USA.
26