Vous êtes sur la page 1sur 19

5.

TECHNIQUES DECHANTILLONNAGE

5.1. Concepts fondamentaux de lchantillonnage


Lchantillonnage consiste essentiellement tirer des informations dune fraction dun
grand groupe ou dune population, de faon en tirer des conclusions au sujet de
lensemble de la population. Son objet est donc de fournir un chantillon qui
reprsentera la population et reproduira aussi fidlement que possible les principales
caractristiques de la population tudie.
Les principaux avantages de la technique dchantillonnage par rapport un
numration complte sont le moindre cot, la rapidit, la porte et la prcision accrues.
Tous ceux qui soutiennent que le seul moyen dobtenir des informations exactes sur une
population est de faire un recensement exhaustif oublient que les sources derreurs sont
nombreuses dans un dnombrement complet et quun recensement cent pour cent
peut non seulement tre fauss par un grand nombre derreurs, mais tre pratiquement
irralisable. En effet, avec un chantillon on peut obtenir des rsultats plus exacts car il
est plus facile de contrler les sources derreurs lies la fiabilit et la formation des
agents de terrain, la clart des instructions, aux mesures et lenregistrement, au
mauvais entretien des instruments de mesure, lidentification des units
dchantillonnage, au travail des enquteurs et au traitement et lanalyse des
donnes. Plus lchantillon est petit, plus la supervision est efficace. De plus, le degr de
prcision des estimations tires de certains types dchantillons, peut tre estim
partir de lchantillon mme. En fin de compte on obtient souvent avec une enqute par
sondage une rponse plus exacte quavec un recensement complet, le tout en peu de
temps, avec moins de personnel, moins de travail et moins dargent.
La mthode dchantillonnage la plus simple consiste slectionner un certain nombre
dunits dchantillonnage considres comme "reprsentatives" de lensemble de la
population. Par exemple, pour estimer le volume global dun peuplement forestier,
lenquteur peut choisir un petit nombre darbres qui lui paraissent de dimensions
moyennes et typiques de la zone considre, et mesurer leur volume. Les mthodes
simples, telles que marcher dans la fort, sarrter au hasard et lancer une pierre les
yeux ferms, ou tout autre dmarche excluant en apparence toute possibilit de choix
dlibr des units dchantillonnage, sont trs attirantes cause de leur simplicit,
mais elles ont videmment des chances dtre fausses par le jugement de lenquteur,
de sorte que les rsultats seront biaiss et non fiables. Mme si lobjectivit de
lenquteur ne fait pas le moindre doute, dimportantes erreurs de jugement,
conscientes ou inconscientes, peuvent se produire, et elles seront rarement identifies.
Or ces erreurs peuvent tre bien suprieures lavantage de lexactitude accrue qui est
cense driver de la slection dlibre ou intentionnelle des units dchantillonnage.
Sans compter quun chantillonnage subjectif ne permet pas dvaluer la prcision des
estimations calcules partir des chantillons. Un chantillonnage subjectif est
statistiquement irrationnel et en tant que tel, il est viter.
Si lchantillonnage est fait de faon ce que chaque unit de la population ait quelque
chance dtre incluse dans lchantillon et si la probabilit de slection de chaque unit
est connue, on parle de mthode dchantillonnage probabiliste. Lune de ces
techniques est la slection alatoire, ne pas confondre avec la slection au hasard, qui
implique un processus de slection rigoureux de type tirage au sort. Dans ce manuel, le
1

terme chantillonnage se rfre, sauf indication contraire, une forme quelconque


dchantillonnage probabiliste. La probabilit quune unit dchantillonnage quelconque
soit incluse dans lchantillon dpend de la procdure adopte. Il faut toutefois savoir
que la prcision et la fiabilit des estimations obtenues partir dun chantillon peuvent
tre values uniquement dans le cas dun chantillon probabiliste, le contrle des
erreurs y tant relativement facile.
Le but dune enqute par sondage est de minimiser lerreur dans les estimations finales.
Toute enqute forestire comportant des activits de collecte et danalyse de donnes
peut tre entache de diverses erreurs. Il en existe deux sortes: i) les erreurs non lies
lchantillonnage et ii) les erreurs dchantillonnage. Les erreurs non lies
lchantillonnage, par exemple celles dues la localisation des units, la mesure des
caractristiques, lenregistrement des fautes, aux biais des enquteurs et aux
mthodes danalyse dfectueuses peuvent reprsenter une grande part de lerreur
totale des rsultats finaux dans les recensements complets comme dans les enqutes
par sondage. Cette part a des chances dtre plus grande dans un recensement complet
car un projet chantillon, de plus petite taille, permet dtre plus slectif dans
laffectation du personnel aux oprations de lenqute, de leur offrir une formation plus
complte, et de focaliser davantage lattention sur la rduction des erreurs non lies
lchantillonnage. Lerreur dchantillonnage est due au fait que seule une fraction de la
surface de fort est recense. Etant donn quun chantillon, mme probabiliste, se
fonde sur des observations qui ne concernent quune fraction de la population, il ne peut
gnralement pas reprsenter parfaitement la population. La grandeur moyenne des
erreurs dchantillonnage de la majorit des chantillons probabilistes peut tre estime
daprs les donnes collectes, et elle dpend de la taille de lchantillon, de la
variabilit lintrieur de la population et de la mthode dchantillonnage adopte.
Ainsi, avec un chantillon probabiliste, il est possible de dterminer lavance la
dimension que doit avoir lchantillon pour obtenir le degr de prcision souhait, lequel
doit tre spcifi.
Un plan dchantillonnage est dtermin par la taille des units dchantillonnage, leur
nombre, leur distribution sur la surface totale, le type et le mode de mesure dans les
units slectionnes et les procdures statistiques adoptes pour lanalyse des donnes
de lenqute. Des mthodes dchantillonnage et des techniques destimation
diffrentes ont t mises au point spcifiquement en fonction des besoins des
statisticiens enquteurs, de sorte que lutilisateur a de vastes possibilits de choix
adaptes des situations spcifiques. Il est possible de choisir la mthode ou la
combinaison de mthodes avec laquelle on obtiendra le degr de prcision souhait,
raison dun cot minimum. Pour de plus amples dtails, on peut se rfrer Chacko
(1965) et Sukhatme et al, (1984).
5.1.1. Les principales tapes dune enqute par sondage
Dans toute enqute par sondage, on commence par dterminer le type de donnes
collecter et le degr dexactitude des rsultats auquel on veut arriver. Ensuite, on
formule le plan dchantillonnage affrent chaque caractre sur lequel on compte
recueillir des informations. On dfinit galement la combinaison des procdures
dchantillonnage relatives aux diffrents caractres, pour viter les doubles emplois sur
le terrain. Troisimement, on organise avec soin les oprations en champ, en prvoyant
des crdits suffisants pour la supervision du travail du personnel de terrain. Enfin, on
analyse les donnes collectes au moyen de techniques statistiques appropries et on
rdige un rapport complet et dtaill dcrivant les hypothses sur lesquelles on sest
fond, le plan dchantillonnage et les rsultats de lanalyse statistique. Le rapport
2

contiendra une estimation de la marge des erreurs dchantillonnage des rsultats et, le
cas chant, les effets possibles des erreurs non lies lchantillonnage. Quelquesunes de ces tapes sont dcrites de faon plus approfondie dans les passages qui
suivent.
i) Dfinition des objectifs de lenqute: Pour commencer, les objectifs de lenqute
doivent tre examins attentivement. Par exemple, pour une enqute forestire, on
dtermine la superficie qui sera couverte par lenqute. Les caractristiques sur
lesquelles des informations seront collectes et le niveau de dtail souhait seront
prciss. Si lenqute porte sur des arbres, on dterminera les espces darbres qui
devront tre recenss et lon dcidera sil convient dnumrer uniquement les arbres
faisant partie de classes de diamtres dtermines ou si lon estimera aussi le volume
des arbres. Cest aussi durant la premire tape que lon dtermine le degr de prcision
que devront avoir les estimations.
ii) Elaboration dun diagramme des units: Dans tout chantillon probabiliste, la
premire exigence est ltablissement dune base de sondage. La structure dune
enqute par sondage est largement dtermine par cette base. La base de sondage est
une liste des units dchantillonnage qui peuvent tre clairement dfinies et identifies
dans la population. Ces units peuvent tre des compartiments, des sections
topographiques, des bandes dune certaine largeur ou des parcelles de forme et de taille
dfinies.
Llaboration dune base de sondage adapte aux objectifs dune enqute demande de
lexprience et peut fort bien absorber une part importante des travaux de planification,
en particulier dans les enqutes forestires o il peut tre ncessaire de dresser une
liste artificielle des units dchantillonnage, faites de sections topographiques, de
bandes ou de parcelles. Par exemple, dans une enqute forestire, une base de sondage
peut se prsenter sous la forme dune carte approprie de la superficie forestire. Le
mode de slection des units dchantillonnage doit permettre didentifier sur le terrain
une unit spcifique devant tre incluse dans lchantillon. Le choix est fonction de
plusieurs facteurs: lobjet de lenqute, les caractristiques qui doivent tre observes
dans les units slectionnes, la variabilit entre des units dchantillonnage dune
taille donne, le plan dchantillonnage, le plan des travaux de terrain, et le cot total de
lenqute. Le choix est aussi dtermin par des considrations pratiques. Par exemple,
dans des zones de collines, il nest pas toujours possible de prendre des bandes comme
units dchantillonnage, et les compartiments ou les sections topographiques peuvent
tre plus appropris. En gnral, pour une intensit dchantillonnage donne
(proportion de la surface recense), plus les units dchantillonnage sont petites, plus
lchantillon est reprsentatif et plus les rsultats ont de chances dtre prcis.
Choix dun plan dchantillonnage: Si le plan dchantillonnage doit tre de nature
fournir une mesure statistiquement significative de la prcision des estimations finales,
lchantillon doit tre probabiliste, en ce sens que chaque unit de la population doit
avoir une probabilit connue dtre incluse dans lchantillon. Le choix des units
inscrire sur la liste doit tre bas sur une rgle objective qui ne laisse aucune part
lopinion de lhomme de terrain. La dtermination du nombre dunits inclure dans
lchantillon et la mthode de slection sont galement fonction du cot admissible de
lenqute et de la prcision des estimations finales.
Organisation des travaux sur le terrain: Une enqute par sondage nest pleinement
russie que si les oprations de terrain sont fiables. Dans le domaine forestier, les
travaux sur le terrain doivent tre organiss avec le plus grand soin autrement, mme si
3

le plan dchantillonnage est excellent, les rsultats de lchantillon risqueraient dtre


incomplets ou trompeurs. Le choix dun personnel adquat, une formation intensive, des
instructions claires et une bonne supervision des oprations de terrain sont essentiels
pour obtenir des rsultats satisfaisants. Les quipes itinrantes doivent tre capables de
localiser correctement les units slectionnes et enregistrer les mesures ncessaires
conformment aux instructions spcifiques reues. Les superviseurs vrifient une partie
de leur travail sur le terrain et sassurent que lenqute qui y effectue correspond en
tous points au plan.
Analyse des donnes : En fonction du plan dchantillonnage utilis et de linformation
collecte, on utilisera les formules adquates pour obtenir les estimations et calculer
leur degr de prcision. Une contre-vrification des calculs est souhaitable pour garantir
lexactitude de lanalyse.
Enqute prliminaire (essais pilotes): La conception dun plan dchantillonnage
appropri une enqute forestire demande une bonne connaissance de la thorie
statistique et des donnes concernant la nature de la zone forestire, le mode de
variabilit et le cot oprationnel. Dans le cas o lon ne possde pas ces connaissances,
il est parfois ncessaire deffectuer une enqute pilote petite chelle statistiquement
planifie, avant de se lancer dans une enqute grande chelle sur toute la superficie
de fort. Ces enqutes prparatoires, ou pilotes, fourniront les renseignements voulus
sur la variabilit du matriel et offriront la possibilit dessayer et damliorer les
procdures en champ, de former des hommes de terrain, et dtudier lefficacit
oprationnelle dun plan. Une enqute pilote donnera aussi des renseignements pour
estimer les diffrentes composantes du cot des oprations, par exemple le temps de
trajet, le temps de localisation et de recensement des units dchantillonnage etc... Ces
informations seront essentielles pour dfinir le type de plan et lintensit
dchantillonnage appropris aux objectifs de lenqute.
5.1.2. Terminologie dchantillonnage
Aprs avoir expliqu les concepts fondamentaux et les tapes dun plan
dchantillonnage, nous allons maintenant dfinir de faon plus prcise quelques termes
gnraux pour faciliter ltude des diffrents plans dchantillonnage dcrits dans les
autres sections.
Population : Le mot population dsigne lensemble des units parmi lesquelles
lchantillon est prlev. Si une surface forestire est divise en un certain nombre de
compartiments (ou blocs) qui sont les units dchantillonnage, ces compartiments
constituent la population des units dchantillonnage. En revanche, supposons quune
surface de fort soit divise en mille bandes de 20 m de large chacune, les mille bandes
forment la population. De mme, si la surface de fort est divise en parcelles dun demi
hectare lune, lensemble de ces parcelles forme la population.
Units dchantillonnage : Les units dchantillonnage peuvent tre des units
administratives ou des units naturelles, par exemple des sections topographiques et
des sous-compartiments, ou encore des units artificielles, par exemple des bandes
dune largeur donne ou des parcelles de forme et de taille dfinies. Lunit doit tre un
lment bien dfini ou un groupe dlments identifiable dans la surface de fort, dont
les caractristiques que lon compte tudier peuvent tre observes. La population est
donc subdivise en units appropries lobjet de lenqute, appeles units
dchantillonnage.
4

Base de sondage : Une liste dunits dchantillonnage est une base de sondage. Une
population est " finie " si elle comprend un nombre fini dunits dchantillonnage.
Echantillon : Une ou plusieurs units dchantillonnage slectionnes dans une
population suivant une procdure dfinie constituent un chantillon.
Intensit de lchantillonnage : Lintensit de lchantillonnage est le rapport du nombre
dunits incluses dans lchantillon au nombre dunits comprises dans la population.
Total de population : Supposons une population finie compose dunits U 1, U2, , UN.
Notons yi la valeur de la caractristique de la i-me unit. Par exemple, les units
peuvent tre des bandes et les caractristiques peuvent tre le nombre darbres dune
espce dtermine lintrieur dune bande. La somme des valeurs yi ( i = 1, 2, , N),
savoir,

(5.1)
est appele total de population. Dans notre exemple, celui-ci est le nombre moyen
darbres de lespce spcifique dans toute la population.
Moyenne de la population: La moyenne arithmtique

(5.2)
est appele moyenne de la population. Ici, il sagit du nombre moyen darbres de
lespce considre, par bande.
Variance de la population: la variance de la population est une mesure de la variation
entre les units de la population

(5.3)
Dans notre exemple, la variance de la population mesure la variation du nombre
darbres de lespce considre, entre les bandes. Des valeurs leves indiquent une
variation importante entre les units de la population, alors que des valeurs faibles
montrent que les valeurs de la caractristique dans les units sont proches de la
moyenne de la population. La racine carre de la variance est connue sous le nom d
cart-type.
Coefficient de variation : Le coefficient de variation est le rapport, gnralement exprim
en pourcentage, de lcart type la valeur de la moyenne arithmtique

(5.4)
Du fait quil est adimensionnel, le coefficient de variation est un instrument prcieux
pour comparer les variations de deux ou plusieurs populations ou ensembles
dobservations.
5

Paramtre : On appelle paramtre toute fonction des valeurs des units dune
population. La moyenne de la population, la variance, le coefficient de variation etc...
sont des exemples de paramtres de population. Dans la thorie de lchantillonnage, le
problme est destimer les paramtres partir dun chantillon, au moyen dune
procdure permettant de mesurer la prcision des estimations.
Estimateur, estimation : Notons y1, y2, , yn les observations dun chantillon de taille n.
Toute fonction des observations effectues sur un chantillon est une statistique. Une
statistique utilise pour estimer un paramtre de la population est un estimateur. Par
exemple, la moyenne dun chantillon est un estimateur de la moyenne de la population.
On appelle estimation toute valeur spcifique dun estimateur calcule partir dun
chantillon observ.
Erreur provenant de lestimation : Une statistique t est appele estimateur non biais
dun paramtre q de la population si son esprance mathmatique (ou valeur probable),
note E(t), est gale q . Avec une procdure dchantillonnage de type probabiliste, on
obtient, par rptition, un nombre certain nombre dchantillons possibles. Si les valeurs
de la statistique t sont calcules pour chaque chantillon possible et si la moyenne des
valeurs est gale la valeur q associe la population, on dit que t est un estimateur
non biais de q , bas sur la procdure dchantillonnage. La rptition de la procdure
et du calcul des valeurs de t est une notion purement thorique, ces oprations ntant
pas effectues dans la ralit, mais lide selon laquelle on peut driver toutes les
estimations possibles en rptant le processus dchantillonnage est fondamentale pour
ltude du biais. Si E(t) nest pas gal q , la statistique t est un estimateur biais de q
et le biais est donn par biais = E(t) - q . Lintroduction dun processus rellement
alatoire pour la slection dun chantillon est un pas important pour viter les biais.
Dans les enqutes forestires, o les experts tendent choisir des tendues de fort
typiques pour les numrations, les estimations sont invitablement biaises, mme si
leur bonne foi nest pas en cause.
Variance dchantillonnage : La diffrence entre une estimation dun chantillon et la
valeur de la population est appele erreur dchantillonnage de lestimation; on ne
connat videmment pas lamplitude de cette erreur puisquon ne connat pas la valeur
de la population. Etant donn que le plan dchantillonnage donne lieu diffrents
chantillons possibles, les estimations varient dun chantillon lautre. Sur la base de
ces estimations possibles, on peut obtenir une mesure de lamplitude moyenne, par
rapport tous les chantillons possibles, des carrs de lerreur dchantillonnage. Il
sagit de lerreur quadratique moyenne (MSE) de lestimation qui est essentiellement
une mesure de la variation dun estimateur par rapport la valeur relle de la
population. En symboles, MSE = E[t - q ]2. La variance dchantillonnage (V(t)) est une
mesure de lcart de lestimation par rapport son esprance mathmatique. Elle est
dfinie comme lamplitude moyenne par rapport tous les chantillons possibles des
carrs des carts de lestimateur par rapport son esprance mathmatique et est
donne par V(t) = E[t - E(t)]2.
Remarquons que la variance dchantillonnage concide avec lerreur quadratique
moyenne dans le cas o t est un estimateur non biais. Gnralement, lamplitude de
lestimation de la variance dchantillonnage calcule partir dun chantillon donne
une ide de lutilit dune estimation relative un chantillon. Plus lchantillon est
grand et plus la variabilit entre les units constituant la population est petite, plus
lerreur dchantillonnage sera petite et plus les rsultats sont fiables.

Erreur type dun estimateur : Lerreur-type de lestimateur est la racine carre de sa


variance dchantillonnage. Lerreur-type dune estimation divise par la valeur de
lestimation est lerreur type relative, habituellement exprime en pourcentage.
Exactitude et prcision : Lerreur-type dune estimation, obtenue partir dun
chantillon, ne tient pas compte du biais. On peut donc dire que lerreur-type ou la
variance dchantillonnage de lestimation mesure lchelle inverse la prcision de
lestimation, plutt que son exactitude. Lexactitude se rfre habituellement lampleur
des carts entre lestimation dun chantillon et la moyenne m = E (t) qui serait obtenue
en appliquant plusieurs fois le procd exprimental, le biais tant ainsi mesur par m q.
Le point le plus important, cest lexactitude de lestimation dun chantillon, la prcision
avec laquelle nous sommes capables de mesurer, dans la majorit des cas. Nous nous
efforons de concevoir lenqute et danalyser les donnes en utilisant des mthodes
statistiques propres maximiser la prcision et minimiser le biais.
Limites de confiance : Si lestimateur t suit une loi de distribution normale (hypothse
gnralement valide pour les chantillons de grande taille), un intervalle de confiance
dfini par une limite infrieure et une limite suprieure, inclut normalement le paramtre
de la population q , un seuil de probabilit dtermin. Les limites sont donnes par les
relations
Limite infrieure = t - z
Limite suprieure = t + z

(5.5)
(5.6)

o
est lestimation de la variance de t et z la valeur de lcart rduit correspondant
une probabilit de confiance souhaite P, exprime en pourcentage. Par exemple, si z
est gal 1.96, on dit que les chances que la valeur relle de q soit contenue dans
lintervalle alatoire dfini par les limites de confiance suprieure et infrieure sont de
95 pour cent. Les limites de confiance spcifient lamplitude prvue de la variation de la
moyenne de la population et stipulent le degr de confiance que nous devrions attacher
aux rsultats de nos chantillons. Si la taille de lchantillon est infrieure 30, la valeur
de k dans les formules donnant les limites de confiance suprieure et infrieure devrait
tre tire des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec
les degrs de libert correspondant la somme des carrs dans lestimation de la
variance de t. De modestes carts de la distribution par rapport la normale naffectent
pratiquement pas la formule relative aux limites de confiance. En revanche, si la
distribution est trs diffrente de la normale, il faut adopter des mthodes spciales. Par
exemple, si l'on utilise de petites surfaces comme units d'chantillonnage, pour estimer
le nombre moyen darbres classes de diamtre leves, la distribution peut avoir une
asymtrie prononce. Dans ce cas, la formule indique ci dessus pour le calcul des
limites de confiance suprieure et infrieure nest pas toujours directement applicable.
Quelques observations dordre gnral: Dans les sections qui suivent, les valeurs
concernant la population seront notes par des lettres majuscules et les valeurs de
lchantillon par des lettres minuscules. Le symbole "cap" (^) au-dessus dun symbole
relatif une valeur de la population dnote son estimation base sur des observations
de lchantillon. Les autres notations particulires seront expliques au fur et mesure
de leur apparition.
7

Les formules servant estimer uniquement la moyenne de la population et sa variance


dchantillonnage sont donnes avec la description des mthodes dchantillonnage cidessous. Deux des paramtres sont le total de la population et le rapport du caractre
tudi (y) une variable auxiliaire quelconque (x). Ces statistiques connexes peuvent
toujours tre calcules partir de la moyenne, laide des relations gnrales ci-aprs:
(5.7)
(5.8)

(5.9)

(5.10)
o

= Estimation du total de la population

N = Nombre total dunits dans la population


= Estimation du rapport de la population
X = Total de la population de la variable auxiliaire
5.2. Echantillonnage alatoire simple
Dans un chantillonnage alatoire simple toutes les combinaisons possibles dunits
dchantillonnage tires de la population ont les mmes chances dtre slectionnes.
Thoriquement, lchantillonnage alatoire simple est la procdure la plus simple, dont
sinspirent de nombreuses autres techniques. Elle sapplique surtout au stade initial
dune enqute et aux tudes impliquant lchantillonnage dune petite surface o la
taille de lchantillon est relativement petite. Si lenquteur connat un peu la population
sonde, il peut adopter dautres mthodes plus pratiques et plus efficaces pour
organiser lenqute sur le terrain. Dans un chantillonnage alatoire simple, la
rpartition irrgulire des units dchantillonnage sur la surface de fort peut tre un
gros inconvnient dans les zones difficilement accessibles o les frais de dplacement et
de localisation des parcelles sont considrablement plus levs que les cots de
lnumration des parcelles.
5.2.1. Slection des units dchantillonnage
Dans la pratique, la slection dun chantillon alatoire se fait unit par unit. Nous
expliquerons dans cette section deux mthodes de slection alatoire pour un
chantillonnage alatoire simple sans remise.
i) Echantillonnage par tirage: Les units de la population sont numrotes de 1 N.
Symboliquement, on peut assimiler ces units N boules identiques numrotes de 1
N. Si on en slectionne une au hasard aprs les avoir mlanges, toutes les boules ont la
mme possibilit dtre slectionnes. Ce processus est rpt n fois sans remettre en
jeu les boules slectionnes. Les units correspondant aux numros inscrits sur les
8

boules slectionnes forment un chantillon alatoire simple de taille n tir dans la


population de N units.
ii) Echantillonnage au moyen de tables de nombres alatoires : la procdure
dchantillonnage par tirage devient fastidieuse si N est lev. Pour surmonter cette
difficult, on peut utiliser une table de nombres alatoires, du type de celles publies par
Fisher et Yates (1963) (voir Annexe 6). Les tables de nombres alatoires ont t conues
de manire ce que les chiffres de 0 9 apparaissent indpendamment les uns des
autres, peu prs le mme nombre de fois dans la table. La mthode la plus simple pour
choisir un chantillon alatoire de la taille requise consiste slectionner un ensemble
de n nombres alatoires lun aprs lautre, de 1 N, dans la table, puis de prendre les
units correspondant ces numros. Cette procdure peut comporter un certain nombre
de rejets du fait que tous les nombres suprieurs N qui apparaissent dans la table sont
exclus doffice. Dans ces cas l, la procdure est modifie comme suit. Si N est un
nombre d chiffres, on commence par dterminer le plus grand multiple de N d
chiffres, not N. Ensuite, on choisit un nombre alatoire r de 1 N et lunit portant le
numro gal au restant obtenu aprs avoir divis r par N, est considre comme
slectionne. Si le reste est gal zro, la dernire unit est slectionne. Un exemple
numrique est donn ci-aprs.
Supposons que lon doive choisir un chantillon alatoire simple de 5 units dans une
liste de 40 units numrotes en srie, que lon consulte lAnnexe 6 : Table de nombres
alatoires et que lon choisisse dans la colonne 5) des nombres deux chiffres les
nombres suivants :
39, 27, 00, 74, 07
Pour donner les mmes probabilits de slection aux 100 units, il faut rejeter tous les
nombres suprieurs 79 et considrer que (00) quivaut 80. Ensuite, on divise les
nombres ci-dessus par 40, et lon prend les restes comme numros des bandes
slectionnes pour lchantillon, en rejetant les restes qui sont rpts. On obtient ainsi
les 16 numros de bande comme chantillon, soit : 39, 27, 40, 34, 7.
5.2.2. Estimation de paramtres
Soient y1, y2, ,yn les mesures dune caractristique spcifique, effectues sur n units
slectionnes dun chantillon dune population de N units dchantillonnage. On
constate dans le cas dun chantillonnage alatoire simple sans remise que la moyenne
de lchantillon

(5.11)
est un estimateur non biais de la moyenne
de la population. Une estimation non
biaise de la variance dchantillonnage de est donne par

(5.12)

(5.13)

Si lestimation suit une loi normale, il est possible dtablir un intervalle de confiance
sur la moyenne de la population
, les limites de confiance infrieure et suprieure
tant dfinies par,

Limite infrieure

Limite suprieure

(5.14)

(5.15)

o z est la valeur de la table qui dpend du nombre dobservations incluses dans


lchantillon. Si leur nombre est gal ou suprieure 30, on peut extraire ces valeurs de
la table de la distribution normale (Annexe 1). Si le nombre dobservations est infrieur
30, la valeur tabulaire sera extraite de la table de distribution t (Annexe 2), avec n - 1
degrs de libert.
Nous allons illustrer ces calculs par un exemple. Supposons quune fort ait t divise
en 1000 parcelles de 0,1 hectare chacune et quun chantillon alatoire simple de 25
parcelles ait t selectionn. Pour chacune de ces parcelles dchantillon, les volumes de
bois, en m3, ont t enregistrs. Ces volumes taient les suivants:
7 10 7 4 7
88875
26978
6 7 11 8 8
73877
Si le volume de bois de la i-me unit dchantillonnage est not yi, un estimateur non
biais de la moyenne de la population, sobtient laide de lEquation (5.11), soit :

= 7 m3
qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de fort.
Une estimation (
lquation (5.13).

) de la variance des valeurs individuelles de y sobtient laide de

10

= 3.833

Lestimation non biaise de la variance dchantillonnage de

est donc

= 0.1495 (m3)2
0.3867 m3

Lerreur-type relative,

est une expression plus commune. Ainsi,

(100) = 5.52 %
Les limites de confiance attaches la moyenne de la population
quations (5.14) et (5.15).

sobtiennent par les

Limite infrieure
= 6.20 cordes
Limite suprieure
= 7.80 cordes
Lintervalle de confiance de 95% associ la moyenne de la population est de (6.20,
7.80) m3. Cela signifie que lon peut estimer quil y a 95 chances sur cent que lintervalle
de confiance de (6.20, 7.80) m3 inclura la moyenne de la population.
On obtiendra facilement une estimation du volume total de bois dans la surface de fort
chantillonne en multipliant lestimation de la moyenne par le nombre total de
parcelles comprises dans la population. Ainsi

avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de
confiance associs la moyenne par N = 1000. Lerreur-type relative RSE de
cependant pas modifie par cette opration.
5.3. Echantillonnage systmatique
11

, nest

La mthode dchantillonnage systmatique obit une rgle simple, dans laquelle


chaque k-ime unit est slectionne partir dun nombre, de 1 k, choisi au hasard
comme point de dpart alatoire. Supposons que N units dchantillonnage dans la
population soient numrotes de 1 N.. Pour slectionner un chantillon systmatique
de n units, on choisit une unit au hasard parmi les k premires, puis on slectionne
chaque k-ime unit dchantillonnage pour former lchantillon. La constante k est
appele pas dchantillonnage, et est considre comme tant le nombre entier le plus
proche de N / n, linverse du taux dchantillonnage. La mesure de chaque k-me arbre
correspondant un relvement au compas dtermin est un exemple dchantillonnage
systmatique. Dans les enqutes forestires, une bande troite, perpendiculaire une
ligne de base, traversant toute la fort est couramment prise comme unit
dchantillonnage. Si les units dchantillonnage sont des bandes, le dispositif est
connu sous le nom dchantillonnage systmatique en bandes, mais il existe aussi un
autre systme, appel chantillonnage systmatique de parcelles en ligne, dans lequel
des parcelles de taille et de forme fixes sont slectionnes intervalles gaux le long
de lignes parallles rgulirement espaces. Dans le dernier cas, lchantillon pourrait
aussi bien tre systmatique dans deux directions.
Sur le plan intuitif, lchantillonnage systmatique est certainement attrayant, sans
compter quil est plus facile slectionner et effectuer sur le terrain, du fait que
lchantillon est rparti galement sur toute la superficie de fort et quil garantit une
certaine quantit de reprsentation des diffrentes parties de la surface. Ce type
dchantillonnage est souvent pratique pour contrler les travaux de terrain. A part ces
considrations oprationnelles, il est dmontr que la procdure de lchantillonnage
systmatique fournit des estimateurs plus efficaces que lchantillonnage alatoire
simple, dans des conditions sylvicoles normales. La proprit de lchantillonnage
systmatique, savoir la rpartition uniforme des units dchantillonnage sur la
population peut tre exploite en recensant les units de manire regrouper les units
homognes ou de manire ce que les valeurs de la caractristique relative aux units
soient ranges par ordre croissant ou dcroissant. Par exemple, si lon connat la
tendance de fertilit de la surface de fort, les units (par exemple, les bandes) peuvent
tre recenses conformment cette tendance.
Si la population affiche un rgime de variation rgulier et si lintervalle dchantillonnage
de lchantillon systmatique concide avec cette rgularit, lchantillon systmatique
ne donne pas destimations prcises. Il est vrai quaucun cas vident de priodicit na
jamais t signal dans une tendue forestire. Il faut nanmoins tenir compte, lorsque
lon planifie une enqute, du fait quun chantillonnage systmatique peut donner des
rsultats peu prcis, au cas o une priodicit insouponne se vrifierait.
5.3.1. Slection dun chantillon systmatique
Pour illustrer la slection dun chantillon systmatique, prenons une population de N =
48 units. Un chantillon de n = 4 units est ncessaire. Dans ce cas, k = 12. Si le
nombre alatoire choisi dans lensemble de nombres allant de 1 12 est 11, les units
correspondant aux numros de srie 11, 23, 35 et 47 seront slectionnes. Dans les cas
o N nest pas divisible par n, k est le nombre entier le plus proche de N / n. Dans ce cas,
la taille de lchantillon nest pas ncessairement gale n et elle peut tre gale n -1.
5.3.2. Estimation des paramtres
Lestimation de la moyenne de la population de chaque unit est donne par la
moyenne de lchantillon
12

(5.16)
o n est le nombre dunits dans lchantillon.
Dans le cas denqutes par chantillonnage systmatique en bandes ou, dune manire
gnrale, dans tout systme dchantillonnage systmatique unidimensionnel, on peut
obtenir une approximation de lerreur-type partir des diffrences entre deux units qui
se suivent. Supposons que n units aient t numres dans lchantillon
systmatique, on aura (n-1) diffrences. La variance par unit est donc donne par la
somme des carrs des diffrences divise par le double du nombre de diffrences. Ainsi,
si y1, y2,,yn sont les valeurs observes (par exemple, le volume) des n units dans
lchantillon systmatique, et en dfinissant la premire diffrence d(yi) comme indiqu
ci-dessous
; (i = 1, 2, , n -1), (5.17)
la variance approximative par unit est estime par la formule

(5.18)
A titre dexemple, le Tableau 5.1. donne les diamtres observs de 10 arbres
slectionns par prlvement systmatique dun arbre sur 20 dans un peuplement
contenant 195 arbres disposs par ranges de 15. Le premier lment slectionn tait
le huitime arbre de lun des cots extrieurs du peuplement, en partant dun coin. Les
autres arbres ont t slectionns systmatiquement, en prenant chaque 20me arbre,
puis en passant larbre le plus proche de la range suivante aprs le dernier arbre de
chaque range.
Tableau 5.1. Diamtre des arbres observ sur un chantillon systmatique de 10 arbres
prlevs dans une parcelle.

Numro
de Diamtre
larbre
hauteur
slectionn
dhomme
cm)

Premire
diffrence
(en
d(yi)

yi

14.8

28

12.0

-2.8

13

48

13.6

+1.6

68

14.2

+0.6

88

11.8

-2.4

108

14.1

+2.3

128

11.6

-2.5

148

9.0

-2.6

168

10.1

+1.1

188

9.5

-0.6

Le diamtre moyen est gal

Les neuf premires diffrences sobtiennent avec la formule indique dans la colonne (3)
du Tableau 5.1. La variance des carts de la moyenne par unit est donc

= 0.202167
Lun des inconvnients est quun chantillon systmatique ne permet pas en lui-mme
dobtenir une valuation valide de la prcision des estimations. Pour en avoir, on peut
avoir recours des chantillons partiellement systmatiques. Il existe une mthode
thoriquement valable qui fait appel au concept dchantillon systmatique tout en
aboutissant des estimations non biaises de lerreur dchantillonnage; celle-ci
consiste prlever au moins deux chantillons systmatiques, avec des points de dpart
alatoires indpendants. Si

, ,

sont m estimations de la moyenne de la


14

population bases
combine est

sur

chantillons

systmatiques

indpendants,

lestimation

(5.19)
Lestimation de la variance de

est donne par la relation

(5.20)
Remarquons que la prcision augmente avec le nombre dchantillons systmatiques
indpendants.
A titre dexemple, prenons les donnes du Tableau 5.1, ainsi quun autre chantillon
systmatique slectionn avec des points de dpart alatoires indpendants. Dans le
deuxime chantillon, le premier lment slectionn tait le 10me arbre. Les donnes
concernant les deux chantillons indpendants sont reportes dans le Tableau 5.2.
Tableau 5.2. Diamtre des arbres observ sur deux chantillons systmatiques
indpendants de 10 arbres issus dune parcelle.

Echantillon 1

Numro
de larbre
slection
n

Echantillon 2

Diamtre
Numro
hauteur
de de larbre
poitrine
(en slectionn
cm)

Diamtre

hauteur
de
poitrine (en
cm)

yi

yi

14.8

10

13.6

28

12.0

30

10.0

48

13.6

50

14.8

68

14.2

70

14.2

15

88

11.8

90

13.8

108

14.1

110

14.5

128

11.6

130

12.0

148

9.0

150

10.0

168

10.1

170

10.5

188

9.5

190

8.5

Le diamtre moyen du premier chantillon,

. Le diamtre moyen du deuxime

chantillon,
. Lestimation combine de la moyenne de la population ( ) se
calcule laide de lquation (5.19),

= 12.13
Lestimation de la variance de

sobtient laide de lquation (5.20).

= 0.0036
= 0.06
Il existe une autre variante de lchantillonnage systmatique, dans le cas dun
chantillonnage systmatique dans deux directions. Par exemple, si, dans des
plantations, on veut estimer le volume du peuplement, on peut adopter un chantillon
systmatique de ranges et prendre, dans chaque range slectionne, des mesures sur
le dixime arbre. Dans une enqute forestire, on peut prendre une srie de bandes
parallles quidistantes stendant sur toute la largeur de la fort, et, dans chaque
bande, on peut procder lnumration en prlevant un chantillon systmatique de
parcelles ou darbres. Une autre mthode serait de former des grilles rectangulaires de
(p x q) mtres et de slectionner un chantillon systmatique de lignes et de colonnes,
avec une parcelle dune taille dtermine et de la forme prescrite chaque intersection.
16

Dans le cas dun chantillon systmatique bidimensionnel, on peut obtenir les


estimations et une approximation de lerreur dchantillonnage, grce une mthode
base sur la stratification. Celle-ci est similaire la mthode dchantillonnage stratifi
dcrite dans la section 5.4. Par exemple, lchantillon peut tre arbitrairement divis en
ensembles de 4 dans 2 x 2 units, chaque ensemble tant considr comme formant
une strate. On suppose en outre que les observations faites lintrieur de chaque
strate sont slectionnes de manire indpendante et alatoire. Pour ajuster les bords,
les strates qui se chevauchent seront prises en bordure de la zone forestire.

5.4. Echantillonnage stratifi


Lide de base de lchantillonnage alatoire stratifi est de diviser une population
htrogne en sous-populations, habituellement appeles strates, constitues
dlments homognes; on pourra ainsi obtenir une estimation prcise dune moyenne
de strate quelconque partir dun petit chantillon prlev dans cette strate, ainsi
quune estimation prcise pour lensemble de la population, en combinant ces
estimations. Lchantillonnage stratifi donne une meilleure section transversale de la
population que la procdure dchantillonnage alatoire simple. Cette mthode peut
aussi simplifier lorganisation des activits en champ. La proximit gographique est
parfois llment de base de la stratification, car on part du principe que des zones
contigus sont souvent plus semblables que des zones trs loignes. Llment de base
de la stratification peut aussi tre dict par des considrations dordre administratif. Par
exemple, le personnel dj disponible dans chaque brigade dune division forestire peut
tre charg de superviser lenqute dans la zone relevant de sa comptence. Ainsi, des
rgions gographiques compactes peuvent former les strates. Une mthode de
stratification assez efficace consiste effectuer une enqute prliminaire rapide de la
zone ou rassembler linformation dj disponible et stratifier la surface de fort
suivant les types de forts, la densit des peuplements, la qualit de la station etc... Si
lon sait que la caractristique ltude est influence par une variable supplmentaire
au sujet de laquelle on dispose de donnes relles, ou au moins de bonnes estimations
concernant les units de la population, la stratification peut tre faite en utilisant les
informations sur cette variable supplmentaire. Par exemple, la population peut tre
stratifie sur la base des estimations de volume obtenues lors dun inventaire antrieur
de la superficie forestire.
Dans lchantillonnage stratifi, la variance de lestimateur ne comprend que la variation
lintrieur des strates. Ainsi, en gnral le degr de prcision augmente avec le
nombre de strates de la population, car plus elles sont nombreuses, plus les units
quelles contiennent sont homognes. Pour estimer la variance lintrieur des strates,
chaque strate devrait avoir au minimum deux units. Plus le nombre de strates est
lev, plus le cot de du recensement est lev. Ainsi, le nombre de strates devra tre
dtermin, et la dcision dpendra de considrations de commodit administrative, du
cot de lenqute et de la variabilit de la caractristique ltude dans la zone.
5.4.1. Allocation et slection de lchantillon lintrieur des strates
Supposons que la population soit divise en k strates de N1, N2 ,, Nk units
respectivement, et quun chantillon de n units doive tre prlev de la population.
Pour lallocation, le problme est de choisir les tailles dchantillon dans les strates
respectives, cest--dire de dterminer le nombre dunits qui devraient tre prleves
de chaque strate, pour que la taille de lchantillon total soit gale n.
17

Tous les choix tant quivalents, il est possible de prlever un plus grand chantillon
dune strate qui a une variance plus grande, de sorte que la variance des estimations
des moyennes des strates se trouve rduite. Lapplication du principe ci-dessus
ncessite des estimations pralables de la variation lintrieur de chaque strate.
Celles-ci peuvent avoir t acquises lors dune enqute antrieure ou provenir
denqutes pilotes de nature restreinte. Ainsi, si ces informations sont disponibles, la
fraction sonde dans chaque strate peut tre considre comme proportionnelle
lcart-type de chaque strate.
Si le cot par unit de lenqute dans chaque strate est connu et varie dune strate
lautre, une mthode dallocation efficace, pour un cot minimum, consiste prlever de
grands chantillons dans la strate o lchantillonnage cote le moins cher et o la
variabilit est la plus leve. Pour appliquer cette procdure, il faut des renseignements
sur la variabilit et le cot des observations pour chaque unit dans les diffrentes
strates.
A dfaut dinformations sur les variances relatives lintrieur des strates et sur le cot
des oprations, la partie de lchantillon attribue aux diffrentes strates peut tre
proportionnelle au nombre dunits quelles contiennent ou la surface totale de chaque
strate. Cette mthode est habituellement appele "rpartition proportionnelle de
lchantillon".
Pour la slection des units dans les strates, dune manire gnrale, on peut adopter
nimporte quelle mthode base sur une slection probabiliste dunits. Toutefois, la
slection doit tre indpendante dans chaque strate. Si des chantillons alatoires
indpendants sont prlevs dans chaque strate, la procdure dchantillonnage prend le
nom d"chantillonnage alatoire stratifi". Dautres modes de slection de lchantillon,
comme lchantillonnage systmatique, peuvent aussi tre adopts lintrieur des
diffrentes strates.
5.4.2. Estimation de la moyenne et de la variance
Nous supposerons que la population de N units est dabord divise en k strates
contenant respectivement N1, N2,,Nk units. Ces strates ne se chevauchent pas et
elles toutes, elles forment lensemble de la population, de sorte que
N1 + N2 + .. + Nk = N. (5.21)
Lorsque les strates ont t dfinies, un chantillon est prlev dans chacune delles, la
slection se faisant indpendamment dans chaque strate. Les tailles des chantillons
lintrieur des strates sont respectivement notes n1, n2, , nk . On a donc,
n1 + n2 +..+ n3 = n (5.22)
Soit ytj (j = 1, 2,., Nt ; t = 1, 2,..k) la valeur de la caractristique tudie sur la j-me
unit dans la t-ime strate. Dans ce cas, la moyenne de la population dans la t-ime
strate est donne par la relation

(5.23)
La moyenne de lensemble de la population est donne par
18

(5.24)
Dans ce cas, une estimation de la moyenne
formule

de la population sera donne par la

(5.25)

(5.26)

Lestimation de la variance de

est donne par

(5.27)

(5.28)

Si elle est effectue comme on la expliqu dans les sections prcdentes, la


stratification donne ordinairement une variance plus faible pour le total ou la moyenne
de la population estime quun chantillon alatoire simple de la mme taille. Toutefois,
si lchantillon stratifi est prlev sans les prcautions voulues, les rsultats ne seront
pas meilleurs quavec un chantillon alatoire simple.
Nous allons maintenant illustrer par un exemple numrique les calculs de lestimation du
volume moyen par hectare dune espce particulire et de son erreur-type, partir dun
chantillon alatoire stratifi de compartiments slectionns de manire indpendante,
avec des probabilits gales dans chaque strate.
Une tendue forestire, constitue de 69 compartiments a t divise en trois strates
contenant respectivement les compartiments 1 29, 30 45 et 46 69; on a ensuite
choisi au hasard 10, 5 et 8 compartiments dans les trois strates. Les numros de srie
des compartiments slectionns dans chaque strate sont indiqus dans la colonne (4) du
Tableau 5.3. Le volume observ correspondant de lespce particulire dans chaque
compartiment slectionn est donn, en m3/ha, dans la colonne (5).

19

Vous aimerez peut-être aussi