Académique Documents
Professionnel Documents
Culture Documents
TECHNIQUES DECHANTILLONNAGE
contiendra une estimation de la marge des erreurs dchantillonnage des rsultats et, le
cas chant, les effets possibles des erreurs non lies lchantillonnage. Quelquesunes de ces tapes sont dcrites de faon plus approfondie dans les passages qui
suivent.
i) Dfinition des objectifs de lenqute: Pour commencer, les objectifs de lenqute
doivent tre examins attentivement. Par exemple, pour une enqute forestire, on
dtermine la superficie qui sera couverte par lenqute. Les caractristiques sur
lesquelles des informations seront collectes et le niveau de dtail souhait seront
prciss. Si lenqute porte sur des arbres, on dterminera les espces darbres qui
devront tre recenss et lon dcidera sil convient dnumrer uniquement les arbres
faisant partie de classes de diamtres dtermines ou si lon estimera aussi le volume
des arbres. Cest aussi durant la premire tape que lon dtermine le degr de prcision
que devront avoir les estimations.
ii) Elaboration dun diagramme des units: Dans tout chantillon probabiliste, la
premire exigence est ltablissement dune base de sondage. La structure dune
enqute par sondage est largement dtermine par cette base. La base de sondage est
une liste des units dchantillonnage qui peuvent tre clairement dfinies et identifies
dans la population. Ces units peuvent tre des compartiments, des sections
topographiques, des bandes dune certaine largeur ou des parcelles de forme et de taille
dfinies.
Llaboration dune base de sondage adapte aux objectifs dune enqute demande de
lexprience et peut fort bien absorber une part importante des travaux de planification,
en particulier dans les enqutes forestires o il peut tre ncessaire de dresser une
liste artificielle des units dchantillonnage, faites de sections topographiques, de
bandes ou de parcelles. Par exemple, dans une enqute forestire, une base de sondage
peut se prsenter sous la forme dune carte approprie de la superficie forestire. Le
mode de slection des units dchantillonnage doit permettre didentifier sur le terrain
une unit spcifique devant tre incluse dans lchantillon. Le choix est fonction de
plusieurs facteurs: lobjet de lenqute, les caractristiques qui doivent tre observes
dans les units slectionnes, la variabilit entre des units dchantillonnage dune
taille donne, le plan dchantillonnage, le plan des travaux de terrain, et le cot total de
lenqute. Le choix est aussi dtermin par des considrations pratiques. Par exemple,
dans des zones de collines, il nest pas toujours possible de prendre des bandes comme
units dchantillonnage, et les compartiments ou les sections topographiques peuvent
tre plus appropris. En gnral, pour une intensit dchantillonnage donne
(proportion de la surface recense), plus les units dchantillonnage sont petites, plus
lchantillon est reprsentatif et plus les rsultats ont de chances dtre prcis.
Choix dun plan dchantillonnage: Si le plan dchantillonnage doit tre de nature
fournir une mesure statistiquement significative de la prcision des estimations finales,
lchantillon doit tre probabiliste, en ce sens que chaque unit de la population doit
avoir une probabilit connue dtre incluse dans lchantillon. Le choix des units
inscrire sur la liste doit tre bas sur une rgle objective qui ne laisse aucune part
lopinion de lhomme de terrain. La dtermination du nombre dunits inclure dans
lchantillon et la mthode de slection sont galement fonction du cot admissible de
lenqute et de la prcision des estimations finales.
Organisation des travaux sur le terrain: Une enqute par sondage nest pleinement
russie que si les oprations de terrain sont fiables. Dans le domaine forestier, les
travaux sur le terrain doivent tre organiss avec le plus grand soin autrement, mme si
3
Base de sondage : Une liste dunits dchantillonnage est une base de sondage. Une
population est " finie " si elle comprend un nombre fini dunits dchantillonnage.
Echantillon : Une ou plusieurs units dchantillonnage slectionnes dans une
population suivant une procdure dfinie constituent un chantillon.
Intensit de lchantillonnage : Lintensit de lchantillonnage est le rapport du nombre
dunits incluses dans lchantillon au nombre dunits comprises dans la population.
Total de population : Supposons une population finie compose dunits U 1, U2, , UN.
Notons yi la valeur de la caractristique de la i-me unit. Par exemple, les units
peuvent tre des bandes et les caractristiques peuvent tre le nombre darbres dune
espce dtermine lintrieur dune bande. La somme des valeurs yi ( i = 1, 2, , N),
savoir,
(5.1)
est appele total de population. Dans notre exemple, celui-ci est le nombre moyen
darbres de lespce spcifique dans toute la population.
Moyenne de la population: La moyenne arithmtique
(5.2)
est appele moyenne de la population. Ici, il sagit du nombre moyen darbres de
lespce considre, par bande.
Variance de la population: la variance de la population est une mesure de la variation
entre les units de la population
(5.3)
Dans notre exemple, la variance de la population mesure la variation du nombre
darbres de lespce considre, entre les bandes. Des valeurs leves indiquent une
variation importante entre les units de la population, alors que des valeurs faibles
montrent que les valeurs de la caractristique dans les units sont proches de la
moyenne de la population. La racine carre de la variance est connue sous le nom d
cart-type.
Coefficient de variation : Le coefficient de variation est le rapport, gnralement exprim
en pourcentage, de lcart type la valeur de la moyenne arithmtique
(5.4)
Du fait quil est adimensionnel, le coefficient de variation est un instrument prcieux
pour comparer les variations de deux ou plusieurs populations ou ensembles
dobservations.
5
Paramtre : On appelle paramtre toute fonction des valeurs des units dune
population. La moyenne de la population, la variance, le coefficient de variation etc...
sont des exemples de paramtres de population. Dans la thorie de lchantillonnage, le
problme est destimer les paramtres partir dun chantillon, au moyen dune
procdure permettant de mesurer la prcision des estimations.
Estimateur, estimation : Notons y1, y2, , yn les observations dun chantillon de taille n.
Toute fonction des observations effectues sur un chantillon est une statistique. Une
statistique utilise pour estimer un paramtre de la population est un estimateur. Par
exemple, la moyenne dun chantillon est un estimateur de la moyenne de la population.
On appelle estimation toute valeur spcifique dun estimateur calcule partir dun
chantillon observ.
Erreur provenant de lestimation : Une statistique t est appele estimateur non biais
dun paramtre q de la population si son esprance mathmatique (ou valeur probable),
note E(t), est gale q . Avec une procdure dchantillonnage de type probabiliste, on
obtient, par rptition, un nombre certain nombre dchantillons possibles. Si les valeurs
de la statistique t sont calcules pour chaque chantillon possible et si la moyenne des
valeurs est gale la valeur q associe la population, on dit que t est un estimateur
non biais de q , bas sur la procdure dchantillonnage. La rptition de la procdure
et du calcul des valeurs de t est une notion purement thorique, ces oprations ntant
pas effectues dans la ralit, mais lide selon laquelle on peut driver toutes les
estimations possibles en rptant le processus dchantillonnage est fondamentale pour
ltude du biais. Si E(t) nest pas gal q , la statistique t est un estimateur biais de q
et le biais est donn par biais = E(t) - q . Lintroduction dun processus rellement
alatoire pour la slection dun chantillon est un pas important pour viter les biais.
Dans les enqutes forestires, o les experts tendent choisir des tendues de fort
typiques pour les numrations, les estimations sont invitablement biaises, mme si
leur bonne foi nest pas en cause.
Variance dchantillonnage : La diffrence entre une estimation dun chantillon et la
valeur de la population est appele erreur dchantillonnage de lestimation; on ne
connat videmment pas lamplitude de cette erreur puisquon ne connat pas la valeur
de la population. Etant donn que le plan dchantillonnage donne lieu diffrents
chantillons possibles, les estimations varient dun chantillon lautre. Sur la base de
ces estimations possibles, on peut obtenir une mesure de lamplitude moyenne, par
rapport tous les chantillons possibles, des carrs de lerreur dchantillonnage. Il
sagit de lerreur quadratique moyenne (MSE) de lestimation qui est essentiellement
une mesure de la variation dun estimateur par rapport la valeur relle de la
population. En symboles, MSE = E[t - q ]2. La variance dchantillonnage (V(t)) est une
mesure de lcart de lestimation par rapport son esprance mathmatique. Elle est
dfinie comme lamplitude moyenne par rapport tous les chantillons possibles des
carrs des carts de lestimateur par rapport son esprance mathmatique et est
donne par V(t) = E[t - E(t)]2.
Remarquons que la variance dchantillonnage concide avec lerreur quadratique
moyenne dans le cas o t est un estimateur non biais. Gnralement, lamplitude de
lestimation de la variance dchantillonnage calcule partir dun chantillon donne
une ide de lutilit dune estimation relative un chantillon. Plus lchantillon est
grand et plus la variabilit entre les units constituant la population est petite, plus
lerreur dchantillonnage sera petite et plus les rsultats sont fiables.
(5.5)
(5.6)
o
est lestimation de la variance de t et z la valeur de lcart rduit correspondant
une probabilit de confiance souhaite P, exprime en pourcentage. Par exemple, si z
est gal 1.96, on dit que les chances que la valeur relle de q soit contenue dans
lintervalle alatoire dfini par les limites de confiance suprieure et infrieure sont de
95 pour cent. Les limites de confiance spcifient lamplitude prvue de la variation de la
moyenne de la population et stipulent le degr de confiance que nous devrions attacher
aux rsultats de nos chantillons. Si la taille de lchantillon est infrieure 30, la valeur
de k dans les formules donnant les limites de confiance suprieure et infrieure devrait
tre tire des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec
les degrs de libert correspondant la somme des carrs dans lestimation de la
variance de t. De modestes carts de la distribution par rapport la normale naffectent
pratiquement pas la formule relative aux limites de confiance. En revanche, si la
distribution est trs diffrente de la normale, il faut adopter des mthodes spciales. Par
exemple, si l'on utilise de petites surfaces comme units d'chantillonnage, pour estimer
le nombre moyen darbres classes de diamtre leves, la distribution peut avoir une
asymtrie prononce. Dans ce cas, la formule indique ci dessus pour le calcul des
limites de confiance suprieure et infrieure nest pas toujours directement applicable.
Quelques observations dordre gnral: Dans les sections qui suivent, les valeurs
concernant la population seront notes par des lettres majuscules et les valeurs de
lchantillon par des lettres minuscules. Le symbole "cap" (^) au-dessus dun symbole
relatif une valeur de la population dnote son estimation base sur des observations
de lchantillon. Les autres notations particulires seront expliques au fur et mesure
de leur apparition.
7
(5.9)
(5.10)
o
(5.11)
est un estimateur non biais de la moyenne
de la population. Une estimation non
biaise de la variance dchantillonnage de est donne par
(5.12)
(5.13)
Si lestimation suit une loi normale, il est possible dtablir un intervalle de confiance
sur la moyenne de la population
, les limites de confiance infrieure et suprieure
tant dfinies par,
Limite infrieure
Limite suprieure
(5.14)
(5.15)
= 7 m3
qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de fort.
Une estimation (
lquation (5.13).
10
= 3.833
est donc
= 0.1495 (m3)2
0.3867 m3
Lerreur-type relative,
(100) = 5.52 %
Les limites de confiance attaches la moyenne de la population
quations (5.14) et (5.15).
Limite infrieure
= 6.20 cordes
Limite suprieure
= 7.80 cordes
Lintervalle de confiance de 95% associ la moyenne de la population est de (6.20,
7.80) m3. Cela signifie que lon peut estimer quil y a 95 chances sur cent que lintervalle
de confiance de (6.20, 7.80) m3 inclura la moyenne de la population.
On obtiendra facilement une estimation du volume total de bois dans la surface de fort
chantillonne en multipliant lestimation de la moyenne par le nombre total de
parcelles comprises dans la population. Ainsi
avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de
confiance associs la moyenne par N = 1000. Lerreur-type relative RSE de
cependant pas modifie par cette opration.
5.3. Echantillonnage systmatique
11
, nest
(5.16)
o n est le nombre dunits dans lchantillon.
Dans le cas denqutes par chantillonnage systmatique en bandes ou, dune manire
gnrale, dans tout systme dchantillonnage systmatique unidimensionnel, on peut
obtenir une approximation de lerreur-type partir des diffrences entre deux units qui
se suivent. Supposons que n units aient t numres dans lchantillon
systmatique, on aura (n-1) diffrences. La variance par unit est donc donne par la
somme des carrs des diffrences divise par le double du nombre de diffrences. Ainsi,
si y1, y2,,yn sont les valeurs observes (par exemple, le volume) des n units dans
lchantillon systmatique, et en dfinissant la premire diffrence d(yi) comme indiqu
ci-dessous
; (i = 1, 2, , n -1), (5.17)
la variance approximative par unit est estime par la formule
(5.18)
A titre dexemple, le Tableau 5.1. donne les diamtres observs de 10 arbres
slectionns par prlvement systmatique dun arbre sur 20 dans un peuplement
contenant 195 arbres disposs par ranges de 15. Le premier lment slectionn tait
le huitime arbre de lun des cots extrieurs du peuplement, en partant dun coin. Les
autres arbres ont t slectionns systmatiquement, en prenant chaque 20me arbre,
puis en passant larbre le plus proche de la range suivante aprs le dernier arbre de
chaque range.
Tableau 5.1. Diamtre des arbres observ sur un chantillon systmatique de 10 arbres
prlevs dans une parcelle.
Numro
de Diamtre
larbre
hauteur
slectionn
dhomme
cm)
Premire
diffrence
(en
d(yi)
yi
14.8
28
12.0
-2.8
13
48
13.6
+1.6
68
14.2
+0.6
88
11.8
-2.4
108
14.1
+2.3
128
11.6
-2.5
148
9.0
-2.6
168
10.1
+1.1
188
9.5
-0.6
Les neuf premires diffrences sobtiennent avec la formule indique dans la colonne (3)
du Tableau 5.1. La variance des carts de la moyenne par unit est donc
= 0.202167
Lun des inconvnients est quun chantillon systmatique ne permet pas en lui-mme
dobtenir une valuation valide de la prcision des estimations. Pour en avoir, on peut
avoir recours des chantillons partiellement systmatiques. Il existe une mthode
thoriquement valable qui fait appel au concept dchantillon systmatique tout en
aboutissant des estimations non biaises de lerreur dchantillonnage; celle-ci
consiste prlever au moins deux chantillons systmatiques, avec des points de dpart
alatoires indpendants. Si
, ,
population bases
combine est
sur
chantillons
systmatiques
indpendants,
lestimation
(5.19)
Lestimation de la variance de
(5.20)
Remarquons que la prcision augmente avec le nombre dchantillons systmatiques
indpendants.
A titre dexemple, prenons les donnes du Tableau 5.1, ainsi quun autre chantillon
systmatique slectionn avec des points de dpart alatoires indpendants. Dans le
deuxime chantillon, le premier lment slectionn tait le 10me arbre. Les donnes
concernant les deux chantillons indpendants sont reportes dans le Tableau 5.2.
Tableau 5.2. Diamtre des arbres observ sur deux chantillons systmatiques
indpendants de 10 arbres issus dune parcelle.
Echantillon 1
Numro
de larbre
slection
n
Echantillon 2
Diamtre
Numro
hauteur
de de larbre
poitrine
(en slectionn
cm)
Diamtre
hauteur
de
poitrine (en
cm)
yi
yi
14.8
10
13.6
28
12.0
30
10.0
48
13.6
50
14.8
68
14.2
70
14.2
15
88
11.8
90
13.8
108
14.1
110
14.5
128
11.6
130
12.0
148
9.0
150
10.0
168
10.1
170
10.5
188
9.5
190
8.5
chantillon,
. Lestimation combine de la moyenne de la population ( ) se
calcule laide de lquation (5.19),
= 12.13
Lestimation de la variance de
= 0.0036
= 0.06
Il existe une autre variante de lchantillonnage systmatique, dans le cas dun
chantillonnage systmatique dans deux directions. Par exemple, si, dans des
plantations, on veut estimer le volume du peuplement, on peut adopter un chantillon
systmatique de ranges et prendre, dans chaque range slectionne, des mesures sur
le dixime arbre. Dans une enqute forestire, on peut prendre une srie de bandes
parallles quidistantes stendant sur toute la largeur de la fort, et, dans chaque
bande, on peut procder lnumration en prlevant un chantillon systmatique de
parcelles ou darbres. Une autre mthode serait de former des grilles rectangulaires de
(p x q) mtres et de slectionner un chantillon systmatique de lignes et de colonnes,
avec une parcelle dune taille dtermine et de la forme prescrite chaque intersection.
16
Tous les choix tant quivalents, il est possible de prlever un plus grand chantillon
dune strate qui a une variance plus grande, de sorte que la variance des estimations
des moyennes des strates se trouve rduite. Lapplication du principe ci-dessus
ncessite des estimations pralables de la variation lintrieur de chaque strate.
Celles-ci peuvent avoir t acquises lors dune enqute antrieure ou provenir
denqutes pilotes de nature restreinte. Ainsi, si ces informations sont disponibles, la
fraction sonde dans chaque strate peut tre considre comme proportionnelle
lcart-type de chaque strate.
Si le cot par unit de lenqute dans chaque strate est connu et varie dune strate
lautre, une mthode dallocation efficace, pour un cot minimum, consiste prlever de
grands chantillons dans la strate o lchantillonnage cote le moins cher et o la
variabilit est la plus leve. Pour appliquer cette procdure, il faut des renseignements
sur la variabilit et le cot des observations pour chaque unit dans les diffrentes
strates.
A dfaut dinformations sur les variances relatives lintrieur des strates et sur le cot
des oprations, la partie de lchantillon attribue aux diffrentes strates peut tre
proportionnelle au nombre dunits quelles contiennent ou la surface totale de chaque
strate. Cette mthode est habituellement appele "rpartition proportionnelle de
lchantillon".
Pour la slection des units dans les strates, dune manire gnrale, on peut adopter
nimporte quelle mthode base sur une slection probabiliste dunits. Toutefois, la
slection doit tre indpendante dans chaque strate. Si des chantillons alatoires
indpendants sont prlevs dans chaque strate, la procdure dchantillonnage prend le
nom d"chantillonnage alatoire stratifi". Dautres modes de slection de lchantillon,
comme lchantillonnage systmatique, peuvent aussi tre adopts lintrieur des
diffrentes strates.
5.4.2. Estimation de la moyenne et de la variance
Nous supposerons que la population de N units est dabord divise en k strates
contenant respectivement N1, N2,,Nk units. Ces strates ne se chevauchent pas et
elles toutes, elles forment lensemble de la population, de sorte que
N1 + N2 + .. + Nk = N. (5.21)
Lorsque les strates ont t dfinies, un chantillon est prlev dans chacune delles, la
slection se faisant indpendamment dans chaque strate. Les tailles des chantillons
lintrieur des strates sont respectivement notes n1, n2, , nk . On a donc,
n1 + n2 +..+ n3 = n (5.22)
Soit ytj (j = 1, 2,., Nt ; t = 1, 2,..k) la valeur de la caractristique tudie sur la j-me
unit dans la t-ime strate. Dans ce cas, la moyenne de la population dans la t-ime
strate est donne par la relation
(5.23)
La moyenne de lensemble de la population est donne par
18
(5.24)
Dans ce cas, une estimation de la moyenne
formule
(5.25)
(5.26)
Lestimation de la variance de
(5.27)
(5.28)
19