Vous êtes sur la page 1sur 242

FO: GCP/RAS/163/NET

FO : GCP/INT/679/EC
MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE
ORGANISATION DES NATIONS UNIES POUR LALIMENTATION ET LAGRICULTURE
COOPERATION HOLLANDAISE
COMMISSION EUROPEENNE
FO: GCP/RAS/163/NET
FO : GCP/INT/679/EC
MANUEL DE STATISTIQUE POUR LA RECHERCHE FORESTIERE
de
K. J AYARAMAN
Kerala Forest Research I nstitute
Peechi, Thrissur, Kerala (I nde)
ORGANISATION DES NATIONS UNIES POUR LALIMENTATION ET LAGRICULTURE
COOPERATION HOLLANDAISE
COMMISSION EUROPEENNE
i
REMERCIEMENTS
Lauteur est profondment reconnaissant au FORSPA davoir soutenu la prparation de ce manuel.
Il remercie galement le Kerala Forest Research Institute davoir donn lautorisation dentreprendre
cette tude et mis disposition les infrastructures ncessaires. Bon nombre dexemples illustrant les
diffrentes techniques statistiques dcrites dans ce manuel se fondent sur des donnes publies par
des chercheurs du Kerala Forest Research Institute. Lauteur exprime aussi sa gratitude tous ses
collaborateurs de lInstitut qui ont coopr titre gracieux et tient remercier en particulier Smt C.
Sunanda et M. A.G. Varghese, agrgs en recherche de la Division des statistiques du Kerala Forest
Research Institute, qui ont eu la patience de lire le manuscrit et ont offert de nombreuses suggestions
utiles pour en amliorer le contenu et la forme.
Le prsent manuel est ddi tous ceux qui sont fermement dcids chercher la VERITE, en
tranchant le voile du hasard avec le sabre de la raison pure
Mars 1999 K. Jayaraman
1
NOTE INTRODUCTIVE
( la version franaise)
Face aux diffrents dfis que connat lAfrique dans son dveloppement, la fort et les ressources
ligneuses ont une place essentielle jouer. Il est ainsi indispensable de promouvoir une gestion
durable des arbres et des forts pour quun tel patrimoine puisse au mieux servir les besoins et les
esprances des hommes. Pour tendre vers cette politique o sintgrent, dune manire quilibre,
les aspects conomiques, sociaux et environnementaux, la Commission europenne et le
Dpartement des forts de la FAO ont dcid dun programme de partenariat qui dfinit une
dmarche commune en faveur de lAfrique, celle de soutenir lamnagement durable des forts.
Un tel objectif appelle un renforcement des capacits nationales dans la collecte et lanalyse dune
information fiable et actualise portant sur le secteur forestier. Toutefois, amliorer la qualit des
donnes, sassurer de leur validit ou laborer un cadre effectif pour leur collecte et diffusion sont
des difficults quotidiennes et rptes pour de nombreux services forestiers africains. Cette ralit,
cette proccupation, nos collgues forestiers africains nous lont explique et souligne au cours des
activits menes dans le cadre du programme CE-FAO durant les ateliers techniques ou parmi les
recommandations de leurs rapports. Enfin le rsultat des changes et discussions nous a montr que
lorganisation des donnes et leur valeur passent aussi par une meilleure matrise des concepts et
principes statistiques.
A travers un constat similaire et afin de donner aux forestiers asiatiques les outils ncessaires dans
leurs travaux de planification, de collecte des donnes et dinterprtation des rsultats, FORSPA
(acronyme de Forestry Research Support Programme for Asia and the Pacific ou Programme de
soutien la recherche forestire pour lAsie et le Pacifique) a facilit la rdaction dun manuel de
statistiques.
De ce travail en anglais, il nous est paru important de pouvoir le traduire et den proposer une
version franaise pour une plus ample diffusion. Celle-ci a pu tre produite grce aux fonds mis
disposition par la Commission europenne.
Avec le prsent document, nous esprons que vous, experts, chercheurs ou spcialistes forestiers,
puissiez y trouver les exemples et les techniques utiles votre activit professionnelle.
Michael Martin
Chef de la Sous-Division
de la planification et des statistiques forestires
2
INTRODUCTION
Le prsent manuel a t rdig pour le FORSPA (Bangkok) qui demandait que soit prpar un
manuel de formation spcialement conu lintention des spcialistes de la recherche forestire du
Bhoutan. A cette fin, nous nous sommes rendus au Bhoutan pour examiner la nature des travaux de
recherche entrepris dans ce pays et nous avons dress un plan du manuel en consultation troite avec
les chercheurs. A lorigine, le manuel devait tre structur suivant un plan prcis, en fonction de la
srie de travaux de recherche envisage dans le huitime plan quinquennal pour le Bhoutan, mais
nous avons choisi une prsentation susceptible dintresser une plus vaste gamme de chercheurs qui
entreprennent des enqutes similaires. Ce manuel sadresse aux chercheurs spcialiss dans les
ressources naturelles renouvelables, en particulier les forts, les terres agricoles et llevage, et
devrait leur servir de rfrence pour planifier leurs travaux, collecter et analyser les donnes
pertinentes et en interprter les rsultats. Les exemples utiliss pour illustrer les diffrentes techniques
proviennent principalement du secteur forestier.
Aprs quelques remarques dintroduction sur la nature de la mthode scientifique et le rle des
statistiques dans la recherche scientifique, le manuel prsente des techniques spcifiques. Il
commence par dcrire les procdures lmentaires destimation et de vrification statistique, les
mthodes de planification et danalyse des expriences, ainsi que quelques techniques
dchantillonnage classiques, pour ensuite passer des mthodes statistiques utilises dans certaines
disciplines spcifiques comme lamlioration gntique des arbres, la biologie de la faune, la
dendomtrie et lcologie qui sont souvent lapanage exclusif de la recherche forestire.
En dcrivant ces mthodes, nous ne prtendons pas en avoir fait le tour, dune part parce quil est
toujours possible dutiliser les donnes de faon plus approfondie en fonction des besoins des
chercheurs, et de lautre, parce que les mthodologies sont constamment perfectionnes. En crivant
ce manuel, notre intention tait surtout de prsenter aux chercheurs quelques-uns des concepts et
des techniques fondamentaux des statistiques, qui trouvent de nombreuses applications dans la
recherche forestire et dans des domaines connexes.
Il nous a galement t prcis que le manuel devait tre rdig dans un style aussi simple que
possible, et enrichi dillustrations de manire offrir aux chercheurs une source de rfrence facile
consulter. Cest pourquoi nous nous sommes limits dcrire des plans et des analyses dexprience
simples, accompagns dillustrations appropries. Pour les techniques plus complexes, nous
renvoyons le lecteur aux ouvrages classiques sur ce sujet. Malgr cette rserve, nous nous sommes
efforcs dinsrer dans le manuel tous les lments requis pour un cours lmentaire de statistiques
appliques, en indiquant plusieurs domaines dapplication et en conseillant dautres ouvrages lire.
En ajoutant dautres thmes, nous naurions fait qualourdir ce manuel et le rendre trop compliqu.
Toute personne ayant une connaissance lmentaire des mathmatiques de base devrait tre
capable de comprendre les descriptions fournies dans ce manuel. Dans la mesure du possible, on a
vit la thorie et le calcul matriciel. Dans le cas contraire, les explications ncessaires sont fournies.
Il est conseill aux dbutants de lire les chapitres les uns aprs les autres dans lordre o ils sont
prsents. Les chercheurs plus expriments peuvent sauter les premires sections et passer
directement aux applications dcrites dans les suivantes.
3
NOTATION
Tout au long de cet ouvrage, les noms des variables sont indiqus en italiques. Le symbole
signifie somme de . Par exemple, lexpression G y ...
1 2 n
+ + + y y peut scrire G

y
i
i
n
1
ou simplement G y

si lon comprend, daprs le contexte, quels sont les termes additionner.
Dans le cas dune sommation comprenant plusieurs indices, les sommes marginales sont notes par
un point (.) la place de lindice infrieur, comme indiqu ci-dessous :
y = y
ij i.
j

, y = y
ij .j
i

, y = y
ij ..
ij

La juxtaposition de deux lettres, comme par exemple ab dans les quations, signifie gnralement
produit de a et b, sauf indication contraire expresse ou se comprenant daprs le contexte. Les
chiffres multiplier sont indiqus par des parenthses, par ex : (4)(5) signifie 4 multipli par 5. La
division est indique par une barre transversale (/) ou par une ligne de sparation horizontale entre le
numrateur et le dnominateur.
La numrotation des quations, des tableaux et des figures est fonction des numros des chapitres.
Par exemple, lquation (3.1) est lquation 1 du chapitre 3.
On trouvera lAnnexe 7 certaines notations additionnelles, comme la notation factorielle,
combinatoire ou matricielle, avec les dfinitions correspondantes.
- 4 -
1. LA METHODE STATISTIQUE DANS LA RECHERCHE SCIENTIFIQUE
Comme dans toute autre branche de la science, la recherche forestire est base sur une mthode
scientifique familirement appele approche induco-dductive. Toute mthode scientifique passe par
la formulation dhypothses partir de faits observs, puis par des cycles successifs de dduction et
de vrification. Les faits sont des observations qui sont considres comme vraies, alors quune
hypothse est une conjecture provisoire concernant le phnomne lexamen. Des dductions sont
faites partir des hypothses, au moyen darguments logiques qui sont eux-mmes vrifis par des
mthodes objectives. Le processus de vrification peut dboucher sur de nouvelles hypothses,
dductions et vrifications senchanant dans un long processus au cours duquel mergent des
thories, des principes et des lois scientifiques.
Ceci peut tre illustr par lexemple suivant : supposons que lon observe que les arbres se trouvant
aux limites dune plantation poussent mieux que ceux qui sont lintrieur. Lune des hypothses
provisoires qui pourraient tre formules partir de ce fait est la croissance des arbres est plus
rapide la priphrie de la plantation, parce quil rentre davantage de lumire par les cts
ouverts . On peut ensuite en dduire quen variant lespacement entre les arbres, ce qui permet de
contrler la quantit de lumire qui rentre, on peut modifier la croissance des arbres. Ceci conduira
planifier une exprience despacement dans laquelle on plantera des arbres des espacements
diffrents, pour observer leur croissance. Si, lissue de cette exprience, on observe que des
arbres plants la mme distance nont pas la mme croissance, on sera amen formuler une
deuxime hypothse la variation de la fertilit du sol est la cause des diffrences de croissance .
Ceci pourrait conduire planifier un nouvel essai despacement avec engrais. Si le chercheur
observe lissue de celui-ci que des arbres soumis au mme espacement et recevant la mme dose
dengrais nont pas la mme croissance, il peut tre incit conduire un essai despacement, avec
engrais et varits. A la fin dune srie dexpriences, on peut en arriver la conclusion que la loi des
facteurs limitants sapplique, cest--dire que la croissance des plantes cultives est entrave par le
facteur environnemental le plus limitant.
Les deux principales caractristiques dune mthode scientifique sont sa rptabilit et son
objectivit. Alors que ces conditions sont rigoureusement vrifies dans le cas de nombreux
processus physiques, les phnomnes biologiques sont caractriss par la variation et lincertitude.
Des expriences rptes dans des conditions similaires ne donnent pas ncessairement les mmes
rsultats, car elles sont soumises des fluctuations dues au hasard. En outre, il est souvent impossible
dobserver lensemble complet des individus qui forment la population et, dans de telles situations,
les dductions doivent tre faites sur la base dun ensemble dchantillons dobservations. La science
des statistiques est utile pour choisir objectivement un chantillon, faire des gnralisations valables
partir des observations faites sur lensemble dchantillons, mais aussi pour mesurer le degr
dincertitude, ou la fiabilit, des conclusions tires.
La collecte des donnes et leur interprtation sont deux aspects pratiques majeurs des investigations
scientifiques. Les donnes peuvent tre obtenues dans le cadre dune enqute par sondage sur une
population existant dans la nature, ou dans le cadre dun plan dexprience portant sur une
population fictive. Les donnes collectes sont rsumes et des informations utiles en sont extraites
laide de techniques dinfrence statistique. En outre, la simulation est une autre mthode, dune
importance capitale pour la recherche forestire, qui gagne du terrain depuis quelques annes, avec
La mthode statistique dans la recherche scientifique
- 5 -
lapparition de linformatique. Cette mthode est particulirement utile dans le secteur forestier car
les techniques de simulation peuvent remplacer des expriences en champ grande chelle qui sont
extrmement coteuses et longues. La mthode consiste laborer des modles mathmatiques
captant la plupart des caractristiques pertinentes du systme examin, puis faire des essais sur
ordinateur plutt quen conditions relles. Nous allons commencer par examiner quelques traits
distinctifs supplmentaires de ces trois approches savoir enqute, exprience et simulation
avant de passer une description dtaille des techniques concernes, dans les chapitres suivants.
Au sens large, toutes les tudes in situ impliquant des observations indpendantes sur la nature
peuvent tre classes dans la catgorie des enqutes. Ces enqutes peuvent tre entreprises pour
diverses raisons, par exemple pour estimer les paramtres dune population, pour comparer des
populations diffrentes, pour tudier le mode de distribution de certains organismes, ou pour
dcouvrir les interactions entre plusieurs variables. Les relations observes dans le cadre de ces
tudes sont rarement des relations de cause effet, mais elles ont une valeur prvisionnelle. Les
tudes portant sur des sciences comme lconomie, lcologie et la biologie de la faune rentrent
gnralement dans cette catgorie. La thorie statistique des enqutes repose sur lchantillonnage
alatoire, qui assigne une probabilit de slection donne chaque unit dchantillonnage de la
population.
Les expriences servent vrifier des hypothses dans des conditions que lon matrise. Dans le
secteur forestier, les expriences sont ralises en fort, en ppinire ou en laboratoire, laide de
traitements dtermins au pralable, sur des units exprimentales bien dfinies. Lexprimentation
repose sur les trois principes de la randomisation, de la rptition et du contrle local, qui sont
indispensables pour obtenir une estimation valable de lerreur et rduire son ampleur. Lallocation
alatoire des units exprimentales aux diffrents traitements garantit lobjectivit, la rptition des
observations accrot la fiabilit des conclusions et le principe du contrle local rduit lincidence de
facteurs extrieurs sur la comparaison des traitements. Les essais sylvicoles en plantations et en
ppinires et les essais en laboratoire sont des exemples typiques dexpriences forestires.
Une exprimentation relative ltat dun systme, faite laide dun modle temporel, est appele
simulation. Un systme peut tre dfini comme un ensemble dlments, galement appels
composantes. Un ensemble darbres dans un peuplement forestier, ou des producteurs et des
consommateurs dans un systme conomique sont des exemples de composantes. Les lments
(composantes) ont certaines caractristiques, ou attributs, auxquels sont attaches des valeurs
numriques ou logiques. Il existe des relations entre les lments, de sorte que ceux-ci interagissent.
Ltat dun systme est dtermin par les valeurs numriques ou logiques des attributs des lments
qui le composent. Les interactions entre les lments dun systme peuvent tre exprimes au moyen
dquations mathmatiques ; il est donc possible de prvoir ltat du systme dans dautres
conditions possibles, au moyen de modles mathmatiques. La simulation revient tracer lvolution
dun systme travers le temps, dans le cadre de diverses hypothses.
Les enqutes, les exprimentations et les simulations sont des lments essentiels de tout programme
de recherche scientifique, mais il importe de les incorporer dans un cadre plus large et plus
stratgique, pour garantir lefficacit de lensemble du programme. Il est dsormais reconnu quune
analyse de systmes fournit un tel cadre, dont lobjet est daider les dcideurs choisir une ligne
daction rationnelle ou de prvoir lissue dune ou plusieurs lignes daction qui semblent souhaitables.
La mthode statistique dans la recherche scientifique
- 6 -
Selon une autre dfinition plus formelle, lanalyse de systmes dsigne lorganisation ordonne et
logique des donnes et de linformation dans des modles, suivie dune vrification et dune
exploration rigoureuses de ces modles, en vue de les valider et les amliorer (Jeffers, 1978).
Dans le domaine forestier, les recherches vont du niveau molculaire lensemble de la biosphre.
La nature du matriel tudi dtermine dans une large mesure les mthodes employes pour les
enqutes. De nombreux niveaux dorganisation dans la hirarchie naturelle, par exemple des micro-
organismes ou des arbres, peuvent faire lobjet dexprimentations, alors que dautres niveaux se
prtent uniquement des observations passives et des exercices de modlisation. Quels que soient
les objets ltude, on constate que le cadre logique de lapproche scientifique et de linfrence
statistique restent inchangs. Le prsent manuel dcrit essentiellement les diffrentes mthodes
statistiques qui permettent en toute objectivit de collecter des donnes et den tirer des dductions
valables.
- 7 -
2. NOTIONS DE STATISTIQUE
2.1. Le concept de probabilit
Le concept de probabilit est au centre des sciences statistiques. En tant que notion subjective, la
probabilit est en quelque sorte le degr de croyance en la survenue dun vnement, dans un
intervalle de variation continu entre limpossibilit et la certitude. En termes gnraux, la valeur p
attribue par une personne la probabilit P(E) dun vnement E reprsente le prix que cette
dernire est prte payer pour gagner une somme dargent dtermine, si ledit vnement se
matrialise. Si le prix que la personne est prte payer est de x units pour gagner y units de
monnaie, la probabilit assigne est P(E)= x / (x + y). Des mesures plus objectives de la probabilit
se fondent sur les issues galement vraisemblables et la frquence relative qui sont dcrits plus loin.
En thorie statistique, il existe aussi une dfinition axiomatique rigoureuse de la probabilit, dont il ne
sera pas question ici.
Dfinition classique de la probabilit : Supposons quun vnement E puisse se produire de x
faons diffrentes, sur un total de n faons galement vraisemblables. Dans ces conditions, la
probabilit doccurrence de lvnement E (ou de son succs) est donne par
p
x
n
P(E) (2.1)
La probabilit de non occurrence de lvnement (ou de son chec) est donne par
q = P(non E) =
n x
n
x
n

1 (2.2)
= 1 1 p P(E) (2.3)
On a donc p + q = 1, ou encore P(E) + P(non E) = 1. Lvnement non E est parfois not
E, E or ~ E
~
.
Par exemple, supposons que la couleur des fleurs dune espce vgtale particulire soit gouverne
par la prsence dun gne dominant A dans un seul locus du gne, les combinaisons gamtiques AA
et Aa donnant des fleurs rouges et la combinaison aa des fleurs blanches. E est lvnement obtenir
des fleurs rouges dans la descendance par autofcondation dun htrozygote, Aa. Supposons que
les quatre combinaisons gamtiques AA, Aa, aA et aa aient toutes les mmes chances dtre
ralises. Puisque lvnement E peut tre ralis par trois de ces combinaisons, on a :
p = P(E) =
3
4

La probabilit dobtenir des fleurs blanches dans la descendance par autofcondation dun
htrozygote Aa est
q = P(E) 1
3
4
1
4
Notons que la probabilit dun vnement est un nombre compris entre 0 et 1. Si lvnement ne
peut pas se produire, sa probabilit est gale 0. Sil doit se produire, cest--dire si son
occurrence est certaine, sa probabilit est gale 1. Si p est la probabilit quun vnement se
produise, les chances de russite sont p:q (lire p contre q) ; et les chances dchec sont q:p. Ainsi,
Notions de statistique
- 8 -
dans lexemple qui prcde, les chances dobtenir des fleurs rouges sont gales
p q : : :
3
4
1
4
31, ou 3 contre 1.
I nterprtation de la probabilit en termes de frquence : Linconvnient de la dfinition
prcdente tient au manque de prcision de lexpression galement vraisemblable. Etant donn que
ces mots semblent tre synonymes de galement probables, la dfinition est circulaire, puisque la
probabilit est dfinie partir delle-mme. Cest la raison pour laquelle certains ont prconis une
dfinition statistique de la probabilit. Selon cette dfinition, la probabilit estime, ou probabilit
empirique, dun vnement est la frquence relative de loccurrence de lvnement, sur un grand
nombre dobservations. La probabilit proprement dite est la limite de cette frquence relative
lorsque le nombre dobservations augmente indfiniment. La probabilit de lvnement E est
exprime par la formule :
P(E) = lim f
n
(E) (2.4)
n
o f
n
(E) = (nombre de fois o E sest produit)/(nombre total dobservations).
Par exemple, une enqute concernant une espce particulire menace dextinction, a donn les
suites de nombres de plantes de cette espce, indiques ci-aprs.
x (nombres de plantes de lespce menace) : 1, 6, 62, 610
n (nombres de plantes examines) : 1000, 10000, 100000, 1000000
p (proportion de lespce menace) : 0.001, 0.00060, 0.00062, 0.00061
Lorsque n tend vers linfini, la frquence relative semble tendre vers une certaine limite. Cette
proprit empirique est appele stabilit de la frquence relative.
Probabilit conditionnelle, vnements indpendants et dpendants : Si E
1
et E
2
sont deux
vnements, la probabilit que E
2
survienne, sachant que E
1
sest produit, est note P(E
2
/E
1
) ou P(E
2
sachant E
1
) et est appele probabilit conditionnelle de E
2
sachant que E
1
sest produit. Si
loccurrence ou la non occurrence de E
1
est sans influence sur la probabilit doccurrence de E
2
,
P(E
2
/E
1
) = P(E
2
) et les vnements E
1
et E
2
sont dits indpendants. Dans le cas contraire, les
vnements sont dits dpendants.
Si E
1
E
2
est lvnement ralisation de E
1
et de E
2
, parfois appel vnement compos, on a
P(E
1
E
2
) = P(E
1
)P(E
2
/E
1
) (2.5)
En particulier , P(E
1
E
2
) = P(E
1
)P(E
2
) si les vnements sont indpendants. (2.6)
Considrons par exemple la sgrgation conjointe de deux caractres, tels que la couleur des fleurs
et la forme des graines dune espce vgtale, chacun de ces caractres tant respectivement
gouvern par la prsence des gnes dominants A et B. Individuellement, les combinaisons AA et Aa
donnent des fleurs rouges et la combinaison aa des fleurs blanches, les combinaisons BB et Bb
donnent des graines arrondies alors que la combinaison bb produit des graines rides.
Soient E
1
et E
2
les vnements obtenir des plantes fleurs rouge et obtenir des plantes graines
arrondies dans la descendance respectivement obtenue par autofcondation dun htrozygote
AaBb. Si E
1
et E
2
sont des vnements indpendants, cest dire sil ny a pas dinteraction entre les
Notions de statistique
- 9 -
deux locus de gne, la probabilit dobtenir des plantes fleurs rouges et graines rondes dans la
descendance autofconde est,
P(E
1
E
2
)=P(E
1
)P(E
2
)=
3
4
3
4
9
16

_
,

_
,

En gnral, si E
1
, E
2
, E
3
, , E
n
sont n vnements indpendants ayant les probabilits respectives
p
1
, p
2
, p
3
, , p
n
, la probabilit doccurrence de E
1
et E
2
et E
3
et E
n
est p
1
p
2
p
3
p
n.
2.2. Distribution de frquence
Vu la grande utilit pratique de linterprtation de la probabilit en termes de frquence, on tablit
souvent des distributions de frquence pour rduire dimportantes masses de donnes brutes, car
cette technique donne des informations sur le mode de ralisation de classes dvnements
prdfinies. Les donnes brutes sont des mesures dun attribut quelconque concernant un groupe
dindividus. La mesure peut tre faite lchelle nominale, ordinale, proportionnelle ou par intervalle.
Lchelle nominale se rfre une mesure son niveau le plus faible, lorsquun nombre ou dautres
symboles sont utiliss uniquement pour classer un objet, une personne ou une caractristique, comme
par exemple ltat de sant (sain, malade). Lchelle ordinale est celle dans laquelle, dans un groupe
de classes dquivalence connu, la relation plus grande que convient pour toutes les paires de
classes, de sorte quun classement complet par ordre de grandeur est possible (ex : situation
conomique et sociale). Si une chelle a toutes les caractristiques dune chelle ordinale et si lon
connat en outre lamplitude des distances entre deux nombres quelconques sur lchelle, on a une
chelle par intervalle, comme par exemple les chelles de temprature centigrade ou Fahrenheit. Une
chelle par intervalle ayant un zro absolu son origine forme une chelle proportionnelle. Dans une
chelle proportionnelle, le rapport de deux points quelconques de lchelle est indpendant de lunit
de mesure, ex : hauteur des arbres. On peut se rfrer Siegel (1956) pour une analyse dtaille des
diffrentes chelles de mesures, de leurs proprits et des oprations possibles dans chaque chelle.
Indpendamment de lchelle de mesure, la rduction des donnes peut se faire par la mthode dite
des frquences de classe, qui consiste rpartir les donnes en classes ou catgories et
dterminer le nombre dindividus appartenant chacune de ces classes. On appelle distribution de
frquence, ou tableau de frquences, la mise en tableaux de donnes ventiles par classes, avec
les frquences de classes correspondantes. Le Tableau 2.1 prsente une distribution de frquence
des diamtres hauteur dhomme (dbh) enregistrs au centimtre le plus proche, de 80 Tecks, sur
une parcelle-tmoin. La frquence relative dune classe, gnralement exprime en pourcentage,
est gale la frquence de la classe considre divise par la frquence totale de toutes les classes.
Ainsi, la frquence relative de la classe 17-19, dans le Tableau 2.1 est (30/80)100 = 37,4%. La
somme de toutes les frquences relatives de toutes les classes est bien entendu gale 100%.
Notions de statistique
- 10 -
Tableau 2.1. Frquence de distribution des diamtres hauteur dhomme (dbh) des Tecks, sur une
parcelle.
Classe de dbh
(cm)
Frquence
(Nombre darbres)
Frquence relative
(%)
11-13 11 13.8
14-16 20 25.0
17-19 30 37.4
20-22 15 18.8
23-25 4 5.0
Total 80 100.0
Le symbole dfinissant lamplitude dune classe, tel que 11-13 dans le tableau ci-dessus, est appel
intervalle de classe. Les chiffres extrmes 11 et 13 forment les limites de classe ; le plus petit
nombre (11) constitue la limite infrieure de classe, et le plus grand la limite suprieure de classe.
Les termes de classe et intervalle de classe sont souvent utiliss indiffremment lun pour
lautre, tort, car lintervalle de classe est en ralit un symbole de la classe. Un intervalle de classe
pour lequel lune des deux limites (suprieure ou infrieure) nest pas indique, au moins en thorie,
est dit intervalle de classe ouverte ; lintervalle de classe 23 cm et plus est par exemple un
intervalle de classe ouverte.
Si les valeurs des dbh sont enregistres au centimtre le plus proche, la classe dintervalle 11-13
comprend thoriquement toutes les mesures allant de 10,5 13,5 cm. Ces nombres sont les
extrmits, ou limites relles, des classes; le plus petit nombre (10,5) est lextrmit infrieure de la
classe et le plus grand (13.5) lextrmit suprieure de la classe. Dans la pratique, les limites
relles des classes sobtiennent en ajoutant la limite suprieure dun intervalle de classe la limite
infrieure de lintervalle de classe suivant plus lev, et en divisant par deux.
Il arrive que les classes soient symbolises par les extrmits de classe. Par exemple, les symboles
des diffrentes classes de la premire colonne du Tableau 2.1 pourraient tre 10,5-13,5 ; 13,5-
16,5 ; etc. Pour viter toute ambigut lorsque lon utilise ces notations, on vitera que les extrmits
de classe concident avec des observations effectives. En effet, supposer par exemple que lune
des mesures observes soit 13,5, il serait impossible de savoir sil faut la ranger dans classe
dintervalle 10,5-13,5 ou 13,5-16,5. Ltendue dune classe dintervalle, ou amplitude de la
classe, est gale la diffrence entre les extrmits infrieures et suprieures. La valeur centrale de la
classe est le point mdian de lintervalle de classe, qui se calcule en additionnant les limites infrieure
et suprieure de la classe et en divisant par deux.
Les distributions de frquence sont souvent reprsentes graphiquement par un histogramme ou
polygone de frquences. Un histogramme est form dune srie de rectangles, dont les largeurs, ou
bases, sont situes sur un axe horizontal (axe x) les centres se trouvant au niveau des valeurs
centrales des classes, et les longueurs(ou hauteurs) tant gales aux amplitudes des classes
dintervalle et les surfaces proportionnelles aux classes de frquence. Si tous les intervalles de classes
ont la mme amplitude, les hauteurs des rectangles sont proportionnelles aux classes de frquences,
auquel cas on prend habituellement des hauteurs numriquement gales aux classes de frquences. Si
les intervalles de classe nont pas la mme amplitude, ces hauteurs doivent tre ajustes. Un
polygone de frquence est un graphique linaire mettant en corrlation la frquence de classe et la
Notions de statistique
- 11 -
valeur centrale dune classe. Il sobtient en reliant les points mdians des sommets des rectangles
dans lhistogramme.
Figure 2.1. Histogramme illustrant la distribution de frquence des dbh
Figure 2.2. Polygone de frquence illustrant la distribution de frquence des dbh
2.3. Proprits de la distribution de frquence
Une fois la distribution de frquence tablie, on peut en tirer un certain nombre de paramtres qui
conduisent une rduction ultrieure des donnes. Ces paramtres sont les mesures de position, de
dispersion, dasymtrie et daplatissement.
2.3.1. Mesures de position
Une distribution de frquence peut tre localise par sa valeur moyenne qui est caractristique ou
reprsentative de la srie de donnes. Etant donn que ces valeurs caractristiques tendent se
grouper vers le centre, dans une srie de donnes arrange en fonction de la grandeur, ces moyennes
sont aussi appeles mesures de la tendance centrale. On peut dfinir plusieurs types de moyennes,
Frequence
Frequence
Notions de statistique
- 12 -
les plus communes tant la moyenne arithmtique (ou en abrg la moyenne), la mdiane et le
mode. Chacune a des avantages et des inconvnients, qui dpendent du type de donnes et du but
poursuivi.
Moyenne arithmtique: La moyenne arithmtique, ou moyenne, dune srie de N nombres x
1
, x
2
,
x
3
, , x
N
est note x (lire x barre) et dfinie par

...
Moyenne
3 2 1
N
x x x x
N
+ + + +
(2.7)

x
N
x
N
j
j
N
1
Le symbole x
j
j
N

1
caractrise la somme de tous les x
j
de j = 1 j = N.
Par exemple, la moyenne arithmtique des nombres 8, 3, 5, 12, 10 est

8 3 5 12 10
5
38
5
7 6
+ + + +
.
Si les nombres x
1
, x
2
, , x
K
apparaissent respectivement f
1
, f
2
, , f
K
fois (cest dire sils
apparaissent avec les frquences respectives f
1
, f
2
, , f
K
) la moyenne arithmtique est


...
...
Moyenne
2 1
2 2 1 1
K
K K
f f f
x f x f x f
+ + +
+ + +

(2.8)

f x
f
fx
f
j j
j
K
j
j
K
1
1
o N f

est la frquence totale, cest dire le nombre total de cas.


La moyenne des donnes groupes du Tableau 2.1 se calcule comme suit.
*Etape 1. Trouver les centres , ou points mdians, des classes. A cette fin, additionner les limites
infrieure et suprieure de la premire classe et diviser par 2. Procder de la mme manire
en additionnant lintervalle de classe, pour chacune des classes suivantes.
*Etape 2. Multiplier les points mdians des classes par les frquences correspondantes, et faire la
somme des rsultats pour obtenir fx

.
Les rsultats de ces tapes peuvent tre rsums comme indiqu dans le Tableau 2.2.
Notions de statistique
- 13 -
Tableau 2.2. Calcul de la moyenne partir des donnes groupes
Classe de
diamtre
(cm)
Point mdian
x f fx
11-13 12 11 132
14-16 15 20 300
17-19 18 30 540
20-22 21 15 315
23-25 24 4 96
Total f

80 fx

1383
*Etape 3. Remplacer les valeurs dans la formule
= Moyenne

f
fx
=
1383
80
17 29 . cm
Mdiane: La mdiane dune srie de nombres rangs par ordre de grandeur (c..d., dans un
ensemble) est la valeur centrale ou la moyenne arithmtique des deux valeurs centrales.
Par exemple, la mdiane de la srie de nombres 3, 4, 4, 5, 6, 8, 8, 8, 10 est 6. Celle de la srie de
nombres 5, 5, 7, 9, 11, 12, 15, 18 est
1
2
9 11 ( ) + = 10.
Dans le cas des donnes groupes, la mdiane, obtenue par interpolation, est donne par la formule
Mdiane =
( )
L
N
f
f
m
1
1
2
+

_
,

_
,

c (2.9)
o L
1
= extrmit infrieure de la classe mdiane (cest--dire de la classe contenant la mdiane)
N = nombre dlments des donnes (ou frquence totale)
( ) f

1
= somme des frquences de toutes les classes infrieures la classe mdiane
f
m
= frquence de la classe mdiane
c = amplitude de lintervalle de la classe mdiane.
Gomtriquement, la mdiane reprsente la valeur de x (abscisse) correspondant la ligne verticale
qui divise un histogramme en deux parties daires gales.
Le calcul de la mdiane des donnes groupes du Tableau 2.1. se fait de la faon suivante:
*Etape 1. Trouver les points mdians des classes. Dans ce but, additionner les limites infrieure et
suprieure de la premire classe et diviser par 2. Procder de la mme manire en
additionnant lintervalle de classe, pour chacune des classes suivantes.
Notions de statistique
- 14 -
*Etape 2. Ecrire les frquences cumules et prsenter les rsultats comme indiqu dans le Tableau
2.3.
Tableau 2.3. Calcul de la mdiane des donnes groupes
Classe de
dbh(cm)
Point
mdian
x
Frquence
f
Frquence
cumule
11-13 12 11 11
14-16 15 20 31
17-19 18 30 61
20-22 21 15 76
23-25 24 4 80
Total f

80
*Etape 3. Trouver la classe mdiane en localisant le (N / 2)-me terme dans la colonne des
frquences cumules. Dans cet exemple, N / 2=40. Ce terme rentre dans la classe 17-19,
qui est donc la classe mdiane.
*Etape 4. Utiliser la formule (2.9) pour calculer la mdiane.
Mdiane = 165
80
2
31
30
3 . +

_
,

_
,

= 17.4
Mode: Le mode dune srie de nombres est la valeur qui apparat avec la plus grande frquence,
cest dire la valeur la plus commune. Le mode peut ne pas exister, et, mme sil existe, il peut ne
pas tre unique.
La srie de nombres 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 a pour mode 9. La srie 3, 5, 8, 10, 12,
15, 16 na pas de mode. La srie 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 a deux modes 4 et 7 , on dit quelle
est bimodale. Une distribution ayant un mode unique est appele unimodale.
Dans le cas de donnes groupes reprsentes par une courbe des frquences, le mode sera la
valeur (ou les valeurs) de x correspondant au(x) point(s) maximum(s) de la courbe.
A partir dune distribution de frquence ou dun histogramme, le mode peut tre obtenu en utilisant la
formule suivante :
Mode = L
f
f f
c
1
2
1 2
+
+

_
,
(2.10)
o L
1
= Extrmit infrieure de la classe modale (c..d. de la classe contenant le mode).
f
1
= Frquence de la classe prcdant la classe modale.
f
2
= Frquence de la classe suivant la classe modale.
c = Amplitude de lintervalle de la classe modale.
Notions de statistique
- 15 -
Pour calculer le mode partir des donnes groupes du Tableau 2.1., on procde comme suit:
*Etape 1. Trouver la classe modale. La classe modale est la classe pour laquelle la frquence est
maximale. Dans notre exemple, la frquence maximale est 30, par consquent la classe
modale est 17-19.
*Etape 2. Calculer le mode laide de la formule (2.10.)
Mode = 165
15
15 20
3 . +
+

_
,

= 17.79
Daprs les directives gnrales concernant lutilisation des mesures de position, la moyenne sutilise
essentiellement dans le cas de distributions symtriques (voir Section 2.3.3) puisquelle est fortement
influence par la prsence de valeurs extrmes dans les donnes. La mdiane possde lavantage
dtre calculable mme dans le cas de classes ouvertes, et le mode est utile dans le cas de
distributions multimodales puisquil apparat comme lobservation la plus frquente dans une srie de
donnes.
2.3.2. Mesures de dispersion
Le degr auquel des donnes numriques tendent scarter dune valeur moyenne est appel
variation ou dispersion des donnes. Il existe plusieurs mesures de la variation ou de la dispersion
des donnes, comme ltendue, lcart moyen ou lcart semi-interquartile, mais la plus commune est
lcart-type.
Ecart-type: Lcart-type dune srie de N nombres x
1
, x
2
, , x
N
est dfini par la formule suivante
( )
type - Ecart
1
2
N
x x
N
j
j

(2.11)
o x dsigne la moyenne arithmtique.
Lcart-type est donc la racine carre de la moyenne des carrs des carts des valeurs individuelles
par rapport leur moyenne, ou, comme on lappelle parfois, lcart quadratique moyen. Lcart-
type se calcule souvent laide de la formule suivante qui est plus simple :
2
2
type - Ecart

,
_



N
x
N
x
(2.12)
Par exemple, la srie de donnes ci-aprs reprsente les diamtres hauteur dhomme (dbh) de 10
Teck prlevs au hasard dans une parcelle : 23.5 ; 11.3, ; 17.5 ; 16.7 ; 9.6 ; 10.6 ; 24.5 ; 21.0 ;
18.1 ; 20.7.
Ici N = 10, x
2

= 3266.5 et x

= 173.5. Par consquent


2
10
5 . 173
10
5 . 3266
type - Ecart
,
_

= 5.062
Notions de statistique
- 16 -
Si x
1
, x
2
, , x
K
ont pour frquences respectives f
1
, f
2
, , f
K
, lcart-type peut-tre calcul avec la
formule
( )
N
x x f
K
j
j j

1
2
type - Ecart (2.13)
o N f f
j
j
K


1
Une forme quivalente, souvent utile dans les calculs, de lquation (2.13) est la suivante :
2
2
type - Ecart

,
_



N
fx
N
fx
(2.14)
La variance dune srie de donnes est le carr de lcart-type. Le rapport de lcart-type la
moyenne, exprim en pourcentage, est appel coefficient de variation.
Pour illustrer ces notions, reprenons les donnes du Tableau 2.1.
*Etape 1. Trouver les points mdians des classes. Dans ce but, additionner les limites infrieure et
suprieure de la premire classe et diviser par 2. Procder de la mme manire pour
chacune des classes suivantes, en additionnant lintervalle de classe.
*Etape 2. Multiplier les centres des classes par les frquences correspondantes, et sommer tous ces
produits pour obtenir fx

.
*Etape 3. Multiplier les carrs des points mdians des classes par les frquences correspondantes,
et faire la somme de tous les produits pour obtenir fx
2

.
Les rsultats de ces calculs peuvent tre rsums comme indiqu dans le Tableau 2.4.
Table 2.4. Calcul de lcart-type partir des donnes groupes
Classe de
diamtre
(cm)
Point
mdian
x
Frquence
f fx fx
2
11-13 12 11 132 1584
14-16 15 20 300 4500
17-19 18 30 540 9720
20-22 21 15 315 6615
23-25 24 4 96 2304
Total 80 1383 24723
Notions de statistique
- 17 -
*Etape 4. A laide de la formule (2.14), calculer lcart-type et en dduire la variance et le
coefficient de variation
2
80
1383
80
24723
type - Ecart
,
_

= 3.19
Variance = (Ecart-type )
2
= (3.19)
2
= 10.18
Coefficient de variation = (100)
Moyenne
type - Ecart
=
319
17 29
.
.
(100) = 18.45
Lcart-type et la moyenne ont tous deux des units de mesure, alors que le coefficient de variation
nen a pas. Le coefficient de variation est donc utile pour comparer lampleur de la variation de
caractres qui ne sexpriment pas dans les mmes units de mesures. Cette proprit est utile pour
comparer les variations de deux sries de nombres dont les moyennes diffrent. Supposons, par
exemple, que lon veuille comparer les variations de la hauteur des plantules et de celle darbres plus
gs appartenant une mme espce. Supposons que les moyennes et les carts-types respectifs
soient les suivants :
Hauteur moyenne des arbres = 50 cm, Ecart-type de la hauteur des arbres= 10 cm.
Hauteur moyenne des arbres = 500 cm, Ecart-type de la hauteur des arbres= 100 cm.
La valeur absolue de lcart-type donne penser que la variation est plus grande dans le cas des
arbres, mais la variation relative, indique par le coefficient de variation (20%) est la mme dans les
deux cas.
2.3.3. Mesures dasymtrie
Ce paramtre mesure le degr dasymtrie, ou lcart par rapport la symtrie, dune distribution. Si
la courbe des frquences (polygone lisse des frquences) dune distribution est plus allonge vers la
droite du maximum central que vers sa gauche, on dit que la distribution est dsaxe vers la droite
ou encore quelle a une asymtrie positive. Dans le cas contraire, on dit quelle est dsaxe vers la
gauche ou quelle a une asymtrie ngative. Un mesure dasymtrie importante, exprim sous une
forme adimensionnelle, est donne par la formule
Coefficient de moment dasymtrie =

1
3
2
2
3
(2.15)
o
2
et
3
sont les deuxime et troisime moments centrs dfinis par la formule,
( )
( )

r
j
r
j
N
r
x x
N
x x
N

1
(2.16)
Dans le cas de donnes groupes, ces moments sont donns par
( )
( )

r
j j
r
j
K
r
f x x
N
f x x
N

1
(2.17)
Notions de statistique
- 18 -
Dans le cas dune distribution symtrique,
1
= 0. Lasymtrie est positive ou ngative selon que
3
est positif ou ngatif.
Les donnes du Tableau 2.1 sont utilises comme exemple pour illustrer les tapes du calcul de la
mesure dasymtrie.
*Etape 1. Calculer la moyenne.
Moyenne =
fx
f

= 17.29
*Etape 2. Calculer f
j
(x
j
- x )
2
, f
j
(x
j
- x )
3
et leurs sommes rcapitules dans le Tableau 2.5.
Tableau 2.5. Les tapes du calcul du coefficient dasymtrie partir de donnes groupes
Classe de
diamtre
(cm)
Point
mdian
x
f x
j
- x f
j
(x
j
- x )
2
f
j
(x
j
- x )
3
f
j
(x
j
- x )
4
11-13 12 11 -5.29 307.83 -1628.39 8614.21
14-16 15 20 -2.29 104.88 -240.18 550.01
17-19 18 30 0.71 15.12 10.74 7.62
20-22 21 15 3.71 206.46 765.97 2841.76
23-25 24 4 6.71 180.10 1208.45 8108.68
Total 80 3.55 814.39 116.58 20122.28
*Etape 3. Calculer
2
et
3
laide de la formule (2.17).
( )

2
2
814 39
80

f x x
N
=
.
= 10.18
( )

3
3
11658
80

f x x
N
=
.
= 1.46
*Etape 4. Calculer la mesure dasymtrie laide de la formule (2.15).
Coefficient de moment dasymtrie =
( )
( )

1
2
3
146
1018

.
.
= 0.002.
Notions de statistique
- 19 -
Comme
1
= 0.002, la distribution est trs lgrement dsaxe, ou encore lasymtrie est
ngligeable. Lasymtrie est positive puisque
3
est positif.
2.3.4. Kurtose
La kurtose est le degr daplatissement dune distribution, gnralement considr par comparaison
avec une courbe de distribution normale. Si une courbe est plus pointue que la normale, elle est
leptocurtique , si elle a un sommet aplati, on parle de courbe platicurtique . Une courbe en
forme de cloche, ni trop pointue ni trop aplatie est dite msocurtique .
Une mesure de laplatissement, exprime sous forme adimensionnelle, est donne par
Coefficient de moment daplatissement =

2
=
4
2
2
(2.18)
o
4
et
2
peuvent tre calculs avec la formule (2.16) dans le cas de donnes non groupes et
avec la formule (2.17) dans le cas de donnes groupes. On dit que la distribution est normale si

2
= 3. Lorsque
2
est suprieur 3, la distribution est leptocurtique. Si
2
est infrieur 3, elle est
platicurtique.
Reprenons, par exemple, les donnes du Tableau 2.1. pour calculer le coefficient de moment de
laplatissement.
*Etape 1. Calculer la moyenne
Moyenne =
fx
f

= 17.29
*Etape 2. Calculer f
j
(x
j
- x )
2
, f
j
(x
j
- x )
4
et leur somme, daprs les donnes rsumes du
Tableau 2.5.
*Etape 3. Calculer
2
et
4
laide de la formule (2.17).
( )

2
2
814 39
80

f x x
N
=
.
= 10.18

( )

4
4
80

f x x
N
=
20122.28

= 251.53
*Etape 4. Calculer la mesure daplatissement laide de la formule (2.18)
Notions de statistique
- 20 -
Coefficient de moment daplatissement =
( )
2

25153
1018
2
.
.
= 2.43.
La valeur de
2
est 2,38, chiffre infrieur 3. La distribution est donc platicurtique.
2.4. Distributions thoriques discrtes
Lorsquune variable X peut prendre un ensemble discret de valeurs x
1
, x
2
,, x
K
avec les
probabilits respectives p
1
, p
2
, , p
K
o p p p
1 2
1 + + + ...
K
, on dit quune distribution discrte
de probabilits a t dfinie pour la variable X. La fonction p(x) qui prend les valeurs p
1
, p
2
, , p
K
pour x = x
1
, x
2
, , x
K
respectivement, est appele fonction de probabilit ou fonction de
frquence de X. Comme X peut prendre certaines valeurs avec des probabilits donnes, on dit
souvent que cest une variable alatoire discrte.
Par exemple, supposons que lon jette deux ds non pips et que X dsigne la somme des points
obtenus. La distribution de probabilits sera donne par le tableau suivant :
X 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
La probabilit dobtenir la somme 5 est 4/36 = 1/9 . Cela signifie que si les ds sont jets 900 fois,
on peut sattendre ce quils marquent 100 fois la somme 5.
Remarquons lanalogie avec la distribution de frquence relative, les probabilits jouant ici le rle des
frquences relatives. On peut donc voir les distributions de probabilits comme des formes limites
thoriques, ou idales, des distributions de frquence, lorsque le nombre dobservations est trs
lev. Cest la raison pour laquelle les distributions de probabilits sappliquent trs bien aux
populations, alors que les distributions de frquence relative concernent des chantillons prlevs
dans cette population.
Si les valeurs de x peuvent tre ranges dans un ordre, comme dans le cas de nombres rels, on
peut dfinir une fonction de distribution cumulative,
F x p z
z x
( ) ( )
<

pour tout x (2.19)


F(x) est la probabilit que X prenne une valeur infrieure ou gale x.
Nous allons maintenant nous arrter brivement sur deux importantes distributions discrtes, qui
reviennent souvent dans les travaux de recherche forestire, et qui pourront nous tre utiles par la
suite.
2.4.1. Distribution binomiale
Les distributions binomiales apparaissent dans le cas dune succession de n expriences, identiques
et indpendantes, dont chacune aboutit un rsultat dichotomique, tel que succs ou chec. La
loi binomiale sapplique si la probabilit dobtenir x succs partir de n expriences rptes est
donne par la fonction suivante :
Notions de statistique
- 21 -
( ) p x
n
x
p p x n
x
n x
( ) , , , ...,

_
,

1 0 1 2 (2.20)
o n est un entier positif et 0<p<1. Les constantes n et p sont les paramtres de la distribution
binomiale. Comme lindique la formule, la valeur de x est comprise entre 0 et n.
Par exemple, si un sylviculteur observe le taux de mortalit des jeunes plants dans des parcelles
dune fort contenant chacune 100 units, et enregistre les plants vivants comme des succs et les
plants morts comme des checs, la variable nombre de plants vivants dans une parcelle peut
suivre une loi binomiale.
La moyenne dune distribution binomiale est np et son cart-type np p ( ) 1 . La valeur de p est
estime partir dun chantillon par la formule :
$ p
x
n
(2.21)
o x est le nombre de succs dans lchantillon et n le nombre total de cas examins.
Supposons par exemple quun entomologiste choisisse au hasard cinq parcelles de 10 m x 10 m
dans une plantation o les jeunes plants sont espacs de 2 m x 2 m. Le nombre de plants attaqus
par les termites dans les cinq parcelles contenant chacune 25 jeunes plants est (4, 7, 7, 4, 3). La
valeur globale de p estime partir des cinq parcelles sera :
$ . p
x
n

25
125
02
De plus, sil choisit au hasard dans la plantation une parcelle de la mme taille, la probabilit que
celle-ci contienne un nombre donn de plants infests par les termites peut tre obtenue grce
lquation (2.20), condition que linfestation par les termites suive une loi binomiale. Ainsi, la
probabilit de choisir une parcelle non infecte par les termites est :
( ) p(0)

_
,

25
0
02 1 02
0 25
. .
= 0.0038
2.4.2. Distribution de Poisson
On dit quune variable alatoire discrte suit une loi de Poisson si la probabilit dobtenir une valeur
spcifique de x est donne par la relation :
p x
e
x
x
x
( )
!
, , , , ...


0 1 2 (2.22)
o >0. La variable X prend les valeurs de 0 .
Dans les tudes cologiques, on constate que certains organismes rares sont rpartis au hasard dans
lespace. Lorsque cest le cas, on remarque que les observations sur le nombre dorganismes
trouvs dans de petites units dchantillonnage suivent une loi de Poisson. Une distribution de
Poisson est dtermine par lunique paramtre qui est la fois la moyenne et la variance de la
distribution. Lcart-type est par consquent . A partir dchantillons, on peut estimer les valeurs
de par
Notions de statistique
- 22 -
$

x
n
i
i
n
1
(2.23)
o les x
i
sont les nombres de cas dtects dans unit dchantillonnage et n est le nombre dunits
dchantillonnage observes.
Prenons lexemple dun biologiste qui observe le nombre de sangsues prsentes dans 100
chantillons prlevs dans un lac deau douce. Si le nombre total de sangsues captures est de 80, le
nombre moyen par chantillon se calcule comme suit,
$
.

x
n
i
i
n
1
80
100
08
Si la variable suit une loi de Poisson, la probabilit de prlever au moins une sangsue dans un nouvel
chantillon peut tre calcule par 1 - p(0), ce qui donne :
1 1
08
0
0 0 8

p
e
(0)
( . )
!
.
= 0.5507
2.5. Distributions thoriques continues
Lide de distribution discrte peut stendre au cas dune variable X pouvant prendre un ensemble
continu de valeurs. Dans le cas thorique, ou limite, dune population, le polygone des frquences
relatives dun chantillon devient une courbe continue dquation y = p(x), comme celle de la Figure
2.3.
Figure 2.3. Graphique dune distribution continue
p(x)
x a b
Laire totale comprise entre la courbe et laxe X est gale un, et laire contenue sous la courbe
dlimite par les droites X = a et X = b (zone ombre sur la figure) reprsente la probabilit que X
soit comprise entre a et b, ce que lon note par P(a<X<b). On dit que p(x) est une fonction de
densit de probabilit, ou en abrg une fonction de densit, et lorsquune telle fonction est donne,
on dit quon a dfini pour X une distribution continue de probabilit. La variable X prend alors le
nom de variable alatoire continue.
Dans le cas dune variable alatoire continue, la fonction de distribution cumulative est donne par la
relation
Notions de statistique
- 23 -
F x f t dt
x
( ) ( )

(2.24)
Le symbole indique lintgration, analogue de la sommation dans le cas discret. Comme dans le cas
discret, F(X) reprsente la probabilit que la variable prenne une valeur infrieure ou gale x. Une
proprit utile de la fonction de distribution cumulative est la suivante,
P( ) ( ) ( ) a X b F b F a (2.25)
Nous allons maintenant examiner deux cas de distributions thoriques continues qui apparaissent
souvent dans les travaux de recherche forestire, et qui nous seront utiles par la suite.
Notions de statistique
- 24 -
2.5.1. Distribution normale
Une distribution normale est dfinie par la fonction de densit de probabilit,
f x e x
x
( ) , < < <

_
,
1
2
0
1
2
2

(2.26)
o est un paramtre de position et un paramtre dchelle. La variable X peut varier de - +
. Le paramtre varie aussi de - + mais est toujours positif. Il nexiste pas de lien entre les
paramtres et . Lquation (2.26) est une fonction symtrique de la variable , comme le montre
la Figure 2.4 o est reprsente une courbe normale pour = 0 et = 1. Dans le cas = 0 et =
1, la distribution est appele courbe standard normale.
Figure 2.4. Graphique dune distribution normale pour = 0 et = 1
68.27%
95.45%
99.73%
x
f(x)
Si laire totale comprise entre la courbe et laxe de la Figure 2.4 est prise comme unit de surface,
laire sous la courbe dlimite par les droites X = a et X = b, o a<b, reprsente la probabilit,
note P(a<X<b), que X soit comprise entre a et b. Lappendice 1 donne lexpression de laire sous
la courbe lextrieur de la bande +z et z.
Dans une distribution normale, la moyenne et lcart-type sont respectivement et . La distribution
possde les proprits daire suivantes. Si laire totale sous la courbe est prise comme unit daire,
t couvre 68.27% de la surface totale, t 2 95.45% et t 3 99.73 %. Supposons par
exemple que dans une grande plantation darbres dun ge donn, la hauteur moyenne des arbres
soit de 10 m et lcart-type de 1 m. Trouver lcart de la hauteur de chaque arbre par rapport la
moyenne de la population. Si ces carts sont distribus normalement, la hauteur denviron 68% des
arbres devrait scarter de moins dun mtre par rapport la moyenne; pour 95% des arbres lcart
devrait tre infrieur 2 m, et pour 99% des arbres il devrait tre infrieur 3 m.
A lorigine, la loi normale de distribution devait servir de modle pour le calcul des erreurs de
mesure, mais on a constat quelle tait la base de la variation dans un grand nombre de caractres
biomtriques. La distribution normale est cense tre la rsultante des effets additifs dun grand
nombre de variables alatoires ayant des causes indpendantes.
Notions de statistique
- 25 -
Les estimations de et partir dchantillons dobservations sont donnes par les formules
$

x
x
n
i
i
n
1
(2.27)
( )

x x
n
2
1
(2.28)
o x
i
, i = 1, , n sont n observations indpendantes faites dans la population.
2.5.2. Distribution Log-normale
Soit X une variable alatoire. Considrons la transformation de X en Y , dfinie par Y = ln X. Si la
variable transforme Y suit une loi normale, on dit que la variable X est une variable alatoire log-
normale. La fonction de densit de probabilit dune distribution log-normale est donne par la
formule suivante :
f x
x
e x
x
( ) , ;
ln
< < <

_
,

1
2
0
1
2
2

, (2.29)
Dans ce cas, e

est un paramtre dchelle et un paramtre de forme. La forme dune distribution


log-normale est hautement flexible, comme le montre la Figure 2.5 o sont traces les courbes
dquations (2.29) pour diffrentes valeurs de et pour = 0.
Figure 2.5. Graphique dune distribution log-normale pour = 0 et diffrentes valeurs de .
La moyenne et lcart-type dune distribution log-normale sont des fonctions complexes des
paramtres et . La moyenne et lcart-type sont donns respectivement par :
2
2
Moyenne

+
e (2.30)
( )( ) 1 = type - Ecart
2 2
2

+
e e (2.31)
A la diffrence de la loi normale, la moyenne et lcart-type de cette distribution ne sont pas
indpendants. Cette distribution est aussi la rsultante des effets cumuls dun grand nombre deffets
indpendants ayant pour proprit de se multiplier plutt que de sajouter..Par exemple, si les
donnes sont obtenues en regroupant les hauteurs darbres plants appartenant diffrents groupes
dge, la distribution peut suivre une loi log-normale, car lge a un effet multiplicateur sur la
variabilit des arbres. Il sensuit que les arbres les plus jeunes afficheront probablement une faible
Notions de statistique
- 26 -
variation, alors que les plus vieux auront une variation importante, car leur interaction avec
lenvironnement sest prolonge pendant plus longtemps.
Dans une distribution log-normale, les estimations des paramtres et sont donnes par les
relations
$

1
1
n
i
i
n
ln x (2.32)
( )
$ $

1
1
2
1
n
i
i
n
ln x (2.33)
o x
i
, i = 1, , n sont n observations indpendantes prleves sur la population.
Pour une analyse plus approfondie, contenant plusieurs exercices et problmes, avec leurs solutions,
sur des thmes abords dans ce chapitre, le lecteur pourra se rfrer Spiegel et Boxer (1972).
- 27 -
3. INFERENCE STATISTIQUE
3.1. Tests dhypothses
Toute investigation de recherche avance travers des cycles rpts de formulation et de vrification
dhypothses concernant le phnomne tudi. Afin de dcider objectivement si une hypothse est
confirme par un ensemble de donnes, il faut adopter une procdure rationnelle pour lacceptation
ou le rejet de ladite hypothse. Lobjectivit est fondamentale, car lune des rgles de la mthode
scientifique est darriver des conclusions scientifiques par des mthodes publiques pouvant tre
rptes par dautres chercheurs comptents. Cette procdure objective sera fonde sur les
informations obtenues lors du travail de recherche et sur le risque derreur que nous acceptons de
prendre, propos de la justesse de lhypothse.
Les tests dhypothses se droulent gnralement en plusieurs tapes, savoir : i) tablissement de
lhypothse nulle ; ii) choix dun test statistique (avec le modle statistique qui lui est associ) pour la
vrification de lhypothse nulle ; iii) spcification du seuil de signification et de la taille de
lchantillon ; iv) dtermination de la distribution dchantillonnage du critre de test dans lhypothse
nulle ; v) dfinition de la zone de rejet ; vi) calcul de la valeur du critre de test, laide des donnes
obtenues partir du ou des chantillons et prise de la dcision base sur la valeur du critre de test
et de la zone de rejet dtermine au pralable. Il est indispensable de bien assimiler la raison dtre
de chacune de ces tapes pour comprendre le rle des statistiques dans la vrification dune
hypothse de recherche, comme celle que nous allons illustrer par un exemple concret.
i) Hypothse nulle : La premire tape de la procdure de prise de dcision est ltablissement de
lhypothse nulle, ordinairement dnote par H
0.
Lhypothse nulle est une hypothse de diffrence
nulle. Elle est gnralement formule dans le but dtre rejete. Si elle lest, lhypothse alternative
H
1
peut tre accepte. Lhypothse alternative est la formulation oprationnelle de lhypothse de
recherche de lexprimentateur. Lhypothse de recherche est la prvision drive de la thorie en
cours de vrification. Lorsque nous voulons prendre une dcision relative des diffrences, nous
vrifions H
0
par rapport H
1
. H
1
est lassertion qui est accepte si H
0
est rejete.
A titre dexemple, supposons quun amnagiste souponne une baisse de la productivit de
plantations forestires dune espce particulire, dans une unit damnagement, du fait que cette
espce est continuellement cultive. Ce soupon constituera lhypothse de recherche. Sa
confirmation renforcera la thorie selon laquelle le fait de cultiver sans interruption une espce sur une
surface aboutit sa dtrioration. Pour tester cette hypothse de recherche, nous la prenons
symboliquement comme hypothse alternative, H
1
. H
1
tant que le niveau de productivit actuel de
lespce dans lunit damnagement (
1
) est infrieur au niveau de productivit pass (
0
).
Symboliquement,
1
<

0
. Lhypothse H
0
serait
1
=
0
. Si les donnes permettent de rejeter H
0
,
H
1
peut tre accepte, et lhypothse de recherche et la thorie qui la sous-tend sont confirmes. La
nature de lhypothse de recherche dtermine la formulation de H
1.
Si lamnagiste nest pas sr du
sens de la variation du niveau de productivit due la culture continue, lhypothse H
1
devient :
1

0
.
Infrence statistique
- 28 -
ii) Choix du test statistique : La discipline des statistiques sest tellement dveloppe que lon a
aujourdhui le choix, pour presque tous les plans de recherche, entre plusieurs tests statistiques
pouvant servir clairer la dcision au sujet dune hypothse. La nature des donnes rassembles
dtermine dans une large mesure le critre qui sera utilis dans le test. Dans lexemple qui nous
occupe, supposons que les donnes sur le rendement en bois par unit de superficie, un ge donn,
puissent tre drives dun petit nombre de plantations ou parties de plantations rcemment
exploites de taille peu prs similaire, situes dans lunit damnagement. Sur la base de la thorie
statistique pertinente, on pourrait choisir le critre de test suivant :
z
x
n

0
/
(3.1)
o x = rendement moyen, un ge donn, des plantations rcemment exploites dans lunit
damnagement.
= cart-type du rendement des plantations rcemment exploites dans lunit damnagement.
n = nombre de plantations rcemment exploites, partir desquelles les donnes peuvent tre
collectes.

0
= rendement moyen des plantations, lge donn, dans lunit damnagement, quelques
dcennies plus tt, sur la base dun grand nombre dobservations antrieures.
Le terme statistique dsigne une valeur calcule partir des observations dun chantillon. Le
critre de test spcifi dans lEquation (3.1) est le rapport de lcart entre la moyenne de
lchantillon et la valeur prdtermine
0,
la variance de ces carts, et la question qui se pose est
de dterminer quelle est lamplitude admissible de ces carts, pour que lhypothse nulle soit vraie.
iii) Seuil de signification et taille de lchantillon : Une fois que lon a dfini lhypothse nulle
et lhypothse alternative, et slectionn le test statistique appropri, ltape suivante consiste
spcifier le seuil de signification () et choisir la taille de lchantillon (n). La procdure de prise de
dcision se rsume rejeter H
0
au profit de H
1,
si le rsultat du test statistique est une valeur
correspondant une probabilit de ralisation, dans lhypothse H
0,
gale ou infrieure une faible
probabilit symbolise par le signe . Cette faible probabilit est appele seuil de signification. Les
valeurs les plus courantes de sont 0.05 et 0.01. En dautres termes, si la probabilit associe
lobtention, dans H
0
(cest--dire quand lhypothse nulle est vraie) de la valeur spcifique rsultant
dun test statistique, est gale ou infrieure , nous rejetons H
0
et nous acceptons H
1
, qui est la
formulation oprationnelle de lhypothse de recherche. Il sensuit que indique la probabilit de
rejeter par erreur H
0
.
Etant donn que la dcision de rejeter ou daccepter lhypothse H
0
est en partie dtermine par la
valeur de , il est indispensable, pour des raisons dobjectivit, que soit fix avant la collecte des
donnes. Le niveau auquel le chercheur choisit de fixer devrait tre fonction de limportance ou de
la signification pratique possible de ses constatations. Dans notre exemple, lamnagiste peut fort
bien choisir un seuil de signification plutt bas, sil y a un risque lev de rejeter tort lhypothse
nulle (et, par consquent, de prconiser ou de recommander sans que cela soit justifi un
changement radical des pratiques de gestion, sur la surface considre). Dans son rapport,
lamnagiste devrait indiquer le niveau de probabilit effectif associ ses constatations, afin que le
lecteur puisse dcider lui-mme sil convient de rejeter ou daccepter lhypothse nulle.
Infrence statistique
- 29 -
On peut commettre deux types derreurs lorsque lon prend une dcision propos de H
0
. La
premire, dite Erreur de type I, est de rejeter H
0
alors quelle est vraie. La seconde, que nous
appellerons Erreur de type II, est daccepter H
0
alors quelle est fausse. La probabilit de
commettre une erreur de type I est donne par . Plus est grand, plus lon a de chances de rejeter
H
0
tort, cest--dire de commettre une erreur de type I. Lerreur de type II est ordinairement
reprsente par le signe ; on a donc P(erreur de type I) = , P(erreur de type II) = . Les valeurs
de et sont de prfrence spcifies par le chercheur avant de commencer ses investigations. Ces
valeurs dtermineront la taille de lchantillon (n) quil devra prlever pour calculer le critre du test
statistique quil a choisi. Une fois que et n ont t spcifis, il faut calculer . Dans la mesure o
les probabilits de commettre les deux types derreurs sont inversement proportionnelles, une
diminution de entranera une augmentation de pour toute valeur de n. Pour minimiser le risque
de commettre les deux types derreurs, il faut augmenter n. Lexpression 1 - dsigne la puissance
dun test, cest--dire la probabilit de rejeter lhypothse H
0
alors quelle est fausse. Pour revenir
notre exemple, pour certaines raisons dordre thorique, nous dirons que la taille de lchantillon est
de 30 plantations ou parties de plantations de taille similaire choisies au hasard dans la srie dans
laquelle peuvent tre rassembles des donnes sur les niveaux de rendement rcents de lunit
damnagement.
iv) La distribution dchantillonnage : Une fois quun chercheur a choisi le test statistique qui
sera utilis avec ses donnes, il doit dterminer la distribution dchantillonnage du critre de test,
cest--dire la distribution que lon obtiendrait si lon prenait tous les chantillons de mme taille
pouvant tre prlevs dans une mme population, chacun deux tant tir au hasard, et si lon
tablissait la distribution de frquence de la statistique calcule partir de chaque chantillon. On
peut aussi dire que la distribution dchantillonnage est la distribution, dans lhypothse H
0
, de toutes
les valeurs possibles que peut prendre une mesure statistique quelconque (par exemple la moyenne
de lchantillon), lorsquelle est calcule partir dchantillons de mme taille tirs au hasard. Pour
revenir notre exemple, sil y avait 100 plantations dun ge dtermin, disponibles pour la coupe,
30 plantations pourraient tre tires au hasard, de
100
30

_
,
2.937 x 10
25
manires. A partir de
chaque chantillon de 30 units de plantation, il est possible de calculer une mesure statistique z,
laide de lquation (3.1) . Dans ce cas, une distribution de frquences relatives tablie laide
dintervalles de classes donns pour les valeurs de z constituerait la distribution dchantillonnage de
notre critre de test statistique. Ainsi, la distribution dchantillonnage dun paramtre statistique
montre la probabilit dans lhypothse H
0
associe aux diffrentes valeurs numriques possibles
dudit paramtre. La probabilit dobtenir une valeur particulire du paramtre statistique dans
lhypothse H
0,
englobe non seulement la probabilit de cette valeur, mais aussi les probabilits de
toutes les valeurs possibles plus extrmes. Il sagit donc de la probabilit dobtenir, dans lhypothse
H
0,
une valeur aussi extrme ou plus extrme que la valeur particulire du critre de test.
Il est vident que dans notre exemple, il nous serait impossible de trouver la distribution
dchantillonnage relle et de vrifier la probabilit dobtenir des valeurs donnes, partir dune telle
distribution. Nous nous reposerons donc sur des thormes mathmatiques dmontrs, qui font
autorit. Ces thormes impliquent invariablement des postulats que lon doit avoir prsents
lesprit, lorsquon les applique. Dans le cas prsent, il peut tre dmontr que la distribution
dchantillonnage de z suit une loi normale de moyenne zro et dcart type 1 si la taille de
Infrence statistique
- 30 -
lchantillon (n) est grande. Lorsquune variable suit une loi normale, sa distribution est entirement
caractrise par la moyenne et lcart-type. Il est donc possible de dterminer la probabilit quune
valeur observe de cette variable soit suprieure une valeur donne quelconque. Cette analyse et
cet exemple montrent clairement que si lon connat la distribution dchantillonnage dune certaine
mesure statistique, il est possible dtablir quelles sont les probabilits dobtenir certaines valeurs
numriques de cette mesure. Nous allons voir dans les sections qui suivent comment on utilise les
probabilits ainsi formules pour prendre une dcision propos de lhypothse H
0
.
v) La rgion de rejet : La distribution dchantillonnage comprend toutes les valeurs que peut
prendre le critre de test dans lhypothse H
0
. La rgion de rejet est forme dun sous-ensemble de
ces valeurs possibles, et est dfinie de telle manire que la probabilit associe lobtention, dans
lhypothse H
0
, dune valeur du critre de test situe dans ce sous-ensemble, soit une probabilit .
En dautres termes, la rgion de rejet est constitue dun ensemble de valeurs possibles qui sont si
extrmes que, si H
0
est vraie, la probabilit est trs faible (probabilit ) que lchantillon observ
donne une valeur situe dans ce sous-ensemble. La probabilit associe une valeur quelconque se
trouvant dans la rgion de rejet est gale ou infrieure .
Lemplacement de la rgion de rejet dpend de la nature de lhypothse H
1
. Si H
1
indique le sens
projet de la variation, un test unilatral simpose, alors que dans le cas contraire, il faudra effectuer
un test bilatral (ou test deux issues). Les tests une ou deux issues diffrent par lemplacement de
la rgion de rejet, (mais pas par la taille). Dans un test unilatral ( une issue), toute la rgion de rejet
est situe une extrmit de la distribution dchantillonnage, alors que dans un test bilatral ( deux
issues), elle se situe aux deux extrmes de la distribution dchantillonnage. Dans notre exemple, si
lamnagiste estime que la productivit des plantations ne peut qutre stable ou dcliner au fil des
annes, il fera un test unilatral. En revanche, sil nest pas certain du sens du changement, il aura
intrt effectuer un test bilatral ( deux issues).
La taille de la rgion est exprime par le seuil de signification . Si = 0.05, cela signifie que la
rgion de rejet reprsente 5 pour cent de la totalit de lespace compris sous la courbe dans la
distribution dchantillonnage. Les rgions de rejet unilatrales et bilatrales pour = 0.05 sont
illustres la Figure 3.1. Les rgions diffrent par leur emplacement, mais leur taille totale est la
mme.
vi) La dcision : Si le test statistique donne une valeur qui se trouve dans la rgion de rejet, il faut
rejeter H
0
. Ce processus dcisionnel repose sur un raisonnement trs simple. Si, dans lhypothse
nulle, la probabilit dobtenir une valeur particulire dans la distribution dchantillonnage est trs
faible, lapparition effective de cette valeur peut sexpliquer de deux manires : premirement en
dcidant que lhypothse nulle est fausse, et deuximement, en dcidant quun vnement rare et
improbable sest produit. Dans le processus de dcision, nous choisissons la premire de ces
explications. De temps en temps, cest bien entendu la seconde qui est la bonne. De fait, la
probabilit que la deuxime explication soit la bonne est donne par , car le fait de rejeter
lhypothse H
0
alors quelle est vraie est une erreur de type I.
Figure 3.1. Distribution dchantillonnage de z dans H
0
et rgions de rejets dun test unilatral et dun
test bilatral
Infrence statistique
- 31 -
Lorsque la probabilit associe une valeur observe dun test statistique est gale ou infrieure la
valeur dtermine au pralable de , nous concluons que lhypothse H
0
est fausse. Une telle valeur
observe est qualifie de significative. Lhypothse H
0,
qui fait lobjet du test, est rejete dans tous
les cas o apparat un rsultat significatif. Une valeur significative est une valeur dont la probabilit
dapparition dans H
0
est gale ou infrieure .
Pour revenir notre exemple, supposons que, dans une unit damnagement particulire, 30
plantations rcemment exploites, lge de 50 ans aient un rendement moyen de 93 m3/ha, avec un
cart-type de 10 m3/ha. Si les statistiques antrieures avaient rvl que, quelques dcennies plus
tt, on obtenait dans cette mme unit damnagement un rendement moyen de 100m3/ha au
mme ge, la valeur du critre de test serait la suivante:
z
x
n

0
93 100
10 30
3834
/ /
.
On verra dans lAnnexe I que la probabilit dobtenir une telle valeur, si lhypothse H
0
est vraie, est
trs infrieure 0.05 qui est le seuil de signification fix au pralable. On prendra donc la dcision
daccepter lhypothse alternative selon laquelle la productivit des plantations de lespce
considre, dans lunit damnagement, a considrablement diminu .
Les lecteurs qui souhaitent acqurir une comprhension plus complte des thmes abords dans
cette section peuvent se rfrer Dixon et Massey (1951) pour une initiation particulirement claire,
aux deux types derreurs, et Anderson et Bancroft (1952) ou Mood (1950) pour des examens
approfondis de la thorie relative aux tests dhypothses. Les sections qui suivent dcrivent des
procdures utilises pour tester certains types dhypothses particuliers.
test bilatral test unilatral
Infrence statistique
- 32 -
3.2. Test de comparaisons de moyennes
On a souvent besoin de comparer les moyennes de deux groupes dobservations reprsentant des
populations diffrentes pour savoir si les populations diffrent par leurs positions. Dans ces situations,
lhypothse nulle sera il ny a pas de diffrence entre les moyennes des deux populations , soit en
symboles, H
0
:
1 2
. Lhypothse alternative est H
1 1 2
: c..d.,
1 2
< ou
1 2
> .
3.2.1. Echantillons indpendants
Pour vrifier lhypothse qui prcde, on prlve au hasard des chantillons de chaque population,
puis on calcule la moyenne et lcart-type de chaque chantillon. Notons x
1
la moyenne et s
1
lcart-type dun chantillon de taille n
1
de la premire population, x
2
et s
2
la moyenne et lcart-
type dun chantillon de taille n
2
de la seconde population. Dans ce contexte, on peut utiliser le
critre de test suivant,
t
x x
s
n n

_
,

1 2
2
1 2
1 1
(3.2)
o x
x
n
i
1
1
1


, x
x
n
i
2
2
2


s
2
est la variance groupe donne par
( ) ( )
s
n s n s
n n
2
1 1
2
2 2
2
1 2
1 1
2

+
+

( )
s
x
x
n
n
i
i
1
2
1
2
1
2
1
1
1

et
( )
s
x
x
n
n
i
i
2
2
2
2
2
2
2
2
1

Le critre de test t suit une loi de Student avec n n


1 2
2 + degrs de libert. Dans ce cas
particulier, le degr de libert est un paramtre associ la distribution de t qui gouverne la forme de
la distribution. Le concept de degr de libert est mathmatiquement assez obscur, mais dune
manire gnrale, il peut tre considr comme le nombre dobservations indpendantes dans un
ensemble de donnes, ou comme le nombre de comparaisons indpendantes pouvant tre faites
propos dun ensemble de paramtres.
Ce test repose sur des hypothses prcises, savoir: i) Les variables entrant en jeu sont continues
(ii) La population-mre des chantillons prlevs suit une loi de distribution normale (iii) Les
chantillons sont prlevs de manire indpendante (iv) Les variances des deux populations dans
lesquelles on prlve les chantillons sont homognes (gales). Lhomognit de deux variances
peut tre teste laide du test F dcrit dans la Section 3.3.
Infrence statistique
- 33 -
Pour illustrer ce cas, nous allons tudier une exprience dont le but est dvaluer leffet de
linoculation dun mycorrhize sur la croissance en hauteur de plantules de Pinus kesiya. Dans
lexprience, 10 plantules, formant le Groupe I, ont t inocules, et 10 autres (Groupe II) ont t
laisses telles quelles. Le Tableau 3.1 donne les hauteurs obtenues dans les deux groupes de
plantules.
Tableau 3.1. Hauteur des plantules de Pinus kesiya des deux groupes.
Parcelles Groupe I Groupe II
1 23.0 8.5
2 17.4 9.6
3 17.0 7.7
4 20.5 10.1
5 22.7 9.7
6 24.0 13.2
7 22.5 10.3
8 22.7 9.1
9 19.4 10.5
10 18.8 7.4
Les variances de la hauteur des plantules des deux groupes tant gales, lanalyse peut tre
poursuivie comme suit :
*Etape 1. Calculer les moyennes et la variance groupe des deux groupes de mesures des hauteurs,
laide des formules correspondantes indiques dans lquation (3.2),
x
1
208 . , x
2
9 61 .
( ) ( ) ( )
( )
s
.
1
2
2 2 2
2
230 17 4 188
208
10
10 1

+ +

. . . . . +
=
57 24
9
.
= 6.36
( ) ( ) ( )
( )
s
2
2
2 2 2
2
85 9 6 7 4
961
10
10 1

+ +

. .
.
. . . + .
=
24 3
9
.
= 2.7
( )( ) ( )( )
s
2
10 1 6 36 10 1 2 7
10 10 2

+
+
. .
=
57 24 24 43
18
. . +
= 4.5372
Infrence statistique
- 34 -
*Etape 2. Calculer la valeur de t laide de lquation (3.2)
t

+

_
,

20 8 9 61
4 5372
1
10
1
10
. .
.
= 11.75
*Etape 3. Comparer la valeur calcule de t avec la valeur de t donne par la table au niveau de
probabilit souhait pour n n
1 2
2 + = 18 degrs de libert.
Etant donn que nous ne sommes pas srs du sens de la variation de la croissance des plantules due
au mycorrhize, nous utiliserons un test bilatral. Daprs la table de lAnnexe 2, les valeurs critiques
sont 2.10 et +2.10 de chaque ct de la distribution. Comme dans notre exemple, la valeur
calcule de t (11.75) est suprieure 2.10, on en dduit quil existe des diffrences significatives
entre les hauteurs moyennes des populations de plantules inocules et non-inocules reprsentes
par nos chantillons.
La procdure ci-dessus nest pas applicable si les variances des deux populations ne sont pas
gales. Dans ce cas, on adoptera une mthode lgrement diffrente :
*Etape 1. Calculer la valeur du critre de test t laide de la formule suivante

( )
t
x x
s
n
s
n

1
]
1
1
1 2
1
2
1
2
2
2
(3.3)
*Etape 2. Comparer la valeur de t ainsi obtenue avec la valeur pondre (t) donne par la table, au
niveau de probabilit voulu. La valeur tabulaire pondre de t se calcule comme suit.
t
w t w t
w w
'
+
+
1 1 2 2
1 2
(3.4)
o w
s
n
1
1
2
1
, w
s
n
2
2
2
2
,
t
1
et t
2
sont les valeurs tabulaires de t donnes par la loi de Student avec ( ) n
1
1 et ( ) n
2
1
degrs de libert respectivement, au niveau de probabilit voulu.
Prenons par exemple les donnes figurant dans le Tableau 3.1. Lhomognit des variances des
deux groupes peut tre vrifie laide du Test F dcrit dans la Section 3.3. Si les deux variances ne
sont pas gales, le critre de test t peut tre calcul comme suit,
( )
t

+

1
]
1
208 9 61
6 36
10
2 7
10
. .
. .
= 11.76
( ) ( )
t '
+
+
(0.636) 2.26 (0.270) 2.26
0.636 0.270
= 2.26
Infrence statistique
- 35 -
Comme la valeur calcule de t (11.76) est suprieure la valeur tabulaire (2.26), on peut conclure
que la diffrence des moyennes est significative. Ici, la valeur de t est gale celles de t
1
et t
2
puisque n
1
et n
2
sont gaux. Il nen est pas toujours ainsi.
3.2.2. Echantillons apparis
Lorsquon compare les moyennes de deux groupes dobservations, il arrive que les groupes soient
apparis, au lieu dtre indpendants. Cest par exemple le cas, lorsque lon compare ltat dun
ensemble dindividus avant et aprs un traitement, ou les proprits de la partie basse et de la partie
haute des tiges de bambous etc... Dans de telles situations, deux ensembles dobservations sont
extraits dun seul ensemble dunits exprimentales. Les observations peuvent aussi tre apparies
pour dautres raisons, notamment lorsquelles portent sur des paires de boutures de tiges issues de
plantes-mres diffrentes et sur les membres dune paire soumise deux traitements diffrents, dans
le but de comparer leffet des deux traitements sur les boutures. On notera que les observations
obtenues partir de ces paires peuvent tre corrles. Le test statistique utilis pour comparer des
moyennes dchantillons apparis est gnralement appel test jumel t.
Soient (x
1
, y
1
), (x
2
, y
2
), . . ., (x
n
, y
n
), les n observations apparies. Supposons que les observations
concernant la variable x proviennent dune population de moyenne
1
et celles qui concernent la
variable y dune population de moyenne
2
. Lhypothse vrifier est H
0 1 2
: . Si on forme
les diffrences d
i
= x
i
- y
i
pour i = 1, 2, , n (on peut considrer quelles appartiennent une
population normale de moyenne zro et de variance connue), on pourra utiliser le critre de test
suivant :
t
d
s
n
d

2
(3.5)
o
( )
s
n
d
d
n
d i
i
2 2
2
1
1

_
,


Le critre de test t donn par lEquation (3.5) suit une loi de Student t avec n 1degrs de libert.
La valeur de t ainsi obtenue est donc comparable la valeur tabulaire de t correspondant n 1
degrs de libert, au niveau de probabilit souhait.
Prenons par exemple les donnes du Tableau 3.2, qui ont t obtenues partir de carottes de
sondage (chantillons cylindriques de terrain) prleves des niveaux de profondeur diffrents dans
une fort naturelle. Les donnes sont des mesures de la teneur en carbone organique, prises deux
niveaux diffrents de plusieurs fosses dobservation; il sagit donc dobservations apparies pour
chaque fosse. Le test jumel t peut tre utilis dans ce cas pour comparer la teneur en carbone
organique du sol deux profondeurs diffrentes. La comparaison statistique se droule comme
indiqu ci-aprs.
*Etape 1. Calculer la diffrence entre chaque paire dobservations daprs les donnes du Tableau
3.2
Infrence statistique
- 36 -
Tableau 3.2. Teneur en carbone organique mesure deux niveaux dune srie de fosses
dobservation situes dans une fort naturelle.
Carbone organique (%)
Fosse
dobservation
Niveau 1
(x)
Niveau 2
(y)
Diffrence
(d)
1 1.59 1.21 0.38
2 1.39 0.92 0.47
3 1.64 1.31 0.33
4 1.17 1.52 -0.35
5 1.27 1.62 -0.35
6 1.58 0.91 0.67
7 1.64 1.23 0.41
8 1.53 1.21 0.32
9 1.21 1.58 -0.37
10 1.48 1.18 0.30
*Etape 2. Calculer la diffrence moyenne et la variance des diffrences, laide de lEquation (3.5)
d =
d
n
i
i
n

1
=
181
10
.
= 0.181
( ) ( ) ( )
( )
( )
s
d
2
2 2
2
1
10 1
0 38 0 47 030
181
10

+ + +

_
,
. . . . . .
.

2

133789
9
.
= 0.1486
*Etape 3. Calculer la valeur de t en remplaant les valeurs de d et s
d
2
dans lEquation (3.5).
t .
0181
01486
10
1485
.
.
La valeur calcule de t (1.485) est infrieure la valeur tabulaire (2.262), pour 9 degrs de libert,
au seuil de signification de 5%. Il ny a donc pas de diffrence significative entre la teneur en carbone
organique moyenne des deux couches de terrain.
3.3. Test de comparaison de variances
On a souvent besoin de vrifier si deux chantillons alatoires indpendants proviennent de
populations de mme variance. Supposons que le premier chantillon de n
1
observations ait pour
variance s
1
2
et que le second chantillon den
2
observations ait pour variance s
2
2
, et que les deux
chantillons proviennent de populations distribues normalement. Lhypothse nulle tester est: les
Infrence statistique
- 37 -
deux chantillons sont indpendants et prlevs au hasard dans des populations normalement
distribues de mme variance , soit en symboles :
H
0 1
2
2
2
:
o
1
2
2
2
, sont les variances de deux populations dans lesquelles sont prlevs les deux chantillons.
Lhypothse alternative est la suivante :
H
1 1
2
2
2
:
Le critre statistique utilis pour tester lhypothse nulle est
F
s
s

1
2
2
2
(3.6)
o s
1
2
est le plus grand carr moyen
Dans lhypothse nulle, on peut montrer que le critre statistique suit une distribution de F avec
( ) n n
1 2
1 1 , degrs de libert. La rgle de dcision est la suivante: si la valeur calcule du critre
statistique est infrieure la valeur critique de la distribution de F, au seuil de signification voulu, on
accepte lhypothse nulle, savoir que les deux chantillons sont prlevs dans des populations de
mme variance. Dans le cas contraire, lhypothse nulle est rejete.
Supposons par exemple que les estimations des variances de deux populations soient s
1
2
2187 . et
s
2
2
1536 . , et soient respectivement bases sur n
1
=11 et n
2
= 8 observations des deux populations.
Pour vrifier si les variances sont gales, on calcule le rapport
F
s
s

1
2
2
2
2187
1536
1424
.
.
.
et on compare le rsultat la valeur critique de la distribution de F pour 10 et 7 degrs de libert.
On lit dans lAnnexe 3 que cette valeur critique du critre F est 3.14, au seuil de signification de
0,05. La valeur calcule tant infrieure la valeur critique, les variances sont gales.
3.4. Test de proportions
Lorsque les observations consistent classer les individus dans des catgories particulires, comme
malade ou en bonne sant, mort ou vivant etc, les donnes sont gnralement rsumes en
termes de proportions. Il peut alors tre intressant de comparer les proportions de lincidence dun
caractre dans deux populations. Lhypothse nulle formuler dans de telles situations est
H :
0
P P
1 2
, alors que lhypothse alternative est H :
1
P P
1 2
(ou P P
1 2
> ou P P
1 2
< ), o P
1
et P
2
sont des proportions reprsentant les deux populations. Pour tester cette hypothse, on prlve deux
chantillons indpendants de grande taille, par exemple n
1
et n
2,
dans les deux populations. On
obtient ainsi deux chantillons de proportions respectives p
1
et p
2
. Le critre statistique utilis est le
suivant :
Infrence statistique
- 38 -
z
p p
p q
n
p q
n


+
1 2
1 1
1
2 2
2
(3.7)
o q
1
= 1 - p
1
, q
2
= 1 - p
2
. Cette statistique suit une loi de distribution normale standard.
Prenons pour exemple une exprience sur la formation des racines de boutures de tiges de
Casuarina equisetifolia, consistant observer leffet de limmersion des boutures dans des
solutions dAIB (acide indolylbutyrique), deux concentrations diffrentes. Deux lots comprenant
chacun trente boutures ont t plongs dans des bains dAIB, des concentrations respectives de
50 et 100 ppm. Les observations ont permis de dterminer la proportion de boutures pourvues de
racines dans chaque lot de 30, chaque concentration. A la concentration de 50 ppm, la proportion
de boutures racines tait de 0.5, contre 0.37, la concentration de 100 ppm. La question qui nous
intresse ici est de dterminer si les proportions observes refltent des diffrences significatives de
leffet de lacide, aux deux concentrations.
Conformment notre notation, p
1
= 0.5 et p
2
= 0.37. Par suite q
1
= 0.5, q
2
= 0.63. De plus n
1
= n
2
= 30. Le critre statistique vaut donc,
( )( ) ( )( )
z

+

05 037
05 05
30
0 37 0 63
30
1024
. .
. . . .
.
La valeur de z obtenue (1.024) est infrieure la valeur donne par la table (1.96) au seuil de
signification de 5%. Il ny a donc pas de diffrence significative entre les proportions de boutures
racines, aux deux concentrations.
3.5. Test de la validit de lajustement
Les tests dhypothses ont parfois pour but de vrifier si la population dont provient un chantillon
suit une loi de distribution de probabilit dtermine. La distribution escompte peut tre base sur
un modle thorique (loi normale, binomiale ou de Poisson) ou sur un schma particulier, en raison
de facteurs techniques. Il peut par exemple tre intressant de vrifier si une variable comme la
hauteur des arbres suit une loi normale de distribution. Un spcialiste de lamlioration gntique des
arbres peut avoir besoin de savoir sil existe une dviation significative entre les rapports de
sgrgation relatifs un caractre, tels quils sont observs, et ceux de Mendel..Dans de telles
situations, on est amen vrifier la correspondance entre les frquences observes et thoriques.
Ce type de test a reu le nom de test de la validit de l'ajustement.
Pour appliquer le test de la validit de lajustement, on utilise uniquement les frquences relles
observes, lexclusion des pourcentages ou proportions. De plus, il est indispensable que les
observations faites sur un mme chantillon ne se chevauchent pas et soient indpendantes. Les
frquences attendues dans chaque catgorie doivent de prfrence tre suprieures 5. Le nombre
total dobservations doit tre lev, en gnral suprieur 50.
Infrence statistique
- 39 -
Dans les tests de la validit de lajustement, lhypothse nulle est il ny a pas de discordance entre
la distribution observe et la distribution thorique , ou la distribution observe est ajuste la
distribution thorique . Le critre de test utilis est le suivant
( )

2
2
1

O E
E
i i
i
i
k
(3.8)
o O
i
= frquence observe dans la ime classe,
E
i
= frquence attendue dans la ime classe.
k = nombre de catgories ou classes.
La statistique
2
de lquation (3.8) suit une distribution de
2
avec k-1 degrs de libert. Si les
frquences attendues sont drives de paramtres estims dans lchantillon, les degrs de liberts
sont au nombre de (k-p-1) (o p est le nombre de paramtres estims). Si, par exemple, on veut
tester la normalit dune distribution, une estimation de et
2
partir de lchantillon sera donne
par x et s
2
. Les degrs de libert se rduisent donc (k-2-1).
Les frquences escomptes peuvent tre calcules daprs la fonction de probabilit de la
distribution thorique approprie la situation, ou obtenues par drivation, en prenant pour base la
thorie scientifique que lon compte tester, par exemple la loi de Mendel sur lhrdit. Dans le cas
o il nexiste pas de thorie bien dfinie, on supposera que toutes les classes se retrouvent avec la
mme frquence dans la population. Par exemple, lhypothse de dpart peut tre que le nombre
dinsectes pris au pige diffrents moments dune journe, ou le nombre de fois o lon voit un
animal dans diffrents habitats etc sont gaux et soumettre ces frquences au test statistique. Dans
ces situations, la frquence attendue est donne par la formule
k
n
E
groupes des Nombre
observes frquences des Total
(3.9)
Examinons par exemple les donnes du Tableau 3.3 qui reprsentent le nombre despces dinsectes
capturs, durant des mois diffrents, dans une zone non perturbe du Sanctuaire naturel de
Parambikkulam. Pour vrifier sil y a des diffrences significatives entre le nombre despces
dinsectes trouvs durant des mois diffrents, on formulera lhypothse nulle comme suit : la diversit,
exprime par le nombre despces dinsectes, est la mme tous les mois, dans le sanctuaire, et lon
en drivera les frquences attendues pendant les diffrents mois.
Infrence statistique
- 40 -
Tableau 3.3. Calcul de
2
partir des donnes sur le nombre despces dinsectes
captures Parambikkulam pendant les diffrents mois.
Mois O E ( ) O E E
2
Janvier 67 67 0.00
Fvrier 115 67 34.39
Mars 118 67 38.82
Avril 72 67 0.37
Mai 67 67 0.00
Juin 77 67 1.49
Juillet 75 67 0.96
Aot 63 67 0.24
Septembre 42 67 9.33
Octobre 24 67 27.60
Novembre 32 67 18.28
Dcembre 52 67 3.36
Total 804 804 134.84
La valeur obtenue pour
2
est 134.84. Si lon se reporte la table de distribution de
2
(Annexe 4)
pour (12-1) = 11 degrs de libert et = 0.05, on trouve pour
2
la valeur critique de 19.7. On
accepte donc lhypothse nulle et on conclut que le nombre despces dinsectes trouvs est le
mme tous les mois.
3.6. Analyse de variance
Lanalyse de variance est essentiellement une technique de rpartition de la variation totale des
rponses observes lors dune exprience, entre les diffrentes sources de variation laquelle elle
peut tre attribue, certaines de ces sources pouvant tre dtermines alors que dautres sont
inconnues. Cette technique permet aussi de vrifier si la variation due une composante particulire
quelconque est significative, par rapport la variation rsiduelle qui peut apparatre entre les units
dobservations.
Lanalyse de variance se fait selon un modle sous-jacent qui exprime la rponse comme somme de
diffrents effets. Etudions par exemple lEquation (3.10).
y e
ij i ij
+ + , i =1, 2, , t; j = 1, 2, , n
i
(3.10)
o y
ij
est la rponse de la j-me unit individuelle appartenant la i-me catgorie ou groupe,
est la moyenne de lensemble de la population,
i
est leffet associ lappartenance au i-me
groupe et e
ij
une erreur alatoire associe la (ij)-me observation. Il sagit dun modle danalyse
de la variance un critre de classification, qui peut tre tendu en ajoutant de plus en plus deffets
applicables une situation particulire. Lorsque plusieurs sources de variations connues
interviennent, on a un modle danalyse de variance plusieurs facteurs.
Infrence statistique
- 41 -
Lanalyse repose sur quelques hypothses de base propos des observations et des effets, savoir:
i) Les diffrents effets des composantes sont additifs ii) Les erreurs e
ij
sont distribues de manire
indpendante et gale, avec une moyenne nulle et une variance constante.
Le modle (3.10) peut aussi scrire :
y e
ij i ij
+ (3.11)
o
i i
+
Si lon ajoute quelques hypothses, lanalyse de la variance permet aussi de vrifier les hypothses
suivantes :
H :
0

1 2
. . .
t
H :
1

i j
pour au moins un i et j (3.12)
Lhypothse supplmentaire requise est les erreurs sont distribues normalement . Mme si de
lgers carts sont tolrables, linterprtation de lanalyse de la variance naura de valeur que si ces
hypothses sont runies.
On notera en outre que les effets pris en compte dans le modle peuvent tre des effets fixes ou des
effets alatoires. Par exemple, les effets de deux niveaux dirrigation bien dfinis sont fixes, puisque
lon peut raisonnablement supposer que chaque niveau a un effet dtermin. En revanche, si lon
choisit au hasard un ensemble de provenances dans un plus grand ensemble, les effets imputables
aux provenances sont considrs comme alatoires. Les effets alatoires peuvent appartenir une
population finie ou infinie. Les effets derreurs sont toujours alatoires et peuvent appartenir une
population finie ou infinie. Un modle dans lequel tous les effets (autres que leffet derreur qui est
toujours considr comme alatoire) sont fixes, est un modle effets fixes. Un modle dans lequel
apparaissent les deux types deffets est un modle mixte et un modle dans lequel tous les effets sont
alatoires est un modle effets alatoires. Les modles effets fixes ont pour principaux objectifs
destimer les effets fixes, de quantifier la variation due ces effets dans la rponse, et enfin de
trouver la variation entre les effets derreur, alors que les modles effets alatoires visent surtout
estimer la variation de chaque catgorie deffets alatoires. La mthode suivre pour obtenir des
expressions de la variabilit est en gnral la mme pour tous les modles, mme si les mthodes de
test sont diffrentes.
La technique danalyse de variance est illustre ci-aprs, avec un modle un critre de classification
ne comprenant que des effets fixes. Des cas plus complexes sont abords aux chapitre 4 et 6, lors
de lillustration des analyses relatives aux diffrents plans dexprience.
3.6.1. Analyses de donnes classifies selon un critre
Considrons un ensemble de donnes concernant la densit du bois obtenues partir dobservations
dun ensemble, choisi au hasard, de tiges appartenant un ensemble despces de bambous.
Supposons que lon ait t espces et r observations pour chaque espce. Les rsultats peuvent tre
rassembls en tableau, selon le modle ci-aprs :
Infrence statistique
- 42 -
Espces
1 2 . . i . . t
y
11
y
21
y
i1
y
t1
y
12
y
22
y
i2
y
t2
. .
y
1j
y
2j
y
ij
y
tj
. .
y
1r
y
2r
y
ir
y
tr
Total y
1.
y
2.
y
i.
y
t.
y..= Total gnral
Moyenne
y
1
y
2
y
i
y
t
y = Moyenne gnrale
Note: Dans ce tableau, une priode (.) en indice dnote la somme sur cet indice.
La thorie qui sous-tend lanalyse de variance est complexe et risquerait de rebuter le lecteur
profane. Cest pourquoi nous avons choisi de prsenter une drivation heuristique des formules.
Considrons les r observations concernant une espce particulire quelconque, par exemple la i-
me. Leurs valeurs peuvent tre diffrentes, ce qui dmontre linfluence de nombreux facteurs
externes sur les observations de tiges de cette espce. Cette influence peut-tre mesure par les
carts des observations individuelles la moyenne. Il est prfrable dlever les carts au carr car
les carts simples pourraient sliminer lors de la sommation. Lamplitude dune variation alatoire
affectant les observations concernant la i-me espce est donne par lexpression
( ) ( ) ( ) y y y y y y
i i i i ir i 1
2
2
2 2
+ +
. . .
. . . + =
( )
y y
ij i
j
r

.
2
1
(3.13)
Pour chaque espce, la variation produite par les sources externes reflte linfluence des facteurs
incontrls, qui peut tre globalement estime par sommation. La variation totale observe,
imputable des facteurs externes, galement connue sous le nom de somme des carrs due aux
erreurs (SSE) est donne par
SSE =
( )
y y
ij i
j
r
i
t



.
2
1 1
(3.14)
Outre les fluctuations alatoires, diffrentes espces peuvent avoir diffrents effets sur la rponse
moyenne. La variation due la i-me espce dans les r observations est donc
( ) r y y
i .

2
(3.15)
La variation due aux diffrences entre les espces est donc donne par la relation
SS due aux espces = SSS = ( ) r y y
i
i
t
.

2
1
(3.16)
algbriquement quivalente
SSS =
y
r
y
tr
i
i
t
ij
j
r
i
t
.
2
1
1 1
2

_
,

(3.17)
Infrence statistique
- 43 -
Le second terme de lquation (3.17) est appel facteur de correction (C.F.).
C F
y
tr
ij
j
r
i
t
. .

_
,



1 1
2
(3.18)
Pour finir, nous devons trouver la variation totale prsente dans toutes les observations. Cette
dernire est donne par la somme des carrs des carts de toutes les rponses leur moyenne
gnrale. En symboles,
SSTO =
( )
y y
ij
j
r
i
t



2
1 1
(3.19)
=
( )
y y y y
ij i i
j
r
i
t
+


. .
2
1 1
=
( ) ( ) ( )( ) y y y y y y y y
ij i i ij i i
j
r
i
t
+ +

_
,


. . . .
2
2
1 1
2
=
( )
y y
ij i
j
r
i
t



.
2
1 1
+ ( ) r y y
i
i
t
.

2
1
(3.20)
o
( )( ) ( ) ( )
2 2 0
1 1 1 1
y y y y y y y y
ij i i
j
r
i
t
i ij i
j
r
i
t



. . . .
La variation totale des rponses peut donc sexprimer comme la somme des variations entre les
espces et des variations au sein dune espce. Cest l lessence mme de lanalyse de la variance.
Aux fins des calculs, SSTO sobtient aussi comme
SSTO =
( )
y y
ij i
j
r
i
t



.
2
1 1
+ ( ) r y y
i
i
t
.

2
1
= y
y
tr
ij
j
r
i
t
ij
j
r
i
t
2
1 1
1 1
2



_
,

(3.21)
Si la rpartition de la variabilit totale entre ce qui est d aux diffrences entre espces et ce qui est
d aux facteurs externes a une valeur informative, elle nest gure utile en elle mme pour pousser
plus avant linterprtation. En effet, ces valeurs dpendent du nombre despces et du nombre
dobservations effectues sur chaque espce. Pour liminer leffet d au nombre dobservations, on
rduit les mesures de la variabilit observe une variabilit par observation, cest dire la
moyenne de la somme des carrs. Etant donn quil y a au total rt observations, dont on tire la
somme totale des carrs, il est vident que lon peut calculer la moyenne de la somme des carrs en
divisant la somme totale des carrs par rt. Au lieu de cela, on la divise par (rt-1), qui est le nombre
total dobservations moins une. Ce diviseur est appel degr de libert et indique le nombre
dcarts la moyenne indpendants qui contribuent au calcul de la variation totale. Par consquent,
Moyenne de la somme des carrs due aux espces = MSS =
SSS
t 1
(3.22)
Infrence statistique
- 44 -
Moyenne de la somme des carrs due aux erreurs = MSE =
SSTO SSS
t r
-
( ) 1
(3.23)
Le calcul de la moyenne des carrs des espces et de la moyenne des carrs des erreurs est crucial
pour vrifier la signification des diffrences entre les moyennes des espces. Ici, lhypothse nulle qui
est teste est que toutes les moyennes de population des espces sont gales, cest dire :
H . . .
0 1 2
:
t
Dans cette hypothse, les deux moyennes des carrs ci-dessus reprsenteront deux estimations
indpendantes du mme effet alatoire, autrement dit MSS et MSE fournissent une estimation de la
mme variance. On peut maintenant tester lhypothse les effets des espces sont gaux laide
du critre F, o F est le rapport de MSS MSE. Le critre F suit une distribution F avec (t-1) et
t(r-1) degrs de libert. La signification de F peut tre dtermine de la manire habituelle en se
reportant la table de F (Annexe 3). Si la valeur calcule de F est suprieure la valeur indique
par la table, lhypothse est rejete. Cela signifie que les observations concernant au moins une paire
despces ont mis en vidence des diffrences significatives.
Les rsultats qui prcdent peuvent tre rcapituls dans un tableau danalyse de variance, prsent
comme suit
Table 3.4. Tableau danalyse de variance
Sources de variation Degrs de
libert
(df)
Somme des
carrs
(SS)
Moyenne des
carrs
MS
SS
df

_
,

Rapport F
calcul
Entre espces t-1 SSS MSS
MSS
MSE
Au sein dune espce
(erreur)
t(r-1) SSE MSE
Total tr-1 SSTO
Nous illustrerons ce qui prcde laide des donnes du Tableau 3.5. Celles-ci reprsentent un
ensemble dobservations sur la densit du bois, drives dun ensemble, prlev au hasard, de tiges
de cinq espces de bambous.
Infrence statistique
- 45 -
Lanalyse de la variance des donnes de lchantillon se fait en plusieurs tapes.
*Etape 1. Calculer les totaux des espces, la moyenne des espces, le total gnral et la moyenne
gnrale (comme dans le Tableau 3.5) . Ici le nombre despces = t = 5 et le nombre
dobservations = r = 3.
Tableau 3.5. Densit du bois (g/cc) observe sur un ensemble, prlev au hasard, de tiges
appartenant diffrentes espces de bambous.
Espces
1 2 3 4 5 Gnral
1 0.58 0.53 0.49 0.53 0.57
2 0.54 0.63 0.55 0.61 0.64
3 0.38 0.68 0.58 0.53 0.63
Total 1.50 1.85 1.62 1.67 1.85 8.49
Moyenne 0.50 0.62 0.54 0.56 0.62 0.57
*Etape 2. Calculer le facteur de correction C.F laide de lquation (3.18).
C.F.
( )( )
.
( . ) 8 49
5 3
481
2
*Etape 3. Calculer la somme totale des carrs laide de lquation (3.21).
SSTO = (0.58)
2
+ (0.53)
2
+ . . .+ (0.63)
2
-
( )( )
( . ) 849
5 3
2
= 0.0765
*Etape 4. Calculer la somme des carrs relative aux espces laide de lquation (3.17).
SSS =
( ) ( ) ( ) 150 184 184
5 5 3
2 2 2
2
. + . + . . . +

(8.49) .
( )( )

= 0.0307
*Etape 5. Calculer la somme des carrs des erreurs grce la relation SSE = SSTO - SSS
SSE = 0.0765 - 0.0307
= 0.0458
*Etape 6. Calculer la moyenne de la somme des carrs pour les espces et les erreurs. Celles-ci
sont donnes par les quations (3.22) et (3.23).
MSS =
0.0307
5 1
= 0.0153
MSE =
( )
0.0458
5 3 1
= 0.0038
Infrence statistique
- 46 -
*Etape 7. Calculer le rapport F
F =
MS Erreur
MS Traitement
=
00153
00038
.
.
= 4.0108
*Etape 8. Rsumer les rsultats comme dans le Tableau 3.6.
Tableau 3.6. Tableau de lanalyse de la variance des donnes du Tableau 3.5.
Sources de
variation
Degrs de
libert
(df)
Sommes
des carrs
(SS)
Carrs moyens
MS
SS
df

_
,

Rapport F
calcul
Valeur
tabulaire de
F
Entre
espces
4 0.0307 0.0153 4.01 3.48
Au sein
dune
espce
10 0.0458 0.0038
Total 14 0.0765
Comparer la valeur calcule et la valeur tabulaire de F, pour 4 et 10 degrs de libert. Dans notre
exemple, la valeur calcule du rapport F (1.73) est infrieure la valeur tabulaire (3.48), au seuil de
signification de 5%. On en conclut quil ny a pas de diffrences significatives entre les moyennes des
diffrentes espces.
3.7. Transformation de donnes
On a dj dit dans la section prcdente que la validit de lanalyse de variance dpend de certains
hypothses importantes. Lanalyse peut aboutir des conclusions fausses si toutes ces hypothses ne
sont pas respectes, ce qui est par exemple relativement courant pour lhypothse de la variance
constante des erreurs. Dans ce cas, lune des possibilits est deffectuer une analyse de variance
pondre, en vertu de laquelle chaque observation est pondre par linverse de sa variance. Ceci
suppose destimer la variance de chaque observation, ce qui nest pas toujours possible. Souvent,
les donnes subissent certaines transformations dchelle, de sorte qu lchelle transforme,
lhypothse de la variance constante est ralise. Certaines de ces transformations peuvent aussi
corriger des carts des observations par rapport la normale, du fait quune diffrence de variance
est souvent aussi lie la distribution de la variable. On dispose de mthodes spcifiques pour
identifier la transformation requise pour tout ensemble de donne particulier (Montgomery et Peck,
1982), mais on peut aussi avoir recours certaines formes de transformation normalises suivant la
Infrence statistique
- 47 -
nature des donnes. Les plus courantes sont la transformation logarithmique, la transformation
racine carre et la transformation angulaire.
3.7.1. Transformation logarithmique
Lorsque les donnes se prsentent sous forme de nombres entiers reprsentant des catgories de
grande tendue, les variances des observations lintrieur de chaque groupe sont gnralement
proportionnelles aux carrs des moyennes du groupe. Pour ce type de donnes, la transformation
logarithmique est conseille. La comparaison dune parcelle tmoin de moyennes de groupe avec
lcart-type du groupe mettra en vidence une relation linaire. Les donnes issues dune exprience
ralise avec diffrents types dinsecticides fournissent un bon exemple. Pour linsecticide efficace,
les catgories dinsectes dans lunit exprimentale traite peuvent tre peu tendues, alors que pour
les insecticides inefficaces, les catgories peuvent comprendre de 100 plusieurs milliers dinsectes.
Dans le cas de donnes avec des zros, il est conseill dajouter 1 chaque observation avant de
procder la transformation. La transformation logarithmique est particulirement efficace pour
normaliser les distributions dsaxes vers la droite. Elle est parfois aussi employe pour calculer
ladditivit des effets.
3.7.2. Transformation racine carre
La mthode consistant convertir les observations originelles lordre de grandeur de la racine
carre, en prenant la racine carre de chaque observation, est connue sous le nom de transformation
racine carre. Elle est approprie lorsque la variance est proportionnelle la moyenne, ce que lon
peut voir sur un graphique de variances de groupe et de moyennes de groupes. Une relation linaire
entre la moyenne et la variance est couramment observe lorsque les donnes sont de petits nombres
entiers (ex : catgories de sauvageons par quadrat, adventices par parcelle, vers de terre par mtre
carr de sol, insectes pris au pige etc) Lorsque les valeurs observes sont comprises dans une
fourchette allant de 1 10, et surtout lorsquelles ont des zros, la transformation devrait tre ,
y + 05 . . La transformation du type y + (3 / 8) est galement employe pour certaines raisons
thoriques.
3.7.3. Transformation Angulaire
Dans le cas de proportions drives de donnes de frquence, la proportion observe p peut tre
mise sous une nouvelle forme = sin
1
p . Cette mthode est connue sous le nom de
transformation angulaire ou de transformation arc-sinus. Toutefois, lorsque presque toutes les valeurs
des donnes sont comprises entre 0,3 et 0,7, cette transformation nest pas ncessaire. En outre, elle
nest pas applicable aux proportions ou aux pourcentages qui nont pas t obtenus
exprimentalement. Ainsi, les pourcentages de marques, de profit, de protines dans les graines, la
teneur en huile des semences etcne peuvent pas tre soumis une transformation angulaire. La
transformation angulaire nest pas valable lorsque dans les donnes p prend les valeurs 0 ou 1. On
lamliorera en remplaant, avant de prendre des valeurs angulaires, 0 par (1/4n) et 1 par [1-
(1/4n)], o n est le nombre dobservations sur la base desquelles est estim p pour chaque groupe.
Pour illustrer la transformation angulaire par un exemple, prenons les donnes du Tableau 3.7 qui
reprsentent le pourcentage de racines obtenu aprs avoir appliqu pendant six mois un traitement
hormonal, des doses diffrentes, des boutures de tiges dune espce darbre. Trois lots,
contenant chacun dix boutures, ont t tremps dans une solution hormonale, des dosages
Infrence statistique
- 48 -
diffrents. Lhormone a t essaye trois concentrations et lexprience comprenait un lot tmoin
non trait. Le pourcentage de racines de chaque lot de boutures a t obtenu en divisant le nombre
de boutures racines par le nombre de boutures compris dans un lot.
Tableau 3.7. Pourcentage de boutures obtenu au bout de six mois de traitement
Traitements
Lot de
boutures
Lot tmoin AIB, 10
ppm
AIB,
50 ppm
AIB,
100 ppm
1 0 70 60 30
2 0 80 70 20
3 0 60 70 10
Les donnes du Tableau 3.7 ont t transformes lchelle angulaire, laide de la fonction,
sin
1
p aprs avoir remplac les valeurs de 0 par (1/4n) o n =10. Les valeurs de la fonction
sin
1
p pour diffrentes valeurs de p peuvent aussi tre extraites du Tableau (X) of Fisher et Yates
(1963). Les donnes transformes du Tableau 3.7 sont rassembles dans le Tableau 3.8.
Table 3.8. Donnes du Tableau 3.7 transformes lchelle angulaire.
Traitements
Lots de
boutures
Tmoin AIB 10
ppm
AIB
50 ppm
AIB
100 ppm
Total
gnral
1 0.99 56.79 50.77 33.21
2 0.99 63.44 56.79 26.56
3 0.99 50.77 56.79 18.44
Total 2.97 171 164.35 78.21 416.53
Afin de voir si les effets des traitements prsentent des diffrences significatives, une analyse de
variance un facteur peut tre effectue selon la mthode indique dans la section 3.6 sur les
donnes transformes. Les rsultats de lanalyse de variance sont prsents au Tableau 3.9.
Tableau 3.9. Analyse de la variance des donnes transformes du Tableau 3.8.
Sources de variation Degrs de
libert
(df)
Sommes
des carrs
(SS)
Carrs
moyens
MS
SS
df

_
,

Rapport de
F calcul
Valeur
tabulaire
de F
Au seuil
de 5%
Entre les traitements 3 6334.41 2111.47 78.96* 4.07
Dans un mme
traitement
8 213.93 26.74
Total 11 6548.34
* significatif au seuil de 5%.
Infrence statistique
- 49 -
Avant de conclure cette section, il convient dajouter une note de caractre gnral. Une fois que la
transformation a t faite, lanalyse est effectue avec les donnes transformes et toutes les
conclusions sont tires lchelle transforme. Toutefois, lors de la prsentation des rsultats, les
moyennes et leurs carts types sont reconverties aux units originelles. Lors de cette reconversion,
certaines corrections doivent tre apportes aux moyennes. Dans le cas de donnes soumises une
transformation logarithmique, si la valeur moyenne est y, la valeur moyenne des units originelles sera
antilog( ) y y +115 . au lieu de antilog( ) y . Avec la transformation racine carre, la moyenne
lchelle initiale serait ( ) ( ) y V y +
2
au lieu de ( ) y
2
o ( ) V y reprsente la variance de y . On ne fait
gnralement pas ces corrections dans le cas dune transformation angulaire. Pour la transformation
angulaire, la transformation inverse serait p = (sin )
2
.
3.8. Corrlation
Dans beaucoup de systmes naturels, les changements dun attribut saccompagnent de variations
dun autre attribut, et il existe une relation dfinie entre les deux. En dautres termes, il existe une
corrlation entre les deux variables. Par exemple, plusieurs proprits des sols, comme la teneur en
azote, la teneur en carbone organique ou le pH, sont corrles et varient de faon concomitante. On
a observ une forte corrlation entre plusieurs caractristiques morphomtriques dun arbre. Dans de
telles situations, il peut tre intressant pour un chercheur de mesurer limportance de cette relation.
Si (x
i
,y
i
); i = 1, ..., n, est un ensemble dobservations apparies effectues sur n units
dchantillonnage indpendantes, une mesure de la relation linaire entre deux variables est donne
par la quantit suivante, appele coefficient de corrlation linaire de Pearson, ou simplement
coefficient de corrlation.
( )( ) ( ) ( ) ( ) ( ) y V x V
y) Cov(x,
y de Variance x de Variance
y et x de Covariance
r (3.24)
o Cov (x,y) = ( )( )
1
1
n
x x y y
i i
i
n

_
,

=
1
1
1 1
n
x y
x y
n
i i
i
n
i
i
n
i
i
n

_
,

V(x) = ( )
1 2
1
n
x x
i
i
n

_
,

=
1
2
1
1
2
n
x
x
n
i
i
n
i
i
n

_
,

_
,


V(y) = ( )
1 2
1
n
y y
i
i
n

_
,

=
1
2
1
1
2
n
y
y
n
i
i
n
i
i
n

_
,

_
,

Infrence statistique
- 50 -
Ce paramtre statistique indique la fois la direction et le degr de la relation existant entre deux
caractres quantitatifs x et y. La valeur de r peut varier de 1 +1, sans atteindre ces valeurs. Si la
valeur de r est nulle, cela signifie quil ny a pas de relation linaire entre les deux variables
concernes (il peut toutefois y avoir une relation non-linaire). La relation linaire est forte lorsque la
valeur de r approche 1 ou +1. Une valeur ngative de r indique que si la valeur dune variable
augmente, celle de lautre diminue. Au contraire, une valeur positive indique une relation directe,
cest dire que laugmentation de la valeur dune variable est associe une augmentation de la
valeur de lautre. Un changement dorigine, dchelle, ou dorigine et dchelle est sans incidence sur
le coefficient de corrlation. Lorsque lon ajoute ou soustrait un terme constant aux valeurs dune
variable, on dit que lon a chang dorigine, alors que lorsque lon multiplie ou divise par un terme
constant les valeurs dune variable, on parle de changement dchelle.
A titre dexemple, considrons les donnes du Tableau 3.10 concernant le pH et la teneur en
carbone organique mesurs dans des chantillons de terrain provenant de 15 fosses dobservation
creuses dans des forts naturelles.
Tableau 3.10. Valeurs du pH et de la teneur en carbone organique observes dans des chantillons
de terrain prlevs dans des forts naturelles.
Fosse
dobservation
pH
(x)
Carbone organique
(%)
(y)
(x
2
) (y
2
) (xy)
1 5.7 2.10 32.49 4.4100 11.97
2 6.1 2.17 37.21 4.7089 13.24
3 5.2 1.97 27.04 3.8809 10.24
4 5.7 1.39 32.49 1.9321 7.92
5 5.6 2.26 31.36 5.1076 12.66
6 5.1 1.29 26.01 1.6641 6.58
7 5.8 1.17 33.64 1.3689 6.79
8 5.5 1.14 30.25 1.2996 6.27
9 5.4 2.09 29.16 4.3681 11.29
10 5.9 1.01 34.81 1.0201 5.96
11 5.3 0.89 28.09 0.7921 4.72
12 5.4 1.60 29.16 2.5600 8.64
13 5.1 0.90 26.01 0.8100 4.59
14 5.1 1.01 26.01 1.0201 5.15
15 5.2 1.21 27.04 1.4641 6.29
Total 82.1 22.2 450.77 36.4100 122.30
Le coefficient de corrlation se calcule en plusieurs tapes.
*Etape 1. Calcul de la covariance de x et y et des variances de x et de y laide de lquation
(3.24).
Cov (x,y) =
( )
1
15
122 30
15
.

_
,

82.1 (22.2)
Infrence statistique
- 51 -
= 0.05
V(x) =
1
15
45077
15
2
.

_
,

(82.1)

= 0.0940
V(y) =
1
15
36 41
15
2
.

_
,

(22.2)
= 0.2367
*Etape 2. Calcul du coefficient de corrlation avec lquation (3.24).
r =
( )( )
0.05
00940 0 2367 . .
= 0.3541
3.8.1. Test de signification du coefficient de corrlation.
La signification dune valeur du coefficient de corrlation calcule partir dun chantillon doit tre
teste pour confirmer lexistence dune relation entre les deux variables, dans la population
considre. En gnral, on dfinit lhypothse nulle comme H
0
0 : alors que lhypothse
alternative est H
1
0 : .
Pour n relativement petit, lhypothse nulle ( 0) peut tre teste laide du critre statistique
t
r n
r

2
1
2
(3.25)
Ce critre statistique suit une distribution de Student t avec n-2 degrs de libert.
Examinons les donnes du Tableau 3.10, o n = 15 et r = 0.3541. Pour tester si H
0
0 : ou si, au
contraire, H
1
0 : , on calcule le critre statistique laide de lEquation (3.25).
t

0.3541 15 2
1 (0.3541)
2
= 1.3652
Dans la table de lAnnexe 2, la valeur critique de t est 2,160, pour 13 degrs de libert, au seuil de
signification = 0,05. Comme la valeur calcule de t est infrieure la valeur critique, on conclut
que le pH et la teneur en carbone organique mesurs partir dchantillons de terrain ne sont pas
corrls de manire significative. Pour simplifier, on pourrait aussi se reporter lAnnexe 5 qui donne
les valeurs au-del desquelles un coefficient de corrlation observ peut tre dclar significatif, pour
un nombre donn dobservations au seuil de signification voulu.
Pour tester lhypothse H
0 0
: , o
0
est une valeur donne quelconque de , on utilise la
transformation Z de Fisher donne par
z
r
r

_
,

1
2
1
1
ln (3.26)
Infrence statistique
- 52 -
o ln indique le logarithme naturel.
Pour tester lhypothse nulle, on choisit le critre statistique
w
z z
n

0
1
3
(3.27)
o z
o
0
0
1
2
1
1

_
,
ln


Le critre statistique w suit une loi de distribution normale standard.
Pour illustrer ceci par un exemple, prenons les donnes du Tableau 3.10, pour n = 15 et r =
0.3541. Supposons que lon veuille tester lhypothse nulle H
0 0
: = 0.6 ; on commencera par
soumettre les valeurs de r et la transformation z.
z
+

_
,

1
2
1 0 3541
1 0 3541
ln
.
.
= 0.3701
z
0
1
2
1 06
1 06

_
,
ln
.
.
= 0.6932
La valeur du critre statistique sera donc
w

0 3701 06932
1
15 3
. .
= 1.16495
Etant donn que la valeur de w est infrieure la valeur critique 1.96, le critre nest pas significatif
au seuil de signification de 5%. On en conclut que le coefficient de corrlation entre le pH et la teneur
en carbone organique ne diffre pas de manire significative de 0.6.
3.9. Rgression
Le coefficient de corrlation mesure le degr de la relation entre deux variables qui varient de faon
concomitante, avec des effets qui se renforcent mutuellement. Dans certains cas, les changements
relatifs une variable sont provoqus par les variations dune variable connexe, sans quil y ait de
dpendance mutuelle. En dautres termes, une variable est considre comme dpendante des
variations de lautre variable, dans la mesure o elles dpendent de facteurs externes. Une telle
relation entre deux variables est appele rgression. Lorsque ces relations sont exprimes sous forme
mathmatique, il est possible destimer la valeur dune variable daprs la valeur de lautre. Par
exemple, le rendement de conversion photosynthtique et le coefficient de transpiration des arbres
dpendent de conditions atmosphriques comme la temprature ou lhumidit, sans pour autant que
lon sattende gnralement une relation inverse. Toutefois certaines variables sont souvent
dclares indpendantes uniquement au sens statistique, mme dans des situations o des effets
inverses sont concevables. Par exemple, dans une quation servant estimer le volume, le volume
Infrence statistique
- 53 -
des arbres est souvent considr comme dpendant du diamtre hauteur dhomme, mme si le
diamtre ne saurait tre considr comme indpendant des effets du volume des arbres au sens
physique. Cest pourquoi, dans le contexte de la rgression, les variables indpendantes sont souvent
appeles variables exognes (explicative), et la variable dpendante variable endogne (explique).
La variable dpendante est habituellement note y et la variable indpendante x. Dans le cas o il ny
a que deux variables en jeu, la relation fonctionnelle est appele rgression simple. Si la relation
entre les deux variables est linaire, on parle de rgression linaire simple ; dans le cas contraire,
la rgression est dite non-linaire. Lorsquune variable dpend dau moins 2 variables
indpendantes, la relation fonctionnelle entre la variable dpendante et lensemble des variables
indpendantes est une rgression multiple. Dans un souci de simplification, on se limitera ici
examiner le cas dune rgression linaire simple. Pour des cas plus complexes, on se rfrera
Montgomery et Peck (1982).
3.9.1. Rgression linaire simple
La rgression linaire simple de y en x dans la population peut sexprimer comme
y x + + (3.28)
o et sont des paramtres, appels aussi coefficients de rgression, et est une dviation
alatoire pouvant driver de la relation attendue. Si la valeur moyenne de est zro, lquation
(3.28) reprsente une droite de pente et dordonne lorigine . Autrement dit, est la valeur
prsume de y lorsque x prend la valeur zro et reprsente la variation attendue de y
correspondant une variation unitaire de la variable x. La pente dune droite de rgression linaire
peut tre positive, ngative ou nulle, selon la relation entre y et x.
En pratique, les valeurs de et doivent tre estimes partir dobservations des variables y et x
effectues sur un chantillon. Par exemple, pour estimer les paramtres dune quation de rgression
propose liant la temprature atmosphrique et le taux de transpiration des arbres, un certain nombre
dobservations apparies sur la temprature et le taux de transpiration sont effectues sur plusieurs
arbres, diffrents moments de la journe. Notons (x
i
, y
i
); i = 1, 2, . . ., n ces couples de valeurs, n
tant le nombre de dobservations apparies indpendantes. Les valeurs de et sont estimes par
la mthode des moindres carrs (Montgomery et Peck, 1982) de sorte que la somme des carrs des
diffrences entre les valeurs observes et prvues soit minimale. Le processus destimation repose
sur les hypothses suivantes: i) Les valeurs de x sont non alatoires ou fixes ; ii) Pour tout x, la
variance de y est la mme ; iii) Les valeurs de y observes pour diffrentes valeurs de x sont
compltement indpendantes. Si lune de ces hypothses nest pas vrifie, il faut apporter les
changements voulus. Pour les tests dhypothses se rfrant des paramtres, une hypothse
additionnelle de normalit des erreurs est ncessaire.
En effet, les valeurs de et sobtiennent grce la formule,
$

_
,


x y
x y
n
x
x
n
i i
i
n i
i
n
i
i
n
i
i
n i
i
n
1
1 1
2
1
1
2
(3.29)
Infrence statistique
- 54 -
$
$
y x (3.30)
Lquation $ $
$
y x + reprsente la droite de rgression ajuste, qui peut tre utilise pour estimer
la valeur moyenne de la variable dpendante, y, associe une valeur particulire de la variable
indpendante, x. En gnral, il est plus sr de limiter ces estimations la fourchette des valeurs de x
dans les donnes.
On peut obtenir une estimation des erreurs-type de
$
$
and avec la formule suivante :
( ) SE
x
x
n
i
i
n i
i
n
$
$

_
,


2
2
1
1
2
(3.31)
( ) SE
x
n
x
x
n
i
i
n
i
i
n i
i
n
$
$

_
,


2
2
1
2
1
1
2
(3.32)
o
( )
$
$

2
2
1

y y
n
i
i
n
Lerreur-type dune estimation, qui est lcart-type de sa distribution dchantillonnage, donne une
indication du degr de fiabilit de cette estimation.
Nous illustrerons ce qui prcde laide des donnes du Tableau 3.11 qui prsente les valeurs
apparies du rendement photosynthtique et des radiations, obtenues partir dobservations des
feuilles dune essence forestire spcifique. Dans cet exemple, la variable dpendante est le
rendement photosynthtique et la variable indpendante est la quantit de lumire. La mthode de
calcul de lajustement dune rgression linaire est indique ci-dessous.
*Etape 1. Calculer les valeurs du numrateur et du dnominateur de lquation (3.29) en utilisant les
sommes, sommes des carrs et sommes des produits de x et y, drives du Tableau 3.11
xy
x y
n


=
( )( )
17559
1372 18903
15
.
. .
= 2.6906
( )
x
x
n
2
2


= 12.70 -
( ) 1372
15
2
.
= 0.1508
Infrence statistique
- 55 -
Tableau 3.11. Donnes sur le rendement photosynthtique en mol m
-2
s
-1
(y) et mesure de la
radiation en mol m
-2
s
-1
(x), observes sur une essence forestire
X y x
2
xy
0.7619 7.58 0.58 5.78
0.7684 9.46 0.59 7.27
0.7961 10.76 0.63 8.57
0.8380 11.51 0.70 9.65
0.8381 11.68 0.70 9.79
0.8435 12.68 0.71 10.70
0.8599 12.76 0.74 10.97
0.9209 13.73 0.85 12.64
0.9993 13.89 1.00 13.88
1.0041 13.97 1.01 14.02
1.0089 14.05 1.02 14.17
1.0137 14.13 1.03 14.32
1.0184 14.20 1.04 14.47
1.0232 14.28 1.05 14.62
1.0280 14.36 1.06 14.77
x

= 13.72 y

= 189.03
x

2
= 12.70
xy

= 175.59
*Etape 2. Calculer les estimations de et avec les quations (3.29) et (3.30).
$
.
.

2 6906
01508
= 17.8422
$
12.60 - (17.8421)(0.9148)
= -3.7202
La droite de rgression ajuste $ . . y x + 37202 178422 peut tre utilise pour estimer la valeur du
rendement photosynthtique un niveau de radiation quelconque donn, dans la limite des donnes.
Ainsi, le rendement photosynthtique prvu, pour 1 mol m
-2
s
-1
de lumire sera,
( ) $ . . y + 37202 178422 1 = 14.122
*Etape 3. Estimer
2
selon la formule dfinie dans lEquation (3.32).
( )
$
$

2
2
1

y y
n
i
i
n
= 0.6966
*Etape 4. Estimer les erreurs-type de
$
$
and laide des Equations (3.31) et (3.32).
( )
( )
SE
x
x
n
$
$


2
2
2
=
06966
12 70
15
2
.
.
(13.72)
= 2.1495
Infrence statistique
- 56 -
( )
( )
SE
x
n
x
x
n
$
$


2
2
2
2
=
06966
12 70
15
12 70
15
2
.
.
.
(13.72)
= 1.9778
3.9.2. Test de signification du coefficient de rgression
Une fois que les paramtres de la fonction de rgression ont t estims, ltape suivante est le test
de signification statistique de la fonction de rgression. Selon lusage, on dfinit lhypothse nulle
comme H
0
: = 0 en opposition lhypothse alternative, H
1
: 0 ou (H
1
: < 0 ou H
1
: > 0,
selon la nature prsume de la relation). Pour effectuer le test, on peut suivre la procdure de
lanalyse de variance. Le concept de lanalyse de la variance a dj t expliqu dans la Section 3.6,
mais ses applications dans le cadre de la rgression sont indiques ci dessous, laide des donnes
du Tableau 3.11.
*Etape 1. Dresser un schma de la table danalyse de la variance.
Tableau 3.12. Reprsentation schmatique dune analyse de variance pour une analyse de
rgression.
Source de
variation
Degr de
libert
(df)
Sommes des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F calcul
D la
rgression 1 SSR MSR
MSR
MSE
Ecart par
rapport la
rgression
n-2 SSE MSE
Total n-1 SSTO
*Etape 2. Calculer les diffrentes sommes des carrs, selon la mthode suivante :
Somme totale des carrs =
( )
SSTO y
y
n

2
2
(3.33)
= (7.58)
2
+ (9.46)
2
+ . . . + (14.36)
2
-
( ) 189 03
15
2
.
= 58.3514
Infrence statistique
- 57 -
Somme des carrs dus la rgression = SSR =
( )
xy
x y
n
x
x
n

1
]
1
1

2
2
2
(3.34)
=
( ) 2 6906
01508
2
.
.
= 48.0062
Somme des carrs dus lcart par rapport la rgression = SSE = SSTO - SSR(3.35)
=58.3514 - 48.0062 = 10.3452
*Etape 3. Entrer, comme indiqu dans le Tableau 3.13, les valeurs des sommes des carrs dans la
table danalyse de variance et effectuer les calculs restants.
Tableau 3.13. Analyse de variance pour lquation de rgression relative aux donnes du Tableau
3.11.
Source de
variation
Degrs de
libert
(df)
Sommes des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F calcul
5%
D la rgression 1 48.0062 48.0062 60.3244
Ecart la
rgression
13 10.3452 0.7958
Total 14 58.3514
*Etape 4. Comparer la valeur calcule de F avec la valeur tabulaire correspondant (1,n-2) degrs
de libert. Dans notre exemple, la valeur calcule (60.3244) est suprieure la valeur
tabulaire de F (4.67) correspondant (1,13) degrs de libert, au seuil de signification de
5%. La valeur de F est donc significative. Si la valeur calcule de F est significative, le
coefficient de rgression diffre de 0 de manire significative. Exprime en proportion de
la somme totale des carrs, la somme des carrs due la rgression est appele coefficient
de dtermination et mesure la quantit de variation de y imputable la variation de x. En
dautres termes, le coefficient de dtermination mesure la fraction de la variation de la
variable dpendante explique par le modle. Dans notre exemple, le coefficient de
dtermination (R
2
) est
R
SSR
SSTO
2
(3.36)

480062
583514
.
.
= 0.8255
Infrence statistique
- 58 -
3.10. Analyse de covariance
Dans lanalyse de la variance, on value, en gnral, la signification dun lment de variation connu,
par rapport la variation rsiduelle inexplique. Un contrle appropri est donc ncessaire pour
rduire lamplitude de la variation non contrle. A cette fin, on peut soit largir le modle dautres
sources de variations mieux connues, soit exercer un contrle dlibr sur de nombreuses variables
ayant une incidence sur la rponse. A dfaut dun tel contrle, des diffrences de groupe relles ne
seraient pas dtectes en prsence dune variation rsiduelle importante. Dans de nombreux cas, la
variation existant au dpart entre les units dobservation est en grande partie responsable des
variations de leurs rponses futures, et il devient ncessaire dliminer linfluence des variations
endognes entre les sujets de la comparaison des groupes tudis. Lanalyse de la covariance est
lune des mthodes employes pour rduire lamplitude des erreurs inexpliques. Dans un contexte
exprimental, par exemple, on peut effectuer une analyse de la covariance lorsque lon dispose
dobservations sur une ou plusieurs variables corrles provenant de chaque unit exprimentale,
ainsi que d observations sur la variable de rponse considre. Ces variables additionnelles relies
sont appeles covariables ou variables accessoires ou concomitantes. Il est indispensable quelles
soient associes la variable ltude. Par exemple, dans les essais de rendement, la variation du
volume sur pied initial due des facteurs externes, les effets rsiduels des plantes antrieurement
cultives sur le site etc, peuvent faire office de covariables.
Lanalyse de covariance est une synthse des mthodes de lanalyse de la variance et de la
rgression. Ce concept est tudi plus en dtail ici dans le contexte dune exprience portant sur
ltude dune variable unique note y et dune covariable unique note x. Notons t le nombre de
groupes exprimentaux comparer, chaque groupe tant constitu de r units exprimentales. Dans
cette situation, un modle sous-jacent possible est
y x e
ij y i ij x ij
+ + + ( ) (3.37)
o y
ij
est la rponse observe sur la j-me unit exprimentale appartenant au i-me groupe,
(i = 1, 2, , t; j = 1, 2, , r)

y
est la moyenne globale de la population de y,

i
est leffet de lappartenance au i-me groupe,
est le coefficient de rgression de y en x lintrieur du groupe
x
ij
est lobservation dune variable accessoire sur la j-ime unit du ime groupe.

x
est la moyenne globale de la covariable
e
ij
sont les composantes des erreurs qui sont supposes tre distribues normalement et de
manire indpendante avec une moyenne nulle et une variance constante de valeur
2
.
Lanalyse de la covariance tant essentiellement une extension de lanalyse de la variance, toutes les
hypothses sur lesquelles se fonde cette dernire sappliquent aussi. Dans une analyse de la
covariance, dautres hypothses sont galement ncessaires, notamment i) la relation liant le
caractre principal considr y et la covariable x est linaire ii) limportance de la relation entre x et y
est la mme dans chaque groupe exprimental iii) la variation de la covariable nest pas la rsultante
de diffrences internes au groupe.
Infrence statistique
- 59 -
Les diffrentes tapes de lanalyse de la covariance sont dcrites ci-aprs.
*Etape 1. Dans lanalyse de la covariance, la premire tape consiste calculer la somme des carrs
due aux diffrentes composantes, pour la variable y et la covariable x, comme pour une
analyse de la variance, laide des formules indiques ci-aprs :
SS totale de y = SSTO(y) = ( ) y C F y
ij
j
r
i
t
2
1 1

. . (3.38)
o ( ) C F y
y
tr
ij
j
r
i
t
. .

_
,



1 1
2
(3.39)
SS de y dans le Groupe= SSG(y) = ( )
y
r
C F y
i
i
t
.
. .
2
1

(3.40)
SS de y dus aux Erreurs = SSE(y) = SSTO(y) -SSG(y) (3.41)
SS Totale de x = SSTO(x) = ( ) x C F x
ij
j
r
i
t
2
1 1

. . (3.42)
o ( ) C F x
x
tr
ij
j
r
i
t
. .

_
,



1 1
2
(3.43)
SS de x dans le Groupe = SSG(x)

= ( )
x
r
C F x
i
i
t
.
. .
2
1

(3.44)
SS de x dus aux Erreurs = SSE(x) = SSTO(x) - SSG(x) (3.45)
*Etape 2. Calculer comme suit la somme des produits de x et y.
SP Totale= SPTO(xy) = ( ) y x C F xy
ij ij
j
r
i
t



1 1
. . (3.46)
o ( ) C F xy
y x
tr
ij
j
r
i
t
ij
j
r
i
t
. .

_
,

_
,



1 1 1 1
(3.47)
SP dans le Groupe = SPG(xy) = ( )
y x
r
C F xy
i i
i
t
. .
. .

1
(3.48)
Infrence statistique
- 60 -
SP dus aux erreurs = SPE(xy) = SSTO(xy) - SSG(xy) (3.49)
*Etape 3. Ltape suivante consiste vrifier si la covariable est affecte par les groupes
exprimentaux. Si les groupes nont aucune influence sur x, il ne doit pas y avoir de
diffrences significatives entre les groupes par rapport x. Le coefficient de rgression
lintrieur des groupes est donn par la relation
$
( )
( )

SPE xy
SSE x
(3.50)
On peut tester la signification de
$
laide du test F. Le critre de test statistique F est donn par
( )
( )
( ) ( )
F
SPE xy
SSE x
SSE y
SPE xy
SSE x
t r

'


( )
( )
( )
( )
( )
2
2
1 1
(3.51)
Le critre statistique F suit une loi de F avec 1 et t(r-1)-1 degrs de libert. Si le coefficient de
rgression est significatif, on procde des ajustements de la somme des carrs de y pour des
variations de x. Dans le cas contraire, les ajustements sont inutiles.
*Etape 4. Des valeurs ajustes de y sont calcules comme suit:
SS totale Ajuste de y = Adj. SSTO(y)

= SSTO(y) -
( ) SPTO xy
SSTO y
( )
( )
2
(3.52)
SS Ajuste des erreurs de y = Adj. SSE(y) = SSE(y)

-
( ) SPE xy
SSE x
( )
( )
2
(3.53)
SS Ajuste de y dans le groupe = Adj. SSG(y)= Adj. SSTO(y) - Adj. SSE(y)(3.54)
Par convention, on regroupe tous ces rsultats dans un seul tableau (voir Tableau 3.14).
*Etape 5. Les valeurs ajustes des moyennes de chaque groupe sobtiennent avec la formule
( ) y y x x
i i i
'
$
(3.55)
Lerreur-type dans lapprciation de la diffrence entre deux moyennes ajustes est donne par:
SE(d) =
( )
MSE
r r
x x
SSE x
i j
i j 1 1
2
+ +

1
]
1
1
1
( )
(3.56)
o les symboles ont les significations habituelles.
Infrence statistique
- 61 -
Si le nombre de rptitions est le mme pour tous les groupes et si les moyennes des valeurs
globales de
( )
x x
i j

2
on a,
SE(d) =
( )
2
1
1
MSE
r
SSG x
t SSE x
+

1
]
1
( )
( )
(3.57)
Tableau 3.14. Table danalyse de la covariance
Source de variation df Somme des carrs et des produits
y x xy
Total tr-1 SSTO(y) SSTO(x) SPTO(xy)
Groupe t-1 SSG(y) SSG(x) SPG(xy)
Erreur t(r-1) SSE(y) SSE(x) SPE(xy)
Valeurs ajustes de y
Source de variation df SS MS F
Total tr-2 SSTO(y) Aj. - -
Groupe - - - -
Erreur t(r-1)-1 SSE(y) Aj. MSE -
Groupe ajust t-1 SSG(y) Aj. MSG
MSG
MSE
Utilisons les donnes du Tableau 3.15 pour montrer comment seffectue lanalyse de la covariance.
Les donnes reprsentent les moyennes de parcelles, bases sur quarante observations de la hauteur
initiale (x) et de la hauteur atteinte aprs quatre mois (y) de trois varits de Leucaena
leucocephala, chacune tant cultive dans 10 parcelles dune station exprimentale.
Tableau 3.15. Hauteur initiale (x) et hauteur quatre mois plus tard (y), en cm, de trois varits de
Leucaena leucocephala), sur une station exprimentale.
Parcelle Varit 1 Varit 2 Varit 3
x y x y x y
1 18 145 27 161 31 180
2 22 149 28 164 27 158
3 26 156 27 172 34 183
4 19 151 25 160 32 175
5 15 143 21 166 35 195
6 25 152 30 175 36 196
7 16 144 21 156 35 187
8 28 154 30 175 23 137
9 23 150 22 158 34 184
10 24 151 25 165 32 184
Total 216 1495 256 1652 319 1789
Moyenne 21.6 149.5 25.6 165.2 31.2 178.9
Infrence statistique
- 62 -
Lanalyse se fait suivant le modle du Tableau 3.14. Les calculs sont expliqus ci-dessous:
*Etape 1. Calculer, laide des quations (3.38) (3.45), la somme des carrs des variables x et y.
C.F.(y) =
( )( )
( ) 4936
3 10
2
= 812136.5333
SSTO(y) = (145)
2
+ (149)
2
+ . . . + (184)
2
- 812136.5333
= 7493.4667
SSG(y) =
( ) ( ) ( )
.
1495 1652 1789
10
8121365333
2 2 2
+ +

= 4328.4667
SSE(y) = 7493.4667 - 4328.4667
= 3615.0
C.F.(x) =
( )( )
( ) 791
3 10
2
= 20856.0333
SSTO(x) = (18)
2
+ (22)
2
+ . . . + (32)
2
-20.856.0333
= 966.9697
SSG(x) =
( ) ( ) ( )
.
216 256 319
10
208560333
2 2 2
+ +

= 539.267
SSE(x) = 966.9697-539.267
= 427.7027
*Etape 2. Calculer la somme des produits des variables x et y laide des quations (3.46) (3.49).
( ) C F xy . .
( )( )
( )( )
791 4936
3 10
= 130145.8667
SPTO(xy) = 18(145) + 22(149) + . . . +32(184) -130145.8667
= 2407.1333
SPG(xy) =
( ) ( ) ( )
216 1495 256 1652 319 1789
10
1301458667
+ +
.
= 1506.44
SPE(xy) = 2407.1333 - 1506.44 = 900.6933
Infrence statistique
- 63 -
*Etape 3. Calculer le coefficient de rgression et tester sa signification avec les quations (3.50) et
(3.51).
$
=
900 6933
427 7027
.
.
= 2.1059
La signification de
$
peut tre teste laide du test F. Le critre statistique F est donn par
lquation (3.51).
F =
( )
( )
( ) ( )
900.6933
427.7027
900.6933
427.7027
2
2
3615 3 10 1 1

'


=
18967578
660862
.
.
= 28.7012
La valeur tabulaire de F correspondant (1,26) degrs de libert est gale 9.41 au seuil de
signification de 5%. Ici, la valeur calcule de F est suprieure la valeur tabulaire, par consquent
diffre de zro de manire significative.
*Etape 4. Calculer les sommes ajustes des carrs relatives aux diffrentes sources dans lanalyse de
covariance laide des quations (3.52) (3.54). Synthtiser les rsultats comme dans le
Tableau 3.14 et calculer les valeurs des carrs moyens des groupes (MSG) et des erreurs
(MSE), ainsi que la valeur de F base sur ces carrs moyens.
SSTO Aj. (y) = 74934667
24071333
966 9697
2
.
.
.

= 1501.2513
SSE Aj. (y) = 3165
900 6933
427 7027

.
.
= 1268.2422
SSG Aj. (y) = 1501.2513 - 1268.2422
= 233.0091
MSG =
2330091
2
.
= 116.5046
MSE =
( )
1268.2422
3 10 - 1 1
= 48.7785
Infrence statistique
- 64 -
F
MSG
MSE

=
1165046
48 7785
.
.
= 2.39
Tableau 3.16. Table danalyse de la covariance des donnes du Tableau 3.15.
Sources
de
variation
df Somme des carrs et des produits Valeurs ajustes de y
y x xy df SS MS F
Total 29 7493.467 966.970 2407.133 28 1501.25 - -
Groupe 2 4328.467 539.267 1506.440 - - - -
Erreur 27 3615.000 427.703 900.693 26 1268.24 48.8 -
Groupe ajust pour la covariable 2 233.009 116.5 2.4
La valeur de F correspondant (2,26) degrs de libert au seuil de signification de 5% est 3.37.
Puisque la valeur observe de F ( 2.4) est infrieure la valeur critique, on conclut quil ny a pas de
diffrence significative entre les varits.
*Etape 5. Trouver les moyennes ajustes de chaque groupe et lerreurtype de la diffrence entre
les moyennes ajustes de deux groupes quelconques avec les quations (3.55) and (3.57).
( ) y y x x
1 1 1
'
$
= 149.5 - 2.1059(21.6 - 26.37) = 159.54
( ) y y x x
2 2 2
'
$
= 165.2 - 2.1059(25.6 - 26.37) = 166.82
( ) y y x x
3 3 3
'
$
= 178.9 - 2.1059(31.2 - 26.37) = 168.73
SE(d) =
( )
2
1
1
MSE
r
SSG x
t SSE x
+

1
]
1
( )
( )
=
( )
( )( )
2 488
10
1
539267
3 1 427 703
( . ) .
.
+

1
]
1
= 3.9891
Lerreur-type de la diffrence entre les moyennes des groupes peut tre utile dans la
comparaison par paire des moyennes des groupes, comme on le verra dans le Chapitre 4.
3.11. Analyse de mesures rptes
Les mesures rptes dunits dobservations sont trs frquentes en recherche forestire. Le terme
rptes signifie que les mesures sont effectues sur le mme caractre et sur un mme
chantillon dobservation, mais sont releves plusieurs reprises. Dans les tudes longitudinales, les
individus peuvent tre suivis sur une priode de temps pour enregistrer les changements qui
surviennent dans leur tat. Parmi les exemples classiques, on peut citer les mesures priodiques du
Infrence statistique
- 65 -
diamtre ou de la hauteur des arbres dans une exprience sylvicole, ou les observations de
lvolution des maladies sur un ensemble de plantules, dans un essai en ppinire. Les mesures
rptes peuvent tre spatiales plutt que temporelles. Prenons pour exemple les mesures des
caractristiques du bois de plusieurs troncs dans leur partie basse, centrale et haute, chaque
ensemble de troncs appartenant une espce diffrente. Les proprits du sol observes partir de
multiples carottes de sondage, des profondeurs de 0-15, 15-50 et de 50-100 cm, dans diffrents
types de vgtation sont un autre exemple.
Les mesures rptes se caractrisent principalement par le fait quil peut exister une corrlation
entre les mesures successives dans lespace ou dans le temps. Lautocorrlation entre les rsidus
dcoulant de mesures rptes sur les mmes units exprimentales contredit lhypothse
fondamentale de lindpendance des erreurs, sur laquelle se fonde une analyse de variance ordinaire.
Toutefois on dispose de plusieurs mthodes pour analyser des mesures rptes. Ces mthodes sont
plus ou moins efficaces ou appropries suivant la nature des donnes. Si la variance des erreurs reste
la mme chacune des mesures successives, et si en outre les covariances entre les erreurs des
diffrentes mesures sont les mmes, on peut choisir de soumettre les donnes une analyse de
modle mixte une variable. Si les erreurs ne sont pas structures, il est prfrable deffectuer une
analyse multivariable en prenant des mesures rptes des diffrents caractres observs sur les
mmes entits (Crowder et Hand, 1990). Nous allons illustrer ci-aprs les dtails dune analyse
une variable dans un contexte dobservation simplifi et conseillons nos lecteurs de se rfrer
(Crowder and Hand, 1990) pour une analyse multivariable dans ce contexte.
Ici, la situation se prsente comme suit: on a n individus x p occasions, les individus tant rpartis en
t groupes de tailles n
i
(i = 1, 2, , t). Lhypothse tester implique une comparaison entre les
groupes. Le modle utilis est le suivant
y
ijk
= +
i
+ e
ij
+
j
+
ij
+ e
ijk
(3.58)
o y
ijk
est lobservation sur le k-me individu dans le i-me groupe la j-me occasion;
( i =1, , t, j =1, , p, k =1, , n
i
.)
est la moyenne gnrale,

i
est leffet du i-me niveau du facteur groupe,

j
est leffet du j-me niveau du facteur occasion,

ij
est leffet dinteraction pour le i-me niveau du facteur groupe et le j-me niveau du facteur
occasion. Ce terme mesure les diffrences entre les types de rponses des groupes, au fil des
occasions. Cette interaction sera examine plus en dtail au Chapitre 4.
Dans le modle (3.58), les composantes alatoires e
ij
et les composantes derreurs alatoires e
ijk
sont supposes suivre des lois de distribution indpendantes et normales avec une moyenne nulle et
une variance
e
2
et
w
2
respectivement. En outre, les
i
et les
j
sont supposs fixes.
Notons y
i..
le total de toutes les observations au niveau i du facteur groupe; y
.j.
le total de toutes les
observations au niveau j du facteur occasion; y
ij.
le total de toutes les observations appartenant
la (ij)-me cellule; y

le total gnral de toutes les observations. Mathmatiquement, ces notations


sexpriment comme suit
y
i..
= y
ijk
k
n
j
p
i

, y
.j.
= y
ijk
k
n
i
t
i

, y
ij.
= y
ijk
k
n
i

, y

= y
ijk
k
n
j
p
i
t i

Le modle mixte une variable danalyse de variance est illustr ci-dessous.
Infrence statistique
- 66 -
Tableau 3.17. Reprsentation schmatique du modle mixte une variable danalyse de variance.
Sources de variation Degrs de libert Somme
s des
carrs
Somme moyenne des
carrs
Rapport
F
Groupe t-1 SSG
MSG
SSG
t

1
MSG
MSE
a
Individus dans les
groupes
( ) n
i
i

1
SSE
a
( )
MSE
SSE
n
a
a
i
i

1
Occasion p-1 SSO
MSO
=
SSO
p 1
MSO
MSE
b
Occasion x Groupe
(t-1)(p-1) SSOG MSOG =
( )( )
SSOG
t p 1 1
MSOG
MSE
b
Occasion x Individus
dans les groupes
( ) ( ) p n
i
i

1 1
SSE
b
( ) ( )
MSE
SSE
p n
b
b
i
i

1 1
Total
p n
i
i

1
SSTO
Les sommes des carrs du tableau ci-dessus se calculent avec les formules suivantes,
SSTO

= y
ijk
k j i
2


y
p n
i
i
...
2

(3.59)
SSG =
y
pn
i
i
i
..
2


y
p n
i
i
...
2

(3.60)
SSE
a
=
y
p
y
pn
i k i
i
i k i
. ..
2 2


(3.61)
SSO =
y
n
y
p n
j
i
i
j i
i
. .
...
2
2

(3.62)
Infrence statistique
- 67 -
SSOG =
y
n
ij
i
j i
2


y
pn
i
i
i
...
2

y
n
y
p n
j
i
i
j i
i
. ,
...
2
2
(3.63)
SSE
b
= SST - SSG - SSE
a
- SSO - SSOG (3.64)
Nous illustrerons cette analyse laide des donnes du Tableau 3.18, sur la croissance myclienne
(en mm) de cinq isolats de Rizoctonia solani sur milieu de glose dextrose base de fcule de
pomme de terre au bout de 14, 22, 30 et 38 heures dincubation, chaque isolat tant cultiv dans
trois units du milieu de culture. Ici, les isolats sont les groupes et les diffrents moments sont les
occasions dont il est question dans le Tableau 3.17.
Tableau 3.18. Donnes sur la croissance myclienne (en mm) de cinq groupes disolats de
R. solani , sur milieu de culture de glose dextrose base de fcule de pomme de terre
(PDA).
Croissance myclienne (en mm) observe en
diffrentes occasions
Isolat de
R. Solani
isolate
Unit de
PDA
14 h. 22 h. 30 h. 38 h.
1 1 29.00 41.00 55.00 68.50
2 28.00 40.00 54.00 68.50
3 29.00 42.00 55.00 69.00
2 1 33.50 46.50 59.00 74.00
2 31.50 44.50 58.00 71.50
3 29.00 42.50 56.50 69.00
3 1 26.50 38.00 48.50 59.50
2 30.00 40.00 50.00 61.00
3 26.50 38.00 49.50 61.00
4 1 48.50 67.50 75.50 83.50
2 46.50 62.50 73.50 83.50
3 49.00 65.00 73.50 83.50
5 1 34.00 41.00 51.00 61.00
2 34.50 44.50 55.50 67.00
3 31.00 43.00 53.50 64.00
Total 506.50 696.00 868.00 1044.50
Lanalyse de ces donnes peut tre conduite comme suit:
*Etape 1. Calculer, laide de lquation (3.59), la somme totale des carrs des valeurs du
Tableau 3.18.
SSTO

= ( ) ( ) . . . ( )
( . )
( )( )
29 28 64
311500
4 15
2 2
2
2
+ + +
14961.58
Infrence statistique
- 68 -
*Etape 2. Dresser un tableau double entre des totaux Isolat x unit de PDA, en additionnant les
observations correspondant aux diffrentes occasions et calculer les totaux marginaux,
comme indiqu dans le Tableau 3.19. Calculer SSG et SSE
a
en utilisant les valeurs indiques
dans le Tableau et les quations (3.60) et (3.61).
Tableau 3.19. Totaux Isolat x unit de PDA calculs partir des donnes du Tableau 3.18.
Isolats
Unit de
PDA
1 2 3 4 5 Total
1 193.50 213.00 172.50 275.00 187.00 1041.00
2 190.50 205.50 181.00 266.00 201.50 1044.50
3 195.00 197.00 175.00 271.00 191.50 1029.50
Total 579.00 615.50 528.50 812.00 580.00 3115.00
SSG =
(579.00) + (615.50) + . . . + (580.00)
(4)(3)
(3115.00)
(4)(15)
2 2 2

= 4041.04
SSE
a

+ + +

+ + +
( . ) ( . ) ... ( . )
( . ) ( . ) ... ( . )
( )( )
19350 19050 19150
4
579 00 61500 58000
4 3
2 2 2
2 2 2

= 81.92
*Etape 3. Dresser le tableau double entre des totaux Isolat x Occasion et calculer les totaux
marginaux comme indiqu dans le Tableau 3.20. Calculer SSO, SSOG et SSE
b
laide des
quations (3.62) (3.64).
Tableau 3.20. Tableau des to totaux Isolat x Occasion calculs partir des donnes du
Tableau 3.18
Occasion
Isolat 14 h 22 h 30 h 38 h Total
1 86.00 123.00 164.00 206.00 579.00
2 94.00 133.50 173.50 214.50 615.50
3 83.00 116.00 148.00 181.50 528.50
4 144.00 195.00 222.50 250.50 812.00
5 99.50 128.50 160.00 192.00 580.00
Total 506.50 696.00 868.00 1044.50 3115.00
SSO =
(506.50) + (696.00) + (868.00) + (1044.50)
15
(3115.00)
(4)(15)
2 2 2 2 2

= 10637.08
Infrence statistique
- 69 -
SSOG =
( . ) ( . ) . . . ( . ) 8600 94 00 192 00
3
2 2 2
+ + +

(579.00) + (615.50) +...+(580.00)
10637.08
2 2 2
( )( ) 4 3
= 172.46
SSE
b
= 14961.58 - 4041.04 - 81.92 - 10637.08- 172.46
= 29.08
*Etape 4. Faire la synthse des rsultats comme dans le Tableau 3.21 et effectuer les calculs restants
pour obtenir les carrs moyens et les rapports F, en utilisant les quations reportes dans le
Tableau 3.17.
Tableau 3.21. Tableau de lanalyse de variance des donnes du Tableau 3.18.
Sources de variation Degrs de
libert
Somme des
carrs
Moyenne
des
sommes des
carrs
Rapport F-
Groupe
4 4041.04 1010.26 123.33*
Individus dans les groupes
10 81.92 8.19
Occasion
3 10637.08 3545.69 3657.45*
Occasion x Groupe
12 172.46 14.37 14.82*
Occasion x individus dans les
groupes
30 29.08 0.97
Total
59 14961.58
Comparer les valeurs calcules de F avec les valeurs tabulaires de F aux degrs de libert
correspondants, au seuil de probabilit souhait. Toutes les valeurs calcules de F donnes dans le
tableau ci-dessus sont suprieures aux valeurs tabulaires correspondantes de F. On en dduit que la
variation due aux groupes, loccasion et leur interaction sont significatives, ce qui signifie que le
mode de croissance des isolats diffre au fil du temps.
- 70 -
4. PLAN ET ANALYSE DEXPERIENCES
On appelle plan et analyse dexprience lopration consistant planifier une exprience pour
obtenir des donnes appropries et en tirer des conclusions sur tout problme soumis lexamen.
Cette opration peut partir de la formulation, en termes clairs, des objectifs de lexprience et
sachever par la rdaction des rapports contenant les conclusions importantes de lenqute. Elle
comprend aussi une phase intermdiaire durant laquelle sont dfinis les dtails de lexprience,
notamment la structuration des variables dpendantes et indpendantes, leurs niveaux dans
lexprience, le type de matriel exprimental qui sera utilis, la mthode de manipulation des
variables du matriel exprimental, des techniques dinfrence statistique efficaces et rationnelles
etc
4.1. Les principes de lexprimentation
La majorit des expriences reposent sur trois principes fondamentaux, savoir randomisation,
rptition et contrle local. Dune certaine faon, ces trois principes se compltent mutuellement,
puisquils tentent daugmenter la prcision de lexprience et de garantir la validit du test de
signification, tout en conservant, dans toute lexprience les caractristiques propres leurs rles.
Avant de passer un examen plus approfondi de ces trois principes, nous allons tenter dexpliquer
certains termes gnriques de la thorie des plans dexprience, ainsi que la nature de la variation
entre les observations faites dans une exprience.
Avant de raliser une exprience, il convient de dfinir une unit exprimentale. Celle-ci peut par
exemple tre constitue dune feuille, dun arbre ou dun groupe darbres adjacents. Une unit
exprimentale est aussi parfois appele parcelle. Un groupe de parcelles est appel bloc. Les
observations faites sur les units exprimentales se caractrisent par de grandes variations, en partie
produites par la manipulation de certaines variables, gnralement appeles traitements, qui sont
inhrentes lexprience et manipules dessein pour tudier leurs influences. Par exemple, les
clones dans les tests clonaux, les doses et les types dengrais dans les essais sur les engrais etc
peuvent tre appels traitements. En plus de ces variations de source connue, il en existe dautres
dont on ignore lorigine, ou la cause, comme par exemple la variation non contrle de facteurs
externes lis lenvironnement, les variations gntiques du matriel exprimental, autres que celles
dues aux traitements, etc Ces variations sont invitables et inhrentes au processus mme de
lexprimentation. En raison de leurs influences indsirables, elles ont reu le nom derreurs
exprimentales, ce qui signifie quil ne sagit pas derreurs arithmtiques, mais de variations dues
une combinaison de facteurs sur lesquels lexprimentateur ne peut pas agir.
De plus, il est intressant de noter que ces erreurs introduites par des facteurs externes dans les
observations exprimentales peuvent avoir une incidence systmatique ou alatoire. Les erreurs
imputables un quipement dfectueux, comme un tendeur de chane qui aurait perdu son
talonnage force dtre utilis, ou lerreur due la fatigue de lobservateur sont des exemples
derreur systmatique. En revanche, la variation imprvisible de la quantit de feuilles ramasses dans
un collecteur de litire, dans le cadre dun traitement particulier dune exprience lie, est de
caractre alatoire, ou fortuit. Il est clair que quel que soit le nombre de fois o lon rptera les
Plan et analyse dexpriences
- 71 -
mesures, lerreur systmatique subsistera, alors que les erreurs alatoires finissent le plus souvent par
disparatre lissue de mesures rptes. Les trois principes de base, savoir randomisation,
rptition et contrle local, permettent d viter lerreur systmatique et de limiter lerreur alatoire.
4.1.1. Randomisation
On appelle randomisation la technique dattribution des traitements, ou des facteurs tester, aux
units exprimentales conformment des lois ou probabilits dfinies. Cest la randomisation dans
son sens technique strict, qui garantit llimination des erreurs systmatiques et le caractre purement
alatoire de tout lment derreur persistant dans les observations. A partir de l, on peut faire une
estimation valable des fluctuations alatoires, indispensable pour tester la signification de diffrences
relles.
Grce la randomisation, chaque unit exprimentale aura une chance gale de recevoir un
traitement quelconque. Si, par exemple, cinq clones deucalyptus doivent tre tests dans 25
parcelles, la randomisation garantit que certains clones ne seront pas favoriss ou pnaliss par des
sources de variation externes qui ne dpendent pas de laction, dlibre ou non, de
lexprimentateur. Le processus dallocation alatoire peut se faire de plusieurs faons, par tirage au
sort ou en tirant des nombres dune page, choisie au hasard, de nombres alatoires. La mthode est
illustre dans les sections qui suivent sur les diffrents types de plans exprimentaux.
4.1.2. Rptition
Par rptition, on entend la rptition dune exprience dans des conditions identiques. Dans le
contexte des plans dexprience, en revanche, le terme se rfre au nombre dunits exprimentales
distinctes faisant lobjet du mme traitement. La rptition, conjugue la randomisation, fournira
une base pour estimer la variance des carts. Sans la randomisation, un nombre quelconque de
rptitions pourrait ne pas dboucher sur une estimation relle de lerreur. Plus le nombre de
rptitions est grand, plus la prcision de lexprience est grande.
Le nombre de rptitions que doit comporter une exprience quelconque dpend de nombreux
facteurs, notamment de lhomognit du matriel exprimental, du nombre de traitements, du degr
de prcision requis etc En rgle gnral, on pourrait postuler que le nombre de rptitions dans un
plan doit fournir au moins dix quinze degrs de libert, pour calculer la variance de lerreur
exprimentale.
4.1.3. Contrle local
On entend par contrle local le contrle de tous les facteurs autres que ceux sur lesquels portent les
recherches. Comme la rptition, le contrle local est un dispositif visant rduire ou matriser la
variation due des facteurs externes et accrotre la prcision de lexprience. Si, par exemple, un
champ dessais est htrogne, du point de vue de la fertilit du sol, il peut tre divis en blocs plus
petits de faon ce que les parcelles se trouvant lintrieur de chaque bloc tendent tre plus
homognes. Ce type dhomognit des parcelles (units exprimentales) garantit une comparaison
non biaise des moyennes des traitements. En effet, il serait difficile de dire que la diffrence
moyenne entre deux traitements provient uniquement de diffrences entre eux, sil restait aussi des
diffrences entre les parcelles. Ce type de contrle local visant rendre homognes des units
exprimentales, augmentera la prcision de lexprience et aidera tirer des conclusions valides.
Plan et analyse dexpriences
- 72 -
Pour rsumer, on peut dire qualors que la randomisation vise liminer une erreur systmatique (ou
biais) dans lallocation et, partant, ne laisser quun lment de variation derreur alatoire, les deux
autres mthodes, savoir la rptition et le contrle local, tentent de maintenir cette erreur alatoire
un niveau aussi faible que possible. Les trois principes sont cependant essentiels pour faire une
estimation valable de la variance de lerreur et garantir la validit du test de signification.
4.2. Plan dexprience entirement randomis
Dans un plan exprimental entirement randomis (PER), les traitements sont attribus compltement
au hasard de sorte que chaque unit exprimentale a la mme chance de recevoir un traitement
donn quel quil soit. Dans un PER, toute diffrence entre les units exprimentales soumises au
mme traitement est considre comme une erreur exprimentale. En consquence, le PER nest
appropri que pour les expriences ayant des units exprimentales homognes, telles que les essais
en laboratoire, dans lesquelles il est relativement facile de matriser les effets dus lenvironnement.
Le PER est rarement utilis pour les essais en champs, o il existe une grande variation entre les
parcelles exprimentales, par exemple au niveau de facteurs comme les sols. .
4.2.1. Droulement et reprsentation schmatique
Nous allons maintenant prsenter la procdure par tapes de la randomisation ainsi que le schma
dun PER, pour un essai de culture en pots comportant quatre traitements A, B, C et D, rpts cinq
fois .
*Etape 1. Dterminer le nombre total de parcelles exprimentales (n), comme produit du nombre de
traitements (t) et du nombre de rptitions (r); cest--dire, n = rt. Dans notre exemple, n =
5 x 4 = 20. Dans ce cas, un pot contenant une seule plante sera considr comme une
parcelle. Si le nombre de rptitions nest pas le mme pour tous les traitements, on
obtiendra le nombre total de pots exprimentaux en faisant la somme des rptitions de
chaque traitement :
n r
i
i
t

1
o r
i
est le nombre de rptitions du ime traitement
*Etape 2. Attribuer un numro chaque parcelle exprimentale, selon une quelconque mthode
approprie, par exemple, en utilisant des suites de chiffres de 1 n.
*Etape 3. Allouer au hasard les traitements aux parcelles exprimentales, en utilisant une table de
nombres alatoires de la manire suivante. Tirer un point de dpart dans une table de
nombres alatoires (voir Annexe 6), en pointant le doigt sur un endroit quelconque de la
page, les yeux ferms. En lespce, nous supposerons que le point de dpart est tomb
lintersection du sixime rang et de la douzime colonne de nombres deux chiffres. A partir
de ce point de dpart, lire la colonne en descendant pour obtenir n = 20 nombres alatoires
diffrents deux chiffres. Dans notre exemple, en partant de lintersection du sixime rang et
de la douzime colonne, ces 20 nombres sont indiqus ci-dessous, avec leur ordre
dapparition.
Plan et analyse dexpriences
- 73 -
Nombre alatoire: 37, 80, 76, 02, 65, 27, 54, 77, 48, 73,
Ordre dapparition : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
Nombre alatoire: 86, 30, 67, 05, 50, 31, 04, 18, 41, 89
Ordre dapparition : 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
Rangez les n nombre alatoires obtenus par ordre croissant ou dcroissant. Dans notre
exemple, les 20 nombres alatoires sont rangs du plus petit au plus grand, comme indiqu
dans le tableau suivant :
Nombre
alatoire
Ordre Rang Nombre
alatoire
Ordre Rang
37 1 8 86 11 19
80 2 18 30 12 6
76 3 16 67 13 14
02 4 1 05 14 3
65 5 13 50 15 11
27 6 5 31 16 7
54 7 12 04 17 2
77 8 17 18 18 4
48 9 10 41 19 9
73 10 15 89 20 20
Diviser les n rangs obtenus en t groupes, contenant chacun r nombres, suivant lordre dans
lequel sont apparus les nombres alatoires. Dans notre exemple, les 20 rangs sont diviss en
quatre groupes, dont chacun est constitu de cinq nombres :
Numro du
groupe
Rang dans le groupe
1 8 13 10 14 2
2 18 5 15 3 4
3 16 12 19 11 9
4 1 17 6 7 20
Allouez les t traitements aux n parcelles exprimentales, en prenant le numro du groupe
comme numro de traitement et les rangs correspondants dans chaque groupe comme le
nombre de parcelles auxquelles le traitement correspondant sera allou. Dans notre exemple,
le premier groupe est assign au traitement A et les parcelles numro 8, 13, 10, 14 et 2 sont
dsignes pour recevoir ce traitement ; le deuxime groupe est assign au traitement B, avec
les parcelles numro 18, 5, 15, 3 et 4 ; le troisime groupe est assign au traitement C, avec
les parcelles numro 16, 12, 19, 11 et 9 ; et le quatrime groupe est assign au traitement D
avec les parcelles numro 1, 17, 6, 7 et 20. Le schma dfinitif de lexprience est illustr
la Figure 4.1.
Plan et analyse dexpriences
- 74 -
Figure 4.1. Schma-type dun plan dexprience entirement randomis, comportant quatre
traitements (A, B, C et D), rpts cinq fois.
Parcelle N
Traitement
1
D
2
A
3
B
4
B
5
B
6
D
7
D
8
A
9
C
10
A
11
C
12
C
13
A
14
A
15
B
16
C
17
D
18
B
19
C
20
D
4.2.2. Analyse de la variance
Il existe deux sources de variation entre les n observations tires dun essai de PER. Lune est la
variation due aux traitements et lautre est lerreur exprimentale. Leur taille relative indique si la
diffrence observe entre les traitements est relle ou si elle est due au hasard. La diffrence due au
traitement est relle si elle dpasse dans une mesure significative lerreur exprimentale.
Lun des avantages majeurs dun PER est que son analyse de variance se calcule facilement, surtout
si le nombre de rptitions nest pas uniforme pour tous les traitements. Pour la plupart des autres
plans, lanalyse de variance se complique lorsque la perte de donnes dans certaines parcelles
entrane des disparits dans les rptitions des traitements tests.
Nous allons voir ci-dessous les tapes de lanalyse de variance des donnes provenant dune
exprimentation relative un PER comportant un nombre de rptitions non uniforme. Les formules
peuvent tre adaptes facilement en cas de rptitions gales, de sorte quelles ne sont pas dcrites
part. Pour illustrer cette dmonstration, on a utilis des donnes provenant dun essai en laboratoire,
dans lequel les observations portaient sur la croissance du mycelium de diffrents isolats de
Rizoctonia solani, sur milieu de culture PDA (Tableau 4.1).
*Etape 1. Regrouper les donnes par traitements et calculer les totaux des traitements (T
i
) et le total
gnral (G). Les rsultats de notre exemple sont indiqus dans le Tableau 4.1.
*Etape 2. Dresser un Tableau danalyse de variance, suivant le modle du Tableau 4.2
Plan et analyse dexpriences
- 75 -
Tableau 4.1. Croissance du myclium, en diamtre (mm), de la colonie disolats de R. solani, sur
milieu de culture PDA, aprs 14 heures dincubation
Isolats de
R. solani
Croissance du myclium Total des
traitements
Moyenne
des
traitements
Rp. 1 Rp. 2 Rp. 3 (T
i
)
RS 1 29.0 28.0 29.0 86.0 28.67
RS 2 33.5 31.5 29.0 94.0 31.33
RS 3 26.5 30.0 56.5 28.25
RS 4 48.5 46.5 49.0 144.0 48.00
RS 5 34.5 31.0 65.5 32.72
Total gnral 446.0
Moyenne
gnrale
34.31
Tableau 4.2. Schma de lanalyse de variance dun PER, avec rptitions ingales
Source de
variation
Degrs de
libert
(df)
Somme des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

Valeur
calcule de
F
Traitement t - 1 SST MST
MST
MSE
Erreur n - t SSE MSE
Total n - 1 SSTO
*Etape 3. Avec les totaux des traitements (T
i
) et le total gnral (G) du Tableau 4.1, calculer comme
suit le facteur de correction et les diffrentes sommes des carrs. Supposons que y
ij
reprsente lobservation du jme milieu PDA appartenant au ime isolat; i = 1, 2, , t ; j =
1, 2, , r
i.
.
C. F.
G
n
2
(4.1)

( )

446
13
2
= 15301.23
SSTO y C. F.
ij
2
j
r
i



1 i
t
1
(4.2)
= ( ) ( ) ( )
[ ]
29.0 28.0 ... 31.0 15301
2 2 2
+ + + .23
= 789.27
Plan et analyse dexpriences
- 76 -
SST =
T
r
C. F.
i
2
i
i 1
t

(4.3)
=
( ) ( ) ( ) 86
3
94
3
...
65.5
2
15301
2 2 2
+ + +

1
]
1
1
.23
= 762.69
SSE = SSTO - SST (4.4)
= 789.27 - 762.69 = 26.58
*Etape 4. Entrer toutes les valeurs des sommes des carrs dans le tableau danalyse de la variance
et calculer les carrs moyens et la valeur de F comme indiqu dans le Tableau 4.2
*Etape 5. Prendre dans lAnnexe 3 les valeurs tabulaires de F, avec f
1
et f
2
degrs de libert, o f
1
= df du traitement = (t - 1) et f
2
= df de lerreur = (n t), respectivement. Dans notre
exemple, la valeur tabulaire de F, avec f
1
= 4 et f
2
= 8 degrs de libert est de 3.84, au seuil
de signification de 5%. Ces rsultats sont consigns dans le Tableau 4.3.
Tableau 4.3. Analyse de la variance des donnes du Tableau 4.1 sur la croissance du myclium.
Source de
variation
Degr de
libert
Somme des
carrs
Carr
moyen
Valeur de F
calcule
Valeur
tabulaire
de F
5%
Traitement 4 762.69 190.67 57.38* 3.84
Erreur 8 26.58 3.32
Total 12 789.27
* Significatif au seuil de 5%
*Etape 6. Comparer la valeur calcule de F de lEtape 4 avec la valeur tabule de F de lEtape 5, et
dterminez si la diffrence entre les traitements est significative, daprs les rgles ci-aprs :
i) Si la valeur calcule de F est suprieure sa valeur tabulaire au seuil de signification de
5%, la variation due aux traitements est dite significative, ce qui est gnralement indiqu
par un astrisque au-dessus de la valeur calcule de F, dans lanalyse de variance.
ii) Si la valeur calcule de F est infrieure ou gale la valeur tabulaire de F au seuil de
signification de 5%, la variation due aux traitements est dite non significative, ce qui est
indiqu par la mention ns au-dessus de la valeur calcule de F (ou par labsence dindication
au-dessus de cette valeur).
Une valeur non significative de F dans lanalyse de variance indique que lexprience na pas russi
dtecter de diffrence entre les traitements. Elle ne prouve en aucun cas que tous les traitements sont
les mmes car la non dtection dune diffrence entre les traitements, atteste par une valeur non
significative du critre F, pourrait sexpliquer par une diffrence nulle ou minime, ou par une erreur
exprimentale importante, ou encore par ces deux facteurs. Ainsi, dans tous les cas o la valeur de F
nest pas significative, le chercheur devrait examiner lampleur de lerreur exprimentale et les
Plan et analyse dexpriences
- 77 -
diffrences numriques entre les moyennes des traitements. Si ces deux valeurs sont grandes, il est
conseill de refaire lessai et de tenter de rduire lerreur exprimentale pour que les ventuelles
diffrences entre les traitements puissent tre dtectes. En revanche, si les deux valeurs sont petites,
les diffrences entre les traitements sont probablement trop faibles pour avoir une signification
conomique, si bien quil nest pas ncessaire de faire de nouveaux essais.
Dans notre exemple, la valeur calcule de F (57.38) est suprieure sa valeur tabulaire (3.84) au
seuil de signification de 5%. Les diffrences entre les traitements sont donc significatives. En dautres
termes, les probabilits que toutes les diffrences observes entre les cinq moyennes des traitements
soient dues au hasard sont infrieures 5 pour cent. On notera quune valeur significative de F
confirme lexistence de quelques diffrences entre les traitements tests, mais ne prcise pas pour
quelle(s) paire(s) de traitements spcifiques la diffrence est significative. Ces informations
sobtiennent grce aux procdures de comparaison des moyennes examines dans la Section 4.2.3.
*Etape 7. Calculer comme suit la moyenne gnrale et le coefficient de variation (cv):
Moyenne gnrale =
G
n
(4.5)
cv = (100)
gnrale Moyenne
MSE
(4.6)
Dans notre exemple,
Moyenne gnrale =
446
13
34 .31
cv =
3.32
34.31
(100) 5 .31%
Le cv affecte le degr de prcision des comparaisons entre les traitements et donne une bonne
indication de la fiabilit de lexprience. Cest une expression de lerreur exprimentale totale, en
pourcentage de la moyenne totale ; Ainsi, plus la valeur de cv est grande, moins lexprience est
fiable. Le cv varie considrablement suivant le type dexprience, la plante cultive, et les caractres
mesurs. Toutefois, un chercheur expriment peut relativement bien juger de lacceptabilit dune
valeur spcifique du cv pour un type dexprience donn. Les rsultats dexpriences donnant un cv
suprieur 30% sont sujets caution.
4.2.3. Comparaison des traitements
Dans le domaine de la recherche forestire, lune des procdures les plus couramment employes,
pour les comparaisons apparies est le test de la plus petite diffrence significative (PPDS). Dautres
mthodes, comme le test de Duncan, le test de la diffrence raisonnablement significative et le test de
Student-Newman-Keuls sont dcrites dans Gomez et Gomez (1980), Steel et Torrie (1980) et
Snedecor et Cochran (1980). Le test PPDS est dcrit dans la prsente section.
Le test PPDS est la procdure la plus simple pour comparer des paires. Cette procdure fournit une
valeur unique de la PPDS qui, un niveau de signification dtermin, marque la limite entre la
diffrence significative et non significative entre une paire de moyennes de traitements quelconque.
Plan et analyse dexpriences
- 78 -
Deux traitements prsentent donc des diffrences significatives un seuil de signification prescrit si
leur diffrence est suprieure la valeur calcule de la PPDS. Dans le cas contraire, leurs diffrences
sont considres comme non significatives.
Si le test PPDS est tout fait appropri pour les plans de comparaisons apparies, il ne permet pas
de comparer toutes les paires de moyennes possibles, surtout si le nombre de traitements est grand.
En effet, le nombre de paires de moyennes de traitements possibles augmente rapidement avec le
nombre de traitements. La probabilit quau moins une paire ait une diffrence suprieure la valeur
de la PPDS, et uniquement due au hasard, augmente avec le nombre de traitements tests. Par
exemple, dans les expriences o il nexiste pas de diffrence relle entre toutes les traitements, il est
possible de dmontrer que la diffrence numrique entre la plus grande et la plus petite moyenne des
traitements devrait tre suprieure la valeur de la PPDS, au seuil de signification de 5%, 29 fois sur
cent dans le cas de 5 traitements, 63 fois sur cent dans le cas de 10 traitements, et 83 fois sur cent
dans le cas de 15 traitements. On vitera donc de recourir au test PPDS pour comparer toutes les
paires de moyennes possibles. Dans les cas o ce test sapplique, on ne lutilisera que si le critre F
relatif leffet des traitements est significatif et si le nombre de traitements nest pas trop lev
(infrieur six).
La procdure dapplication du test PPDS pour comparer deux traitements quelconques par
exemple le traitement i et le traitement j, se droule en plusieurs tapes :
*Etape 1. Calculer la diffrence moyenne entre le traitement i et le traitement j :
d
ij
y y
i j
(4.7)
oy
i
and
j
y sont les moyennes des traitements i et j.
*Etape 2. Calculer la valeur de la PPDS, au seuil de signification :
( )( )
LSD

t s
v;
d
(4.8)
os
d
est lerreur-type de la diffrence moyenne et t
v;
est la valeur t de la distribution de Student,
extraite de lAnnexe 2, au seuil de signification et pour v = degrs de libert de lerreur.
*Etape 3. Comparer la diffrence moyenne calcule au cours de ltape 1 avec la valeur de la PPDS
calcule au cours de ltape 2. Si la valeur absolue de dij est suprieure la valeur de la
PPDS, conclure que les diffrences entre les traitements i et j sont significatives au seuil de
signification ,.
Lorsque lon applique cette procdure, il est important didentifier lerreur-type approprie de la
diffrence moyenne (s
d
), applicable la paire de traitements que lon veut comparer. La mthode
varie en fonction du plan dexprience utilis, du nombre de rptitions des deux traitements soumis
la comparaison et du type spcifique de moyennes que lon comparera. Dans le cas dun PER,
lorsque les deux traitements nont pas le mme nombre de rptitions, s
d
se calcule comme suit:
s s
r r
d
2
i j
+ (
1 1
) (4.9)
Plan et analyse dexpriences
- 79 -
o r
i
et r
j
reprsentent le nombre de rptitions des traitements i et j , et s
2
la moyenne des carrs
des erreurs dans lanalyse de variance.
Nous illustrerons ceci par un exemple, laide des donnes du Tableau 4.1. Le chercheur veut
comparer les cinq isolats de R. solani, en particulier la croissance de leur myclium sur milieu PDA.
Pour appliquer le test PPDS, on procdera par tapes, de la manire suivante :
*Etape 1. Calculer la diffrence moyenne entre chaque paire de traitements (isolats) comme indiqu
dans le Tableau 4.4.
*Etape 2. Calculer la valeur de la PPDS, au seuil de signification . Etant donn que certains
traitements sont rpts trois fois et dautres deux fois, il faut calculer trois ensembles de
valeurs de la PPDS.
Pour comparer deux traitements comportant chacun trois rptitions, la valeur de la PPDS
se calcule comme suit.
( )
LSD 2.31
2 3.32
3
3 mm
.05
.44
o la valeur de s
2
= 3.32 est drive du Tableau 4.3 et la valeur de la distribution de Student t
(2.31), pour 8 degrs de libert, au seuil de signification de 5% est extraite de lAnnexe 2.
Pour comparer deux traitements rpts trois fois chacun, calculer la valeur de la PPDS,
comme suit :
( )
LSD 2.31
2 3.32
2
mm
.05
4 21 .
Pour comparer deux traitements dont un est rpt deux fois et lautre trois fois, la valeur de
la PPDS est
( ) LSD 2.31 3 1/ 3 1/ 2
.05
+ .32
= 3.84 mm
*Etape 3. Comparer la diffrence entre chaque paire de traitements calcule lEtape 1 aux valeurs
correspondantes de la PPDS calcules ltape 2, et placer la notation approprie
(astrisque, ns ou absence dindication). Par exemple, la diffrence moyenne entre le
premier traitement (comportant trois rptitions) et le deuxime traitement (trois rptitions)
est de 2.66 mm. Etant donn que la diffrence moyenne est infrieure la valeur de la PPDS
correspondante (3.44 mm), elle est non significative au seuil de signification de 5%. Par
ailleurs, la diffrence moyenne entre le premier traitement (trois rptitions) et le deuxime
(deux rptitions) est de 4.05 mm. Etant donn que la diffrence moyenne est suprieure la
valeur de la PPDS correspondante (3.84), elle est significative au seuil de 5%, ce que lon
indiquera par un astrisque. Les rsultats du test, pour toutes les paires de traitements, sont
indiqus dans le Tableau 4.4.
Plan et analyse dexpriences
- 80 -
Tableau 4.4. Comparaison entre le diamtre moyen (en mm) de chaque paire de traitements, laide
du test PPDS, avec des rptitions non uniformes, pour les donnes du Tableau 4.1.
Traitement RS 1 RS 2 RS 3 RS 4 RS 5
RS 1
0.00 2.66
(3.44)
0.42
(3.84)
19.33*
(3.44)
4.05*
(3.84)
RS 2
0.00 3.08
(3.84)
16.67*
(3.44)
1.39
(3.84)
RS 3
0.00 19.75*
(3.84)
4.47*
(4.21)
RS 4
0.00 15.28*
(3.84)
RS 5
0.00
* Significative au seuil de 5%
Note: Les valeurs indiques entre parenthses sont les valeurs de la PPDS
Avant de passer la section suivante, nous mentionnerons un point qui peut tre utile pour
dterminer le nombre de rptitions pratiquer pour quune exprience soit raisonnablement
fiable. Le principe est que le nombre de rptitions doit tre tel que les degrs de libert de lerreur
soient de lordre de 12. En effet, les valeurs critiques drives de certaines distributions, notamment
des lois de Student ou des distributions de F, se stabilisent pratiquement aprs 12 degrs de libert,
ce qui confre une certaine stabilit aux conclusions tires de ces expriences. Par exemple, si lon
planifie un PER dans lequel les traitements t sont rpts un nombre de fois gal, on identifiera le df
de lerreur de t(r-1) 12 et on calculera r pour des valeurs connues de t. Des stratgies similaires
peuvent tre suivies pour de nombreux autres plans qui sont expliqus dans les sections suivantes.
4.3. Plan exprimental en blocs alatoires complets
Le plan exprimental en blocs alatoires complets (PEBAC) est lun des dispositifs les plus
largement utiliss en recherche forestire. Il se prte gnralement des expriences en champs dans
lesquels le nombre de traitements est peu important et o il existe un facteur vident pouvant servir
de base pour identifier des ensembles homognes dunits exprimentales. Le PEBAC se caractrise
principalement par la prsence de blocs de taille gale, dont chacun contient tous les traitements.
4.3.1. Technique des blocs
Cette technique a pour but de rduire lerreur exprimentale en liminant la contribution de sources
connues de variation entre les units exprimentales. Pour ce faire, on regroupe les units
exprimentales en blocs de manire minimiser la variabilit lintrieur de chaque bloc et
maximiser la variabilit entre les blocs. Etant donn que seule la variation lintrieur dun bloc
devient un lment de lerreur exprimentale, le dispositif par blocs est particulirement efficace
lorsque le type de variabilit du secteur dexprimentation est prvisible.
Dans un dispositif par blocs, lidal est dutiliser une source de variation grande et hautement
prvisible, telle que lhtrognit du sol, dans un essai dengrais ou de provenance dans lequel le
rendement est le principal caractre sur lequel on cherche obtenir des informations. Dans le cas
Plan et analyse dexpriences
- 81 -
dexpriences de ce genre, aprs avoir identifi la source spcifique de variabilit qui servira de
critre pour les blocs, il faut choisir la taille et la forme des blocs pour maximiser la variabilit entre
ceux-ci. Les principes directeurs de cette dcision sont les suivants : i) si le gradient est
unidirectionnel (cest--dire sil y a un seul gradient), les blocs seront longs et troits, et orients de
faon ce que leur longueur soit perpendiculaire la direction du gradient ; ii) si le gradient de
fertilit va dans deux directions, avec un gradient beaucoup plus fort que lautre, on ignorera le plus
faible et lon suivra les directives qui viennent dtre donnes pour le gradient unidirectionnel ; iii) si le
gradient de fertilit va dans deux directions, et si les deux gradients ont la mme force et sont
perpendiculaires lun par rapport lautre, on choisira des blocs aussi carrs que possible ou
dautres types de plans comme le carr latin (Gomez et Gomez, 1980).
Si lon utilise cette technique, la dfinition des blocs et lobjet de leur utilisation doivent tre
compatibles tout au long de lexprience. Cela signifie que dans tous les cas o il existe une source
de variation sur laquelle le chercheur ne peut pas agir, on veillera ce que cette variation se produise
entre des blocs plutt qu lintrieur dun mme bloc. Par exemple, sil est impossible de mener
leur terme en un seul jour certaines oprations comme lapplication dinsecticides ou la collecte de
donnes, pour toute lexprience, celles-ci devront tre acheves en une journe sur toutes les
parcelles dun mme bloc. De cette manire, la variation entre les jours (qui peut tre renforce par
des facteurs mtorologiques) devient un lment de la variation du bloc et se trouve par consquent
exclue de lerreur exprimentale. Si, dans le cadre de lessai, plusieurs chercheurs doivent prendre
des mesures, le mme observateur sera charg de prendre des mesures sur toutes les parcelles dun
mme bloc. Ainsi, lventuelle variation entre les observateurs constituera un lment de la variation
du bloc et non de lerreur exprimentale.
4.3.2. Droulement et reprsentation schmatique
Le processus de randomisation dun PEBAC est appliqu chaque bloc de manire spare et
indpendante. Nous allons illustrer la marche suivre pour une exprience en champ comportant six
traitements A, B, C, D, E, F et trois rptitions.
*Etape 1. Diviser la surface exprimentale en r blocs gaux, r tant le nombre de rptitions, suivant
la technique des blocs dcrite dans la Section 4.3.1. Dans notre exemple, la surface
exprimentale est divise en trois blocs, comme dans la Figure 4.2. Nous supposerons quil
y a un gradient de fertilit unidirectionnel sur le ct long du champ dexprimentation, de
sorte que le bloc est rectangulaire et perpendiculaire la direction du gradient.
Plan et analyse dexpriences
- 82 -
Figure 4.2. Division dune surface exprimentale en trois blocs constitus de six parcelles chacun,
pour un Plan exprimental en blocs alatoires complets, comportant six traitements et trois
rptitions. Les blocs sont rectangulaires et disposs perpendiculairement la direction du gradient
unidirectionnel (indiqu par une flche).
Gradient
Bloc I Bloc II Bloc III
*Etape 2. Subdiviser le premier bloc en t parcelles exprimentales, t tant le nombre de traitements.
Attribuer aux t parcelles des numros qui se suivent, allant de 1 t, et attribuez t traitements
au hasard aux t parcelles, suivant lune des procdures de randomisation applicable au PER
dcrit dans la Section 4.2.1. Dans notre exemple, le bloc I est subdivis en six blocs de
mme taille, dont les numros se suivent, de haut en bas (Figure 4.3) et les six traitements
sont allous au hasard aux six parcelles, laide de la table des nombres alatoires.
Figure 4.3. Numrotage des parcelles et allocation alatoire des six traitements (A,
B, C, D, E, et F) aux six parcelles du Bloc I.
1
C
2
D
3
F
4
E
5
B
6
A
Bloc I
*Etape 3. Rpter toute la phase 2 pour chacun des blocs restants. En ce qui concerne notre
exemple, la disposition finale est illustre la Figure 4.4.
Plan et analyse dexpriences
- 83 -
Figure 4.4. Schma-type dun plan exprimental en blocs alatoires complets, avec six traitements
(A, B, C, D, E et F) et trois rptitions.
1 7 13
C A F
2 8 14
D E D
3 9 15
F F C
4 10 16
E C A
5 11 17
B D B
6 12 18
A B E
Bloc I Bloc II Bloc III
4.3.3. Analyse de la variance
Tout PEBAC a trois sources de variabilit - le traitement, la rptition (ou bloc) et lerreur
exprimentale - soit une de plus quun PER, en raison de ladjonction de la rptition qui correspond
la variabilit entre les blocs.
Nous illustrerons les tapes de lanalyse de la variance applicable un PEBAC, laide des donnes
dune exprience consistant comparer la circonfrence hauteur de poitrine (gbh) darbres de huit
provenances de Gmelina arborea, six ans aprs leur plantation (Tableau 4.5).
Tableau 4.5. Gbh moyenne (en cm) des arbres dans des parcelles de diffrentes provenances de
Gmelina arborea, 6 ans aprs la plantation, dans une exprience en champ relevant dun PEBAC.
Traitement
(Provenance) Rptition
Total des
traitements
Moyenne
des
traitements
I II III (T
i
)
1 30.85 38.01 35.10 103.96 34.65
2 30.24 28.43 35.93 94.60 31.53
3 30.94 31.64 34.95 97.53 32.51
4 29.89 29.12 36.75 95.76 31.92
5 21.52 24.07 20.76 66.35 22.12
6 25.38 32.14 32.19 89.71 29.90
7 22.89 19.66 26.92 69.47 23.16
8 29.44 24.95 37.99 92.38 30.79
Total rpt. (R
j
) 221.15 228.02 260.59
Total gnral
(G) Moyenne
gnrale
709.76
29.57
Plan et analyse dexpriences
- 84 -
*Etape 1. Regrouper les donnes par traitement et par rptition et calculer les totaux des
traitements, (T
i
), des rptitions (R
j
) et le total gnral (G), comme indiqu dans le Tableau
4.5.
*Etape 2. Dresser le tableau prliminaire de lanalyse de la variance:
Tableau 4.6. Reprsentation schmatique de lanalyse de la variance dun PEBAC
Source de
variation
Degr de
libert
(df)
Somme des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F calcul
Rptition r - 1 SSR
MSR
Traitement t - 1 SST MST
MST
MSE
Erreur (r - 1)(t - 1) SSE
MSE
Total rt - 1 SSTO
*Etape 3. Calculer le facteur de correction et les diffrentes sommes des carrs (SS) mentionnes
dans le tableau ci-dessus. Notons y
ij
lobservation du i-me traitement faite dans le jme
bloc; i = 1,,t ; j = 1,,r.
C F =
G
rt
2
(4.10)
=
( )
( )( )
709.76
20989.97
2
3 8

SSTO = y C. F.
ij
2
j 1
r
i 1
t



(4.11)
= ( ) ( ) ( )
[ ]
30.85 38.01 37.99
2 2 2
... 20989.97 + + +
= 678.42
SSR =
R
t
C. F.
j
2
j 1
r

(4.12)
=
( ) ( ) ( ) 221.15 228.02 260.59
2 2 2
8
+ +
20989.97
= 110.98
SST =
T
r
C. F.
i
2
i 1
t

(4.13)
=
( ) ( ) ( ) 103.96 94.60 92.38
2 2 2
+ ...
3
20989.97
+ +

Plan et analyse dexpriences


- 85 -
= 426.45
Plan et analyse dexpriences
- 86 -
SSE = SSTO - SSR - SST (4.14)
= 678.42 - 110.98 - 426.45 = 140.98
*Etape 4. A partir des sommes des carrs obtenues, calculer le carr moyen et la valeur de F pour
tester les diffrences des traitements, comme indiqu dans le Tableau 4.6. Les rsultats sont
reports dans le Tableau 4.7.
Tableau 4.7 Analyse de la variance des donnes sur la gbh figurant dans le Tableau 4.5.
Source de
variation
Degr de
libert
Somme des
carrs
Carr
moyen
F calcul F
tabulaire
5%
Rptition 2 110.98 55.49
Traitement 7 426.45 60.92 6.05* 2.76
Erreur 14 140.98 10.07
Total 23 678.42
*Significative au seuil de 5%
*Etape 5. Extraire les valeurs de F de lAnnexe 3, pour f
1
= df des traitements et f
2
= df de lerreur.
Pour notre exemple, la valeur tabulaire de F pour f
1
= 7 et f
2
= 14 degrs de libert est de
2.76 au seuil de signification de 5%.
*Etape 6. Comparer la valeur calcule de F de ltape 4 aux valeurs tabulaires de F de ltape 5, et
dterminer si les diffrences entre les traitements sont significatives ou non. La valeur
calcule de F (6.05) tant suprieure la valeur tabulaire de F au seuil de signification de
5%, on peut conclure que lexprience met en vidence lexistence de diffrences
significatives entre les provenances, mesures par la croissance de leur gbh.
*Etape 7. Calculer le coefficient de variation:
(100)
gnrale Moyenne
Erreur
c
MS
v (4.15)
=
10.37
29.57
(100) 10 .89%
La valeur du cv est relativement faible, donc le degr de prcision des rsultats de lexprience en
champ est acceptable.
4.3.4. Comparaison des traitements
Les moyennes des traitements sont compares selon la mthode dcrite pour le PER dans la Section
4.2.3 laide de la formule
( )( )
LSD

t s
v;
d
(4.16)
o s
d
est lerreur type de la diffrence entre les moyennes des traitements et o t
v; a
est la valeur
tabulaire de t , tire de lAnnexe 2, au seuil de signification et avec v = degrs de libert de
lerreur. La quantit s
d
se calcule comme suit:
Plan et analyse dexpriences
- 87 -
s
2s
d
2

r
(4.17)
o s
2
est le carr moyen d lerreur et r le nombre de rptitions.
Pour illustrer ceci par un exemple, nous allons poursuivre lanalyse conduite pour les donnes du
Tableau 4.5 et comparer ainsi toutes les paires de traitements possibles laide du test de la PPDS.
*Etape 1. Calculer la diffrence entre les moyennes des traitements comme indiqu dans le Tableau
4.8.
Tableau 4.8. Diffrence entre la gbh moyenne (en cm) pour chaque paire de traitements daprs les
donnes du Tableau 4.4.
Traitement 1 2 3 4 5 6 7 8
1
0.00 3.12 2.14 2.73 12.53* 4.75 11.49* 3.86
2
0.00 0.98 0.39 9.41* 1.63 8.37* 0.74
3
0.00 0.59 10.39* 2.61 9.35* 1.72
4
0.00 9.8* 2.02 8.76* 1.13
5
0.00 7.78* 1.04 8.67*
6
0.00 6.74* 0.89
7
0.00 7.63*
8
0.00
* Significative au seuil de 5%
*Etape 2. Calculer la valeur de la PPDS au seuil de signification . Etant donn que tous les
traitements sont rpts le mme nombre de fois, il suffit de calculer une seule valeur de la
PPPDS. Celle-ci sobtient laide des quations (4.16) et (4.17).
( )
LSD 2.14
2 10.07
3
cm
.05
554 .
*Etape 3. Comparer la diffrence entre les moyennes des traitements avec la valeur calcule de la
PPDS et marquer dun astrisque les diffrences significatives. Les rsultats sont reports
dans le Tableau 4.8.
4.3.5. Estimation des valeurs manquantes
On parle de donnes manquantes dans tous les cas o lon ne dispose dobservation valide pour
aucune des units exprimentales. Les donnes manquantes peuvent avoir plusieurs causes :
mauvaise application accidentelle des traitements, observations errones, destruction dunits
exprimentales due des calamits naturelles comme le feu, les dgts dus la faune etc... Il est
toutefois primordial dexaminer attentivement ces raisons. La destruction du matriel exprimental ne
doit pas tre due leffet du traitement. Si dans une parcelle aucun arbre na survcu, pour des
raisons manifestement sans rapport avec les traitements, par exemple parce que la parcelle a t
Plan et analyse dexpriences
- 88 -
broute par des animaux errants ou vandalise par des voleurs, les donnes manquantes doivent tre
dclares comme il convient. En revanche, si dans un essai dinsecticides, par exemple, une parcelle
tmoin (non traite) est totalement dtruite par des insectes, ce dommage est la consquence logique
de labsence de traitement. Ainsi, les donnes correspondantes sur cette parcelle devraient tre
reconnues comme valides (rendement nul si tous les arbres de la parcelle sont dtruits, ou faible si
quelques plants ont survcu), et non pas considres comme manquantes.
Lapparition de donnes manquantes a deux consquences majeures : des informations sont perdues
et lanalyse de variance standard nest pas applicable. Lorsquune exprience comporte une ou
plusieurs observations manquantes, les procdures de calcul standard de lanalyse de variance ne
sappliquent plus, sauf pour le PER. Dans ces situations, il est possible dutiliser la technique de
formulation dune donne manquante qui permet destimer une observation manquante unique
laide dune formule adapte au plan dexprience concern. Cette estimation est insre la place
de la donne manquante et lensemble de donnes ainsi complt est ensuite soumis lanalyse de
variance standard, lgrement modifie.
On notera que lestimation dune donne manquantes obtenue grce cette technique ne donne pas
dinformation supplmentaire ; aucune manipulation statistique ne permet de rcuprer une donne
une fois quelle est perdue. Lobjet de cette procdure est simplement de permettre au chercheur de
faire les calculs habituels de lanalyse de la variance (comme si les donnes taient compltes), sans
recourir aux procdures plus complexes ncessaires pour des ensembles de donnes incomplets.
Dans un plan exprimental en blocs alatoires complets comprenant une seule valeur manquante,
celle-ci est estime par la relation:
y
rB tT G
r t

+

0 0 0
1 1 ( )( )
(4.18)
o y = estimation de la donne manquante
t = Nombre de traitements
r = Nombre de rptitions
B
0
= Total des valeurs observes de la rptition dans laquelle se trouve la donne manquante
T
0
= Total des valeurs observes du traitement dans lequel se trouve la donne manquante
G
0
= Total gnral de toutes les valeurs observes
La donne manquante est remplace par la valeur calcule de y et la procdure de calcul habituelle,
lgrement modifie, de lanalyse de variance est applique lensemble de donnes complt.
La procdure est illustre laide des donnes du Tableau 4.5. La donne manquante est suppose
tre la valeur du sixime traitement (sixime provenance) dans la rptition II (voir Tableau 4.9). Les
tapes du calcul de lanalyse de variance et des comparaisons apparies des moyennes de
traitements sont les suivantes :
*Etape 1. Estimer la valeur manquante laide de lquation (4.18) et les valeurs des totaux du
Tableau 4.9.
y
+

3(195.88) 8(57.57) 677.62
(3 1)(8 1)
= 26.47
Plan et analyse dexpriences
- 89 -
Tableau 4.9. Donnes du Tableau 4.5, avec une observation manquante
Traitement
(Provenance) Rptition
Total des
traitements
Rp. I Rp II Rp. III (T)
1 30.85 38.01 35.1 103.96
2 30.24 28.43 35.93 94.6
3 30.94 31.64 34.95 97.53
4 29.89 29.12 36.75 95.76
5 21.52 24.07 20.76 66.35
6 25.38 M 32.19 (57.57=T
0
)
7 22.89 19.66 26.92 69.47
8 29.44 24.95 37.99 92.38
Total Rp. (R) 221.15 (195.88=B
0
) 260.59
Total gnral
(G)
(677.62=G
0
)
M = donne manquante
*Etape 2. Remplacer la donne manquante du Tableau 4.9 par sa valeur estime, calcule dans
ltape 1, comme indiqu dans le Tableau 4.10 et effectuer lanalyse de variance de
lensemble de donnes augment, sur la base de la procdure standard de la Section 4.3.3.
Tableau 4.10. Donnes du Tableau 4.7 - la donne manquante est remplace par la valeur estime
par la technique de formulation de la donne manquante.
Traitement
(Provenance) Rptition
Total des
traitements
Rep. I Rep II Rep. III (T)
1 30.85 38.01 35.1 103.96
2 30.24 28.43 35.93 94.6
3 30.94 31.64 34.95 97.53
4 29.89 29.12 36.75 95.76
5 21.52 24.07 20.76 66.35
6 25.38 26.47
a
32.19 84.04
7 22.89 19.66 26.92 69.47
8 29.44 24.95 37.99 92.38
Total rp. (R) 221.15 222.35 260.59
Total gnral
(G)
704.09
a
Donne manquante estime par la technique de formulation de la donne manquante
Plan et analyse dexpriences
- 90 -
*Etape 3. Apporter les modifications suivantes lanalyse de variance de ltape 2; Soustraire 1 du
df total et du df de lerreur. Dans notre exemple, le df total tombe de 23 22 et df de
lerreur de 14 13. Calculer le facteur de correction du biais (B)
B =
[ ] B t y
t t
0
2
1
1

( )
( )
(4.19)
=
[ ] 19588 8 1 2647
8 8 1
2
. ( )( . )
( )

= 2.00
et soustraire la valeur calcule de B ( 2.00) de la somme des carrs des traitements et de la somme
totale des carrs. Dans notre exemple, la SSTO et la SST calcules dans ltape 2 partir des
donnes augmentes du Tableau 4.10, sont respectivement de 680.12 et de 432.09. En soustrayant
la valeur de B ( 2.00) de ces valeurs de SS, on obtient la SST et la SSTO ajustes:
SST ajuste = 432.09 - 2.00
= 430.09
SSTO ajuste = 680.12 - 2.00
= 678.12
Lanalyse de la variance ainsi modifie est reporte dans le Tableau 4.11.
Tableau 4.11. Analyse de la variance des donnes du Tableau 4.7, avec une valeur manquante
estime par la technique de formulation dune donne manquante.
Source de Degr de
libert
Somme des
carrs
Carr F F
tabulaire
variation moyen calcul 5 %
Rptition 2 125.80 62.90 6.69
Traitement 7 430.09 61.44 6.53* 2.83
Erreur 13 122.23 9.40
Total 22 678.12

*

Significative au seuil de 5%
*Etape 4. Pour les comparaisons par paire de moyennes de traitements, dont lun contient une
donne manquante, calculer lerreur-type de la diffrence moyenne s
d
:
s s
r
d

1
]
1
2
2
+
t
r(r - 1)(t - 1)
(4.20)
o s
2
est le carr moyen de lerreur fournit par lanalyse de variance de ltape 3, r le nombre de
rptitions et t le nombre de traitements.
Par exemple, pour comparer la moyenne du sixime traitement (auquel manque une donne) avec
celle dun quelconque autre traitement, s
d
se calcule comme suit :
Plan et analyse dexpriences
- 91 -
s
d
+

1
]
1
9.40
2
3
8
(3)(2)(7)
= 2.84
Cette valeur de s
d
peut tre utilise pour calculer les valeurs de la PPDS. La mthode de calcul des
valeurs de la PPDS est indique ci-dessous. Si lon prend t
v
comme valeur tabulaire de t pour 13 df
au seuil de signification de 5% (voir Annexe 3), les valeurs de la PPDS servant pour comparer la
moyenne du sixime traitement avec toute autre moyenne de traitement se calculent de la manire
suivante:
LSD

=t
v; a
s
d
(4.21)
LSD
.05
= (2.16)(2.84) = 6.13
4.4. Plans dexprience factoriels
Dans toute exprience, une ou plusieurs variables de rponse peuvent tre affectes par un certain
nombre de facteurs dans le systme global, dont certains sont matriss ou maintenus aux niveaux
voulus dans lexprience. Une exprience dans laquelle les traitements sont constitus de toutes les
combinaisons possibles de deux ou plusieurs facteurs, aux niveaux slectionns, est appel plan
dexprience factoriel. Par exemple, une exprience sur lenracinement des boutures englobant deux
facteurs, mesurs deux niveaux par exemple deux hormones deux dosages diffrents est une
exprience factorielle 2 x 2 ou 2
2
. Les traitements sont constitus des quatre combinaisons possibles
de chacun des deux facteurs, aux deux niveaux considrs.
Combinaison des traitements
Numro du traitement Hormone Dose (ppm)
1 NAA 10
2 NAA 20
3 IBA 10
4 IBA 20
On utilise parfois lexpression exprience factorielle complte lorsque les traitements comprennent
toutes les combinaisons des niveaux slectionns des facteurs, mais lexpression exprience
factorielle fractionne ne sapplique que le test ne porte que sur une fraction de toutes les
combinaisons. Toutefois, pour simplifier, les expriences factorielles compltes seront, tout au long
de ce manuel, appeles simplement expriences factorielles. On notera que le terme factoriel se
rfre au mode de constitution spcifique des traitements et na rien voir avec le plan dcrivant le
dispositif exprimental. Par exemple, si lexprience factorielle 2
2
dont nous avons parl plus haut fait
partie dun plan dexprience en blocs alatoires complets, lexprience devrait tre dfinie par
lexpression exprience factorielle 2
2
dans un plan en blocs alatoires complets.
Dans un plan dexprience factoriel, le nombre total de traitements est gal au produit du nombre de
niveaux de chaque facteur; dans lexemple factoriel 2
2
, le nombre de traitements est gal 2 x 2 =
4, dans une exprience factorielle 2
3
, le nombre de traitements est 2 x 2 x 2 = 8.
Le nombre de traitements augmente rapidement avec le nombre de facteurs ou avec les niveaux de
chaque facteur. Pour une exprience factorielle comprenant 5 clones, 4 espacements et 3 mthodes
Plan et analyse dexpriences
- 92 -
de dsherbage, le nombre total de traitements sera 5 x 4 x 3 = 60. On vitera donc le recours
inconsidr aux expriences factorielles en raison de leur ampleur, de leur complexit et de leur cot.
De plus, il est peu raisonnable de se lancer dans une exprience de grande ampleur au dbut dun
travail de recherche, alors quil est possible, avec plusieurs petits essais prliminaires, dobtenir des
rsultats prometteurs. Imaginons par exemple quun gnticien forestier ait fait venir 30 nouveaux
clones dun pays voisin et veuille voir comment ils ragissent lenvironnement local. Etant donn
que normalement les conditions de lenvironnement varient en fonction de plusieurs facteurs, tels que
la fertilit du sol, le degr dhumidit, etc. lidal serait de tester les 30 clones dans le cadre dune
exprience factorielle englobant dautres variables, telles que engrais, niveau dhumidit et densit de
population. Le problme est que lexprience devient alors extrmement vaste du fait de ladjonction
dautres facteurs que les clones. Mme si lon incluait quun seul facteur, comme lazote ou lengrais,
trois dosages diffrents, le nombre de traitements passerait de 30 90. Une exprience de cette
ampleur pose divers types de problmes, notamment pour obtenir des financements ou une surface
exprimentale adquate, ou pour contrler lhtrognit du sol etc. Pour faciliter les choses, il est
donc prfrable de commencer par tester les 30 clones dans une exprience un facteur, puis de
slectionner sur la base des rsultats obtenus un petit nombre de clones soumettre un examen
plus dtaill. Par exemple la premire exprience un facteur peut montrer que seuls cinq clones ont
des performances suffisamment remarquables pour justifier des tests plus approfondis. Ces cinq
clones pourraient ensuite tre insrs dans une exprience factorielle avec trois dosages dazote, ce
qui donnerait un exprience quinze traitements , alors quil en faudrait 90 dans une exprience
factorielle avec 30 clones.
Leffet dun facteur est la variation moyenne dune rponse drivant dun changement du niveau du
facteur considr. Cet effet est souvent appel effet principal. Prenons pour exemple les donnes du
Tableau 4.12.
Tableau 4.12. Donnes issues dun plan dexprience factorielle 2x2
Facteur B
Niveau b
1
b
2
a
1
20 30
Facteur A
a
2
40 52
Leffet principal du facteur A peut tre considr comme la diffrence entre la rponse moyenne au
premier niveau de A et la rponse moyenne au deuxime niveau de A. Numriquement :
A
+

40 52
2
20 30
2
21
Ce rsultat signifie que si le facteur A augmente du niveau 1 au niveau 2, la rponse augmente en
moyenne de 21 units. De mme, leffet principal du facteur B est
B
+

30 52
2
20 40
2
11
Si les facteurs apparaissent plus de deux niveaux, la procdure ci-dessus doit tre modifie car les
diffrences entre les rponses moyennes peuvent tre exprimes de diffrentes manires.
Plan et analyse dexpriences
- 93 -
Le principal avantage dune exprience factorielle est quelle permet dobtenir plus dinformations
sur linteraction entre les facteurs. Dans certaines expriences, on constate que la diffrence de
rponse entre les niveaux dun facteur nest pas la mme tous les niveaux des autres facteurs, ce
qui signifie quil existe une interaction entre les facteurs. Prenons pour exemple les donnes du
Tableau 4.13.
Tableau 4.13. Donnes issues dune exprience factorielle 2x2
Facteur B
Niveaux b
1
b
2
a
1
20 40
Facteur A
a
2
50 12
Au premier niveau du facteur B, leffet du facteur A est
A = 50-20 = 30
Et au second niveau du facteur B, leffet du facteur A est
A = 12-40 = -28
Etant donn que leffet de A est fonction du niveau choisi pour le facteur B, il est vident quil existe
une interaction entre A et B.
Ces concepts peuvent tre illustrs par des graphiques. La figure 4.5 montre les donnes de rponse
du Tableau 4.2, par rapport au facteur A pour les deux niveaux du facteur B.
Figure 4.5. Reprsentation graphique de labsence dinteraction entre les facteurs.
b1
b1
b2
b2
0
20
40
60
a1 a2
Facteur
Rponse
Les droites b
1
et b
2
sont presque parallles, ce qui indique quil ny a pas dinteraction entre les
facteurs A et B.
De mme, la Figure 4.6 reprsente les donnes de rponse du Tableau 4.13. Dans ce cas, on
constate que les droites b
1
et b
2
ne sont pas parallles, ce qui indique une interaction entre les
facteurs A et B. Si les graphiques de ce genre sont souvent trs utiles pour interprter des
interactions significatives et signaler les rsultats des gestionnaires non qualifis en statistique, ils ne
doivent pas constituer la seule technique danalyse des donnes, car leur interprtation est subjective
et leur apparence souvent trompeuse.
Plan et analyse dexpriences
- 94 -
Figure 4.6. Reprsentation graphique de linteraction entre des facteurs.
b1
b1
b2
b2
0
10
20
30
40
50
60
a1 a2
Facteur
Rponse
On notera que lorsquune interaction est importante, les effets principaux correspondants ont peu de
signification pratique. Pour les donnes du Tableau 4.13, leffet principal estim de A serait
A
+

+ 50 12
2
20 40
2
= 1
cette valeur tant trs petite, nous sommes tents de conclure labsence deffets dus A.
Toutefois, si lon examine les effets de A diffrents niveaux du facteur B, on constate quil nen est
pas ainsi. Le facteur A a un effet, mais il dpend du niveau du facteur B, ce qui veut dire quune
interaction significative masque souvent la signification des effets principaux. En prsence d'une
interaction significative, l'exprimentateur doit ordinairement examiner les niveaux d'un facteur, par
exemple A, alors que le niveau des autres facteurs reste fixe, pour tirer des conclusions sur leffet
principal de A.
Dans la majorit des plans dexprience factoriels, les traitements sont trop nombreux pour quun
plan en blocs alatoires puisse tre efficace. Certains types de plans ont cependant t
spcifiquement mis au point pour des expriences factorielles de grande envergure, (ex : plans
factoriels avec confusion). Lutilisation de ces plans est dcrite dans Das et Giri (1980).
4.4.1. Analyse de variance
Tout plan en blocs complets examin dans les sections 4.2 et 4.3 pour des expriences un facteur
est applicable un plan dexprience factoriel. Les procdures de randomisation et de
reprsentation schmatique de chaque plan peuvent tre appliques directement, en ignorant
simplement la composition factorielle des traitements et en faisant comme sil nexistait pas de
relation entre les traitements. Pour lanalyse de variance, les calculs examins pour chaque plan sont
aussi directement applicables. Toutefois, des tapes de calcul doivent tre ajoutes pour rpartir les
sommes des carrs des traitements entre les composantes factorielles correspondant aux effets
principaux des facteurs individuels et leurs interactions. Cette procdure de fractionnement tant la
mme pour tous les plans en blocs complets, elle ne sera illustre ici que pour le cas du PEBAC.
Nous allons dcrire les diffrentes tapes de la procdure danalyse de la variance dune exprience
deux facteurs sur les bambous, avec deux niveaux despacements (Facteur A) et trois niveaux
dge la plantation (facteur B), dfinis dans un PEBAC, trois rptitions. La liste des six
combinaisons factorielles des traitements figure dans le Tableau 4.14, le dispositif exprimental est
illustr la Figure 4.7. et les donnes sont rassembles dans le Tableau 4.15.
Plan et analyse dexpriences
- 95 -
Tableau 4.14. Les combinaisons factorielles (2 x3) des traitements, avec deux niveaux
despacement et trois niveaux dge.
Age la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
(a
1
) (a
2
)
6 (b
1
) a
1
b
1
a
2
b
1
12 (b
2
) a
1
b
2
a
2
b
2
24 (b
3
) a
1
b
3
a
2
b
3
Figure 4.7. Schma-type dun plan dexprience factoriel 2 3 avec deux niveaux
despacement et trois niveaux dge, dans un PEBAC, avec 3 rptitions.
Rptition I Rptition II Rptition III
a
2
b
3
a
2
b
3
a
1
b
2
a
1
b
3
a
1
b
2
a
1
b
1
a
1
b
2
a
1
b
3
a
2
b
2
a
2
b
1
a
2
b
1
a
1
b
3
a
1
b
1
a
2
b
2
a
2
b
1
a
2
b
2
a
1
b
1
a
2
b
3
Tableau 4.15. Hauteur maximale moyenne de la tige de Bambusa arundinacea teste avec trois
variantes dge et deux variantes despacement dans un PEBAC.
Combinaison des
traitements
Hauteur maximale de la tige dune cpe (en
cm)
Total
traitements
Rp. I Rp. II Rp. III (T
ij
)
a
1
b
1
46.50 55.90 78.70 181.10
a
1
b
2
49.50 59.50 78.70 187.70
a
1
b
3
127.70 134.10 137.10 398.90
a
2
b
1
49.30 53.20 65.30 167.80
a
2
b
2
65.50 65.00 74.00 204.50
a
2
b
3
67.90 112.70 129.00 309.60
Total rptitions (R
k
) 406.40 480.40 562.80 G=1449.60
*Etape 1. Soit r le nombre de rptitions, a le nombre de niveaux du facteur A (espacement), et
b le nombre de niveaux du facteur B (ge). Dresser le tableau prliminaire de lanalyse de
variance:
Plan et analyse dexpriences
- 96 -
Tableau 4.16. Reprsentation schmatique de lanalyse de variance dune exprience factorielle
avec deux niveaux du facteur A, trois niveauxs du facteur B et trois rptitions, dans un PEBAC
Source de
variation
Degrs de
libert
(df)
Somme des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F calcul
Rptition r-1 SSR MSR
Traitement ab- 1 SST MST MST
MSE
A a- 1 SSA MSA MSA
MSE
B b- 1 SSB MSB MSB
MSE
AB (a-1)(b-1) SSAB MSAB MSAB
MSE
Erreur (r-1)(ab-1) SSE MSE
Total rab -1 SSTO
*Etape 2. Calculer les totaux des traitements (T
ij
), les totaux des rptitions (R
k
), et le total gnral
(G), comme indiqu dans le Tableau 4.15 et calculer SSTO, SSR, SST et SSE en suivant la
procdure dcrite dans la Section 4.3.3. Notons y
ijk
lobservation correspondant au i-me
niveau du facteur A et au j-me niveau du facteur B dans la k-ime rptition.
C F
G
rab
. .
2
(4.22)

( )

1449 60
3 2 3
11674112
2
.
( )( )( )
.
SSTO


y C F
ijk
k
r
j
b
i
a
2
1 1 1
. . (4.23)
( ) ( )
[ ]
+ + + 4650 5590 129 00
2 2 2
. . . ( . ) . . 116741.12
= 17479.10
SSR

R
ab
C F
k
k
r
2
1
. . (4.24)

( )

+ +

406.40 . . . 562.80
116741.12
2 2
2 3
( )
( )( )
= 2040.37
SST


T
r
C F
ij
j
b
i
a
2
1 1
. . (4.25)
Plan et analyse dexpriences
- 97 -

( ) ( )

+ +

181.10 . . . 309.60
116741.12
2 2
3
= 14251.87
SSE = SSTO - SSR - SST (4.26)
= 17479.10 - 2040.37 - 14251.87
= 1186.86
Lanalyse de variance prliminaire figure dans le Tableau 4.17.
Tableau 4.17. Analyse de variance prliminaire des donnes du Tableau 4.15.
Source de
variation
Degr de
libert
Somme
des carrs
Carr
moyen
F calcul F
tabulaire
5%
Rptition 2 2040.37 1020.187 8.59567* 4.10
Traitement 5 14251.87 2850.373 24.01609* 3.33
Erreur 10 1186.86 118.686
Total 17 17479.10
*Significatif au seuil de 5% .
*Etape 3. Construire le tableau double entre des totaux facteur A x facteur B, avec le calcul des
totaux du facteur A et les totaux du facteur B. Dans notre exemple, le tableau des totaux
Espacement x Age (AB), avec les totaux de lespacement (A) et les totaux de lge (B)
calculs, est illustr au Tableau 4.18
Tableau 4.18. Tableau des totaux Espacement x Age , pour les donnes du Tableau 4.15.
Age Espacement Total
a
1
a
2
(B
j
)
b
1
181.10 167.80 348.90
b
2
187.70 204.50 392.20
b
3
398.90 309.60 708.50
Total (A
i
) 767.70 681.90 G = 1449.60
*Etape 4. Calculer les trois composantes factorielles de la somme des carrs des traitements:
SSA =
A
rb
C F
i
i
b
2
1

. . (4.27)

( )

767.70 681.90
116741.12
2 2
3 3
( )
( )( )
= 408.98
Plan et analyse dexpriences
- 98 -
SSB =
B
ra
C F
j
j
b
2
1

. . (4.28)

( ) ( ) ( )

+ +

348.90 392.20 708.50


116741.12
2 2
3 2 ( )( )
= 12846.26
SSAB = SST - SSA - SSB (4.29)
= 14251.87 - 408.98 - 12846.26
= 996.62
*Etape 5. Calculer le carr moyen de chaque source de variation en divisant chaque somme des
carrs par les degrs de libert qui lui sont associs et obtenir les valeur du rapport F pour
les trois composantes factorielles, selon le schma du Tableau 4.16.
*Etape 6. Entrer toutes les valeurs obtenues durant les Etapes 3 5, dans lanalyse de variance
prliminaire de lEtape 2 en suivant les indications du Tableau 4.19.
Tableau 4.19. Analyse de variance des donnes du Tableau 4.15 issues dune exprience factorielle
2 x 3 dans un PEBAC.
Source de
variation
Degr de
libert
Somme des
carrs
Carr
moyen
F calcul F tabulaire
5%
Rptition 2 2040.37 1020.187 8.60* 4.10
Traitement 5 14251.87 2850.373 24.07* 3.33
A 1 12846.26 6423.132 3.45 4.96
B 2 408.98 408.980 54.12* 4.10
AB 2 996.62 498.312 4.20* 4.10
Erreur 10 1186.86 118.686
Total 17 17479.10

*Significatif au seuil de 5%
*Etape 7. Comparer chaque valeur calcule de F avec la valeur tabulaire de F figurant lAnnexe 3,
avec f
1
= df du MS du numrateur et f
2
= df du MS du dnominateur, au seuil de
signification voulu. Par exemple, la valeur calcule de F relative leffet principal du facteur
A est compare avec les valeurs tabulaires de F (avec f
1
=1 et f
2
=10 degrs de libert) de
4.96, au seuil de signification de 5%. Le rsultat indique que leffet principal du facteur A
(espacement) nest pas significatif au seuil de 5%.
*Etape 8. Calculer le coefficient de variation:
100
gnrale Moyenne
MS Erreur
= cv (4.30)

118 686
8053
100 1353%
.
.
.
Plan et analyse dexpriences
- 99 -
4.4.2. Comparaison de moyennes
Dans une exprience factorielle, on effectue diffrents types de comparaisons deffets. Par exemple,
dans une exprience factorielle 2 x 3, quatre types de moyennes peuvent tre compares :
Type-(1) Les deux moyennes de A, calcules sur la base des trois niveaux du facteur B
Type-(2) Les trois moyennes de B calcules sur la base des deux niveaux du facteur A
Type (3) Les six moyennes de A, deux moyennes chacun des trois niveaux du facteur B
Type (4) Les six moyennes de B, trois moyennes chacun des deux niveaux du facteur A
La moyenne de Type-(1) est une moyenne de 3r observations, celle de Type-(2) est une moyenne
de 2r observations et celles de Type-(3) ou de Type-(4) sont des moyennes de r observations.
Ainsi, la formule ( ) s / r
d
2
2s
1/2
nest approprie que pour la diffrence moyenne mettant en jeu
des moyennes de Type-(3) ou de Type-(4). Dans les moyennes de Type-(1) et de Type-(2), le
diviseur r de la formule doit tre remplac respectivement par 3r et 2r. Autrement dit, pour
comparer deux moyennes de A, calcules sur la base de tous les niveaux du facteur B, la valeur s
d
se calcule selon la relation ( ) s s / r
d
2
2 3
1/2
et pour comparer toute paire de moyennes de B,
calcule sur la base de tous les niveaux du facteur A, la formule de calcul de la valeur s
d
est
( ) 2 2
1/2
s / r
2
ou plus simplement ( ) s / r
2
1/ 2
.
A titre dexemple, prenons lexprience factorielle 2 x 3 dont les donnes sont reportes dans le
Tableau 4.15. Lanalyse de variance met en lumire une interaction significative entre lespacement et
lge, leffet de lge variant si lespacement change. Il est donc inutile de comparer les moyennes
dge, par rapport tous les niveaux despacement ou les moyennes des espacements par rapport
tous les niveaux dge. Il est plus appropri deffectuer des comparaisons entre les moyennes dge,
pour un mme niveau despacement, ou entre les moyennes despacement, pour un mme niveau
dge. La comparaison entre les moyennes despacement, au mme ge, est illustre dans le passage
qui suit. Les tapes du calcul de la PPDS pour la comparaison de deux moyennes despacement au
mme ge sont les suivantes :
*Etape 1.Calculer lerreur-type de la diffrence moyenne daprs la formule applicable pour une
comparaison de Type-(3)
r
MS Erreur 2
s
d
(4.31)
=
( ) 2 118686
3
889
.
. cm
o la valeur du MS de lerreur ( 118.686) est extraite de lanalyse de variance du Tableau 4.19.
*Etape 2. Tirer de lAnnexe 2 la valeur tabulaire de t value pour df de lerreur (10 df), soit 2.23 au
seuil de signification de 5% et calculer la PPDS, laide de lexpression,
( )( )
LSD

t s
v
d
;
=( )( ) 2 23 889 1982 . . . cm
Plan et analyse dexpriences
- 100 -
*Etape 3. Dresser le tableau deux entres des moyennes du produit de lespacement x Age,
comme indiqu dans le Tableau 4.20. Pour chaque paire de niveaux despacement
comparer au mme niveau dge, calculer la diffrence moyenne et la comparer avec la
valeur de la PPDS obtenue durant lEtape 2. Par exemple, la diffrence moyenne de hauteur
de la tige entre deux niveaux despacement, lge de 12 mois la plantation, est gale
5,6 cm. Etant donn que cette valeur est infrieure la valeur de la PPDS au seuil de
signification de 5%, la diffrence nest pas significative.
Tableau 4.20. Tableau des moyennes Espacement x Age de la hauteur des tiges,
sur la base des donnes du Tableau 4.15
Age la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
Hauteur moyenne de la tige (en cm)
6 60.37 55.93
12 62.57 68.17
24 132.97 103.20
4.5. Plan factoriel fractionn
Dans un plan dexprience factoriel, si le nombre de facteurs tester est trop grand, il devient
impossible de tester tous les traitements factoriels la fois dans le cadre dune seule exprience. Il
est alors plus logique de mettre au point un plan exprimental pour tester une fraction seulement du
nombre total de traitements. Le plan factoriel fractionn (PFF) est applicable, uniquement dans le cas
dexpriences englobant un grand nombre de facteurs. Il permet de slectionner et de tester
systmatiquement une fraction seulement de lensemble complet de combinaisons de traitements
factoriels. Ceci entrane malheureusement une perte dinformations sur certains effets slectionns au
pralable. Alors que ces pertes peuvent tre importantes dans des expriences un ou deux
facteurs, elles sont plus tolrables si les facteurs sont nombreux. Le nombre deffets dinteraction
augmente rapidement avec le nombre de facteurs, ce qui permet une certaine flexibilit dans le choix
des effets qui devront tre sacrifis. De fait, lorsque lon sait avant de commencer que certains effets
spcifiques sont faibles ou sans importance, la perte dinformation drivant de ladoption dun Plan
dexprience factoriel fractionn est ngligeable.
Dans la pratique, les effets qui sont le plus couramment sacrifis du fait du recours au PFF sont des
interactions dordre lev de quatre facteurs ou de cinq facteurs, voire interaction de trois facteurs.
Dans la majorit des cas, moins de disposer dinformations pralables en sens contraire, le
chercheur a intrt slectionner un ensemble de traitements qui permet de tester tous les effets
principaux et les interactions de deux facteurs. En recherche forestire, le PFF sera utilis dans des
essais exploratoires ayant pour principal objectif dexaminer les interactions entre des facteurs. Pour
ces essais, les PFF les plus appropris sont ceux qui ne sacrifient que les interactions concernant plus
de deux facteurs.
Avec le PFF, le nombre deffets mesurables dcrot rapidement avec la diminution du nombre de
traitements tester. Ainsi, lorsque les effets mesurer sont nombreux, le nombre de traitements
Plan et analyse dexpriences
- 101 -
tester, mme dans le cadre dun PFF, peut tre encore trop important. Il est alors possible de
diminuer encore la taille de lexprience en rduisant le nombre de rptitions. Bien que les PFF
sans rptition soient rarement employs dans les expriences forestires, lorsquon les applique
des essais exploratoires, le nombre de rptitions requis peut tre rduit au minimum.
Lautre avantage du PFF est quil permet de rduire la taille des blocs puisque ceux-ci ne doivent
plus ncessairement contenir tous les traitements soumettre au test. Lhomognit des units
exprimentales appartenant un mme bloc peut ainsi tre amliore. La rduction de la taille des
blocs saccompagne toutefois dune perte dinformation qui sajoute celle drivant de la diminution
du nombre de traitements. Ainsi, le PFF peut tre conu sur mesure et adapt la majorit des plans
dexprience factoriels. Cependant, la procdure employer cette fin est complexe, cest pourquoi
nous nous limiterons ici dcrire une catgorie particulire de PFF, adapte au cas dessais
exploratoires dans le domaine de la recherche forestire. Les principales caractristiques de ces
plans dexprience spcifiques sont les suivantes : i) ils sappliquent uniquement aux expriences
factorielles 2 o n, le nombre de facteurs est de 5 au minimum, ii) ils comprennent seulement la
moiti de lensemble complet de combinaisons de traitements factoriels, dnot par 2
n-1
; iii) ils
permettent destimer la totalit des effets principaux et des interactions deux facteurs. Pour des
plans plus complexes, le lecteur peut se rfrer Das et Giri (1980).
La procdure de dfinition du schma et danalyse de variance dun PFF 2
5-1
, avec un essai en
champ comportant cinq facteurs A, B, C, D et E est illustre dans la section suivante. Les diffrentes
combinaisons des traitements sont dsigns par les lettres a, b, c,, pour noter la prsence (ou le
niveau lev) des facteurs A, B, C, Ainsi, la combinaison du traitement ab, dans une exprience
factorielle 2
5
indique une combinaison de traitement caractrise par un niveau lev (ou par la
prsence) des facteurs A et B et par un bas niveau (ou par labsence) des facteurs C, D et E. En
revanche, dans une exprience factorielle 2
6,
cette mme notation (ab) se rfrerait une
combinaison de traitement contenant un niveau lev des facteurs A et Bet un bas niveau des
facteurs C, D, E, et F. Dans tous les cas, le symbole (1) indiquera la combinaison de traitement
caractrise par un bas niveau de tous les facteurs.
4.5.1. Elaboration du plan et prsentation
Il existe une mthode simple pour trouver la fraction voulue des combinaisons factorielles dans un
PFF 2
5-1
, sachant que, dans un essai factoriel 2
5
, leffet des facteurs ABCDE peut tre estim
partir du dveloppement du terme (a-1)(b-1)(c-1)(d-1)(e-1):
(a-1)(b-1)(c-1)(d-1)(e-1) = abcde - acde - bcde + cde - abde + ade + bde - de
- abce + ace + bce - ce + abe - ae - be + e
- abcd + acd + bcd - cd + abd - ad - bd + d
+ abc - ac - bc + c - ab + a + b - 1
Dans cette expression, les signes (positif ou ngatif) associs aux traitements permettent de diviser
lensemble factoriel complet en deux groupes de traitements. Si lon conserve uniquement un lun des
deux ensembles, positif ou ngatif, on obtient une demie fraction de lexprience factorielle 2
5
. Les
deux sries de traitements se prsentent comme suit.
Plan et analyse dexpriences
- 102 -
Traitements accompagns de signes ngatifs
Traitements accompagns de signes
positifs
acde, bcde, abde, de, abce, ce, ae, be, abcde, bcde, abde, de, abce, ce, ae, be,
abcd, cd, ad, bd, ac, bc, ab, 1 abcd, cd, ad, bd, ac, bc, ab, 1
Par suite de la rduction du nombre de traitements inclus dans lexprience, il va tre impossible d
estimer leffet ABCDE partir de lensemble fractionn. Tous les effets principaux et toutes les
interactions de deux facteurs peuvent tre estims dans lhypothse o toutes les interactions de trois
facteurs et dordre plus lev sont ngligeables. La procdure peut tre gnralise puisque dans une
exprience 2
6,
, il est possible disoler une demie fraction en retenant les traitements accompagns
dun signe positif ou ngatif dans le dveloppement de (a-1)(b-1)(c-1)(d-1)(e-1)(f-1).
Le PFF est simplement un dispositif qui permet de slectionner des traitements ayant une structure
factorielle, et les combinaisons des facteurs qui en dcoulent peuvent tre considres comme un
ensemble de traitements applicables lexprience physique qui sera dfinie dans un plan standard
quelconque tel que PER ou PEBAC. On trouvera la Figure 4.8. un schma randomis type, pour
un PFF 2
5-1
avec deux rptitions faisant partie dun PEBAC.
Figure 4.8. Schma-type dun PFF 2
5-1
avec deux rptitions faisant partie dun PEBAC.
1
de
9
ab
1
abce
9
acde
2
1
10
adde
2
cd
10
bd
3
acde
11
ad
3
be
11
de
4
ae
12
abce
4
ad
12
bcde
5
ce
13
be
5
ae
13
ce
6
ac
14
bc
6
abcd
14
1
7
bcde
15
bcd
7
abce
15
ac
8
bd
16
cd
8
bc
16
be
Rptition I Rptition II
4.5.2. Analyse de variance
La procdure danalyse de variance applicable un PFF 2
5-1
deux rptitions, est illustre laide
de la mthode de Yates pour le calcul de la somme des carrs, qui facilite le calcul manuel
dexpriences factorielles de grande ampleur. On peut aussi appliquer les rgles standards de calcul
des sommes des carrs dans lanalyse de variance, en laborant des tableaux une entre des
Plan et analyse dexpriences
- 103 -
totaux, pour calculer les effets principaux, des tableaux double entre des totaux pour les
interactions de deux facteurs, etc, en suivant la mthode illustre dans la Section 4.4.1.
Lanalyse dun PFF 2
5-1
est illustre avec des donnes hypothtiques issue dun essai dont le
schma, dcrit la Figure 4.8, est conforme celui dun PEBAC. La rponse aux diffrentes
combinaisons de traitement, mesure par le rendement en fourrage (tonnes/ha), est reporte dans le
Tableau 4.21. Les cinq facteurs taient lis aux diffrentes composantes dun programme
damnagement du sol (application de matire organique, fertilisation, dsherbage, irrigation et
chaulage).
Tableau 4.21. Donnes sur le rendement en fourrage drives dune exprience
factorielle 2
5-1
Combinaison
de traitement
Rendement en fourrage (t/ha) Total du
traitement
(T
i
)
Replication I Replication II
acde 1.01 1.04 2.06
bcde 1.01 0.96 1.98
abde 0.97 0.94 1.92
de 0.82 0.75 1.58
abce 0.92 0.95 1.88
ce 0.77 0.75 1.53
ae 0.77 0.77 1.55
be 0.76 0.80 1.57
abcd 0.97 0.99 1.97
cd 0.92 0.88 1.80
ad 0.80 0.87 1.68
bd 0.82 0.80 1.63
ac 0.91 0.87 1.79
bc 0.79 0.76 1.55
ab 0.86 0.87 1.74
1 0.73 0.69 1.42
Total
rptition (R
j
) 13.83 13.69
Total gnral (G) 27.52
Lanalyse de variance se calcule en plusieurs tapes :
*Etape 1. Dresser le tableau prliminaire de lanalyse de variance prsente dans le Tableau 4.22.
Plan et analyse dexpriences
- 104 -
*Etape 2. Dterminer le nombre de facteurs rels (k) avec deux niveaux chacun, donnant lieu un
nombre total de traitements factoriels gal au nombre de traitements (t) inclus dans
lexprience (2
k
= t). Slectionner ensuite lensemble des k facteurs rels particuliers dans
lensemble initial de n facteurs. Les (n - k) facteurs restants sont appels facteurs factices.
Dans notre exemple, les t = 16 combinaisons de traitements correspondent un ensemble
complet de 2
k
combinaisons factorielles avec k = 4. Dans un souci de simplification, nous
dirons que les quatre premiers facteurs A, B, C et D sont les facteurs rels, E tant le facteur
factice.
Tableau 4.22. Reprsentation schmatique de lanalyse de variance dun PFF 2
5-1
deux
rptitions, sinscrivant dans un PEBAC.
Source de
variation
Degr de
libert
(df)
Somme des
carrs
(SS)
Carr moyen

MS
SS
df

_
,

F calcul
Bloc r-1=1 SSR MSR
MSR MSE
A 1 SSA MSA
MSA MSE
B 1 SSB MSB
MSB MSE
C 1 SSC MSC
MSC MSE
D 1 SSD MSD
MSD MSE
E 1 SSE
@
MSE
@
MSE MSE
@
AB 1 SSAB MSAB
MSAB MSE
AC 1 SSAC MSAC
MSAC MSE
AD 1 SSAD MSAD
MSAD MSE
AE 1 SSAE MSAE
MSAE MSE
BC 1 SSBC MSBC
MSBC MSE
BD 1 SSBD MSBD
MSBD MSE
BE 1 SSBE MSBE
MSBE MSE
CD 1 SSCD MSCD
MSCD MSE
CE 1 SSCE MSCE
MSCE MSE
DE 1 SSDE MSDE
MSDE MSE
Erreur 15 SSE MSE
Total (r 2
5-1
)-1 SSTO
@
Cette SS est la somme des carrs dus au facteur E, ne pas confondre avec la
somme des carrs dus lerreur (SSE) figurant plus bas dans le tableau. Le degr de
Plan et analyse dexpriences
- 105 -
libert de lerreur peut tre obtenu en soustrayant du degr de libert total le degr
de libert relatif au bloc et les effets factoriels.
*Etape 3. Ranger les t traitements dans un ordre logique, daprs les k facteurs rels, en
commenant par les traitements ayant le plus petit nombre de lettres (ab avant abc, abc
avant abcd, et ainsi de suite). Si le traitement (1) est prsent dans lensemble de t
traitements, il est toujours le premier de la liste. Les traitements ayant le mme nombre de
lettres son rangs suivant lordre lexicographique. Par exemple, ab est devant ac, ad devant
bc, et ainsi de suite. Toutes les lettres didentification des traitements correspondant des
facteurs factices sont ignores dans le processus de classement. Dans notre exemple, le
facteur E est le facteur factice ; la combinaison ae est donc simplement note a, de sorte
quelle vient avant ab. Les 16 traitements de notre exemple, classs dans cet ordre logique,
figurent dans la premire colonne du Tableau 4.23. On notera que les traitements sont
numrs systmatiquement, sans tenir compte de leur allocation dans les blocs, et que le
facteur factice E est indiqu entre parenthses.
*Etape 4. Calculer les t totaux des effets factoriels: Prendre les totaux des traitements t comme
ensemble initial ou valeurs de T
0
. Dans notre exemple, lensemble des 16 valeurs de T
0
,
ranges dans lordre logique, est report dans la deuxime colonne du Tableau 4.23.
Ensuite, regrouper les valeurs de T
0
en deux paires successives t/2. Dans notre exemple, les
paires successives sont au nombre de 8 : la premire paire est 1.42 et 1.54, la seconde est
1.56 et 1.73, et la dernire est 1.97 et 1.96. Ajouter les valeurs des deux traitements dans
chacune des paires t/2 formes. Les rsultats constituent la premire moiti du deuxime
ensemble, ou valeurs de T
1
. Dans notre exemple, la premire moiti des valeurs de T
1
se
calcule comme suit :
2.96 = 1.42 + 1.54
3.29 = 1.56 + 1.73
.
.
3.93 = 1.97 + 1.96
Dans chacune des t/2 paires de T
0
, soustraire la premire valeur de la seconde pour former la moiti
basse des valeurs de T
1
. Dans notre exemple, la deuxime moiti des valeurs de T
1
se calcule
comme suit :
-0.12 = 1.42 - 1.54
-0.17 = 1.56 - 1.73
.
.
0.01 = 1.97 - 1.96
Les rsultats de ces oprations sont reports dans la troisime colonne du Tableau 4.23.
Refaire les oprations prcdentes, en utilisant prsent les valeurs de T
1
la place des valeurs de
T
0
pour driver le troisime ensemble, ou valeurs de T
2
. Dans notre exemple, les rsultats des
oprations appliques aux valeurs de T
1
pour obtenir les valeurs de T
2
figurent dans la quatrime
colonne du Tableau 4.23. Rptez lopration (n - 1) fois, o n est le nombre total de facteurs
Plan et analyse dexpriences
- 106 -
compris dans lexprience. A chaque fois, utilisez les nouvelles valeurs drives de T. Dans notre
exemple, lopration est rpte encore deux fois pour driver les valeurs de T
3
et de T
4
, reportes
dans la cinquime et la sixime colonnes du Tableau 4.23.
Tableau 4.23. Application de la mthode de Yates, pour le calcul des sommes des carrs dun PFF
2
5-1
avec les donnes du Tableau 4.21
Traitem
ent T
0
T
1
T
2
T
3
T
4
Identification de
leffet factoriel
( )
4
2
T
r
n
2
1
Initial Final
(1) 1.42 2.96 6.25 12.97 27.52 (G) (G) 23.667
a(e) 1.54 3.29 6.72 14.55 -1.50 A AE 0.070
b(e) 1.56 3.30 6.77 -0.87 -0.82 B BE 0.021
ab 1.73 3.42 7.78 -0.63 0.04 AB AB 0.000
c(e) 1.52 3.24 -0.29 -0.45 -1.48 C CE 0.068
ac 1.78 3.53 -0.58 -0.37 0.14 AC AC 0.001
bc 1.55 3.85 -0.39 0.11 -0.42 BC BC 0.006
abc(e) 1.87 3.93 -0.24 -0.07 0.44 ABC D 0.006
d(e) 1.57 -0.12 -0.33 -0.47 -1.58 D DE 0.078
ad 1.67 -0.17 -0.12 -1.01 -0.24 AD AD 0.002
bd 1.62 -0.26 -0.29 0.29 -0.08 BD BD 0.000
abd(e) 1.91 -0.32 -0.08 -0.15 0.18 ABD C 0.001
cd 1.80 -0.10 0.05 -0.21 0.54 CD CD 0.009
acd(e) 2.05 -0.29 0.06 -0.21 0.44 ACD B 0.006
bcd(e) 1.97 -0.25 0.19 -0.01 0.00 BCD A 0.000
abcd 1.96 0.01 -0.26 0.45 -0.46 ABCD E 0.007
*Etape 5. Identifier leffet factoriel spcifique reprsent par chacune des valeurs du dernier
ensemble (communment appel totaux des effets factoriels) drives lors de lEtape 4.
Procder somme suit : la premire valeur reprsente le total gnral (G). En ce qui concerne
les (t 1)valeurs restantes, assignez les effets factoriels prliminaires conformment aux
lettres des traitements correspondants, en ignorant les facteurs factices.
Par exemple, la seconde valeur de T
4
correspond aux combinaisons de traitement a (e), de sorte
quelle est assigne leffet principal A. La quatrime valeur de T
4
correspond au traitement ab et
est assigne leffet de linteraction AB, et ainsi de suite. Les rsultats relatifs aux 16 traitements
sont reports dans la septime colonne du Tableau 4.23. Pour les traitements dans lesquels intervient
le facteur factice, ajuster les effets factoriels prliminaires comme suit. Identifier tous les effets
associs au facteur factice E pouvant tre estims dans le cadre du plan. Dans notre exemple, ceux-
ci sont leffet principal de E et la totalit de ses interactions deux facteurs AE, BE, CE et DE.
Identifier les alias de tous les effets numrs comme prliminaires . Lalias de tout effet est dfini
comme tant linteraction gnralise de cet effet avec le contraste dterminant. Linteraction
gnralise entre deux effets factoriels quelconques sobtient en combinant toutes les lettres qui
apparaissent dans les deux effets puis en supprimant toutes celles que lon retrouve deux fois. Par
exemple, linteraction gnralise entre ABC et AB est AABBC ou C. Dans notre exemple, le
contraste dterminant est ABCDE, les alias des cinq effets associs au facteurs factice E sont :
E=ABCD, AE=BCD, BE=ACD, CE=ABD et DE=ABC.
Plan et analyse dexpriences
- 107 -
Les deux effets factoriels intervenant dans chaque paire dalias (lun gauche, et lautre droite du
signe gal) sont indissociables (ils ne peuvent pas tre estims sparment). Par exemple, pour la
premire paire (E et ABCD), leffet principal du facteur E, ne peut pas tre spar de leffet
dinteraction ABCD. A moins que lon sache quune des paires est absente, il ny a donc aucun
moyen de savoir quelle est celle qui contribue lestimation obtenue.
Remplacer tous les effets factoriels prliminaires qui sont des alias des effets estimables associs au
facteur factice, par ce dernier facteur. Par exemple, tant donn que ABCD (dernier traitement du
Tableau 4.23) est lalias de E, il est remplac par E. De la mme manire, BCDE est remplac par
A, ACDE par B et ainsi de suite Les rsultats finaux de lidentification des effets factoriels figurent
dans la huitime colonne du Tableau 4.23.
*Etape 6. Ajouter au Tableau 4.23 une colonne supplmentaire
( )
4
2
T
r
n
2
1
, o r est le nombre de
rptitions et n le nombre de facteurs inclus dans lexprience. La valeur de cette colonne
correspondant G dans la colonne prcdente sera le facteur de correction. Les autres valeurs de
cette colonne seront la somme des carrs correspondant aux effets identifis dans la colonne
prcdente.
*Etape 7. Calculer les SS ds aux autres effets pour complter lanalyse de la variance. Supposons
que y
ij
reprsente la valeur obtenue avec le i- me traitement de la j-me rptition.
C F
G
rt
. .
2
(4.32)
=
( )( )
12 37
2 16
2
.
= 23.6672
SSTO


y C F
ij
j
r
i
t
2
1 1
. . (4.33)
( ) ( )
[ ]
+ + + 101 104 069 236672
2 2 2
. . . . . . ( . )
= 0.2866
SSR

R
C F
j
j
r
n
2
1
1
2
. . (4.34)

( )

1383 1369
2
236672
2 2
4
. ( . )
.
= 0.0006
SST

T
r
C F
i
i
t
2
1
. . (4.35)

( )

+ +

(1.42) + (1.54)
2 2
......... .
.
196
4
236672
2
Plan et analyse dexpriences
- 108 -
= 0.2748
Plan et analyse dexpriences
- 109 -
SSE = SSTO - SSR - SST (4.36)
= 0.2866 - 0.2748 - 0.0006
= 0.01
*Etape 8. Calculer le carr moyen (MS) de chaque source de variation en divisant chaque SS par
son degr de libert df. Ici, le MS correspondant chaque effet factoriel sera gal sa SS
puisque, dans chaque cas, le df de ces effets est gal 1.
*Etape 9. Calculer la valeur de F correspondant chaque terme du tableau danalyse de variance en
divisant les valeurs de MS par les valeurs des MS de lerreur. Lanalyse de variance finale est
illustre au Tableau 4.24.
Tableau 4.24. Analyse de variance des donnes du Tableau 4.21 correspondant un plan
dexprience factoriel 2
5-1
.
Source de
variation
Degrs de
libert
Sommes des
carrs
Carrs
moyens
F calcul F
Tabulaire
5%
Rptition 1 0.0006 0.0006 0.86
ns
4.54
A 1 0.000 0.000 0.00
ns
4.54
B 1 0.006 0.006 8.57* 4.54
C 1 0.001 0.001 1.43
ns
4.54
D 1 0.006 0.006 8.57* 4.54
E 1 0.007 0.007 10.00* 4.54
AB 1 0.000 0.000 0.00
ns
4.54
AC 1 0.001 0.001 1.43
ns
4.54
AD 1 0.002 0.002 2.86
ns
4.54
AE 1 0.070 0.070 100.00* 4.54
BC 1 0.006 0.006 8.57* 4.54
BD 1 0.000 0.000 0.00
ns
4.54
BE 1 0.021 0.021 30.00* 4.54
CD 1 0.009 0.009 12.86* 4.54
CE 1 0.068 0.068 97.14* 4.54
DE 1 0.078 0.078 111.43* 4.54
Erreur 15 0.010 0.0007
Total 31 0.2866
* Significatif au seuil de 5% l,
ns
= non significatif au seuil de 5%
*Etape 11.Comparer chaque valeur calcule de F avec les valeurs tabulaires de F correspondantes,
tires de lAnnexe 3, avec f
1
= df du MS du numrateur et f
2
= df de lerreur. Les rsultats
montrent que les effets principaux B, D et E et les interactions de deux facteurs AE, BC, BE,
CD, CE et AE sont hautement significatifs et que les effets principaux A et C et les
interactions de deux facteurs AB, AC, AD et BD ne sont pas significatives.
Plan et analyse dexpriences
- 110 -
4.5.3. Comparaison de moyennes
La procdure dcrite dans la section 4.4.2. pour comparer des moyennes dans des plans
dexprience factoriels complets sapplique galement dans le cas dun PFF. Il ne faut pas oublier
toutefois que, dans un plan dexprience factoriel 2
5-1
, seules les moyennes de tableaux une ou
deux entres peuvent tre compares laide de la procdure des comparaisons multiples.
4.6. Dispositif en parcelles divises
Lexprience avec parcelles divises (ou dispositif en tiroir) convient trs bien dans le cas dune
exprience deux facteurs dans laquelle les niveaux dun des deux facteurs ne peuvent tre tests
que dans des parcelles de grande taille et se caractrisent par des effets trs diffrents. Dans une telle
situation, lexprience sera forme dun ensemble de grandes parcelles dans lesquelles des
niveaux sont assigns au facteur de grande parcelle. Chaque grande parcelle est divise en petites
parcelles auxquelles est assign le second facteur. Chaque grande parcelle devient ainsi un bloc pour
les traitements des petites parcelles (cest--dire les niveaux du facteur de petite parcelle). Le facteur
de grande parcelle peut en ralit tre allou suivant lun des systmes existant ( plan entirement
randomis, plan en blocs alatoires complets, ou carr latin) mais ici seul le plan entirement
randomis est envisag pour le facteur de grande parcelle, car cest probablement le plan le plus
appropri et le plus couramment employ pour les expriences forestires.
Avec un dispositif en parcelles divises, la prcision de la mesure des effets du facteur de grande
parcelle est sacrifie au profit de celle du facteur de la petite parcelle. La mesure de leffet principal
du facteur de petite parcelle et son interaction avec le facteur de grande parcelle sont plus prcises
que celles qui peuvent tre obtenues avec un plan en blocs alatoires complets. En revanche, la
mesure des effets des traitements des grandes parcelles (les niveaux du facteur des grandes
parcelles) est moins prcise que celle que lon obtiendrait avec un plan en blocs alatoires complets.
4.6.1. Dispositif
Un dispositif en parcelles divises comprend deux processus de randomisation distincts un pour les
grandes parcelles et lautre pour les petites parcelles. Dans chaque rptition, on commence par
allouer au hasard les traitements des grandes parcelles, puis ceux des petites parcelles formes
lintrieur de chaque grande parcelle.
Ceci sera illustr par une exprience deux facteurs comprenant quatre niveaux dazote (traitements
des grandes parcelles) et trois clones deucalyptus (traitement des petites parcelles), avec trois
rptitions. Ici, les doses dengrais ont t choisies pour les grandes parcelles, principalement en
fonction de leur facilit dapplication et de contrle de leffet de lessivage et pour dtecter la
prsence dune interaction entre les engrais et les clones. Dans notre description des tapes de la
randomisation et de la dfinition dun dispositif en parcelles divises, a est le nombre de traitements
des grandes parcelles, b est le nombre de traitements des petites parcelles et r est le nombre de
rptitions.
*Etape 1. Diviser la surface exprimentale en r = 3 blocs, dont chacun sera divis en a = 4 grandes
parcelles, comme dans la Figure 4.9.
Plan et analyse dexpriences
- 111 -
*Etape 2. Suivant la procdure de randomisation dun PEBAC avec a = 4 traitements et r = 3
rptitions allouer au hasard les 4 traitements lazote aux 4 grandes parcelles se trouvant
lintrieur des 3 blocs. Le rsultat se prsentera comme dans la Figure 4.10.
*Etape 3. Diviser chacune des ra = 12 grandes parcelles en b = 3 petites parcelles et en suivant la
procdure de randomisation dun PEBAC pour b = 3 traitements et ra = 12 rptitions,
allouer au hasard les 3 clones aux 3 petites parcelles se trouvant dans chacune des 12
grandes parcelles. Le rsultat se prsentera comme dans la Figure 4.11.
Figure 4.9. Division de la surface exprimentale en trois blocs (rptitions) composs de
quatre grandes parcelles, comme premire tape de la dfinition dune exprience en
parcelles divises comportant trois rptitions et quatre traitements par grande parcelle.
Grandes parcelles Grandes parcelles Grandes parcelles
1 2 3 4 1 2 3 4 1 2 3 4
Rptition I Rptition II Rptition III
Figure 4.10. Allocation alatoire de quatre niveaux dazote (n
0
, n
1
, n
2
et n
3
) aux quatre
grandes parcelles, dans chacune des trois rptitions de la Figure 4.9.
n
3
n
1
n
0
n
2
n
1
n
0
n
3
n
2
n
0
n
1
n
2
n
3
Rptition I Rptition II Rptition III
Figure 4.11. Reprsentation type dune exprience en parcelles divises avec trois clones
deucalyptus (v
1,
v
2
et

v
3
) (traitements des petites parcelles) et quatre niveaux dazote (n
0
, n
1
, n
2
et n
3
) (traitements des grandes parcelles, dans trois rptitions).
n
3
n
1
n
0
n
2
n
1
n
0
n
5
n
2
n
0
n
1
n
2
n
3
v
2
v
1
v
1
v
2
v
1
v
3
v
3
v
1
v
4
v
3
v
3
v
1
v
1
v
3
v
2
v
3
v
3
v
1
v
2
v
2
v
2
v
4
v
2
v
3
v
3
v
2
v
3
v
1
v
2
v
2
v
1
v
3
v
1
v
1
v
4
v
2
Rptition I Rptition II Rptition III
Le schma dun champ, dans une exprience en parcelles divises (comme celle de la Figure 4.11) a
quelques caractristiques importantes: i) La taille de la grande parcelle est b fois plus grande que
celle de la petite parcelle. Dans notre exemple, avec 3 varits (b = 3) la grande parcelle est 3 fois
plus grande que la petite ; ii) Chaque traitement de grande parcelle est test r fois, alors que chaque
traitement de petite parcelle est test ar fois. Ainsi, les traitements des petites parcelles sont toujours
tests un plus grand nombre de fois que ceux des grandes parcelles, ce qui explique leur plus grande
prcision. Dans notre exemple, chacun des 4 niveaux dazote est test trois fois, mais chacun des 3
clones est test douze fois.
Plan et analyse dexpriences
- 112 -
4.6.2. Analyse de variance
Lanalyse de variance dune exprience en parcelles divises se fait en deux temps: lanalyse des
grandes parcelles, et lanalyse des petites parcelles. Les calculs sont prsents laide des
donnes issues dune exprience deux facteurs sur les eucalyptus, comportant deux traitements
sylvicoles (taille de la fosse) et 4 traitements dengrais. Les donnes sur la hauteur des plants un an
aprs la plantation sont reportes dans le Tableau 4.25.
Tableau 4.25. Donnes sur la hauteur (en cm) de plants d Eucalyptus tereticornis
drives dune exprience en parcelles divises, mene en champ.
Hauteur (en cm)
Engrais
Rptition I Rptition II Rptition III
Taille de la fosse (30 cm x 30 cm x 30 cm) - p
0
f
0
25.38 61.35 37.00
f
1
46.56 66.73 28.00
f
2
66.22 35.70 35.70
f
3
30.68 58.96 21.58
Taille de la fosse (40 cm x 40 cm x 40 cm) - p
1
f
0
19.26 55.80 57.60
f
1
19.96 33.96 31.70
f
2
22.22 58.40 51.98
f
3
16.82 45.60 26.55
Notons A le facteur des grandes parcelles (taille de la fosse) et B, le facteur des petites parcelles
(traitements dengrais). Effectuer comme suit lanalyse de variance:
*Etape 1. Dresser une table prliminaire de lanalyse de variance dun plan en parcelles divises.
Plan et analyse dexpriences
- 113 -
Tableau 4.26. Reprsentation schmatique de lanalyse de variance dun plan en parcelles divises.
Source de Degr de
libert
Somme des Carr moyen
variation (df) carrs
(SS)
MS
SS
df

_
,

F calcul
Rptition r - 1 SSR MSR
MSR MSE
a
A a - 1 SSA MSA
MSR MSE
a
Erreur (a) (r - 1)(a - 1) SSE
a
MSE
a
B b - 1 SSB MSB
MSR MSE
b
AB (a - 1)(b - 1) SSAB MSAB
MSR MSE
b
Erreur (b) a(r - 1)(b - 1) SSE
b
MSE
b
Total rab - 1 SSTO
*Etape 2. Faire les deux tableaux des totaux suivants:
i) Tableau des totaux deux entres : rptition x facteur A, avec les totaux des rptitions,
les totaux du facteur A et le total gnral: Dans notre exemple, le tableau des totaux
((RA)
ki
) rptitions x taille de la fosse, avec les totaux de la rptition (R
k
), les totaux de la
taille de la fosse (A
i
) et le total gnral (G) calculs est prsent au Tableau 4.27.
Tableau 4.27. Tableau des totaux des hauteurs rptition x taille de la fosse, calculs partir des
donnes du Tableau 4.25
Taille de la fosse Rp. I Rp. II Rp. III (A
i
)
p
0
168.84 222.74 122.28 513.86
p
1
78.26 193.76 167.83 439.85
Total rp. (R
k
) 247.10 416.50 290.10
Total gnral
(G)
953.70
ii) Le tableau des totaux double entre facteur A x facteur B : Dans notre exemple, le
tableau des totaux (AB) taille de la fosse x traitement dengrais, avec le calcul des totaux
des traitements dengrais (B
j
) est prsent au Tableau 4.28.
Plan et analyse dexpriences
- 114 -
Tableau 4.28. Tableau des totaux des hauteurs taille de la fosse x traitement dengrais, calculs
partir des donnes du Tableau 4.25
Traitement dengrais
Taille de la fosse f
0
f
1
f
2
f
3
p
0
123.73 141.29 137.62 111.22
p
1
132.66 85.62 132.60 88.97
Total (B
j
) 256.39 226.91 270.22 200.19
*Etape 3. Calculer comme suit le facteur de correction et les sommes des carrs, pour lanalyse des
grandes parcelles. Notons y
ijk
la rponse observe sur la i-me grande parcelle, la j-me
petite parcelle, dans la k-me rptition.
C. F.
G
rab
2
(4.37)
=
( )
( ) ( )
953.70
37897.92
2
3 4

( ) 2

SSTO = y
ijk
k
r
j
b
i
a
2
1 1 1

C. F.
(4.38)
= [(25.38)
2
+ (46.56)
2
+ + (26.55)
2
] - 37897.92
= 6133.10
SSR =
R
k
k
r
2
1

ab
C. F. (4.39)
=
( )( )
(247.10) + (416.50) + (290.10)
37897.92
2 2 2
2 4

= 1938.51
SSA =
A
i
i
a
2
1

rb
C.F. (4.40)
=
( ) ( )
( )( )
513.86 439.85
37897.92
2 2
+
3 4

= 228.25
Plan et analyse dexpriences
- 115 -
SSE
a
=
( )
( ) RA
C F SSR
ki
i
a
k
r
2
1


b
SSA . (4.41)
=
( ) ( )
( )
168.84
40064.68
2 2
. . . 167.83
4
+ +

= 1161.70
*Etape 4. Calculer comme suit les sommes des carrs pour lanalyse des petites parcelles:
SSB =
B
j
j
b
2
1

ra
C.F. (4.42)
=
( ) ( )
( )( )
256.39 200.19
37897.92
2 2
. . .
3 2

+ +

= 488.03
SSAB =
( )
( ) AB
ij
j
b
i
a
2
1 1


r
C.F. SSB SSA (4.43)
=
( ) ( ) 123.73
2 2
... 88.97
3
+ +
- 37897.92 - 488.03 - 1161.70
= 388.31
SSE
b
= SSTO - SSR - SSA - SSB - SSAB-SSE
a
(4.44)
= 6133.10 - 1938.51 - 228.25 - 488.03 - 388.31
= 3090.00
*Etape 5. Pour chaque source de variation, calculer le carr moyen en divisant SS par le degr de
libert df qui lui est associ. La valeur de F de chaque effet tester se calcule en divisant
chaque carr moyen par le terme derreur correspondant (voir Tableau 4.26).
*Etape 6. Entrer dans le tableau danalyse de variance toutes les valeurs obtenues de ltape 3
ltape 5, comme indiqu dans le tableau 4.29; puis comparer chacune des valeurs calcules
de F avec les valeurs tabulaires de F correspondantes, et indiquer si la diffrence est
significative ou non, laide de lastrisque ou du signe appropri. Pour chaque effet dont la
valeur calcule de F nest pas infrieure 1, chercher dans lAnnexe 3 la valeur tabulaire de
F, avec f
1
= df du MS du numrateur et f
2
= df du MS du dnominateur, au seuil de
signification dtermin au pralable. Par exemple, la valeur tabulaire de F pour tester leffet
AB est de 3.49 au seuil de signification de 5%, pour 3 et 12 degrs de libert.
Plan et analyse dexpriences
- 116 -
Tableau 4.29. Analyse de variance des donnes du Tableau 4.20 issues dune exprience en
parcelles divises
Source de Degr de
libert
Somme
des
Carr F F tabulaire
variation carrs moyen calcul 5%
Rptition 2 1938.51 969.26
A 1 228.25 228.25 0.3930
ns
4.75
Erreur (a) 2 1161.70 580.85
B 3 488.03 162.68 0.6318
ns
3.49
AB 3 388.31 129.44 0.5027
ns
3.49
Erreur (b) 12 3090.00 257.50
Total 23 37897.92

ns
Non significatif au seuil de 5%
*Etape 7. Calculer les deux coefficients de variation relatifs lanalyse des grandes parcelles et
lanalyse des petites parcelles.
[ ]
[ ]
2
2 4 4
4
2
2
jj ii
k ) 2 k ( n 2
)

( Cov
+

(4.45)

228.25
39.54
x 100 60.95%

<
+ + +
j i
j i ij
i
2
i ii
i
i i 0
x x

x

y (4.46)
=
257.50
40.58%
39.54
x 100
La valeur de cv (a) indique le degr de prcision associ au facteur des grandes parcelles. La valeur
de cv(b) indique le degr de prcision du facteur des petites parcelles et de son interaction avec le
facteur des grandes parcelles. En principe, la valeur de cv(b) est infrieure celle de cv(a) car,
comme on la dj indiqu, le facteur assign aux grandes parcelles est gnralement mesur avec
moins de prcision que celui assign aux petites parcelles. Dans notre exemple, cv(b) est infrieur
cv(a), mais les deux valeurs taient suffisamment leves pour masquer toute ventuelle diffrence
des traitements, ce qui rend non significatifs tous les effets des facteurs dans lanalyse de la variance.
4.6.3. Comparaison de traitements
Dans une exprience en parcelles divises, quatre types de comparaisons apparies sont possibles.
Chacune doit avoir un ensemble de valeurs de la PPDS qui lui est propre. Ces comparaisons sont les
suivantes :
Type-(1). Comparaisons entre deux moyennes de traitement des grandes parcelles, calcules sur
tous les traitements des petites parcelles.
Plan et analyse dexpriences
- 117 -
Type-(2). Comparaison entre deux moyennes de traitement des petites parcelles, calcules sur tous
les traitements des grandes parcelles.
Type-(3). Comparaison entre deux moyennes de traitement de petites parcelles, par rapport au
mme traitement des grandes parcelles.
Type-(4). Comparaison entre deux moyennes des traitements des grandes parcelles, au niveau de
traitements de petites parcelles similaires ou diffrents (ou moyennes de deux combinaisons de
traitements quelconques)
Tableau 4.30 Erreur type de la diffrence moyenne pour chacun des 4 types de comparaisons de
paires
Type de comparaison de paire s
d
Type-(1) : Entre deux moyennes de grandes parcelles (moyennes
calcules sur tous les traitements des petites parcelles)
2E
a
rb
Type-(2) : Entre deux moyennes de petites parcelles (moyennes
calcules sur tous les traitements des grandes
parcelles)
2E
b
ra
Type-(3) : Entre deux moyennes de petites parcelles, au niveau
du mme traitement de grande parcelle
2E
b
r
Type-(4) : Entre deux moyennes de grande parcelle des niveaux
de traitements de petites parcelles gaux ou diffrents
[ ]
2 1 ( ) b E E
b a
+
rb
Note : E
a
= MSE
a
, E
b
= MSE
b
, r = nombre de rptitions, a = nombre de traitements de grande
parcelle, et b = nombre de traitements de petites parcelles.
Lorsque le calcul de s
d
fait intervenir plus dun terme derreur, comme cest le cas dans les
comparaisons de Type-(4), les valeurs tabulaires de t, tires de lAnnexe 2 ne peuvent pas tre
utilises telles quelles et il faut calculer des valeurs tabulaires pondres de t. Dans ce cas ces valeurs
sont donnes par la formule:
Valeur tabulaire pondre de t =
(b - 1) E t E t
(b - 1) E E
b b a a
b a
+
+
(4.47)
o t
a
est la valeur de t pour le df de lerreur (a) et t
b
est la valeur de t pour le df de lerreur (b).
A titre dexemple, prenons lexprience factorielle 2 x 4 dont les donnes sont reportes dans le
Tableau 4.25. Bien que lanalyse de variance (Tableau 4.29) montre que les trois effets (cest--dire
les deux effets principaux et leffet dinteraction) ne sont pas significatifs, imaginons pour illustrer
notre exemple, quil existe une interaction significative entre la taille de la fosse et lengrais. En
dautres termes, on suppose que leffet de lengrais varie avec la taille de la fosse. En pareil cas, la
comparaison entre les moyennes des niveaux taille de la fosse , calcules par rapport tous les
niveaux dengrais, ou entre les moyennes des niveaux dengrais, calcules par rapport tous les
niveaux taille de la fosse , ne serait pas valide. Les comparaisons les plus appropries seront celles
entre les moyennes des engrais, pour des fosses de mme taille, ou entre les moyennes des tailles des
fosses, pour un mme dosage dengrais. Ainsi, les tapes de calcul de la PPDS, permettant la
Plan et analyse dexpriences
- 118 -
comparaison de deux moyennes affrentes aux petites parcelles, pour un mme traitement de grande
parcelle, sont les suivantes :
*Etape 1. Calculer lerreur type de la diffrence entre moyennes, laide de la formule applicable
la comparaison de Type-(3) du Tableau 4.30.
s
E
r
d
b

2
=
( ) 2 2575
3
327
.
.
*Etape 2. Grce la formule ( )( ) LSD

t s
v d ;
, calculer la valeur de la PPDS (ou LSD) au seuil
de signification de 5%, avec la valeur tabulaire de t correspondant 12 degrs de libert de
lerreur (b)
( )( ) LSD
.
. . .
05
218 327 7129
*Etape 3. Dresser le tableau double entre (taille de la fosse x engrais) des moyennes des
diffrences de hauteur, comme indiqu dans le Tableau 4.31. Comparer les diffrences de
hauteur moyenne entre les niveaux dengrais observes pour chaque taille de la fosse, avec la
valeur de la PPDS (ou LSD) calcule lEtape 2, et identifiez le cas chant les diffrences
significatives.
Tableau 4.31. Diffrence entre la hauteur moyenne des plants deucalyptus, quatre niveaux
dengrais pour une fosse ayant une taille de 30 cm x 30cm x 30 cm, sur la base des donnes du
Tableau 4.25.
Diffrence de hauteur moyenne (en cm), p
0
f
0
f
1
f
2
f
3
f
0
0.00 -5.86 -4.63 4.17
f
1
0.00 1.23 10.03
f
2
0.00 8.80
f
3
0.00
Diffrence de hauteur moyenne (en cm), p
1
f
0
f
1
f
2
f
3
f
0
0.00 15.68 0.02 14.56
f
1
0.00 -15.66 -1.12
f
2
0.00 14.54
f
3
0.00
Plan et analyse dexpriences
- 119 -
4.7. Plan en treillis
En thorie, les plans en blocs complets, comme les PEBAC, sont applicables toutes les
expriences quel que soit le nombre de traitements, toutefois, plus ils sont nombreux, moins ils sont
efficaces car les blocs perdent leur homognit en raison de leur grande taille. Il existe un autre type
de plans pour les expriences un seul facteur comprenant un grand nombre de traitements. Ce sont
les plans en blocs incomplets, dans lesquels, comme leur nom lindique, chaque bloc ne contient pas
tous les traitements, de sorte que les blocs peuvent tre maintenus une taille raisonnable, mme si le
nombre de traitements est lev. Comme les blocs sont incomplets, la comparaison des traitements
apparaissant ensemble dans un bloc est plus prcise que celle des autres traitements. Cet
inconvnient peut tre contourn, sachant que dans le plan densemble, chaque paire de traitement
apparat un nombre gal de fois dans un mme bloc. On dit de ces plans quils sont quilibrs , ou
compenss . Etant donn quil faut un grand nombre de rptitions pour arriver un quilibre
complet, on peut opter pour un plan partiellement quilibr (ou partiellement compens), dans lequel
sont admis des degrs de prcision variables selon les groupes de traitements qui sont compars.
Dans la catgorie des plans en blocs incomplets, on utilise souvent pour les expriences forestires
des plans en treillis, dans lesquels le nombre de traitements est un carr parfait et les blocs peuvent
tre groups en ensembles complets de rptitions. Les paragraphes qui suivent seront spcialement
consacrs ltude spcifique des plans en treillis simple.
4.7.1. Plan en treillis simple
Les plans en treillis simple sont aussi appels treillis doubles ou treillis carrs. Comme le nombre des
traitements doit tre un carr parfait, ces plans peuvent tre construits pour 9, 16, 25, 36, 49, 64,
81, 121,. traitements. Ils ncessitent deux rptitions et ne sont que partiellement quilibrs tant
donn que les traitements sont rpartis en deux groupes, et que la comparaison des traitements est
plus ou moins prcise suivant le groupe. Nous allons illustrer par un exemple la construction et la
reprsentation schmatique du plan, pour 25 traitements.
*Etape 1. Assigner au hasard un nombre de 1 25 chaque traitement. Cette opration est
ncessaire pour viter tout type de variation dorigine inconnue affectant les effets des
traitements.
*Etape 2. Disposer les nombres attribus aux traitements, de 1 25, de faon former un carr,
comme dans la Figure 4.12.
Figure 4.12. Disposition initiale des traitements dans un plan en treillis simple
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25
Plan et analyse dexpriences
- 120 -
*Etape 3. Regrouper les traitements par ligne. On obtient les groupes (1, 2, 3, 4, 5), (6, 7, 8, 9,
10), (11, 12, 13, 14, 15), (16, 17, 18, 19, 20) et (21, 22, 23, 24, 25). A prsent, chaque
bloc constitue un groupe de traitements assign un bloc et les cinq blocs ainsi forms
constituent une rptition complte. Cette mthode de groupement par lignes est
gnralement connue sous le nom de groupement-X ou groupement -A.
*Etape 4. Grouper les traitements par colonne. Les groupes ainsi forms sont (1, 6, 11, 16, 21),
(2, 7, 12, 17, 22), (3, 8, 13, 18, 23), (4, 9, 14, 19, 24) et (5, 10, 15, 20, 25). A prsent
chaque bloc constituera un groupe de traitements assign un bloc et les cinq blocs forment
une rptition complte. Cette mthode de groupement par colonnes est gnralement
connue sous le nom de groupement-Y ou groupement-B.
Les deux groupements-X et Y garantissent que deux traitements qui sont apparus ensemble une fois
dans un mme bloc ne sy retrouveront plus simultanment. Avant la procdure de randomisation, les
deux ensembles de groupements qui viennent dtre dcrits se prsentent, comme dans Figure 4.13.
Figure 4.13. Deux rptitions dun plan en treillis simple, avant la
randomisation
Rptition I (groupement-X)
Bloc No. 1 1 2 3 4 5
Bloc No. 2 6 7 8 9 10
Bloc No. 3 11 12 13 14 15
Bloc No. 4 16 17 18 19 20
Bloc No. 5 21 22 23 24 25
Rptition II (groupement-Y)
Bloc No.6 1 6 11 16 21
Bloc No.7 2 7 12 17 22
Bloc No.8 3 8 13 18 23
Bloc No.9 4 9 14 19 24
Bloc No.10 5 10 15 20 25
Plan et analyse dexpriences
- 121 -
*Etape 5. Dans chaque rptition, les groupes de traitements sont rpartis au hasard lintrieur des
diffrents blocs. On pratique une randomisation distincte pour chaque rptition. Lallocation
des traitements aux parcelles, lintrieur de chaque bloc, se fait aussi de manire alatoire.
La randomisation est pratique sparment pour chaque groupe, de manire indpendante
pour chaque rptition. Enfin, lorsque lon conoit le dispositif des rptitions sur le terrain, il
faut aussi allouer au hasard dans le champ les positions des rptitions X et Y. Cette
procdure dallocation des traitements et des rptitions garantit llimination de tous types
de variations systmatiques inconnues affectant les effets des traitements. A lissue de la
randomisation complte, le plan effectif pourrait se prsenter comme indiqu dans la Figure
4.14.
Figure 4.14. Reprsentation dun plan en treillis simple randomis
Bloc No. 5 25 24 21 23 22
Bloc No. 4 20 19 18 17 16
Bloc No. 1 5 4 1 3 2
Bloc No. 3 13 14 15 12 11
Bloc No. 2 6 9 7 10 8
Bloc No. 6 16 6 1 21 11
Bloc No. 9 19 4 9 14 24
Bloc No. 7 7 2 17 22 12
Bloc No. 10 5 20 25 10 15
Bloc No. 8 23 3 8 18 13
Si, dans chaque rptition, les blocs sont contigus, on pourra, dans certaines conditions, analyser
toute lexprience comme sil sagissait dun PEBAC. On a dj prcis quun plan en treillis simple
ncessitait au moins deux rptitions, lune avec le groupement X, lautre avec le groupement Y des
traitements. Si lon juge prfrable de faire plus de deux rptitions, on choisira un nombre pair, car
les deux groupes (X et Y) devront tre rpts le mme nombre de fois. Lallocation des traitements
se fait selon la procdure prcdente.
Plan et analyse dexpriences
- 122 -
4.7.2. Analyse de variance pour un plan en treillis simple
Dans le cas dun plan de base en treillis simple rpt une seule fois, les tapes de lanalyse de la
variance sont dcrites dans les passages qui suivent, avec les vrifications par le calcul, le cas
chant. Le matriel utilis pour notre dmonstration est extrait dune exprience ralise
Vallakkadavu, dans le Kerala (Inde), et portait sur 25 clones dEucalyptus grandis.
Le Tableau 4.32 montre la disposition effective du champ, avec les positions des blocs et lallocation
des traitements lintrieur de chaque bloc, lissue de la procdure de randomisation. Le chiffre
inscrit dans le coin suprieur gauche de chaque case est le numro didentification du clone, alors
que le chiffre figurant dans le coin infrieur droit se rfre la hauteur moyenne des arbres de la
parcelle, un an aprs la plantation. Lanalyse de variance implique un ajustement des sommes des
carrs des traitements et des blocs, tant donn que les blocs sont incomplets. Cet ajustement ne
serait pas ncessaire pour des plans en blocs complets.
Tableau 4.32. Schma dun plan en treillis double 5 x 5 montrant la croissance en hauteur
(en cm) de clones dEucalyptus grandis.
Rptition - I
Bloc No. 5 25 24 21 23 22
96.40 107.90 119.30 134.30 129.20
Bloc No. 4 20 19 18 17 16
148.00 99.20 101.40 98.00 106.70
Bloc No. 1 5 4 1 3 2
158.00 122.50 136.70 123.60 113.50
Bloc No. 3 13 14 15 12 11
126.80 101.60 111.70 117.30 108.20
Bloc No. 2 6 9 7 10 8
126.80 127.00 119.10 90.90 130.40
Rptition - II
Bloc No. 6 16 6 1 21 11
169.60 157.90 124.10 134.50 112.10
Bloc No. 9 19 4 9 14 24
110.30 153.40 87.10 95.30 120.50
Bloc No. 7 7 2 17 22 12
125.60 151.10 115.90 168.40 93.30
Bloc No. 10 5 20 25 10 15
Plan et analyse dexpriences
- 123 -
126.00 106.80 137.60 132.90 117.30
Bloc No. 8 23 3 8 18 13
133.10 142.70 115.80 128.90 115.80
*Etape 1. Disposer de faon systmatique les blocs dans chaque groupe (groupes X et Y) et les
traitements dans chaque bloc, conformment aux observations, comme dans le Tableau
4.33.
Tableau 4.33. Arrangement systmatique des blocs et des traitements lintrieur des blocs
du Tableau 4.32.
Rptition - I (groupe X)
Bloc No. 1 1 2 3 4 5
136.70 113.50 123.60 122.50 158.00
Bloc No. 2 6 7 8 9 10
126.80 119.10 130.40 127.00 90.90
Bloc No. 3 11 12 13 14 15
108.20 117.30 126.80 101.60 111.70
Bloc No. 4 16 17 18 19 20
106.70 98.00 101.40 99.20 148.00
Bloc No. 5 21 22 23 24 25
119.30 129.20 134.30 107.90 96.40
Rptition - II (groupe Y)
Bloc No. 6 1 6 11 16 21
124.10 157.90 112.10 169.60 134.50
Bloc No. 7 2 7 12 17 22
151.10 125.60 93.30 115.90 168.40
Bloc No. 8 3 8 13 18 23
142.70 115.80 115.80 128.90 133.10
Bloc No. 9 4 9 14 19 24
153.40 87.10 95.30 110.30 120.50
Bloc No. 10 5 10 15 20 25
126.00 132.90 117.30 106.80 137.60
*Etape 2. Dresser le tableau des totaux des traitements en additionnant les rendements de chaque
clone, obtenus dans les deux rptitions (voir Tableau 4.34). Ces totaux ne sont ajusts
aucun effet de bloc.
Plan et analyse dexpriences
- 124 -
Tableau 4.34. Totaux des traitements (clone)
1 2 3 4 5
260.80 264.60 266.30 275.90 284.00
6 7 8 9 10
284.70 244.70 246.20 214.10 223.80
11 12 13 14 15
220.30 210.60 242.60 196.90 229.00
16 17 18 19 20
276.30 213.90 230.30 209.50 254.80
21 22 23 24 25
253.80 297.60 267.40 228.40 234.00
*Etape 3. Calculer les totaux de tous les blocs B
1
, B
2
, , B
10
en sommant les observations
apparaissant dans chaque bloc. Par exemple, le total B
1
du premier bloc est donn par
B
1
= 136.70+113.50+123.60+122.50+158.00 = 654.30
Calculer le total de chaque rptition en sommant les totaux des blocs dans chaque rptition. Pour
la rptition I,
R
1
= B
1
+ B
2
+ B
3
+ B
4
+ B
5
(4.48)
= 654.30 + 594.20 + 565.60 + 553.30 + 587.10
= 2954.50
Calculer le total gnral G = R
1
+ R
2
(4.49)
= 2954.50 + 3176.00
= 6130.50
*Etape 4. Dresser un schma prliminaire de la table danalyse de la variance du treillis simple.
Plan et analyse dexpriences
- 125 -
Tableau 4.35. Reprsentation schmatique de la table danalyse de la variance dun treillis simple
Source de
variation
Degrs de
libert
(df)
Somme
des carrs
(SS)
Carr moyen
MS
SS
df

_
,

Rapport F
calcul
Rptition r - 1 SSR MSR MSR
MSE
Traitement
(non aj.)
k
2
- 1 SST
(non aj.)
MST
(non aj.)
MST
MSE
(unadj.)
Blocs au sein
dune rptition
(aj.)
r(k-1) SSB
(adj.)
MSB
(adj.)
MSB
MSE
(adj.)
Erreur intra-bloc (k-1)(rk-k-
1)
SSE MSE
Total rk
2
- 1 SSTO
*Etape 5. Trouver la somme totale des carrs, la somme des carrs des rptitions et celles des
traitements non ajusts. A cette fin, calculer dabord le facteur de correction (C.F.).
C. F. =
G
n
2
(4.50)
o n = rk
2
r = Nombre de rptitions
k
2
= Nombre de traitements
k

= Nombre de parcelles dans un bloc
C. F. =
( ) 6130.50
2
2 25
= 751660.61
Pour la somme totale des carrs, trouver la somme des carrs de toutes les observations de
lexprience et soustraire le facteur de correction.
SSTO = y C F
2

. . (4.51)
= { (136.70)
2
+ (113.50)
2
+..+ (137.60)
2
} - C. F.
= 770626.43 - 751660.61 = 18965.83
Calculer la somme des carrs des rptitions
SSR =
R R
k
C F
1
2
2
2
2
+
- . . (4.52)
=
( ) ( ) 2 954.50 3176.00

2 2
25
+
751660.61
= 752641.85 - 751660.61 = 981.245
Plan et analyse dexpriences
- 126 -
Calculer la somme des carrs des traitements non ajusts
SST (non aj.) =
T
r
C. F.
i
2
i 1
t

(4.53)
=
( ) 260.80 (264.60) .... (234.00)
2
- 751660.61
2
2 2
+ + +

= 760747.90 - 751660.61 = 9087.29
*Etape 6. Calculer pour chaque bloc, dans la rptition 1 (groupe X), un total ajust C
b
en
soustrayant chaque total de bloc de la rptition 1 du total de la colonne correspondante de
la rptition II (groupe Y), qui contient le mme ensemble de varits (voir Tableau 4.36).
De la mme manire, calculer pour chaque bloc de la rptition II, un total ajust en
soustrayant chaque total de bloc de la rptition II du total de la colonne correspondante de
la rptition I (groupe X), contenant le mme ensemble de varits (voir Tableau 4.37).
Faire le total des valeurs C
b
pour chaque rptition et vrifier si leur somme est nulle.
Total des valeurs C
b
pour la Rptition I = U
1
= 221.50
Total des valeurs C
b
pour la Rptition II = U
2
= -221.50
Cette vrification garantit lexactitude arithmtique des calculs des tapes prcdentes.
Tableau 4.36. Calcul des valeurs de C
b
pour les blocs de la Rptition I
Bloc Total de la
colonne de la
Rptition II
Total du bloc de
la Rptition I
Valeur de C
b
1 697.30 654.30 43.00 (C
1
)
2 619.30 594.20 25.10 (C
2
)
3 533.80 565.60 -31.80 (C
3
)
4 631.50 553.30 78.20 (C
4
)
5 694.10 587.10 107.00 (C
5
)
Total 3176.00 2954.50 221.50 ( R
C1
)
Tableau 4.37. Calcul des valeurs de C
b
pour les blocs de la Rptition II
Bloc Total de la
colonne de la
Rptition I
Total du bloc de
la Rptition II
Valeur de C
b
6 597.70 698.20 -100.50 (C6)
7 577.10 654.30 -77.20 (C7)
8 616.50 636.30 -19.80 (C8)
9 558.20 566.60 -8.40 (C9)
10 605.00 620.60 -15.60 (C10)
Total 2954.50 3176.00 -221.50 ( R
C2
)
Plan et analyse dexpriences
- 127 -
La somme des carrs des blocs ajusts est donne par la relation:
SSB (aj.) =
C
kr r
R
k r r
b
b
Cj
j
2
1
10
2
1
2
2
1 1


( ) ( )
(4.54)
o r = Nombre de rptitions,
k = Nombre de traitements par bloc.
SSB (aj.) =
( )
( )( )( )
( )( )( )
( . ) ....... . ( . ) ( . ) + +

+ 4300 1560
2 5 1
22150 22150
5 2 1
2 2 2
2
2

= 3782.05 - 1962.49 = 1819.56
Pour finir, la somme des carrs des erreurs sobtient par soustraction
SSE = SSTO - SSR - SST (non-aj.) - SSB (aj.) (4.55)
= 18965.83 - 981.24 - 9087.29 - 1819.56
= 7077.73
Remarquons que la somme des carrs due lerreur (SSE) calcule ici reprsente la part de la
variation (de la variable de rponse) entre les parcelles lintrieur de chaque bloc qui est cause
par des facteurs externes non contrls. Elle est donc gnralement appele variance (ou erreur)
intrabloc, alors que la somme des carrs des blocs ajusts est la variance interbloc (ou entre blocs).
*Etape 7. Aprs avoir obtenu les diffrentes sommes des carrs, insrer tous les rsultats dans la
table danalyse de la variance (Tableau 4.38). Les carrs moyens sobtiennent, comme
dhabitude, en divisant les sommes des carrs par les degrs de libert.
Tableau 4.38. Table danalyse de variance dun treillis simple, laide des donnes du Tableau 4.32.
Source de variation Degrs de
libert
(df)
Somme des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

Rapport F
calcul
Rptition 1 981.24 981.24 2.218
Traitement (non aj.) 24 9087.29 378.64 0.856
Blocs lintrieur
dune rptition (aj.)
8 1819.56 227.44 0.514
Erreur intrabloc 16 7077.73 442.36
Total 49 18965.83
Le carr moyen des traitements figurant dans la table danalyse de variance (Tableau 4.38) nest pas
ajust aux effets de bloc. Or, on a dj signal que les moyennes des traitements ne sont pas
exemptes de ces effets. Il sensuit que le test F fourni par lanalyse de la variance nest pas valide
pour dtecter les diffrences de traitements. Avant dappliquer le test F, il faut donc ajuster les
moyennes des traitements compte tenu des effets de bloc et calculer la somme ajuste des carrs des
traitements. Pour ce faire, on suit la procdure dcrite dans ltape 9. Cette procdure peut tre
Plan et analyse dexpriences
- 128 -
adopte si les circonstances lexigent, mais elle impose des calculs supplmentaires qui, sauf
indication contraire, peuvent tre vits. Par exemple, dans un essai en champ comprenant un grand
nombre de traitements, on peut en gnral sattendre trouver une diffrence significative entre les
moyennes des traitements. A partir des rsultats du Tableau 4.38, on peut effectuer lanalyse
prliminaire applicable un PEBAC, test moins sensible aux diffrences des traitements.
*Etape 8. Analyse prliminaire dun PEBAC: Pour obtenir la somme des carrs des erreurs, on
commence par additionner lerreur interbloc et lerreur intrabloc, puis on complte comme
suit la table de lanalyse de variance :
Erreur totale= Erreur Interbloc + Erreur Intrabloc (4.56)
= 1819.56 + 7077.73
= 8897.29
Tableau 4.39. Table danalyse de variance pour une analyse prliminaire dun PEBAC.
Source de
variation
Degrs de
libert
(df)
Somme des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F
calcul
Rptition 1 981.24 981.24
Traitement 24 9087.29 378.64 1.02
Erreur totale 24 8897.29 370.72
Total 49 18965.83
La valeur observe de F (1.02) obtenue en divisant le carr moyen des traitements par le carr
moyen de lerreur totale, est infrieure la valeur tabulaire de F (1,98) au seuil de signification de
5% pour (24, 24) degrs de libert. On en dduit quil ny a pas de diffrence significative entre les
traitements, au seuil de 5%. Lanalyse PEBAC prliminaire ayant donn une valeur non-significative
de F, on doit effectuer un test F plus appropri, en ajustant les sommes des carrs des traitements
aux effets de bloc, car cette procdure ne peut quaugmenter la sensibilit du test. Pour effectuer cet
ajustement de la somme des carrs des traitements en vue dobtenir un test F plus appropri pour
dtecter les diffrences de traitements, on suivra la procdure de ltape 9.
*Etape 9. Calculer les sommes des carrs des traitements ajustes aux effets de bloc: obtenir
dabord la somme des carrs des blocs non ajusts lintrieur des rptitions. Les sommes
B
1
, B
2
, , B
10
des blocs ayant dj t calcules ltape 3, les calculs restants sont
facilits:
SS de bloc non ajust pour la rptition I = SSB
1
(non aj.)
=
B B B
k
R
k
1
2
2
2
5
2
1
2
2
+ + +

. . .
(4.57)
=
( )
( . ) . . . ( . ) . 654 30 58710
5
2954 50
25
2 2 2
+ +


= 1219.75
Plan et analyse dexpriences
- 129 -
SS de bloc non ajust pour la rptition II = SSB
2
(non aj.)
=
B B B
k
R
k
6
2
7
2
10
2
2
2
2
+ + +

. . .
(4.58)
=
( . ) . . . ( . ) ( . ) 698 20 62060
5
317600
25
2 2 2
+ +


= 1850.83
Pour finir, calculer la somme totale des carrs des blocs non ajusts SSB (non aj.)
SSB (non aj.) = SSB
1
(non aj.) + SSB
2
(non aj.) (4.59)
= 1219.75 + 1850.83 = 3070.58
Calculer la quantit de correction Q suivante, retrancher de la somme des carrs des traitements
non ajusts:
Q = k r
r
r k
SSB SSB ( )
( )( )

'

1
]
1
1
1 1

( ) (unadj.) (adj.) (4.60)


o =
E E
k r E
b e
b

( ) 1
(4.61)
o E
b
= Carr moyen interbloc ajust
E
e
= Carr moyen intrabloc
Dans notre exemple, =
227 44 442 36
5 2 1 227 44
. .
( ) .


= - 0.189
Q = ( ) ( ) { } ( )( )( . )
( )( { }{ . })
. . 5 2 1 0189
2
2 1 1 5 0189
307058 1819 56
+

'

1
]
1
= -42989.60
Pour finir, soustraire cette quantit Q de la somme des carrs des traitements non ajuste pour
obtenir leur somme des carrs ajuste.
SST (aj) = SST (non aj.) - Q (4.62)
= 9087.29 - (-42989.60) = 52076.89
Dresser la table danalyse de variance suivante pour tester la signification des effets des traitements.
Plan et analyse dexpriences
- 130 -
Tableau 4.40. Table danalyse de variance pour tester la signification des moyennes ajustes des
traitements.
Source de
variation
Degrs de
libert
(df)
Somme
des
carrs
(SS)
Carr moyen
MS
SS
df

_
,

F
calcul
F
Tabulaire
Traitement (aj.) 25 52076.89 2083.08 4.709 2.24
Erreur intrabloc 16 7077.73 442.358
Dans cet exemple, la valeur calcule de F savre significative au seuil de signification de 5%, ce qui
indique des diffrences significatives entre les traitements. La sensibilit du test F est plus grande
aprs llimination des effets de bloc. Bien quil nen soit pas ainsi dans notre exemple, on part
gnralement du principe que leffet de bloc, estim par la valeur E
b
, est suprieur lerreur intrabloc
E
e
.
Les moyennes des traitements doivent galement tre ajustes, car les moyennes des traitements
ordinaires ne sont pas des estimations sans biais de leurs valeurs relles. Pour effectuer ces
ajustements en vue dliminer les effets de bloc, on procde comme suit:
*Etape 10. Calculer un terme de correction pour chaque bloc, en multipliant chaque valeur C
b
par la
quantit ( -0.189), donne par (4.61).
Pour la rptition I, ces valeurs sont:
C
1
= -8.13, C
2
= -4.74, C
3
= 6.01, C
4
= -14.78, C
5
= -20.22
et pour la rptition II:
C
6
=18.99, C
7
= 14.59, C
8
= 3.74, C
9
=1.59, C
10
= 2.95
Insrer ces valeurs dans la dernire ligne et la dernire colonne du Tableau 4.34, daprs le modle
du Tableau 4.41. Vrifier que la somme de toutes les valeurs C
b
est nulle, si lon excepte
larrondissement de lerreur:
C
1
+ C
2
+ + C
10
= -8.13+-4.74 ++ 2.95= 0.00
Entrer les valeurs C
b
de la rptition I dans lavant- dernire colonne du Tableau 4.41 et les
valeurs de C
b
de la rptition II, dans lavant-dernire ligne de ce mme tableau. En crivant ainsi
les valeurs des corrections apporter aux totaux non ajusts des traitements, on vitera de
nombreuses erreurs de calculs. Chaque total de traitement inscrit dans le Tableau 4.41 doit prsent
tre ajust pour tenir compte des effets des blocs, en apportant les corrections voulues aux blocs
dans lesquels apparat le traitement considr..
Plan et analyse dexpriences
- 131 -
Tableau 4. 41. Totaux des traitements et facteurs de correction.
1 2 3 4 5 C
1
=
260.80 264.60 266.30 275.90 284.00 -8.13
6 7 8 9 10 C
2
=
284.70 244.70 246.20 214.10 223.80 -4.74
11 12 13 14 15 C
3
=
220.30 210.60 242.60 196.90 229.00 6.01
16 17 18 19 20 C
4
=
276.30 213.90 230.30 209.50 254.80 -14.78
21 22 23 24 25 C
5
=
253.80 297.60 267.40 228.40 234.00 -20.22
C
6
=18.99 C
7
= 14.59 C
8
= 3.74 C
9
=1.59 C
10
= 2.95
Par exemple, le clone 1 apparat dans le Bloc 1 de la Rptition 1 et dans le bloc 6 de la Rptition
2. Ajouter les valeurs de C
1
et C
6
au total du clone 1:
Total des traitements ajust, pour le clone 1 = 260.80 -(-8.13) - 18.99 = 2.55
Etant donn que les corrections des blocs ont dj t insres dans le Tableau 4.41, les totaux
ajusts des traitements correspondent simplement aux valeurs respectives de C
b,
dans la colonne et
la ligne o apparat ce traitement. Pour finir, dresser un tableau faisant apparatre le total des
traitements ajust aux effets de bloc. Les valeurs ajustes sont reportes dans le Tableau 4.42 ci-
dessous.
Tableau 4.42. Totaux ajusts des traitements
1
249.94
2
258.14
3
270.69
4
282.44
5
289.18
6
270.45
7
234.85
8
247.2
9
217.25
10
225.59
11
195.30
12
190.00
13
232.85
14
189.30
15
220.04
16
272.09
17
214.09
18
241.34
19
222.69
20
266.63
21
255.03
22
303.23
23
283.88
24
247.03
25
251.27
Dterminer les moyennes des traitements ajustes en divisant chaque valeur par 2 puisque chaque
total contient deux observations tires de 2 rptitions (Tableau 4.43)
Plan et analyse dexpriences
- 132 -
Tableau 4.43. Moyennes ajustes des traitements
1 2 3 4 5
124.97 129.07 135.35 141.22 144.59
6 7 8 9 10
135.23 117.43 123.60 108.63 112.80
11 12 13 14 15
97.65 95.00 116.43 94.65 110.02
16 17 18 19 20
136.05 107.05 120.67 111.35 133.32
21 22 23 24 25
127.52 151.62 141.94 123.52 125.64
4.7.3. Comparaison de moyennes
On a dj vu que, dans un treillis partiellement quilibr, les traitements qui apparaissent dans le
mme bloc sont compars avec plus de prcision (cest dire avec une erreur-type moindre) que
ceux qui se trouvent dans des blocs diffrents.
Lerreur-type accompagnant la comparaison des moyennes de deux traitements quelconques
apparaissant ensemble dans le mme bloc est donne par la formule:
[ ] SE d
E
r
r
e
( ) ( )
1
2
1 1 + (4.63)
o =
E E
k r E
b e
b

( ) 1

E
b
= Carr moyen interbloc
E
e
= Carr moyen intrabloc
r = Nombre de rptitions
Dans notre exemple,
[ ] SE d ( )
.
1
2 442 3579
2


+ 1 (2 1)(-0.189) = 18.9408
Lerreur type de la comparaison des moyennes des traitements apparaissant dans des blocs
diffrents est,
( ) SE d
E
r
r
e
( )
2
2
1 + (4.64)
Dans notre exemple,
[ ] SE d ( )
.
( .
2
2 442 3579
2
1 2 0189

+ 16.5875
Ici, SE d SE d ( ) ( )
2 1
< . Ceci est uniquement li aux donnes spcifiques de notre exemple, et ne
saurait tre considr comme le cas courant.
Plan et analyse dexpriences
- 133 -
En multipliant ces erreurs-type par la valeur tabulaire du test t, pour les degrs de libert des erreurs
intrabloc au seuil de signification spcifi, on obtiendra la valeur de la PPDS laide de laquelle on
pourra comparer les moyennes ajustes des traitements pour dtecter des diffrences significatives.
4.8. Plans de surface de rponse
Dans les expriences dans lesquelles un ou plusieurs facteurs quantitatifs sont tests plusieurs
niveaux, on a souvent intrt rsumer les donnes en ajustant un modle adquat dcrivant la
relation facteur-rponse. Ces facteurs quantitatifs peuvent tre de divers ordres: engrais, irrigation,
densit de peuplement etc..., et la finalit de lexprience peut tre de dterminer linfluence des
niveaux de ces facteurs sur la rponse, . On peut reprsenter la rponse comme une fonction
approprie des niveaux x
1u
, x
2u
,.. ., x
ku
des k facteurs et de , lensemble des paramtres. Prenons
lexemple dun modle classique:

u
= f (x
1u
, x
2u
, , x
ku
; ) + e
u
(4.65)
o u = 1, , t reprsente les N observations et x
iu
le niveau du i-me facteur (i = 1, 2, , k)
dans la u-me observation. Le rsidu e
u
mesure lerreur exprimentale dans la u-me observation.
La fonction f est appele surface de rponse. Lorsque lon connat f , on dispose dune synthse
complte des rsultats de lexprience, et il est plus facile de trouver la combinaison optimale des
dosages. On peut en outre estimer la rponse pour des valeurs de x
iu
qui ne sont pas testes dans le
cadre de lexprience. Les dispositifs spcifiquement conus pour ajuster la surface des rponses
sont appels plans de surface de rponse. Les surfaces de rponse sont habituellement estimes par
des polynmes de degr appropri, le plus courant tant le polynme de second degr. Nous
concentrerons donc notre attention sur les plans se prtant lajustement de ce type de polynme.
4.8.1. Plan rotatif du second ordre
Soient k facteurs tels que le i-me ait s
i
niveaux. En tout, on aura s
i
x s
2
x.x s
k
combinaisons de
traitements dont on tirera t combinaisons pour ajuster une fonction du second degr de la forme
y x x x x e
u i iu
i
k
ii iu
i
k
i
j
iu ju
i j
k
u
+ + + +

<

0
2
(4.66)
o y
u
est la rponse obtenue partir de la u-me combinaisons de facteurs (u = 1, 2, , t)
x
iu
est le niveau du i-me facteur dans la u-me observation

0
est une constante

i
est le i-me coefficient de rgression linaire

ii
est le i-me coefficient de rgression quadratique

ij
est le (i,j)-me coefficient dinteraction
e
u
est la composante de lerreur alatoire, de moyenne nulle et de variance constante, associe
la u-me observation.
Prenons par exemple le cas particulier dun modle (4.66) englobant seulement deux facteurs,
y x x x x x x e
u u u u u u u u
+ + + + + +
0 1 1 2 2 11 1
2
22 2
2
12 1 2
Un plan de surface de rponse du second ordre permet un ajustement efficace de la relation facteur-
rponse, par un polynme de second degr. Lorsque lon choisit les points du plan, on impose
certaines contraintes aux niveaux des facteurs, de manire simplifier lestimation des paramtres et
Plan et analyse dexpriences
- 134 -
confrer au plan obtenu et au modle qui en dcoule les proprits voulues, notamment le
caractre rotatif ou tournant. Dans les plans rotatifs, la variance de la rponse estime partir dune
quelconque combinaison de traitements est une fonction de la somme des carrs des niveaux des
facteurs dans la combinaison de traitements considre. En dautres termes, un plan dexprience est
dit rotatif (ou tournant) si la variance de la rponse estime pour un ensemble donn de x valeurs
dpend uniquement de la distance du point dfini par les x valeurs au centre du plan, et pas de la
direction. Les conditions suivantes doivent tre vrifies pour que les n points du plan constituent un
plan rotatif de second ordre (PRSO).
(i) x x x x x x
iu iu ju
u u
iu ju
u
iu
u


2 3
0,
x x x x x x x x x x x x
iu ju
u
iu ju
u
ku iu ju
u
ku iu ju
u
ku lu
3 2
0

. (4.67)
(ii) x
iu
u
2

t
2
(4.68)
(iii) x
iu
u
4

3t
4
(4.69)
(iv) x x
iu ju
u
2 2

t
4
for i j or x x x
iu
u
iu ju
u
4 2 2
3

for i j (4.70)
(v)

4
2
2
2
>
+
k
k ( )
(4.71)
4.8.2. Construction dun PRSO
Nous allons dcrire dans cette section lune des mthodes les plus couramment employes pour
construire un PRSO, qui dbouche sur une classe de plans appels plans composites centraux.
Supposons que lon ait k facteurs. Un plan composite central est un plan factoriel 2
k
, ou un plan
factoriel fractionn, (accompagn de la notation usuelle t 1) augment des 2k points axiaux, (t , 0,
0,, 0), (0, t , 0,, 0), (0,0,t , 0,,0), , (0,0,0,,t ) et des n
c
points centraux
(0,0,, 0). Dans le cas o lon choisit un plan factoriel fractionn pour le premier ensemble de 2
k
points, avec k > 4, il faut sassurer que les contrastes dterminants nimpliquent pas dinteraction
avec moins de cinq facteurs. Un plan composite central pour k = 3 est reprsent ci-aprs. Ce plan
est fait de 2
3
= 8 points factoriels, (2)(3) = 6 points axiaux et 1 point central, soit quinze points au
total.
Plan et analyse dexpriences
- 135 -
x
1
x
2
x
3
-1 -1 -1
-1 -1 +1
-1 +1 -1
-1 +1 +1
+1 -1 -1
+1 -1 +1
+1 +1 -1
+1 +1 +1
+ 0 0
- 0 0
0 + 0
0 - 0
0 0 +
0 0 -
0 0 0
Le caractre rotatif dun plan composite central est dtermin par le choix de . La valeur de
dpend du nombre de points dans la portion factorielle du plan. En effet, = (n
f
)
1/4
donne un plan
composite central rotatif, o n
f
est le nombre de points utiliss dans la portion factorielle du plan.
Dans notre exemple, la portion factorielle contient n
f
= 2
3
= 8 points. Ainsi, on obtient un plan rotatif
si la valeur de = (8)
1/4
= 1.682. On trouvera des dtails supplmentaires et des exemples de
PRSO dans Das et Giri (1979) et Montgomery (1991).
Les combinaisons de traitements tablies par un PRSO peuvent tre essayes avec un nombre
suffisant de rptitions, dans le cadre dun plan dexprience standard quelconque suivant la
procdure de randomisation normale. Un plan de surface de rponse est donc uniquement un moyen
particulier de slectionner la combinaison de traitements dans une exprience factorielle, et non un
plan, servant reprsenter schmatiquement une exprience.
4.8.3. Ajustement dune surface de rponse de second degr, partir dun PRSO
Nous allons maintenant dcrire lanalyse des donnes provenant dun PRSO tabli dans le cadre
dun plan entirement randomis. Supposons que, dans une exprience, le plan soit constitu de t
points distincts, le g-me point tant rpt n
g
fois. On note y
gu
la rponse obtenue dans la u-me
rptition du g-me point du plan et x
igu
le niveau du i-me facteur dans la u-me rptition du g-
me point (i = 1,, k ; g = 1,, t ; u = 1,n
g
). Soit n le nombre total dobservations et (p+1) le
nombre de paramtres dans le modle du second ordre devant tre ajust.
Nous illustrerons lanalyse laide de donnes provenant dun essai de culture en pots. Pour
simplifier, nous avons apport quelques modifications aux donnes et la structure du plan, de sorte
que lensemble de donnes est dans une certaine mesure hypothtique. Cet exemple permet
cependant de bien comprendre la procdure. Lexprience englobait trois facteurs: la quantit
dazote (N), de phosphore (P) et de potassium (K), respectivement appliqus sous forme dure, de
superphosphate et de chlorure de potassium. Les units exprimentales taient des pots contenant
chacun une plantule de roseau (Calamus hookerianus) de deux ans. Au cours de lexprience, les
quantits de N, P et K allaient de 5 20 g par pot. La structure des traitements tait conforme au
Plan et analyse dexpriences
- 136 -
plan central composite dcrit dans la Section 4.8.1, le schma proprement dit tant un PER avec
deux rptitions. Comme =1.682 tait le plus haut niveau cod dans le plan, les autres niveaux (ou
doses) sobtiennent en prenant pour la valeur de 20g. Les autres doses sont donc (-) = 5g, (-1)
= 8.041g , (0) =12.5g, , (+1) =16.959g, () = 20g. Les donnes, obtenues au terme dune
exprience de 2 ans, sur le poids sch ltuve dune pousse, sont reportes dans le Tableau 4.44.
Tableau 4.44. Donnes sur le poids sch ltuve dune pousse, au terme dune
exprience de deux ans
N
(x
1
)
P
(x
2
)
K
(x
3
)
Poids dune pousse
(en g)
(y)
Arbre 1 Arbre 2
-1 -1 -1 8.60 7.50
-1 -1 1 9.00 8.00
-1 1 -1 9.20 8.10
-1 1 1 11.50 9.10
1 -1 -1 10.00 9.20
1 -1 1 11.20 10.20
1 1 -1 11.00 9.90
1 1 1 12.60 11.50
1.682 0 0 11.00 10.10
-1.682 0 0 8.00 6.80
0 1.682 0 11.20 10.10
0 -1.682 0 9.50 8.50
0 0 1.682 11.50 10.50
0 0 -1.682 10.00 8.80
0 0 0 11.00 10.00
Lanalyse se droule selon les tapes suivantes
*Etape 1. Calculer les valeurs de
2
et
4
laide des Equations (4.68) et (4.69).
15
2
= 13.65825

2
= 0.9106
3t
4
= 24.00789

4
= 0.5335
Conformment la notation adopte dans les quations (4.68) et (4.69), t est le nombre de points
distincts dans le plan.
*Etape 2. Dresser le schma prliminaire de la table danalyse de la variance
Plan et analyse dexpriences
- 137 -
Tableau 4.45. Reprsentation schmatique de la table danalyse de variance pour lajustement dun
PRSO.
Source de
variation
Degr de libert Somme
des
carrs
Carr
moyen
Rapport
F
calcul
Rgression p SSR MSR
MSR
MSE
Manque
dajustement
n - 1- ( ) n
g
g
t

1
1
-
p
SSL MSL MSL
MSE
Erreur pure
( ) n
g
g
t

1
1
SSE MSE
Total n - 1 SSTO
*Etape 3. Calculer le facteur de correction (C.F.)
C. F.

_
,



y
n
gu
u
n
g
t g
1 1
2
(4.72)

+ + + ( . . ... . ) 860 7 50 1000
30
2
= 2873.37
*Etape 4. Calculer la somme totale des carrs:
SSTO y C F
gu
u
n
g
t g



2
1 1
. . (4.73)
+ + + ( . ) ( . ) ... ( . ) 8 60 7 50 10 00
2 2 2
(293.60)
30
2
= 55.43
*Etape 5. Calculer les estimations des coefficients de rgression
[ ]
$
( )
( )



0
4
1 1
2
1 1
2
1
4 2
2
2
2

+
+


k y y x
n k k
gu
u
n
g
t
gu
u
n
g
t
igu
i
k g g
(4.74)

[ ]

+
+
( . )( )( . ) . (
. ( ) ( . )
05335 3 2 29360 09106
30 05335 3 2 3 09106
2
797.98)
= 10.47
Plan et analyse dexpriences
- 138 -

i
gu igu
u
n
g
t
y x
n
g



1 1
2
(4.75)

1
30 09106

25.20
( )( . )
= 0.92

2
30 09106

14.75
( )( . )
= 0.54

3
30 09106

14.98
( )( . )
= 0.55
[ ]
[ ]
$
( )



ii gu igu
u
n
g
t gu igu
u
n
g
t
i
k
gu
u
n
g
t
n
y x
y x y
k k
g
g g
+

+

_
,





1
2
2
2
4
2
1 1
2
2
4
2
1 1 1
2 4
1 1
4 2
2
(4.76)
[ ]
[ ]
$
( )( )( . )
( . ) . ( ) ( )( . )( . )( )
( . )( ) ( )( . )

11
2
2
1
2 30 05335
0 9106 05335 2 09106 05335
05335 3 2 3 09106
+

+

_
,

258.17
797.98 293.60
= - 0.50
[ ]
[ ]
$
( )( )( . )
( . ) . ( ) ( )( . )( . )( )
( . )( ) ( )( . )

22
2
2
1
2 30 05335
0 9106 05335 2 09106 05335
05335 3 2 3 0 9106
+

+

_
,

267.78
797.98 293.60
= - 0.20
[ ]
[ ]
$
( )( )( . )
( . ) . ( ) ( )( . )( . )( )
( . )( ) ( )( . )

33
2
2
1
2 30 05335
0 9106 05335 2 09106 05335
05335 3 2 3 09106
+

+

_
,

272.03
797.98 293.60
= - 0.06

$

ij
gu igu jgu
u
n
g
t
y x x
n
g



1 1
4
(4.77)

$
( . )
( )( . )

12
0 40
30 05335


= - 0.02

$
( .. )
( )( . )

13
1 20
30 05335

= 0.07
Plan et analyse dexpriences
- 139 -
$
( . )
( )( . )

23
340
30 05335

= 0.21
*Etape 6. Calculer la somme des carrs de la rgression (SSR)
SSR =
$ $ $ $
.
0
2
y y x y x y x x C F
gu i gu
u
igu
i
ii gu
u
igu
i
ij gu
u
igu jgu
i j

+ + +
<
(4.78)



+ + + + +
+ + + +
( . )( . ) ( . )( . ) ( . )( . ) ( . )( . ) ( . )( . )
( . )( . ) ( . )( . ) ( . )( . ) ( . )( . ) ( . )( . )
( . )
1047 29360 0 92 2520 054 14 75 055 14 98 050 25817
0 20 267 78 0 06 272 03 0 02 0 40 0 07 120 0 21 340
29360
30
2
= 44.42
*Etape 7. Calculer la somme des carrs dus lerreur pure
( )
SSE


y y
gu g
u
n
g
t g
1 1
2
(4.79)
= 9.9650
*Etape 8. Calculer la somme des carrs du manque dajustement avec la relation,
SSL = SSTO - SSR - SSE (4.80)
= 55.4347 - 44.4232 - 9.650
= 1.0465
*Etape 9. Insrer les diffrentes sommes des carrs dans la table danalyse de la variance et calculer
les diffrents carrs moyens en divisant les sommes des carrs par leurs degrs de libert.
Tableau 4.46. Table danalyse de la variance pour lajustement dun PRSO, daprs les donnes du
Tableau 4.44
Source de
variation
Degr de
libert
Somme des
carrs
Carr
moyen
Rapport F
calcul
F
Tabulaire
5%
Rgression 9
44.4232
4.9359 7.4299 2.56
Manque
dajustement
5 1.0465 0.2093 0.3150 2.90
Erreur pure 15 9.9650 0.6643
Total 29 55.4347
Plan et analyse dexpriences
- 140 -
*Etape 10. Calculer la valeur de F pour tester la signification du manque dajustement, pour dtecter
dventuelles erreurs de spcification du modle.
MS
MS
F
pure Erreur
ajustement d' Manque
(4.81)
Si le manque dajustement est significatif, le carr moyen de la rgression est test par rapport au
carr moyen du manque dajustement. Dans le cas contraire, il est test par rapport au carr moyen
de lerreur pure.
Dans notre exemple, F =
02093
06643
.
.
= 0.3150
Ici, le manque dajustement nest pas significatif. On peut donc tester le carr moyen de la rgression
par rapport au carr moyen de lerreur pure. La valeur de F servant tester la signification de la
rgression est
MS
MS
F
pure Erreur
Rgression
(4.82)
=
4 9359
0 6643
.
.
= 7.4299
Cette valeur de F est significative, si on la compare avec sa valeur tabulaire, qui est de 2,56, pour 9
et 15 degrs de libert, au seuil de signification de 5 %. Le rapport de la somme des carrs de la
rgression la somme totale des carrs indique que le modle explique prs de 80 % des variations
de la variable de rponse.
*Etape 11. Les variances et les covariances des coefficients estims sont donns par les relations,
( )
[ ]
V
k
n k k
E
$
( )
( )



0
4
4 2
2
2
2

+
+
(4.83)
=
( )
( )
[ ]
( )
05335 3 2
30 05335 3 2 3 0 9106
06643
2
. ( )
. ( ) ( . )
.
+
+
= 0.3283
o E = Carr moyen de lerreur pure dans la table danalyse de la variance.
V
E
n
i
(
$
)

2
(4.84)
=
( )( )
06643
30 09106
.
.
= 0.0243
Plan et analyse dexpriences
- 141 -
[ ]
[ ]
V
E
n k k
ii
(
$
)
( )



+

+

_
,

2
1
2
2
2
2
4
4 2
2
(4.85)
=
( )( )( )
( )
[ ]
( ) ( )( )
[ ]
0 6643
2 30 09106
1
09106 05335
05335 3 2 3 0 9106
2
2
.
.
. .
. ( ) .
+

+

_
,

= 0.03
V
E
n
ij
(
$
)

4
(4.86)
=
( )( )
06643
30 05335
.
.
[ ]
Cov
n k k
E
ii
(
$
,
$
)
( )



0
2
4 2
2
2


+
(4.87)
=
( ) ( )( )
[ ]
( )

+
05335
30 05335 3 2 3 0 9106
0 6643
2
.
. ( ) .
.
= -0.11
[ ]
[ ]
Cov
n k k
ii jj
(
$
,
$
)
( )



+
2
2
4
4 4 2
2
2 2
(4.88)
=
( )
( )
( )( )( ) ( ) ( )( )
[ ]
09106 05335
2 30 05335 05335 3 2 3 09106
2
2
. .
. . ( ) .

+
= 0.05
Toutes les autres covariances sont nulles.
La fonction de rponse ajuste est donc,
$
$ $ $ $
y x x x x
i i
i
ii i
i
ij i j
i j
+ + +

<

0
2

+ + +
+ +
1047 092 054 055 050 020 0 02
002 007 0 21
1 2 3 1
2
2
2
3
2
1 2 1 3 2 3
. . . . . . .
. . .
x x x x x x
x x x x x x
La surface sert entre autres trouver la combinaison optimale des doses, pour laquelle la rponse est
maximale ou conomiquement optimale. De plus, lquation ajuste est utile pour analyser la nature
de la surface, dans des intervalles donns des variables dentre. Etant donn que ltude de ces
aspects demande une connaissance de techniques mathmatiques avances, elle ne sera pas aborde
ici, mais les lecteurs qui souhaitent approfondir cette question, peuvent se rfrer Montgomery
(1991).
- 142 -
5. TECHNIQUES DECHANTILLONNAGE
5.1. Concepts fondamentaux de lchantillonnage
Lchantillonnage consiste essentiellement tirer des informations dune fraction dun grand groupe
ou dune population, de faon en tirer des conclusions au sujet de lensemble de la population. Son
objet est donc de fournir un chantillon qui reprsentera la population et reproduira aussi fidlement
que possible les principales caractristiques de la population tudie.
Les principaux avantages de la technique dchantillonnage par rapport un numration complte
sont le moindre cot, la rapidit, la porte et la prcision accrues. Tous ceux qui soutiennent que le
seul moyen dobtenir des informations exactes sur une population est de faire un recensement
exhaustif oublient que les sources derreurs sont nombreuses dans un dnombrement complet et
quun recensement cent pour cent peut non seulement tre fauss par un grand nombre derreurs,
mais tre pratiquement irralisable. En effet, avec un chantillon on peut obtenir des rsultats plus
exacts car il est plus facile de contrler les sources derreurs lies la fiabilit et la formation des
agents de terrain, la clart des instructions, aux mesures et lenregistrement, au mauvais entretien
des instruments de mesure, lidentification des units dchantillonnage, au travail des enquteurs et
au traitement et lanalyse des donnes. Plus lchantillon est petit, plus la supervision est efficace.
De plus, le degr de prcision des estimations tires de certains types dchantillons, peut tre estim
partir de lchantillon mme. En fin de compte on obtient souvent avec une enqute par sondage
une rponse plus exacte quavec un recensement complet, le tout en peu de temps, avec moins de
personnel, moins de travail et moins dargent.
.
La mthode dchantillonnage la plus simple consiste slectionner un certain nombre dunits
dchantillonnage considres comme reprsentatives de lensemble de la population. Par
exemple, pour estimer le volume global dun peuplement forestier, lenquteur peut choisir un petit
nombre darbres qui lui paraissent de dimensions moyennes et typiques de la zone considre, et
mesurer leur volume. Les mthodes simples, telles que marcher dans la fort, sarrter au hasard et
lancer une pierre les yeux ferms, ou tout autre dmarche excluant en apparence toute possibilit de
choix dlibr des units dchantillonnage, sont trs attirantes cause de leur simplicit, mais elles
ont videmment des chances dtre fausses par le jugement de lenquteur, de sorte que les
rsultats seront biaiss et non fiables. Mme si lobjectivit de lenquteur ne fait pas le moindre
doute, dimportantes erreurs de jugement, conscientes ou inconscientes, peuvent se produire, et elles
seront rarement identifies. Or ces erreurs peuvent tre bien suprieures lavantage de lexactitude
accrue qui est cense driver de la slection dlibre ou intentionnelle des units dchantillonnage.
Sans compter quun chantillonnage subjectif ne permet pas dvaluer la prcision des estimations
calcules partir des chantillons. Un chantillonnage subjectif est statistiquement irrationnel et en
tant que tel, il est viter.
Si lchantillonnage est fait de faon ce que chaque unit de la population ait quelque chance dtre
incluse dans lchantillon et si la probabilit de slection de chaque unit est connue, on parle de
mthode dchantillonnage probabiliste. Lune de ces techniques est la slection alatoire, ne pas
confondre avec la slection au hasard, qui implique un processus de slection rigoureux de type
Techniques dchantillonage
- 143 -
tirage au sort. Dans ce manuel, le terme chantillonnage se rfre, sauf indication contraire, une
forme quelconque dchantillonnage probabiliste. La probabilit quune unit dchantillonnage
quelconque soit incluse dans lchantillon dpend de la procdure adopte. Il faut toutefois savoir
que la prcision et la fiabilit des estimations obtenues partir dun chantillon peuvent tre values
uniquement dans le cas dun chantillon probabiliste, le contrle des erreurs y tant relativement
facile.
Le but dune enqute par sondage est de minimiser lerreur dans les estimations finales. Toute
enqute forestire comportant des activits de collecte et danalyse de donnes peut tre entache
de diverses erreurs. Il en existe deux sortes: i) les erreurs non lies lchantillonnage et ii) les
erreurs dchantillonnage. Les erreurs non lies lchantillonnage, par exemple celles dues la
localisation des units, la mesure des caractristiques, lenregistrement des fautes, aux biais des
enquteurs et aux mthodes danalyse dfectueuses peuvent reprsenter une grande part de lerreur
totale des rsultats finaux dans les recensements complets comme dans les enqutes par sondage.
Cette part a des chances dtre plus grande dans un recensement complet car un projet chantillon,
de plus petite taille, permet dtre plus slectif dans laffectation du personnel aux oprations de
lenqute, de leur offrir une formation plus complte, et de focaliser davantage lattention sur la
rduction des erreurs non lies lchantillonnage. Lerreur dchantillonnage est due au fait que
seule une fraction de la surface de fort est recense. Etant donn quun chantillon, mme
probabiliste, se fonde sur des observations qui ne concernent quune fraction de la population, il ne
peut gnralement pas reprsenter parfaitement la population. La grandeur moyenne des erreurs
dchantillonnage de la majorit des chantillons probabilistes peut tre estime daprs les donnes
collectes, et elle dpend de la taille de lchantillon, de la variabilit lintrieur de la population et
de la mthode dchantillonnage adopte. Ainsi, avec un chantillon probabiliste, il est possible de
dterminer lavance la dimension que doit avoir lchantillon pour obtenir le degr de prcision
souhait, lequel doit tre spcifi.
Un plan dchantillonnage est dtermin par la taille des units dchantillonnage, leur nombre, leur
distribution sur la surface totale, le type et le mode de mesure dans les units slectionnes et les
procdures statistiques adoptes pour lanalyse des donnes de lenqute. Des mthodes
dchantillonnage et des techniques destimation diffrentes ont t mises au point spcifiquement en
fonction des besoins des statisticiens enquteurs, de sorte que lutilisateur a de vastes possibilits de
choix adaptes des situations spcifiques. Il est possible de choisir la mthode ou la combinaison
de mthodes avec laquelle on obtiendra le degr de prcision souhait, raison dun cot minimum.
Pour de plus amples dtails, on peut se rfrer Chacko (1965) et Sukhatme et al, (1984).
5.1.1. Les principales tapes dune enqute par sondage
Dans toute enqute par sondage, on commence par dterminer le type de donnes collecter et le
degr dexactitude des rsultats auquel on veut arriver. Ensuite, on formule le plan dchantillonnage
affrent chaque caractre sur lequel on compte recueillir des informations. On dfinit galement la
combinaison des procdures dchantillonnage relatives aux diffrents caractres, pour viter les
doubles emplois sur le terrain. Troisimement, on organise avec soin les oprations en champ, en
prvoyant des crdits suffisants pour la supervision du travail du personnel de terrain. Enfin, on
analyse les donnes collectes au moyen de techniques statistiques appropries et on rdige un
rapport complet et dtaill dcrivant les hypothses sur lesquelles on sest fond, le plan
dchantillonnage et les rsultats de lanalyse statistique. Le rapport contiendra une estimation de la
Techniques dchantillonage
- 144 -
marge des erreurs dchantillonnage des rsultats et, le cas chant, les effets possibles des erreurs
non lies lchantillonnage. Quelques-unes de ces tapes sont dcrites de faon plus approfondie
dans les passages qui suivent.
i) Dfinition des objectifs de lenqute: Pour commencer, les objectifs de lenqute doivent tre
examins attentivement. Par exemple, pour une enqute forestire, on dtermine la superficie qui sera
couverte par lenqute. Les caractristiques sur lesquelles des informations seront collectes et le
niveau de dtail souhait seront prciss. Si lenqute porte sur des arbres, on dterminera les
espces darbres qui devront tre recenss et lon dcidera sil convient dnumrer uniquement les
arbres faisant partie de classes de diamtres dtermines ou si lon estimera aussi le volume des
arbres. Cest aussi durant la premire tape que lon dtermine le degr de prcision que devront
avoir les estimations.
ii) Elaboration dun diagramme des units: Dans tout chantillon probabiliste, la premire
exigence est ltablissement dune base de sondage. La structure dune enqute par sondage est
largement dtermine par cette base. La base de sondage est une liste des units dchantillonnage
qui peuvent tre clairement dfinies et identifies dans la population. Ces units peuvent tre des
compartiments, des sections topographiques, des bandes dune certaine largeur ou des parcelles de
forme et de taille dfinies.
Llaboration dune base de sondage adapte aux objectifs dune enqute demande de lexprience
et peut fort bien absorber une part importante des travaux de planification, en particulier dans les
enqutes forestires o il peut tre ncessaire de dresser une liste artificielle des units
dchantillonnage, faites de sections topographiques, de bandes ou de parcelles. Par exemple, dans
une enqute forestire, une base de sondage peut se prsenter sous la forme dune carte approprie
de la superficie forestire. Le mode de slection des units dchantillonnage doit permettre
didentifier sur le terrain une unit spcifique devant tre incluse dans lchantillon. Le choix est
fonction de plusieurs facteurs: lobjet de lenqute, les caractristiques qui doivent tre observes
dans les units slectionnes, la variabilit entre des units dchantillonnage dune taille donne, le
plan dchantillonnage, le plan des travaux de terrain, et le cot total de lenqute. Le choix est aussi
dtermin par des considrations pratiques. Par exemple, dans des zones de collines, il nest pas
toujours possible de prendre des bandes comme units dchantillonnage, et les compartiments ou
les sections topographiques peuvent tre plus appropris. En gnral, pour une intensit
dchantillonnage donne (proportion de la surface recense), plus les units dchantillonnage sont
petites, plus lchantillon est reprsentatif et plus les rsultats ont de chances dtre prcis.
iii) Choix dun plan dchantillonnage: Si le plan dchantillonnage doit tre de nature fournir
une mesure statistiquement significative de la prcision des estimations finales, lchantillon doit tre
probabiliste, en ce sens que chaque unit de la population doit avoir une probabilit connue dtre
incluse dans lchantillon. Le choix des units inscrire sur la liste doit tre bas sur une rgle
objective qui ne laisse aucune part lopinion de lhomme de terrain. La dtermination du nombre
dunits inclure dans lchantillon et la mthode de slection sont galement fonction du cot
admissible de lenqute et de la prcision des estimations finales.

iv) Organisation des travaux sur le terrain: Une enqute par sondage nest pleinement russie
que si les oprations de terrain sont fiables. Dans le domaine forestier, les travaux sur le terrain
Techniques dchantillonage
- 145 -
doivent tre organiss avec le plus grand soin autrement, mme si le plan dchantillonnage est
excellent, les rsultats de lchantillon risqueraient dtre incomplets ou trompeurs. Le choix dun
personnel adquat, une formation intensive, des instructions claires et une bonne supervision des
oprations de terrain sont essentiels pour obtenir des rsultats satisfaisants. Les quipes itinrantes
doivent tre capables de localiser correctement les units slectionnes et enregistrer les mesures
ncessaires conformment aux instructions spcifiques reues. Les superviseurs vrifient une partie
de leur travail sur le terrain et sassurent que lenqute qui y effectue correspond en tous points au
plan.
v) Analyse des donnes : En fonction du plan dchantillonnage utilis et de linformation collecte,
on utilisera les formules adquates pour obtenir les estimations et calculer leur degr de prcision.
Une contre-vrification des calculs est souhaitable pour garantir lexactitude de lanalyse.
vi) Enqute prliminaire (essais pilotes): La conception dun plan dchantillonnage appropri
une enqute forestire demande une bonne connaissance de la thorie statistique et des donnes
concernant la nature de la zone forestire, le mode de variabilit et le cot oprationnel. Dans le cas
o lon ne possde pas ces connaissances, il est parfois ncessaire deffectuer une enqute pilote
petite chelle statistiquement planifie, avant de se lancer dans une enqute grande chelle sur toute
la superficie de fort. Ces enqutes prparatoires, ou pilotes, fourniront les renseignements voulus
sur la variabilit du matriel et offriront la possibilit dessayer et damliorer les procdures en
champ, de former des hommes de terrain, et dtudier lefficacit oprationnelle dun plan. Une
enqute pilote donnera aussi des renseignements pour estimer les diffrentes composantes du cot
des oprations, par exemple le temps de trajet, le temps de localisation et de recensement des units
dchantillonnage etc... Ces informations seront essentielles pour dfinir le type de plan et lintensit
dchantillonnage appropris aux objectifs de lenqute.
5.1.2. Terminologie dchantillonnage
Aprs avoir expliqu les concepts fondamentaux et les tapes dun plan dchantillonnage, nous
allons maintenant dfinir de faon plus prcise quelques termes gnraux pour faciliter ltude des
diffrents plans dchantillonnage dcrits dans les autres sections.
Population : Le mot population dsigne lensemble des units parmi lesquelles lchantillon est
prlev. Si une surface forestire est divise en un certain nombre de compartiments (ou blocs) qui
sont les units dchantillonnage, ces compartiments constituent la population des units
dchantillonnage. En revanche, supposons quune surface de fort soit divise en mille bandes de
20 m de large chacune, les mille bandes forment la population. De mme, si la surface de fort est
divise en parcelles dun demi hectare lune, lensemble de ces parcelles forme la population.
Units dchantillonnage : Les units dchantillonnage peuvent tre des units administratives ou
des units naturelles, par exemple des sections topographiques et des sous-compartiments, ou
encore des units artificielles, par exemple des bandes dune largeur donne ou des parcelles de
forme et de taille dfinies. Lunit doit tre un lment bien dfini ou un groupe dlments
identifiable dans la surface de fort, dont les caractristiques que lon compte tudier peuvent tre
observes. La population est donc subdivise en units appropries lobjet de lenqute, appeles
units dchantillonnage.
Techniques dchantillonage
- 146 -
Base de sondage: Une liste dunits dchantillonnage est une base de sondage. Une population
est finie si elle comprend un nombre fini dunits dchantillonnage.
Echantillon : Une ou plusieurs units dchantillonnage slectionnes dans une population suivant
une procdure dfinie constituent un chantillon.
I ntensit de lchantillonnage : Lintensit de lchantillonnage est le rapport du nombre dunits
incluses dans lchantillon au nombre dunits comprises dans la population.
Total de population : Supposons une population finie compose dunits U
1
, U
2
, , U
N
. Notons
y
i
la valeur de la caractristique de la i-me unit. Par exemple, les units peuvent tre des bandes et
les caractristiques peuvent tre le nombre darbres dune espce dtermine lintrieur dune
bande. La somme des valeurs y
i
( i = 1, 2, , N), savoir,

N
i
i
y Y
1
(5.1)
est appele total de population. Dans notre exemple, celui-ci est le nombre moyen darbres de
lespce spcifique dans toute la population.
Moyenne de la population: La moyenne arithmtique

N
i
i
y
N
Y
1
1
(5.2)
est appele moyenne de la population. Ici, il sagit du nombre moyen darbres de lespce
considre, par bande.
Variance de la population: la variance de la population est une mesure de la variation entre les
units de la population



N
i
N
i
i i y
Y y
N
Y y
N
S
1 1
2 2 2 2
1
) (
1
(5.3)
Dans notre exemple, la variance de la population mesure la variation du nombre darbres de lespce
considre, entre les bandes. Des valeurs leves indiquent une variation importante entre les units
de la population, alors que des valeurs faibles montrent que les valeurs de la caractristique dans les
units sont proches de la moyenne de la population. La racine carre de la variance est connue sous
le nom d cart-type.
Coefficient de variation : Le coefficient de variation est le rapport, gnralement exprim en
pourcentage, de lcart type la valeur de la moyenne arithmtique
Y
S
V C
y
. . (5.4)
Du fait quil est adimensionnel, le coefficient de variation est un instrument prcieux pour comparer
les variations de deux ou plusieurs populations ou ensembles dobservations.
Paramtre : On appelle paramtre toute fonction des valeurs des units dune population. La
moyenne de la population, la variance, le coefficient de variation etc... sont des exemples de
paramtres de population. Dans la thorie de lchantillonnage, le problme est destimer les
Techniques dchantillonage
- 147 -
paramtres partir dun chantillon, au moyen dune procdure permettant de mesurer la prcision
des estimations.
Estimateur, estimation : Notons y
1
, y
2
, , y
n
les observations dun chantillon de taille n. Toute
fonction des observations effectues sur un chantillon est une statistique. Une statistique utilise
pour estimer un paramtre de la population est un estimateur. Par exemple, la moyenne dun
chantillon est un estimateur de la moyenne de la population. On appelle estimation toute valeur
spcifique dun estimateur calcule partir dun chantillon observ.
Erreur provenant de lestimation : Une statistique t est appele estimateur non biais dun
paramtre de la population si son esprance mathmatique (ou valeur probable), note E(t), est
gale . Avec une procdure dchantillonnage de type probabiliste, on obtient, par rptition, un
nombre certain nombre dchantillons possibles. Si les valeurs de la statistique t sont calcules pour
chaque chantillon possible et si la moyenne des valeurs est gale la valeur associe la
population, on dit que t est un estimateur non biais de , bas sur la procdure dchantillonnage.
La rptition de la procdure et du calcul des valeurs de t est une notion purement thorique, ces
oprations ntant pas effectues dans la ralit, mais lide selon laquelle on peut driver toutes les
estimations possibles en rptant le processus dchantillonnage est fondamentale pour ltude du
biais. Si E(t) nest pas gal , la statistique t est un estimateur biais de et le biais est donn par
biais = E(t) - . Lintroduction dun processus rellement alatoire pour la slection dun chantillon
est un pas important pour viter les biais. Dans les enqutes forestires, o les experts tendent
choisir des tendues de fort typiques pour les numrations, les estimations sont invitablement
biaises, mme si leur bonne foi nest pas en cause.
Variance dchantillonnage : La diffrence entre une estimation dun chantillon et la valeur de la
population est appele erreur dchantillonnage de lestimation; on ne connat videmment pas
lamplitude de cette erreur puisquon ne connat pas la valeur de la population. Etant donn que le
plan dchantillonnage donne lieu diffrents chantillons possibles, les estimations varient dun
chantillon lautre. Sur la base de ces estimations possibles, on peut obtenir une mesure de
lamplitude moyenne, par rapport tous les chantillons possibles, des carrs de lerreur
dchantillonnage. Il sagit de lerreur quadratique moyenne (MSE) de lestimation qui est
essentiellement une mesure de la variation dun estimateur par rapport la valeur relle de la
population. En symboles, MSE = E[t - ]
2
. La variance dchantillonnage (V(t)) est une mesure de
lcart de lestimation par rapport son esprance mathmatique. Elle est dfinie comme lamplitude
moyenne par rapport tous les chantillons possibles des carrs des carts de lestimateur par
rapport son esprance mathmatique et est donne par V(t) = E[t - E(t)]
2
.
Remarquons que la variance dchantillonnage concide avec lerreur quadratique moyenne dans le
cas o t est un estimateur non biais. Gnralement, lamplitude de lestimation de la variance
dchantillonnage calcule partir dun chantillon donne une ide de lutilit dune estimation
relative un chantillon. Plus lchantillon est grand et plus la variabilit entre les units constituant la
population est petite, plus lerreur dchantillonnage sera petite et plus les rsultats sont fiables.
Erreur type dun estimateur : Lerreur-type de lestimateur est la racine carre de sa variance
dchantillonnage. Lerreur-type dune estimation divise par la valeur de lestimation est lerreur
type relative, habituellement exprime en pourcentage.
Techniques dchantillonage
- 148 -
Exactitude et prcision : Lerreur-type dune estimation, obtenue partir dun chantillon, ne tient
pas compte du biais. On peut donc dire que lerreur-type ou la variance dchantillonnage de
lestimation mesure lchelle inverse la prcision de lestimation, plutt que son exactitude.
Lexactitude se rfre habituellement lampleur des carts entre lestimation dun chantillon et la
moyenne m = E (t) qui serait obtenue en appliquant plusieurs fois le procd exprimental, le biais
tant ainsi mesur par m - .
Le point le plus important, cest lexactitude de lestimation dun chantillon, la prcision avec
laquelle nous sommes capables de mesurer, dans la majorit des cas. Nous nous efforons de
concevoir lenqute et danalyser les donnes en utilisant des mthodes statistiques propres
maximiser la prcision et minimiser le biais.
Limites de confiance : Si lestimateur t suit une loi de distribution normale (hypothse
gnralement valide pour les chantillons de grande taille), un intervalle de confiance dfini par une
limite infrieure et une limite suprieure, inclut normalement le paramtre de la population , un
seuil de probabilit dtermin. Les limites sont donnes par les relations
Limite infrieure = t - z ) (

t V (5.5)
Limite suprieure = t + z ) (

t V (5.6)
o ) (

t V est lestimation de la variance de t et z la valeur de lcart rduit correspondant une


probabilit de confiance souhaite P, exprime en pourcentage. Par exemple, si z est gal 1.96, on
dit que les chances que la valeur relle de soit contenue dans lintervalle alatoire dfini par les
limites de confiance suprieure et infrieure sont de 95 pour cent. Les limites de confiance spcifient
lamplitude prvue de la variation de la moyenne de la population et stipulent le degr de confiance
que nous devrions attacher aux rsultats de nos chantillons. Si la taille de lchantillon est infrieure
30, la valeur de k dans les formules donnant les limites de confiance suprieure et infrieure devrait
tre tire des points de pourcentage de la distribution t de Student (Voir Annexe 2) avec les degrs
de libert correspondant la somme des carrs dans lestimation de la variance de t. De modestes
carts de la distribution par rapport la normale naffectent pratiquement pas la formule relative aux
limites de confiance. En revanche, si la distribution est trs diffrente de la normale, il faut adopter
des mthodes spciales. Par exemple, si l'on utilise de petites surfaces comme units
d'chantillonnage, pour estimer le nombre moyen darbres classes de diamtre leves, la
distribution peut avoir une asymtrie prononce. Dans ce cas, la formule indique ci dessus pour le
calcul des limites de confiance suprieure et infrieure nest pas toujours directement applicable.
Quelques observations dordre gnral: Dans les sections qui suivent, les valeurs concernant la
population seront notes par des lettres majuscules et les valeurs de lchantillon par des lettres
minuscules. Le symbole cap (^) au-dessus dun symbole relatif une valeur de la population
dnote son estimation base sur des observations de lchantillon. Les autres notations particulires
seront expliques au fur et mesure de leur apparition.
Les formules servant estimer uniquement la moyenne de la population et sa variance
dchantillonnage sont donnes avec la description des mthodes dchantillonnage ci-dessous.
Deux des paramtres sont le total de la population et le rapport du caractre tudi (y) une
Techniques dchantillonage
- 149 -
variable auxiliaire quelconque (x). Ces statistiques connexes peuvent toujours tre calcules partir
de la moyenne, laide des relations gnrales ci-aprs:
$
$
Y NY (5.7)
V Y N V Y (
$
) (
$
)
2
(5.8)
$
$
R
Y
X
(5.9)
V R
V Y
X
(
$
)
(
$
)

2
(5.10)
o
$
Y = Estimation du total de la population
N = Nombre total dunits dans la population

$
R = Estimation du rapport de la population
X = Total de la population de la variable auxiliaire
5.2. Echantillonnage alatoire simple
Dans un chantillonnage alatoire simple toutes les combinaisons possibles dunits dchantillonnage
tires de la population ont les mmes chances dtre slectionnes. Thoriquement, lchantillonnage
alatoire simple est la procdure la plus simple, dont sinspirent de nombreuses autres techniques.
Elle sapplique surtout au stade initial dune enqute et aux tudes impliquant lchantillonnage dune
petite surface o la taille de lchantillon est relativement petite. Si lenquteur connat un peu la
population sonde, il peut adopter dautres mthodes plus pratiques et plus efficaces pour organiser
lenqute sur le terrain. Dans un chantillonnage alatoire simple, la rpartition irrgulire des units
dchantillonnage sur la surface de fort peut tre un gros inconvnient dans les zones difficilement
accessibles o les frais de dplacement et de localisation des parcelles sont considrablement plus
levs que les cots de lnumration des parcelles.
5.2.1. Slection des units dchantillonnage
Dans la pratique, la slection dun chantillon alatoire se fait unit par unit. Nous expliquerons dans
cette section deux mthodes de slection alatoire pour un chantillonnage alatoire simple sans
remise.
i) Echantillonnage par tirage: Les units de la population sont numrotes de 1 N.
Symboliquement, on peut assimiler ces units N boules identiques numrotes de 1 N. Si on
en slectionne une au hasard aprs les avoir mlanges, toutes les boules ont la mme possibilit
dtre slectionnes. Ce processus est rpt n fois sans remettre en jeu les boules slectionnes.
Les units correspondant aux numros inscrits sur les boules slectionnes forment un chantillon
alatoire simple de taille n tir dans la population de N units.
ii) Echantillonnage au moyen de tables de nombres alatoires : la procdure dchantillonnage
par tirage devient fastidieuse si N est lev. Pour surmonter cette difficult, on peut utiliser une table
de nombres alatoires, du type de celles publies par Fisher et Yates (1963) (voir Annexe 6). Les
Techniques dchantillonage
- 150 -
tables de nombres alatoires ont t conues de manire ce que les chiffres de 0 9 apparaissent
indpendamment les uns des autres, peu prs le mme nombre de fois dans la table. La mthode la
plus simple pour choisir un chantillon alatoire de la taille requise consiste slectionner un
ensemble de n nombres alatoires lun aprs lautre, de 1 N, dans la table, puis de prendre les
units correspondant ces numros. Cette procdure peut comporter un certain nombre de rejets
du fait que tous les nombres suprieurs N qui apparaissent dans la table sont exclus doffice. Dans
ces cas l, la procdure est modifie comme suit. Si N est un nombre d chiffres, on commence par
dterminer le plus grand multiple de N d chiffres, not N. Ensuite, on choisit un nombre alatoire r
de 1 N et lunit portant le numro gal au restant obtenu aprs avoir divis r par N, est
considre comme slectionne. Si le reste est gal zro, la dernire unit est slectionne. Un
exemple numrique est donn ci-aprs.
Supposons que lon doive choisir un chantillon alatoire simple de 5 units dans une liste de 40
units numrotes en srie, que lon consulte lAnnexe 6 : Table de nombres alatoires et que lon
choisisse dans la colonne 5) des nombres deux chiffres les nombres suivants :
39, 27, 00, 74, 07
Pour donner les mmes probabilits de slection aux 100 units, il faut rejeter tous les nombres
suprieurs 79 et considrer que (00) quivaut 80. Ensuite, on divise les nombres ci-dessus par
40, et lon prend les restes comme numros des bandes slectionnes pour lchantillon, en rejetant
les restes qui sont rpts. On obtient ainsi les 16 numros de bande comme chantillon, soit : 39,
27, 40, 34, 7.
5.2.2. Estimation de paramtres
Soient y
1
, y
2
, ,y
n
les mesures dune caractristique spcifique, effectues sur n units slectionnes
dun chantillon dune population de N units dchantillonnage. On constate dans le cas dun
chantillonnage alatoire simple sans remise que la moyenne de lchantillon
$
Y y
y
n
i
i
n

1
(5.11)
est un estimateur non biais de la moyenne Y de la population. Une estimation non biaise de la
variance dchantillonnage de y est donne par
2
)

y
s
Nn
n N
Y V

(5.12)
o
1
) (
1
2
2

n
y y
s
n
i
i
y
(5.13)
Si lestimationy suit une loi normale, il est possible dtablir un intervalle de confiance sur la
moyenne de la population Y , les limites de confiance infrieure et suprieure tant dfinies par,
Limite infrieure
N
n N
n
s
z y Y
y
L

(5.14)
Limite suprieure
N
n N
n
s
z y Y
y
U

+

(5.15)
Techniques dchantillonage
- 151 -
o z est la valeur de la table qui dpend du nombre dobservations incluses dans lchantillon. Si leur
nombre est gal ou suprieure 30, on peut extraire ces valeurs de la table de la distribution normale
(Annexe 1). Si le nombre dobservations est infrieur 30, la valeur tabulaire sera extraite de la table
de distribution t (Annexe 2), avec n - 1 degrs de libert.
Nous allons illustrer ces calculs par un exemple. Supposons quune fort ait t divise en 1000
parcelles de 0,1 hectare chacune et quun chantillon alatoire simple de 25 parcelles ait t
selectionn. Pour chacune de ces parcelles dchantillon, les volumes de bois, en m3, ont t
enregistrs. Ces volumes taient les suivants:
7 10 7 4 7
8 8 8 7 5
2 6 9 7 8
6 7 11 8 8
7 3 8 7 7
Si le volume de bois de la i-me unit dchantillonnage est not y
i
, un estimateur non biais de la
moyenne Y de la population, sobtient laide de lEquation (5.11), soit :
25
175
25
7 . . . 2 8 7


+ + + +
y Y
= 7 m
3
qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de fort.
Une estimation (
2
y
s ) de la variance des valeurs individuelles de y sobtient laide de lquation
(5.13).
( ) ( ) ( )
1 25
7 7 . . . 7 8 7 7
2 2 2
2

+ + +

y
s
=
24
82
= 3.833
Lestimation non biaise de la variance dchantillonnage de y est donc
( )( )
833 . 3
25 1000
25 1000
)

,
_


Y V
= 0.1495 (m
3
)
2
1495 . 0 )

(Y SE 0.3867 m
3
Lerreur-type relative, (100)

(
Y
Y SE
est une expression plus commune. Ainsi,
7
1495 . 0
)

( Y RSE (100) = 5.52 %


Techniques dchantillonage
- 152 -
Les limites de confiance attaches la moyenne de la population Y sobtiennent par les quations
(5.14) et (5.15).
Limite infrieure ( ) 1495 . 0 064 . 2 7


L
Y
= 6.20 cordes
Limite suprieure 1495 . 0 ) 064 . 2 ( 7

+
U
Y
= 7.80 cordes
Lintervalle de confiance de 95% associ la moyenne de la population est de (6.20, 7.80) m
3
. Cela
signifie que lon peut estimer quil y a 95 chances sur cent que lintervalle de confiance de (6.20,
7.80) m
3
inclura la moyenne de la population.
On obtiendra facilement une estimation du volume total de bois dans la surface de fort
chantillonne en multipliant lestimation de la moyenne par le nombre total de parcelles comprises
dans la population. Ainsi
3
m 7000 7(1000)

Y
avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de confiance
associs la moyenne par N = 1000. Lerreur-type relative RSE de Y

, nest cependant pas


modifie par cette opration.
5.3. Echantillonnage systmatique
La mthode dchantillonnage systmatique obit une rgle simple, dans laquelle chaque k-ime
unit est slectionne partir dun nombre, de 1 k, choisi au hasard comme point de dpart
alatoire. Supposons que N units dchantillonnage dans la population soient numrotes de 1 N..
Pour slectionner un chantillon systmatique de n units, on choisit une unit au hasard parmi les k
premires, puis on slectionne chaque k-ime unit dchantillonnage pour former lchantillon. La
constante k est appele pas dchantillonnage, et est considre comme tant le nombre entier le
plus proche de N / n, linverse du taux dchantillonnage. La mesure de chaque k-me arbre
correspondant un relvement au compas dtermin est un exemple dchantillonnage systmatique.
Dans les enqutes forestires, une bande troite, perpendiculaire une ligne de base, traversant toute
la fort est couramment prise comme unit dchantillonnage. Si les units dchantillonnage sont des
bandes, le dispositif est connu sous le nom dchantillonnage systmatique en bandes, mais il existe
aussi un autre systme, appel chantillonnage systmatique de parcelles en ligne, dans lequel des
parcelles de taille et de forme fixes sont slectionnes intervalles gaux le long de lignes parallles
rgulirement espaces. Dans le dernier cas, lchantillon pourrait aussi bien tre systmatique dans
deux directions.
Sur le plan intuitif, lchantillonnage systmatique est certainement attrayant, sans compter quil est
plus facile slectionner et effectuer sur le terrain, du fait que lchantillon est rparti galement sur
toute la superficie de fort et quil garantit une certaine quantit de reprsentation des diffrentes
parties de la surface. Ce type dchantillonnage est souvent pratique pour contrler les travaux de
terrain. A part ces considrations oprationnelles, il est dmontr que la procdure de
lchantillonnage systmatique fournit des estimateurs plus efficaces que lchantillonnage alatoire
simple, dans des conditions sylvicoles normales. La proprit de lchantillonnage systmatique,
Techniques dchantillonage
- 153 -
savoir la rpartition uniforme des units dchantillonnage sur la population peut tre exploite en
recensant les units de manire regrouper les units homognes ou de manire ce que les valeurs
de la caractristique relative aux units soient ranges par ordre croissant ou dcroissant. Par
exemple, si lon connat la tendance de fertilit de la surface de fort, les units (par exemple, les
bandes) peuvent tre recenses conformment cette tendance.
Si la population affiche un rgime de variation rgulier et si lintervalle dchantillonnage de
lchantillon systmatique concide avec cette rgularit, lchantillon systmatique ne donne pas
destimations prcises. Il est vrai quaucun cas vident de priodicit na jamais t signal dans
une tendue forestire. Il faut nanmoins tenir compte, lorsque lon planifie une enqute, du fait
quun chantillonnage systmatique peut donner des rsultats peu prcis, au cas o une priodicit
insouponne se vrifierait.
5.3.1. Slection dun chantillon systmatique
Pour illustrer la slection dun chantillon systmatique, prenons une population de N = 48 units.
Un chantillon de n = 4 units est ncessaire. Dans ce cas, k = 12. Si le nombre alatoire choisi dans
lensemble de nombres allant de 1 12 est 11, les units correspondant aux numros de srie 11,
23, 35 et 47 seront slectionnes. Dans les cas o N nest pas divisible par n, k est le nombre entier
le plus proche de N / n. Dans ce cas, la taille de lchantillon nest pas ncessairement gale n et
elle peut tre gale n -1.
5.3.2. Estimation des paramtres
Lestimation de la moyenne de la population de chaque unit est donne par la moyenne de
lchantillon
n
y
y Y
n
i
i


1
(5.16)
o n est le nombre dunits dans lchantillon.
Dans le cas denqutes par chantillonnage systmatique en bandes ou, dune manire gnrale,
dans tout systme dchantillonnage systmatique unidimensionnel, on peut obtenir une
approximation de lerreur-type partir des diffrences entre deux units qui se suivent. Supposons
que n units aient t numres dans lchantillon systmatique, on aura (n-1) diffrences. La
variance par unit est donc donne par la somme des carrs des diffrences divise par le double du
nombre de diffrences. Ainsi, si y
1
, y
2
,,y
n
sont les valeurs observes (par exemple, le volume) des
n units dans lchantillon systmatique, et en dfinissant la premire diffrence d(y
i
) comme indiqu
ci-dessous
( ) ( ) i i i
y y y d
+1
) ( ; (i = 1, 2, , n -1), (5.17)
la variance approximative par unit est estime par la formule
( ) [ ]

1
1
2
) 1 ( 2
1
)

n
i
i
y d
n n
Y V (5.18)
A titre dexemple, le Tableau 5.1. donne les diamtres observs de 10 arbres slectionns par
prlvement systmatique dun arbre sur 20 dans un peuplement contenant 195 arbres disposs par
Techniques dchantillonage
- 154 -
ranges de 15. Le premier lment slectionn tait le huitime arbre de lun des cots extrieurs du
peuplement, en partant dun coin. Les autres arbres ont t slectionns systmatiquement, en
prenant chaque 20me arbre, puis en passant larbre le plus proche de la range suivante aprs le
dernier arbre de chaque range.
Tableau 5.1. Diamtre des arbres observ sur un chantillon systmatique de 10 arbres prlevs
dans une parcelle.
Numro de
larbre slectionn
Diamtre hauteur
dhomme (en cm)
y
i
Premire
diffrence
d(y
i
)
8 14.8
28 12.0 -2.8
48 13.6 +1.6
68 14.2 +0.6
88 11.8 -2.4
108 14.1 +2.3
128 11.6 -2.5
148 9.0 -2.6
168 10.1 +1.1
188 9.5 -0.6
Le diamtre moyen est gal
( ) 07 . 12 5 . 9 ....... 0 . 12 8 . 14
10
1

+ + + Y
Les neuf premires diffrences sobtiennent avec la formule indique dans la colonne (3) du Tableau
5.1. La variance des carts de la moyenne par unit est donc
180
9 . 36
10 9 2
(-0.6) ... (1.6) (-2.8)
)

2 2 2

+ + +

x x
Y V
= 0.202167
Lun des inconvnients est quun chantillon systmatique ne permet pas en lui-mme dobtenir une
valuation valide de la prcision des estimations. Pour en avoir, on peut avoir recours des
chantillons partiellement systmatiques. Il existe une mthode thoriquement valable qui fait appel au
concept dchantillon systmatique tout en aboutissant des estimations non biaises de lerreur
dchantillonnage; celle-ci consiste prlever au moins deux chantillons systmatiques, avec des
points de dpart alatoires indpendants. Si
1
y ,
2
y , ,
m
y sont m estimations de la moyenne de la
population bases sur m chantillons systmatiques indpendants, lestimation combine est

m
i
i
y
m
y
1
1
(5.19)
Lestimation de la variance de y est donne par la relation
Techniques dchantillonage
- 155 -
( )

m
i
i
y y
m m
y V
1
2
) 1 (
1
) (

(5.20)
Remarquons que la prcision augmente avec le nombre dchantillons systmatiques indpendants.
A titre dexemple, prenons les donnes du Tableau 5.1, ainsi quun autre chantillon systmatique
slectionn avec des points de dpart alatoires indpendants. Dans le deuxime chantillon, le
premier lment slectionn tait le 10me arbre. Les donnes concernant les deux chantillons
indpendants sont reportes dans le Tableau 5.2.
Tableau 5.2. Diamtre des arbres observ sur deux chantillons systmatiques
indpendants de 10 arbres issus dune parcelle.
Echantillon 1 Echantillon 2
Numro de
larbre
slectionn
Diamtre
hauteur de poitrine
(en cm)
y
i
Numro de
larbre
slectionn
Diamtre
hauteur de poitrine
(en cm)
y
i
8 14.8 10 13.6
28 12.0 30 10.0
48 13.6 50 14.8
68 14.2 70 14.2
88 11.8 90 13.8
108 14.1 110 14.5
128 11.6 130 12.0
148 9.0 150 10.0
168 10.1 170 10.5
188 9.5 190 8.5
Le diamtre moyen du premier chantillon, 07 . 12
1
y . Le diamtre moyen du deuxime
chantillon, 19 . 12
2
y . Lestimation combine de la moyenne de la population (y ) se calcule
laide de lquation (5.19),
( ) 19 . 12 07 . 12
2
1
+ y
= 12.13
Lestimation de la variance de y sobtient laide de lquation (5.20).
( ) ( )
2 2
13 . 12 19 . 12 13 . 12 07 . 12
) 1 2 ( 2
1
) (

y V = 0.0036
0036 . 0 ) ( y SE = 0.06
Il existe une autre variante de lchantillonnage systmatique, dans le cas dun chantillonnage
systmatique dans deux directions. Par exemple, si, dans des plantations, on veut estimer le volume
du peuplement, on peut adopter un chantillon systmatique de ranges et prendre, dans chaque
range slectionne, des mesures sur le dixime arbre. Dans une enqute forestire, on peut prendre
Techniques dchantillonage
- 156 -
une srie de bandes parallles quidistantes stendant sur toute la largeur de la fort, et, dans
chaque bande, on peut procder lnumration en prlevant un chantillon systmatique de
parcelles ou darbres. Une autre mthode serait de former des grilles rectangulaires de (p x q)
mtres et de slectionner un chantillon systmatique de lignes et de colonnes, avec une parcelle
dune taille dtermine et de la forme prescrite chaque intersection.
Dans le cas dun chantillon systmatique bidimensionnel, on peut obtenir les estimations et une
approximation de lerreur dchantillonnage, grce une mthode base sur la stratification. Celle-ci
est similaire la mthode dchantillonnage stratifi dcrite dans la section 5.4. Par exemple,
lchantillon peut tre arbitrairement divis en ensembles de 4 dans 2 x 2 units, chaque ensemble
tant considr comme formant une strate. On suppose en outre que les observations faites
lintrieur de chaque strate sont slectionnes de manire indpendante et alatoire. Pour ajuster les
bords, les strates qui se chevauchent seront prises en bordure de la zone forestire.
5.4. Echantillonnage stratifi
Lide de base de lchantillonnage alatoire stratifi est de diviser une population htrogne en
sous-populations, habituellement appeles strates, constitues dlments homognes; on pourra
ainsi obtenir une estimation prcise dune moyenne de strate quelconque partir dun petit
chantillon prlev dans cette strate, ainsi quune estimation prcise pour lensemble de la
population, en combinant ces estimations. Lchantillonnage stratifi donne une meilleure section
transversale de la population que la procdure dchantillonnage alatoire simple. Cette mthode
peut aussi simplifier lorganisation des activits en champ. La proximit gographique est parfois
llment de base de la stratification, car on part du principe que des zones contigus sont souvent
plus semblables que des zones trs loignes. Llment de base de la stratification peut aussi tre
dict par des considrations dordre administratif. Par exemple, le personnel dj disponible dans
chaque brigade dune division forestire peut tre charg de superviser lenqute dans la zone
relevant de sa comptence. Ainsi, des rgions gographiques compactes peuvent former les strates.
Une mthode de stratification assez efficace consiste effectuer une enqute prliminaire rapide de la
zone ou rassembler linformation dj disponible et stratifier la surface de fort suivant les types
de forts, la densit des peuplements, la qualit de la station etc... Si lon sait que la caractristique
ltude est influence par une variable supplmentaire au sujet de laquelle on dispose de donnes
relles, ou au moins de bonnes estimations concernant les units de la population, la stratification
peut tre faite en utilisant les informations sur cette variable supplmentaire. Par exemple, la
population peut tre stratifie sur la base des estimations de volume obtenues lors dun inventaire
antrieur de la superficie forestire.
Dans lchantillonnage stratifi, la variance de lestimateur ne comprend que la variation lintrieur
des strates. Ainsi, en gnral le degr de prcision augmente avec le nombre de strates de la
population, car plus elles sont nombreuses, plus les units quelles contiennent sont homognes. Pour
estimer la variance lintrieur des strates, chaque strate devrait avoir au minimum deux units. Plus
le nombre de strates est lev, plus le cot de du recensement est lev. Ainsi, le nombre de strates
devra tre dtermin, et la dcision dpendra de considrations de commodit administrative, du
cot de lenqute et de la variabilit de la caractristique ltude dans la zone.
Techniques dchantillonage
- 157 -
5.4.1. Allocation et slection de lchantillon lintrieur des strates
Supposons que la population soit divise en k strates de N
1
, N
2
,, N
k
units respectivement, et
quun chantillon de n units doive tre prlev de la population. Pour lallocation, le problme est
de choisir les tailles dchantillon dans les strates respectives, cest--dire de dterminer le nombre
dunits qui devraient tre prleves de chaque strate, pour que la taille de lchantillon total soit
gale n.
Tous les choix tant quivalents, il est possible de prlever un plus grand chantillon dune strate qui
a une variance plus grande, de sorte que la variance des estimations des moyennes des strates se
trouve rduite. Lapplication du principe ci-dessus ncessite des estimations pralables de la
variation lintrieur de chaque strate. Celles-ci peuvent avoir t acquises lors dune enqute
antrieure ou provenir denqutes pilotes de nature restreinte. Ainsi, si ces informations sont
disponibles, la fraction sonde dans chaque strate peut tre considre comme proportionnelle
lcart-type de chaque strate.
Si le cot par unit de lenqute dans chaque strate est connu et varie dune strate lautre, une
mthode dallocation efficace, pour un cot minimum, consiste prlever de grands chantillons dans
la strate o lchantillonnage cote le moins cher et o la variabilit est la plus leve. Pour appliquer
cette procdure, il faut des renseignements sur la variabilit et le cot des observations pour chaque
unit dans les diffrentes strates.
A dfaut dinformations sur les variances relatives lintrieur des strates et sur le cot des
oprations, la partie de lchantillon attribue aux diffrentes strates peut tre proportionnelle au
nombre dunits quelles contiennent ou la surface totale de chaque strate. Cette mthode est
habituellement appele rpartition proportionnelle de lchantillon.
Pour la slection des units dans les strates, dune manire gnrale, on peut adopter nimporte
quelle mthode base sur une slection probabiliste dunits. Toutefois, la slection doit tre
indpendante dans chaque strate. Si des chantillons alatoires indpendants sont prlevs dans
chaque strate, la procdure dchantillonnage prend le nom dchantillonnage alatoire stratifi.
Dautres modes de slection de lchantillon, comme lchantillonnage systmatique, peuvent aussi
tre adopts lintrieur des diffrentes strates.
5.4.2. Estimation de la moyenne et de la variance
Nous supposerons que la population de N units est dabord divise en k strates contenant
respectivement N
1
, N
2
,,N
k
units. Ces strates ne se chevauchent pas et elles toutes, elles forment
lensemble de la population, de sorte que
N
1
+ N
2
+ .. + N
k
= N. (5.21)
Lorsque les strates ont t dfinies, un chantillon est prlev dans chacune delles, la slection se
faisant indpendamment dans chaque strate. Les tailles des chantillons lintrieur des strates sont
respectivement notes n
1
, n
2
, , n
k
. On a donc,
n
1
+ n
2
+..+ n
3
= n (5.22)
Techniques dchantillonage
- 158 -
Soit y
tj
(j = 1, 2,., N
t
; t = 1, 2,..k) la valeur de la caractristique tudie sur la j-me unit
dans la t-ime strate. Dans ce cas, la moyenne de la population dans la t-ime strate est donne par
la relation
) ..., , 2 , 1 (
1
1
,
k t y
N
Y
t
N
j
tj
t
t

(5.23)
La moyenne de lensemble de la population est donne par

k
t
t t N
Y N Y
1
1
(5.24)
Dans ce cas, une estimation de la moyenne Y de la population sera donne par la formule
N
y N
Y
k
t
t t

1
(5.25)
o

t
n
j
t
tj
t
n
y
y
1
(5.26)
Lestimation de la variance de Y

est donne par


t
y t
k
t
t t t
n
s
n N N
N
Y V
2
) (
1
2
) (
1
)

(5.27)
o

t
n
j
t
t tj
y t
n
y y
s
1
2
2
) (
1
) (
(5.28)
Si elle est effectue comme on la expliqu dans les sections prcdentes, la stratification donne
ordinairement une variance plus faible pour le total ou la moyenne de la population estime quun
chantillon alatoire simple de la mme taille. Toutefois, si lchantillon stratifi est prlev sans les
prcautions voulues, les rsultats ne seront pas meilleurs quavec un chantillon alatoire simple.
Nous allons maintenant illustrer par un exemple numrique les calculs de lestimation du volume
moyen par hectare dune espce particulire et de son erreur-type, partir dun chantillon alatoire
stratifi de compartiments slectionns de manire indpendante, avec des probabilits gales dans
chaque strate.
Une tendue forestire, constitue de 69 compartiments a t divise en trois strates contenant
respectivement les compartiments 1 29, 30 45 et 46 69; on a ensuite choisi au hasard 10, 5 et
8 compartiments dans les trois strates. Les numros de srie des compartiments slectionns dans
chaque strate sont indiqus dans la colonne (4) du Tableau 5.3. Le volume observ correspondant
de lespce particulire dans chaque compartiment slectionn est donn, en m3/ha, dans la colonne
(5).
Tableau 5.3. Illustration des paramtres destimation dans un systme dchantillonnage stratifi
Techniques dchantillonage
- 159 -
Numro
de la
strate
Nombre total
dunits dans
la strate (N
t
)
Nombre
dunits
sondes
(n
t
)
Numro des
units
dchantillonna
ge
slectionnes
Volume
(m
3
/ha)
(
j
t
y )
(
2
j
t
y )
(1) (2) (3) (4) (5) (6)
I
1
18
28
12
20
19
9
6
17
7
5.40
4.87
4.61
3.26
4.96
4.73
4.39
2.34
4.74
2.85
29.16
23.72
21.25
10.63
24.60
22.37
19.27
5.48
22.47
8.12
Total 29 10 .. 42.15 187.07
II
43
42
36
45
39
4.79
4.57
4.89
4.42
3.44
22.94
20.88
23.91
19.54
11.83
Total 16 5 .. 22.11 99.10
III
59
50
49
58
54
69
52
47
7.41
3.70
5.45
7.01
3.83
5.25
4.50
6.51
54.91
13.69
29.70
49.14
14.67
27.56
20.25
42.38
Total 24 8 .. 43.66 252.30
*Etape 1. Calculer les quantits suivantes
N = (29 + 16 + 24) = 69
n = (10 + 5 + 8) = 23
t
y = 4.215,
t
y = 4.422,
t
y = 5.458
Techniques dchantillonage
- 160 -
*Etape 2. Estimer la moyenne Y de la population laide de lquation (3)
70 . 4
69
979 . 323
69
) 458 . 5 24 ( ) 422 . 4 16 ( ) 215 . 4 29 (

3
1

+ +

N
y N
Y
t
t t
*Etape 3. Estimer la variance de Y

laide de lquation (5)


( )
t
y t
t t
t
t
n
s
n N N
N
Y V
2
) (
3
1
2
1
)

Dans cet exemple,


046 . 1
9
41 . 9
9
10
) 15 . 42 (
07 . 187
2
2
) ( 1

y
s
333 . 0
4
33 . 1
4
5
) 11 . 22 (
10 . 99
2
2
) ( 2

y
s
004 . 2
7
03 . 14
7
8
) 66 . 43 (
30 . 252
2
2
) ( 3

y
s
1
]
1

,
_

+
,
_

+
,
_

,
_

004 . 2
8
16 24
333 . 0
5
11 16
046 . 1
10
19 29
69
1
)

2
Y V
03477 . 0
4761
5482 . 165

1865 . 0 03477 . 0 )

( Y SE
Y
Y SE
Y RSE

100 )

(
)

(

(5.29)
% 97 . 3
70 . 4
100 1865 . 0

Ignorons prsent les strates et supposons que le mme chantillon de taille n = 23 formait un
chantillon alatoire simple prlev dans la population de N = 69. Lestimation de la moyenne de la
population se rduira alors


+ +

n
i
i n
y y
1
1
69 . 4
23
92 . 107
23
66 . 43 11 . 22 15 . 42
Techniques dchantillonage
- 161 -
Lestimation de la variance de la moyenne y est alors
2
) (

s
Nn
n N
y V

o
22
23
) 92 . 107 (
47 . 538
2
2

s
4586 . 1
22
09 . 32

do
4586 . 1
23 69
) 23 69 (
) (

y V
04230 . 0
69
9172 . 2

2057 . 0 04230 . 0 ) ( y SE
% 39 . 4
69 . 4
100 2057 . 0
) (

y RSE
Le gain de prcision due la stratification se calcule comme suit
100
03477 . 0
04230 . 0
100
)


st
srs
Y V
Y V
= 121.8
Le gain de prcision est donc de 21.8%.
5.5. Echantillonnage plusieurs degrs
En vue de rduire les cots et/ou de concentrer les oprations en champ autour de certains points et,
dans le mme temps, dobtenir des estimations prcises, lchantillonnage se fait parfois en plusieurs
tapes. La procdure consistant commencer par slectionner des units de grande taille puis
choisir un nombre dtermin de sous-units dans les grandes units, est connue sous le nom de sous-
chantillonnage. Les grandes units prennent le nom dunits du premier degr ou dunits
primaires alors que les sous-units sont appeles units du deuxime degr ou units
secondaires. La procdure peut aisment tre gnralise aux chantillons trois ou plusieurs
degrs. Par exemple, lchantillonnage dune tendue de fort peut tre effectu en trois tapes,
premirement en slectionnant un chantillon de compartiments (units du premier degr), puis un
chantillon de sections topographiques (units du deuxime degr) dans chaque compartiment
slectionn, et enfin en prlevant, dans chaque section topographique slectionne, un certain
nombre de parcelles-chantillons de taille et de forme dtermines (units du troisime degr).
Techniques dchantillonage
- 162 -
Le systme dchantillonnage plusieurs degrs a lavantage de concentrer lchantillon autour de
plusieurs points chantillons, au lieu de le disperser sur lensemble de la surface considre dans
lenqute. Ceci rduit considrablement le cot des oprations et contribue rduire les erreurs non
lies lchantillonnage, grce une supervision efficace. De plus, dans les enqutes forestires il
arrive souvent que lon dispose dinformations dtailles pour des groupes dunits
dchantillonnage, mais par pour des units individuelles. Par exemple, on peut avoir une liste de
compartiments avec des dtails sur la surface, alors que lon na pas dinformations dtailles sur les
sections topographiques dans chaque compartiment. Cest pourquoi, si les compartiments sont
slectionns en tant quunits du premier degr, il peut tre possible de collecter des donnes
dtailles sur les sections topographiques, uniquement pour certains compartiments, et partant,
dutiliser un systme dchantillonnage deux degrs sans tenter de dresser une carte des sections
topographiques dans tous les compartiments. Le systme dchantillonnage plusieurs degrs
permet donc dutiliser une base de sondage incomplte de toutes les units dchantillonnage et
dexploiter comme il convient et bon escient les informations dj disponibles, chaque stade.
La slection opre chaque stade peut tre faite laide dune mthode dchantillonnage alatoire
simple ou de toute autre mthode dchantillonnage probabiliste, et lon peut employer une mthode
diffrente chaque stade. Par exemple, on peut choisir un chantillon alatoire simple de
compartiments et opter pour un sondage systmatique de parcelles en ligne ou en bandes, avec une
origine choisie au hasard dans les compartiments slectionns.
5.5.1. Echantillonnage alatoire simple deux degrs
Si les deux tapes de la slection se font par chantillonnage alatoire simple, la mthode prend le
nom dchantillonnage alatoire simple deux degrs. Par exemple, pour estimer le poids de lherbe
dans une superficie forestire, faite de 40 compartiments, les compartiments peuvent tre considrs
comme des units dchantillonnage primaires. Sur ces 40 compartiments, n = 8 compartiments
peuvent tre choisis au hasard au moyen dune procdure dchantillonnage alatoire simple (voir
Section 5.2.1). Un chantillon alatoire de parcelles, gales en nombre ou non, peut tre slectionn
dans chaque compartiment pour mesurer la quantit dherbe, grce la procdure de slection dun
chantillon alatoire simple. On peut ensuite calculer les estimations de la quantit moyenne ou totale
dherbe disponible dans la superficie forestire, laide des formules appropries.
5.5.2. Estimation des paramtres, dans le cadre dune procdure dchantillonnage
alatoire simple deux degrs
Soient une population constitue de N units du premier degr et M
i
le nombre dunits du second
degr dans la i-me unit du premier degr. Supposons que n units du premier degr soient
slectionnes et que, dans la i-me unit du premier degr slectionne, on choisisse m
i
units du
second degr pour former un chantillon de

n
i
i
m m
1
units. Notons y
ij
la valeur du caractre
pour la j-me unit du second degr dans la i-me unit du premier degr.
Techniques dchantillonage
- 163 -
Un estimateur non biais de la moyenne de la population

N
i
i
N
i
M
j
ij
M
y
Y
i
1
sobtient grce lquation
(5.30).

n
i
m
j
ij m
M
i
i
i
y
M n
Y
1 1
1

(5.30)
o
N
M
M
N
i
i

1
. (5.31)
Lestimation de la variance de Y

est donne par la relation

,
_


,
_

+
,
_


n
i
w
i i
i
b
i
s
M m M
M
nN
s
N n
Y V
1
2
2
2
1 1 1 1 1
)

(5.32)
o

,
_

n
i
i
i
b
y y
M
M
n
s
1
2
2
1
1
(5.33)

i
i
m
j
i ij
i
w
y y
m
s
1
2 2
) (
1
1
(5.34)
Ici, on remarque que la variance de Y

est compose de deux lments. Le premier est une mesure


de la variation entre les units du premier degr et lautre est une mesure de la variation lintrieur
des units du premier degr. Si m
i
= M
i
, la variance est donne uniquement par le premier lment.
Le second terme reprsente donc la contribution du sous-chantillonnage.
Nous allons illustrer par un exemple lanalyse dun chantillon deux degrs. Le Tableau 5.4 donne
des informations sur le poids de lherbe (toutes espces mlanges), en kilogrammes, dans des
parcelles de 0,025 ha slectionnes dans 8 compartiments qui ont t choisis au hasard parmi les 40
compartiments dune tendue forestire. La superficie totale de la fort tait de 1800 hectares.
Techniques dchantillonage
- 164 -
Tableau 5.4. Poids de lherbe, en kg, dans des parcelles slectionnes dans le cadre dune
procdure dchantillonnage deux degrs
Parcelle Numro du compartiment Total
I II III IV V VI VII VIII
1
96 98 135 142 118 80 76 110
2
100 142 88 130 95 73 62 125
3
113 143 87 106 109 96 105 77
4
112 84 108 96 147 113 125 62
5
88 89 145 91 91 125 99 70
6
139 90 129 88 125 68 64 98
7
140 89 84 99 115 130 135 65
8
143 94 96 140 132 76 78 97
9
131 125 .. 98 148 84 .. 106
10
.. 116 .. .. .. 105 .. ..
Total
1062 1070 872 990 1080 950 744 810
7578
m
i
9 10 8 9 9 10 8 9
72
Moyenne
) (
i
y
118 107 109 110 120 95 93 90
842
M
i
1760 1975 1615 1785 1775 2050 1680 1865
14505
2
i
w
s
436.00 515.78 584.57 455.75 412.25 496.67 754.86 496.50
4152
i
w
m
s
i
2
48.44 51.578 73.07 50.63 45.80 49.667 94.35 55.167
*Etape 1. Estimer le poids moyen par parcelle de lherbe, en kg, laide de la formule de lquation
(5.30).

n
i
m
j
ij m
M
i
i
i
y
M n
Y
1 1
1

)
025 . 0
1800
(
40
1 1
1

N
i
i
M
N
M
= 1800
i
M tant le nombre total dunits du second degr, le poids moyen peut tre obtenu en divisant
la superficie totale (1800 ha) par la taille dune unit du second degr (0.025 ha).
La moyenne de la population, estime au moyen de lquation (5.30), est

n
i
m
j
ij m
M
i
i
i
y
M n
Y
1 1
1

=
( )( ) 40 8
1523230
= 105.78
Techniques dchantillonage
- 165 -
1
1
]
1

,
_

+ +
,
_

+
,
_

2 2 2
2
25 . 105 90
1800
1865
... 25 . 105 107
1800
1975
25 . 105 118
1800
1760
) 1 8 (
1
b
s
=140.36
La variance de Y

peut tre estime par lquation (5.32)


( )( )
( ) 465.1024
40 8
1
+ 140.3572
40
1
8
1
)


,
_

Y V
=15.4892
15.4892 )

( Y SE = 3.9356
% 72 . 3
78 . 105
100 3.9356
)

Y RSE
5.6. Echantillonnage plusieurs phases
Lchantillonnage plusieurs phases joue un rle crucial dans les enqutes forestires, puisquil est
utilis aussi bien dans les inventaires forestiers continus que pour estimer le matriel sur pied, ou
encore dans les enqutes par tldtection. Lide de base de ce mode dchantillonnage est
deffectuer des sondages distincts, en plusieurs phases successives, commenant par un grand
nombre dunits dchantillonnage lors de la premire phase, et en ne mesurant quun sous-ensemble
de ces units durant chaque phase successive, de faon estimer le paramtre vis avec plus de
prcision et pour un cot relativement moindre, en tudiant la relation entre les caractres mesurs
durant diffrentes phases. Dans un souci de simplification, nous ne dcrirons dans cette section que
lchantillonnage deux phases, ou chantillonnage double.
Une technique dchantillonnage qui ne comporte que deux phases (occasions) prend le nom
dchantillonnage deux phases, ou dchantillonnage double. Elle est particulirement utile dans les
situations o lnumration du caractre tudi (caractre principal) cote cher ou demande
beaucoup de main duvre, alors quun caractre auxiliaire corrl au caractre principal peut
facilement tre observ. Dans ce cas, il est parfois plus facile et plus conomique de prendre un
chantillon vaste pour analyser, dans le cadre dune premire phase, la variable auxiliaire. A lissue
de cette phase on obtiendra des estimations prcises de la valeur totale ou de la moyenne de la
population de la variable auxiliaire. Dans la seconde phase, on choisit un petit chantillon,
gnralement un sous-chantillon, dans lequel il est possible dobserver la fois le caractre principal
et la variable auxiliaire. A laide des renseignements supplmentaires obtenus lors de la premire
phase, les estimations de rgression ou par quotient permettent dobtenir des estimations prcises
concernant le caractre principal. La prcision des estimations finales peut tre accrue en incluant
plusieurs variables auxiliaires corrles, au lieu dune seule. Par exemple, pour estimer le volume
dun peuplement, les variables auxiliaires peuvent tre le diamtre ou la circonfrence des arbres et
leur hauteur. Pour estimer le rendement en matires tannantes de lcorce des arbres, on peut choisir
comme variables auxiliaires certaines mesures physiques des arbres comme la circonfrence, la
hauteur, le nombre de pousses etc...
Techniques dchantillonage
- 166 -
Comme bien dautres modes dchantillonnage, lchantillonnage double est une technique utile pour
rduire le cot des numrations et accrotre la prcision des estimations. Cette technique peut tre
trs avantageuse dans les enqutes portant sur des superficies forestires. Elle permet par exemple,
aprs une enqute prliminaire de la fort en question, dobtenir une estimation du matriel sur pied
une priode ultrieure, par exemple une distance de 10 15 ans, et de sa variation, sur la base
dun chantillon relativement petit.
Lchantillonnage double est galement utile pour stratifier une population. Un premier chantillon
concernant un caractre auxiliaire peut tre utilis pour subdiviser la population en strates dans
lesquelles le deuxime caractre (principal) varie peu. Si les deux caractres sont corrls, on peut
ainsi obtenir des estimations prcises du caractre principal, partir dun deuxime chantillon
relativement petit pour le caractre principal.
Il est possible de conjuguer le double chantillonnage avec dautres mthodes, comme
lchantillonnage plusieurs degrs (sous-chantillonnage), qui sont conomiques ou qui renforcent
la prcision des estimations. Par exemple, si lon veut estimer les disponibilits de gramines, cannes,
roseaux etc..., on peut prlever un double chantillon de compartiments (ou parcelles) et de sections
topographiques (ou blocs) pour estimer la surface effective portant les espces considres, et un
sous-chantillon des sections topographiques, des blocs ou des parcelles pour estimer le rendement.
5.6.1. Slection des units dchantillonnage
Dans le cas le plus simple dun chantillonnage deux phases, on peut recourir la technique
dchantillonnage alatoire simple dans les deux phases. Durant la premire tape, la population est
divise en units dchantillonnage bien dfinies et un chantillon est prlev selon la procdure
dchantillonnage alatoire simple. Le caractre x est mesur sur toutes les units ainsi slectionnes.
Ensuite, on prend un sous-chantillon dans ces units, slectionnes laide de la mthode
dchantillonnage alatoire simple, et on mesure le caractre principal (y) sur ces units. Lensemble
de la procdure peut galement tre excut en combinaison avec dautres mthodes, comme la
stratification ou lchantillonnage plusieurs phases.
5.6.2. Estimation des paramtres
i) Estimation de rgression dans le double chantillonnage:
Supposons quun chantillon de n units ait t prlev au hasard, durant la phase initiale, dans la
population de N units, pour observer la variable auxiliaire x, et que lon prlve un sous-chantillon
de taille m au sein duquel on observe la fois x et le caractre principal.
Soient
) ( n
x = moyenne de x dans le premier gros chantillon =

n
i
i
n
n
x
x
1
) (
(5.35)

( ) m
x = moyenne de x dans le deuxime chantillon =

m
i
i
m
m
x
x
1
) (
(5.36)
y = moyenne de y dans le deuxime chantillon =

m
i
i
m
y
y
1
(5.37)
On peut utiliser y pour estimer la moyenne de la population Y . Toutefois, avec les renseignements
prcdemment obtenus sur les units sondes, on peut obtenir une estimation plus prcise de Y en
Techniques dchantillonage
- 167 -
calculant la rgression de y en x, et utilisant les informations supplmentaires fournies par le premier
chantillon. Lestimation de rgression de Y est donne par la formule
) (
) ( ) ( ) ( m n drg
x x b y y + (5.38)
o le suffixe (drg) dnote lestimation de rgression obtenue grce au double chantillonnage, et b
est le coefficient de rgression de y en x, calcul partir des units contenues dans le deuxime
chantillon de taille m. Ainsi,
( )( )
( )

m
i
m i
m
i
i m i
x x
y y x x
b
1
2
) (
1
) (
(5.39)
La valeur approximative de la variance de lestimation est donne par
n
s s
m
s
y V
y x y x y
drg
2 2
.
2
.
) (
) (

+ (5.40)
o
1
]
1



m
i
m
i
m i i x y
x x b y y
m
s
1 1
2
) (
2 2 2
.
) ( ) (
2
1
(5.41)

m
i
i
y
m
y y
s
1
2
2
1
) (
(5.42)
ii) Estimation par quotient dans lchantillonnage double :
Lestimation par quotient sapplique principalement lorsque lordonne lorigine de la droite de
rgression de y en x est nulle. Lestimation par le quotient de la moyenne de la population Y est
donne par la formule
) (
) (
) ( n
m
dra
x
x
y
y (5.43)
o
dra
y est lestimation par quotient, dans lchantillonnage double. La variance de lestimation est
approximativement donne par
n
s R s R
m
s R s R s
y V
x yx x yx y
dra
2 2 2 2 2

2

2
) (

+
+
(5.44)
o
( )
1
1
2
2

m
y y
s
m
i
i
y
(5.45)
( )( )
1
1
) (

m
x x y y
s
m
i
m i i
yx
(5.46)
( )
1
1
2
2

m
x x
s
m
i
m i
x
(5.47)
Techniques dchantillonage
- 168 -
) (

m
x
y
R (5.48)
Nous allons illustrer par un exemple une analyse de donnes issues dun chantillonnage double,
avec estimation de rgression et estimation par quotient. Le Tableau 5.5 donne des renseignements
sur le nombre de cpes et le poids dherbe correspondant sur des parcelles de 0,025 ha, observs
sur un sous-chantillon prlev au hasard parmi 40 parcelles tires dun chantillon prliminaire de
200 parcelles, dans lesquelles seul tait compt le nombre de cpes.
Tableau 5.5. Nombre de cpes et poids dherbe observs sur des parcelles slectionnes
dans le cadre dune procdure dchantillonnage deux phases
Numro
de srie
Nombre de
cpes
(x)
Poids en
kgs
(y)
Numro
de srie
Nombre de
cpes
(x)
Poids en
kgs
(y)
1 459 68 21 245 25
2 388 65 22 185 50
3 314 44 23 59 16
4 35 15 24 114 22
5 120 34 25 354 59
6 136 30 26 476 63
7 367 54 27 818 92
8 568 69 28 709 64
9 764 72 29 526 72
10 607 65 30 329 46
11 886 95 31 169 33
12 507 60 32 648 74
13 417 72 33 446 61
14 389 60 34 86 32
15 258 50 35 191 35
16 214 30 36 342 40
17 674 70 37 227 40
18 395 57 38 462 66
19 260 45 39 592 68
20 281 36 40 402 55
Ici, n = 200, m = 40. Le nombre moyen de cpes par parcelle, observ sur lchantillon
prliminaire de 200 parcelles tait
) ( n
x = 374.4.

40
1
15419
i
i
x ,

40
1
2104
i
i
y ,

40
1
2
7744481
i
i
x ,

40
1
2
125346
i
i
y ,

40
1
960320
i
i i
y x
Techniques dchantillonage
- 169 -


,
_


40
1
40
1
2
40
1 2 2
) (
40
) (
i
i
i m i
x
x x x
( )
1800842
40
15419
7744481
2

( )

,
_


40
1
40
1
2
40
1 2 2
40
i
i
i
i i
y
y y y = 6 . 14675
40
) 2104 (
125346
2

( )( )


40
1
40
1
40
1
40
1
) (
40
i i
i i i m i
y x
y x y y x x = 6 . 149280
40
2104 15419
960320

Le nombre moyen de cpes par parcelle du sous-chantillon de 40 parcelles est


5 . 385
40
15419
) (

m
x
Poids moyen des cpes par parcelle dans le sous-chantillon de 40 parcelles
6 . 52
40
2104
y
Lestimation de rgression du poids moyen dherbe par parcelle (en kg) sobtient avec lquation
(5.38), o le coefficient de rgression b calcul laide de lquation (5.39) est
b 08 . 0
1800842
6 . 149280

Do, ) 5 . 385 4 . 374 ( 08 . 0 6 . 52
) (
+
drg
y
= 52.6 - 0.89
= 51.7 kg /plot
( ) ( ) [ ] 1800842 08 . 0 6 . 14675
2 40
1
2 2
.

x y
s
= 82.9
39
6 . 14675
2

y
s
=376.297
La variance approximative de lestimation est donne par lquation (5.40)
200
297 . 376 9 . 82
40
9 . 82
) (
) (

+
drg
y V (5.40)
= 3.5395
Techniques dchantillonage
- 170 -
Lestimation par quotient du poids moyen dherbe par parcelle (en kg) est donne par lquation
(5.43)
( ) 4 . 374
5 . 385
6 . 52
) (

dra
y
= 51.085
1 40
6 . 149280

yx
s
= 3827.708
1 40
1800842
2

x
s
= 46175.436
5 . 385
6 . 52

R
= 0.1364
La variance approximative de lestimation est donne par lquation (5.44)
( )( ) ( ) ( )
( )( )( ) ( ) ( )
200
436 . 46175 1364 . 0 708 . 3827 1364 . 0 2
+
40
436 . 46175 1364 . 0 708 . 3827 1364 . 0 2 297 . 376
) (
2
2

dra
y V
= 5.67
5.7. Echantillonnage avec probabilit proportionnelle la taille (chantillonnage PPT)
Souvent, les units dchantillonnage ont une taille trs variable, de sorte quun chantillonnage
alatoire simple nest pas toujours efficace, car il ne tient pas compte de limportance que peuvent
avoir les units plus grandes de la population. Dans ces situations, on a constat que les
renseignements supplmentaires sur la taille des units peuvent tre mis profit pour slectionner
lchantillon de faon obtenir un estimateur plus prcis des paramtres de la population. Une
mthode consiste assigner des probabilits de slection ingales aux diffrentes units de la
population. Par exemple, les villages couvrant une zone gographique plus grande ont des chances
davoir une plus grande superficie sous cultures vivrires. Pour estimer la production, il est donc
souhaitable dadopter un systme dchantillonnage dans lequel la probabilit de slection des
villages est proportionnelle la zone gographique. Si les units ont une taille variable et si la variable
considre est directement lie la taille de lunit, les probabilits peuvent tre assignes
proportionnellement la taille de lunit. Ce type dchantillonnage avec probabilit de slection
proportionnelle la taille de lunit est appel chantillonnage PPT. Lors de la slection des units
successives de la population, les units antrieurement slectionnes peuvent ventuellement tre
remises dans la population. Dans les paragraphes qui suivent, nous aborderons uniquement
lchantillonnage PPT avec remise des units dchantillonnage, car cest le plus simple des deux
systmes.
Techniques dchantillonage
- 171 -
5.7.1. Mthode de slection dun chantillon PPT avec remise
La procdure de slection de lchantillon consiste associer chaque unit un ou des nombre(s)
gaux sa taille et slectionner lunit correspondant un nombre choisi au hasard dans lensemble
de nombres associs aux units. Il existe deux mthodes de slection que nous allons dcrire:
(i) Mthode des totaux cumuls: Supposons que la taille de la i-me unit soit x
i
, (i = 1, 2, ,
N). On associe la premire unit les nombres allant de 1 x
i
, la seconde unit les nombres de
(x
1
+1) (x
1
+x
2
), et ainsi de suite, de manire ce que le total des nombres ainsi associs soit gal
X = x
1
+ x
2
+ + x
N
. Ensuite, on choisit au hasard un nombre alatoire de 1 X et on slectionne
lunit associe ce nombre.
Par exemple, un village a 8 vergers contenant respectivement 50, 30, 25, 40, 26, 44, 20 et 35
arbres. Un chantillon de 3 vergers doit tre slectionn avec remise et avec probabilit
proportionnelle au nombre darbres dans les vergers. La table des totaux cumuls se prsentera
comme suit:
Numro de srie du
verger
Taille
(x
i
)
Taille cumule Nombres associs
1 50 50 1 - 50
2 30 80 51 - 80
3 25 105 81 -105
4 40 145 106 -145
5 26 171 146 - 171
6 44 215 172 - 215
7 20 235 216 - 235
8 35 270 236 - 270
Enfin, on choisit trois nombres alatoires entre 1 et 270: ces nombres sont 200, 116 et 47. Les
units associes ces nombres sont la 6
me
, la 4
me
, et la 1
re
. Lchantillon ainsi slectionn contient
donc les units portant les numros de srie 1, 4 et 6.
ii) Mthode de Lahiri: Comme on la vu, avec la mthode des totaux cumuls, il faut reporter les
totaux cumuls successifs, ce qui est la fois long et fastidieux, en particulier si les populations sont
importantes. En 1951, Lahiri a propos une autre procdure qui vite cette opration. La mthode
de Lahiri consiste slectionner un couple (i,j) de nombres alatoires, o 1 i N et 1 j M; la
lettre M dsignant le maximum des tailles des N units de la population. Si j X
i
, on slectionne la
i-me unit. Dans le cas contraire, la paire de nombres alatoires est rejete et on choisit une autre
paire. Pour slectionner un chantillon de n units, la procdure doit tre rpte jusqu ce que les
n units soient choisies. Cette procdure permet de dterminer les probabilits de slection requises.
Par exemple, pour slectionner, par la mthode de Lahiri de slection dun PPT avec remise, un
chantillon de 3 vergers dans la population de lexemple prcdent (N = 8, M = 50 et n = 3), on
slectionne trois paires de nombres alatoires, dont le premier lment est infrieur ou gal 8 et le
second infrieur ou gal 50. Les trois paires slectionnes dams la table des nombres alatoires
sont (2, 23) (7,8) et (3, 30). Etant donn que, dans la troisime paire, j >X
i
, une nouvelle paire doit
tre slectionne. Celle-ci est (2, 18). Lchantillon slectionn selon cette procdure est donc
Techniques dchantillonage
- 172 -
constitu des units portant les numros de srie 2, 7 et 2. Comme lunit 2 revient deux fois dans
lchantillon, la taille de lchantillon est 2, dans ce cas. Pour obtenir une taille de lchantillon de
trois, on peut rpter la procdure dchantillonnage pour obtenir une nouvelle unit (distincte).
5.7.2. Procdure destimation
Supposons quun chantillon de n units soit tir dune population de N units, par la technique
dchantillonnage PPT avec remise. De plus, dsignons par (y
i
, p
i
) la valeur et la probabilit de
slection de la i-me unit de lchantillon, i = 1, 2, 3, ., n.
On obtient un estimateur non biais de la moyenne de la population par la formule

n
i
i
i
p
y
nN
Y
1
1

(5.49)
Un estimateur de la variance de cet estimateur est donn par
( )

,
_

,
_

N
i i
i
Y n
p
y
N n n
Y V
1
2
2
2

_ 1 (
1

(5.50)
o
X
x
p
i
i
, Y N Y


Nous allons illustrer ceci par un exemple. Un chantillon alatoire de 23 units sur 69 a t
slectionn avec probabilit proportionnelle la taille de lunit (compartiment) dans une superficie
forestire dans UP. La surface totale des 69 units tait de 14079 ha. Les volumes de bois
dtermins pour chaque compartiment slectionn sont donnes dans le Tableau 5.6, avec la
superficie du compartiment.
Techniques dchantillonage
- 173 -
Tableau 5. 6. Volume de bois et taille de lunit dchantillonnage pour un chantillon PPT de
compartiments forestiers.
No.
de
srie
Taille, en
ha
(x
i
)
Taille
relative
(x
i
/X)
Volume en m
3
(y
i
)
i
i
i
v
p
y

(v
i
)
2
1 135 0.0096 608 63407.644 4020529373.993
2 368 0.0261 3263 124836.351 15584114417.014
3 374 0.0266 877 33014.126 1089932493.652
4 303 0.0215 1824 84752.792 7183035765.221
5 198 0.0141 819 58235.864 3391415813.473
6 152 0.0108 495 45849.375 2102165187.891
7 264 0.0188 1249 66608.602 4436705896.726
8 235 0.0167 1093 65482.328 4287935235.716
9 467 0.0332 1432 43171.580 1863785345.581
10 458 0.0325 3045 93603.832 8761677342.194
11 144 0.0102 410 40086.042 1606890736.502
12 210 0.0149 1460 97882.571 9580997789.469
13 467 0.0332 1432 43171.580 1863785345.581
14 458 0.0325 3045 93603.832 8761677342.194
15 184 0.0131 1003 76745.853 5889925992.739
16 174 0.0124 834 67482.103 4553834285.804
17 184 0.0131 1003 76745.853 5889925992.739
18 285 0.0202 2852 140888.800 19849653965.440
19 621 0.0441 4528 102656.541 10538365422.979
20 111 0.0079 632 80161.514 6425868248.777
21 374 0.0266 877 33014.126 1089932493.652
22 64 0.0045 589 129570.797 16788591402.823
23 516 0.0367 1553 42373.424 1795507096.959
1703345.530 147356252987.120
Superficie totale X = 14079 ha.
On obtient un estimateur non biais de la moyenne de la population par lquation (5.49).
( )( )
( ) 0 1703345.53
69 23
1

Y
= 1073.312
Et une estimation de la variance de Y

laide de lquation (5.50).


( )
( )
( )( ) ( ) 67618.632 23 - 87.120 1473562529
69 ) 1 23 ( 23
1

Y V
= 17514.6
Et lerreur-type de Y est 17514.6 = 132.343.
- 174 -
6. CAS PARTICULIERS
En recherche forestire, un certain nombre de cas sont tudis laide dapplications statistiques
autres que les plans ou techniques classiques danalyse ou dchantillonnage. Ces mthodes
particulires sont entirement subordonnes aux concepts affrents aux disciplines considres de
sorte que, pour bien comprendre toutes leurs implications, il est indispensable davoir une bonne
matrise des statistiques et des disciplines en jeu. Quelques-uns de ces cas particuliers seront
brivement examins dans ce chapitre. On notera que chacun des cas dcrits ci-dessous a t assez
largement dvelopps et que cette section ne reprsente quun ensemble de base. Nous invitons nos
lecteurs se reporter, le cas chant, dautres ouvrages, pour mieux comprendre les variations
possibles, aussi bien dans la structure des donnes que dans la forme danalyse.
6.1. La gntique et lamlioration des plantes
6.1.1. Estimation de lhritabilit et du gain gntique
Les variations observes dans un groupe dindividus comprennent une part de variation gntique,
ou hrditaire, et une part de variation non hrditaire. La fraction hrditaire de la variation totale
est appele coefficient dhritabilit au sens large. La variance gnotypique peut elle-mme tre
subdivise en variance gntique additive et non additive. Le rapport de la variance gntique
additive la variance phnotypique totale est appel coefficient dhritabilit au sens strict et est
dsign par h
2
. On a donc,
ental environnem variance aditive non gntique variance additive gntique variance
additive gntique variance
h
2
+ +

Le gain gntique ou amlioration gntique par gnration peut tre dfini comme laugmentation de
la productivit drivant dun changement de la frquence gnique d le plus souvent la slection.
Lhritabilit et le gain gntique peuvent tre valus par deux mthodes, au choix. Lestimation la
plus directe est drive de la relation entre les parents et leur descendance, et sobtient en mesurant
les parents, en cultivant leurs descendants et en les mesurant. Lautre mthode consiste examiner la
descendance de familles pleinement ou demi apparentes, de faire une analyse de la variance et de
calculer lhritabilit comme fonction des variances. Dans ce contexte, il est indispensable de
possder une connaissance approfondie des statistiques pour comprendre la partie thorique. Les
formules que lon trouvera plus loin dans cette section ne sont donnes qu titre de rfrence. De
plus, nous avons volontairement renonc couvrir les multiples variations qui pourraient rsulter
dirrgularits dans le plan. Nous illustrerons ce qui prcde laide dun testage de la descendance
de familles demi apparentes, qui est le plus utilis dans le secteur forestier en raison de sa
simplicit.
Les estimations de lhritabilit et du gain gntique sappliquent exclusivement aux expriences
partir desquelles elles ont t obtenues. Il suffit parfois den modifier un lger dtail pour obtenir des
rsultats tout fait diffrents. Il est donc recommand, lorsque lon dcrit les expriences,
daccompagner le plan exprimental et les procdures de calcul des dtails et des explications
Cas particuliers
- 175 -
voulus. Il est bon galement dtablir la fiabilit statistique de chaque estimation de lhritabilit, cest
pourquoi les formules permettant de la calculer figurent aussi dans cette section. Pour en savoir plus,
le lecteur pourra se rfrer Falconer (1960), Jain (1982) et Namkoong et al. (1966).
Nous illustrerons ces techniques laide des donnes du Tableau 6.1, obtenues lissue dun essai
sur la descendance de bambous conduit Vellanikkara et Nilambur, dans le Kerala ; le testage
portait sur 6 familles, et a t rpt 3 fois pour chaque station, sur des parcelles de 6 arbres
chacune. Les donnes du Tableau 6.1 faisaient partie dun plus grand ensemble.
Tableau 6.1. Donnes sur la hauteur issues dun test sur la descendance de bambous, avec
rptitions, conduit sur deux stations, dans le Kerala.
Hauteur (en cm) deux ans aprs la plantation
Site I - Vellanikkara Site II Nilambur
Famille Famille
Bloc Arbre 1 2 3 4 5 6 1 2 3 4 5 6
1 1 142 104 152 111 23 153 24 18 18 31 95 57
2 95 77 98 29 48 51 58 50 24 26 42 94
3 138 129 85 64 88 181 32 82 38 30 43 77
4 53 126 118 52 27 212 27 23 65 86 76 39
5 95 68 25 19 26 161 60 56 46 20 41 82
6 128 48 51 25 26 210 75 61 104 28 49 29
2 1 185 129 78 28 35 140 87 26 78 25 29 54
2 117 131 161 26 21 79 102 103 57 37 72 56
3 135 135 121 25 14 158 74 55 60 52 83 29
4 155 88 124 76 34 93 102 43 26 139 40 67
5 152 75 118 43 49 151 20 100 59 49 24 42
6 111 41 61 86 31 171 80 98 70 97 54 47
3 1 134 53 145 53 72 109 54 58 87 17 25 38
2 35 82 86 32 113 50 92 47 93 23 30 38
3 128 71 141 24 37 64 89 33 70 29 26 36
4 89 43 156 182 19 82 144 108 47 30 36 72
5 99 71 121 22 24 77 100 70 26 87 24 106
6 29 26 55 52 20 123 92 46 40 31 37 61
Pour estimer lhritabilit et le gain gntique, sur la base dun examen de la descendance de familles
demi apparentes, on procde en plusieurs tapes:
Cas particuliers
- 176 -
*Etape 1. Etablir un test de la descendance rpt portant sur la descendance obtenue par
pollinisation libre de f familles, rpte b (pour bloc) fois sur chacune des s stations, sur des
parcelles de n arbres. Mesurer un caractre, comme la hauteur, et calculer lanalyse de la
variance comme indiqu dans le Tableau 6.2. La descendance dune plante femelle
quelconque constitue une famille.
Tableau 6.2. Reprsentation schmatique de lanalyse de la variance relative un test de la
descendance de familles demi-apparentes pratiqu sur plusieurs plantations.
Source de variation Degr de libert
(df)
Somme des
carrs
(SS)
Carr moyen

,
_

df
SS
MS
Station s - 1 SSS MSS
Bloc dans la station s (b - 1) SSB MSB
Famille f - 1 SSF MSF
Famille x Site (f - 1)(s - 1) SSFS MSFS
Famille x Bloc
dans la station
s(f - 1) (b - 1) SSFB MSFB
Arbre dans la
parcelle
bsf (n - 1) SSR MSR
Les formules permettant de calculer les diffrentes sommes des carrs de la table danalyse de la
variance sont donnes plus loin, de mme que la formule du facteur de correction (C.F.). Soit y
ijkl
lobservation correspondant au l-me arbre appartenant la k-me famille du j-me bloc dans la i-
me station. Soit G le total gnral, S
i
le total de la i-me station, F
k
le total de la k-me famille,
(SB)
ij
le total du j-me bloc dans la i-me station, (SF)
ik
le total de la k-me famille dans la i-me
station, (SBF)
ijk
le total de la k-me famille dans le j-me bloc de la i-me station.
C F =
sbfn
G
2
(6.1)
=
6) (2)(3)(6)(
15418.00
2
=1100531.13
SSTO = . F . C
s
1 i
b
1 j 1 1


f
k
n
= l
2
ijkl
y (6.2)
= (142)
2
+(95)
2
+.+(61)
2
- 1100531.13
= 408024.87
C.F.
bfn
S
s
i
2
i

1
SSS (6.3)
Cas particuliers
- 177 -
=
(3)(6)(6)
6084.00) ( (9334.00)
2 2
+
-1100531.13
= 48900.46
SSS - F. C.
fn
(SB)
b
j
2
ij


s
1 i 1
SSB (6.4)
=
(6)(6)
) (2042.00 + ...... + (3377.00) + (3238.00)
2 2 2
-1100531.13 - 48900.46
= 9258.13
C.F.
sbn
F
f
k
2
k

1
SSF (6.5)
=
(2)(3)(6)
(3289.00) + ..... + (2574.00) + (3332.00)
2 2 2
- 1100531.13
= 80533.37
SSF - SSS - F. C.
bn
(SF)
b
j
2
ik


s
1 i 1
SSFS (6.6)
=
(3)(6)
0) ...(1024.0 + (1497.00) + (2020.00)
2 2 2
- 1100531.13 - 48900.46 - 80533.37
= 35349.37
SSFS - SSF - SSB - SSS - F. C.
n
(SBF)
f
k
2
ijk


s
1 i
b
1 j 1
SSFB (6.7)
=
(6)
351.00) ( .... (552.00) + (651.00)
2 2 2
+ +
- 1100531.13 - 48900.46 -
9258.13 - 80533.37 - 35349.37
= 45183.87
SSFB - SSFS - SSF - SSB - SS S SSTO SSR (6.8)
= 408024.87 - 48900.46 - 9258.13 - 80533.37 -35349.37 - 45183.87
= 188799.67
Les carrs moyens se calculent de la manire habituelle en divisant les sommes des carrs par leurs
degrs de libert. Les rsultats qui prcdent peuvent tre mis en tableau (voir Tableau 6.3).
Cas particuliers
- 178 -
Tableau 6.3. Table danalyse de la variance pour un testage de la descendance de familles
demi-apparentes, pratiqu sur plusieurs plantations, partir des donnes du Tableau 6.1.
Source de variation Degr de libert
(df)
Sommes des
carrs
(SS)
Carr moyen

,
_

df
SS
MS
Station 1 48900.46 48900.46
Bloc-dans la
station
4 9258.13 2314.53
Famille 5 80533.37 16106.67
Famille x station 5 35349.37 7069.87
Famille x Bloc-
dans la station
20 45183.87 2259.19
Arbre- dans la
parcelle
180 188799.67 1048.89
En gnral, dans les tudes statistiques, on divise de plusieurs manires les carrs moyens les uns par
les autres pour obtenir des valeurs de F qui servent ensuite tester la signification. Toutefois, comme
les carrs moyens sont par nature complexes, puisquils contiennent gnralement des variabilits
dues plusieurs facteurs, on les fractionne en composantes de la variance selon les quivalents
prsents dans le Tableau 6.4.
Tableau 6.4. Composantes de la variance des carrs moyens pour un test de la descendance de
familles demi-apparentes, pratiqu dans plusieurs plantations.
Source de variation Composantes de la variance des carrs moyens
Station V
e
+ n V
fb
+ n b V
fs
+ nf V
b
+ nfb V
s
Bloc-dans la station V
e
+ n V
fb
+ nf V
b
Famille V
e
+ n V
fb
+ n b V
fs
+ nbs V
f
Famille x Station V
e
+ n V
fb
+ nb V
fs
Famille x Bloc-
dans la station
V
e
+ n V
fb
Arbre- dans la parcelle V
e
Dans le Tableau 6.4, V
e
, V
fb
, V
fs
, V
f
, V
b
, et V
s
sont les variances dues respectivement larbre
dans la parcelle, la famille x bloc dans la station, la famille, au bloc dans la station, et la station.
*Etape 2. Une fois les carrs moyens calculs, identifier chacun dentre eux sa composante de la
variance, comme dans le Tableau 6.4. Commencer par le bas du tableau de manire
calculer les variances suivantes par un processus de soustraction et division. Pour ce faire,
soustraire le carr moyen dans la parcelle (V
e
) du carr moyen famille x bloc (V
e
+ nsV
fb
)
pour obtenir nsV
fb
; diviser ensuite par ns pour obtenir V
fb
. Procder de la mme manire
jusquau haut du tableau.
*Etape 3. Aprs avoir calcul les variances, valuer lhritabilit des moyennes des familles demi-
apparentes.
Cas particuliers
- 179 -
Hritabilit de la Famille
f
fs fb e
f
V
s
V
bs
V
nbs
V
V
+ + +
(6.9)

1600 . 0
02 . 251
) 2 (
26 . 267
) 2 )( 3 (
72 . 201
) 2 )( 3 )( 6 (
89 . 1048
02 . 251

+ + +

En gnral, la slection se fait sur la base des moyennes familiales, plus fiables que les moyennes par
parcelle ou par arbre.
*Etape 4. Si la slection est base sur les performances darbres individuels, on calcule lhritabilit
individuelle. Dans un test de la descendance de familles demi-apparentes, les diffrences
entre familles reprsentent un quart seulement de la variance gntique additive ; le reste
reprsente les variations au sein des familles. On multiplie donc V
f
par 4 lorsque lon calcule
lhritabilit individuelle. En outre, comme la slection est base sur des arbres individuels,
toutes les variances sont insres en totalit dans le dnominateur. La formule donnant
lhritabilit individuelle est donc,
Hritabilit individuelle
f fs fb e
f
V V V V
V 4
+ + +
(6.10)

5676 . 0
02 . 251 26 . 267 72 . 201 89 . 1048
) 02 . 251 )( 4 (

+ + +

Si les familles ne sont testes que dans une seule plantation, les procdures de test et de calcul sont
trs simplifies. Au total, les degrs de libert sont nfb -1; les carrs moyens et les variances de la
station et de la famille x station sont limins du Tableau 6.2. Les familles ne sont mesures que sur
une station, alors quelles pourraient avoir une croissance trs diffrente ailleurs. La valeur calcule
de V
f
est en ralit une combinaison de V
f
et V
fs
. Lhritabilit calcule partir des donnes
provenant dune seule plantation est donc survalue.
Lenregistrement et lanalyse de donnes concernant un arbre individuel sont les phases les plus
laborieuses, puisquelles absorbent souvent 75% des efforts de mesure et de calcul. Si les donnes
sont analyses en termes de moyenne par parcelles plutt que de moyennes par arbre, les
estimations de V
fb
, V
fs
, et V
f
ne varient pas, mais V
e
ne peut pas tre dtermin. Le terme (V
e
/nbs)
est souvent si petit quil est sans incidence sur lestimation de lhritabilit familiale. Lhritabilit
individuelle est en revanche lgrement survalue si lon omet V
e
. On gagnera du temps en ne
prenant en considration que les moyennes familiales sur des stations diffrentes, cest dire en
calculant seulement V
fs
et V
f
. Normalement, llimination du terme V
fb
/bs entrane une lgre
surestimation de lhritabilit familiale, alors que la suppression du terme V
fb
peut tre lorigine
dune survaluation plus importante de lhritabilit individuelle.
*Etape 5. Calculer lerreur type de lestimation de lhritabilit individuelle grce lexpression,
Cas particuliers
- 180 -
( )[ ]
( )( )( ) [ ]
2
1
2 2
2
1 f 1 nbs
2
nbs
4
h
) 1 nbs ( 1
4
h
1
) h ( SE

+
(6.11)
( )[ ]
( )( )

1 6 11 ) 2 )( 3 )( 6 (
2
) 2 )( 3 )( 6 (
4
5676 . 0
) 1 ) 2 )( 3 )( 6 (( 1
4
5676 . 0
1
2
1
1
]
1

,
_

= 0.0036
Lerreur type de lhritabilit familiale est approximativement donne par,
) h ( SE
2

( )( )
( )( ) [ ]2
1
2 1 f nbs
nbst 1 t 1

(6.12)

( ) ( ) ( )
( )( ) [ ]2
1
2 1 6 ) 2 )( 3 )( 6 (
) 1419 . 0 ( 2 ) 3 )( 6 ( 1 1419 . 0 1

5525 . 0
o t est la corrlation au sein dune classe (ou corrlation intraclasse), gale un quart de
lhritabilit individuelle.
Les formules prcdentes sont correctes si V
e
= V
fb
= V
fs
. Toutefois, si lune de ces quantits est
nettement suprieure aux autres, le terme nbs sera rduit en consquence. Par exemple, si, V
fs
est
nettement suprieur V
fb
ou V
e
, on peut remplacer nbs par s.
Lestimation de lhritabilit familiale calcule plus haut sapplique exclusivement dans le cas o les
familles slectionnes sont celles qui ont les meilleures performances globales dans toutes les
plantations. Il arrive quun slectionneur choisisse des familles qui ne sont suprieures que dans une
seule plantation. Dans ce cas, lhritabilit familiale se calcule comme prcdemment, mais en
remplaant V
fs
par V
fs
/s au dnominateur.
Si un slectionneur se base sur les moyennes de parcelles, seule lhritabilit familiale est calcule
selon la formule ci-dessus, la diffrence prs que V
fs
et V
fb
sont respectivement remplacs par V
fs
/s et V
fb
/bs au dnominateur.
*Etape 6. Pour calculer le gain gntique partir dun test de la descendance de familles demi
apparentes, on utilise la formule permettant dobtenir lamlioration gntique drivant
dune slection familiale.
Gain Gntique = Diffrentiel de slection x Hritabilit familiale (6.13)
o Diffrentiel de slection = (Moyenne des familles slectionnes moyenne de toutes les familles)
Cas particuliers
- 181 -
Pour calculer le gain attendu dune slection de masse dans un tel test de la descendance, on utilise la
formule,
Gain attendu de la slection de masse = Diffrentiel de slection x hritabilit individuelle
(6.14)
o Diffrentiel de slection = (Moyenne des arbres slectionns Moyenne de tous les arbres)
6.1.2. I nteraction gnotype - environnement
Le phnotype dun individu est la rsultante de son gnotype et du milieu dans lequel il se dveloppe.
Les effets dun gnotype et de lenvironnement ne sont pas toujours indpendants. Une diffrence
particulire dans lenvironnement peut avoir plus deffet sur certains gnotypes que sur dautres, et le
classement des gnotypes peut varier sils sont mesurs dans des environnements diffrents. Ce jeu
rciproque deffets gntiques et non gntiques sur lexpression phnotypique est appel interaction
gnotype - environnement. Lorsquun gnotype ragit diffremment une srie denvironnements,
cela signifie que cette interaction existe.
Lenvironnement dun individu est fait de tout ce qui a une influence sur son dveloppement,
lexception de son gnotype. On peut donc dire que lenvironnement est la somme de tous les
facteurs non-gntiques externes lorganisme. Comstock et Moll (1963) font une distinction entre
le micro et le macro-environnement. Le micro-environnement est celui dun seul organisme,
lexclusion de tout autre qui se dvelopperait en mme temps et pratiquement au mme endroit. Plus
spcifiquement, les diffrences micro-environnementales sont des fluctuations de lenvironnement qui
se produisent mme lorsque des individus sont apparemment soumis des traitements identiques. En
revanche, le terme macro-environnement dsigne lensemble des environnements, potentiels ou
effectifs, dans une zone et une priode de temps dtermines. Un macro-environnement est donc en
quelque sorte lensemble des micro-environnements quil pourrait contenir. Les diffrences de
stations, de climat et mme de pratiques de gestion sont des exemples de diffrences macro-
environnementales. On notera que leffet dun micro-environnement sur un organisme, et ses
interactions avec diffrents gnotypes sont habituellement trs faibles. De plus, tant donn quun
micro-environnement est par nature incontrlable et imprvisible, ses interactions avec les gnotypes
sont difficilement discernables. En dautres termes, seule la dviation macro-environnementale et
son interaction avec un gnotype peuvent tre isoles et soumises un test de signification.
Lune des mthodes employes pour dtecter une interaction gnotype-environnement consiste
analyser les donnes provenant dun essai multi-stations, comme dans le Tableau 6.2, et tester la
signification du terme dinteraction Famille x Station. On compare la valeur calcule de F sa valeur
tabulaire dans le cas de (f-1)(s-1) et s(f-1)(b-1) degrs de libert (Voir Tableau 6.5).
Si linteraction nest pas significative ou ne comporte pas de diffrences notables de classement entre
les meilleures familles ou clones, celles-ci peuvent tre ignores et les slections seront faites sur la
base de la performance moyenne du gnotype, sur toutes les stations examines. En revanche, si les
interactions sont importantes et peuvent tre assez bien interprtes pour pouvoir dterminer
lavance les endroits o certains gnotypes auront une croissance excellente ou, au contraire,
mdiocre, elles ne peuvent pas tre ignores. Pour dterminer si elles sont significatives, on procde
comme suit : Regrouper les donnes provenant de plusieurs plantations suivant les caractristiques de
la station (nord/sud ; sec/humide ; peu fertile/fertile). Dterminer la quantit dinteraction lintrieur
de ces groupes et entre eux. Si une part importante de linteraction peut tre imputable au
Cas particuliers
- 182 -
regroupement, faire des slections distinctes pour les stations reprsentatives de chaque groupe de
plantation. Ensuite, la procdure correcte consiste faire une analyse de variance distincte et une
estimation de lhritabilit pour chaque groupe de plantation au sein duquel les interactions sont trop
faibles ou trop difficiles interprter pour avoir une signification pratique.
Tableau 6.5. Analyse de la variance pour un test multi-plantations de la descendance de familles
demi-apparentes.
Sources de
variation
Degrs de
libert
Somme
des carrs
Carr
moyen
F
calcul
F
Tabulaire5
%
Station 1 48900.46 48900.46
Bloc dans la
station
4 9258.13 2314.53
Famille 5 80533.37 16106.67
Famille x station 5 35349.37 7069.87
MSFB
MSFS
=3.97*
2.71
Famille x bloc
dans la station
20 45183.87 2259.19
Arbre dans la
parcelle
180 188799.67 1048.89
* Significatif au seuil de 5% .
Une autre approche consiste utiliser la technique de rgression pour rpartir la composante de
variabilit de linteraction gnotype environnement entre ses fractions linaires et non linaires, en
vue dvaluer la stabilit des gnotypes sur une srie denvironnements (Freeman et Perkins, 1971).
Un examen plus approfondi de cette mthode na pas sa place dans cette section.
6.1.3. Plans de vergers graines
Un verger graines est une plantation darbres gntiquement suprieurs, isols pour rduire la
pollinisation de sources externes gntiquement infrieures, et gre de manire intensive pour
produire des rcoltes de graines frquentes, abondantes et faciles ramasser. Pour ce faire, on
dsigne des clones (sous la forme de greffons ou de boutures) ou des plantules descendant darbres
slectionns pour les caractristiques recherches. La prsente section dcrit certains plans utiliss
pour ltablissement de vergers graines, principalement des fins statistiques. Des ouvrages sur
lamlioration gntique des arbres, comme celui de Wright (1976) et Faulkner (1975) donnent des
informations sur plusieurs autres aspects de la planification des vergers graines, notamment sur le
type de clones ou de plantules utiliss pour la plantation, le nombre de clones ou de familles, les
cartements de plantation, et sur dautres lments connexes.
Dans le cas de vergers graines de clone, les plants dun mme clone sont appels ramets.
Toutefois, dans cette section, les termes clone ou ramet , tels quils sappliquent dans des
vergers graines de clones, sont utiliss des fins descriptives. On peut adopter des plans analogues
pour les vergers graines de plantule, et dans ce cas on dira descendance au lieu de clone et
parcelle familiale au lieu de ramet . Les parcelles familiales peuvent tre composes dun seul
arbre ou de groupes de plusieurs arbres.
Cas particuliers
- 183 -
Un plan entirement randomis (PER) avec slection entirement alatoire de tous les ramets
disponibles de tous les clones, entre toutes les positions de plantation disponibles sur la station, est le
plus simple concevoir, sur le papier. Toutefois, sa ralisation pose parfois des problmes lis la
plantation, ou au greffage in situ et la rimplantation de chaque ramet un stade ultrieur, en
particulier si le verger est grand et contient de nombreux clones. Sil est prvu de pratiquer des
claircies systmatiques en enlevant un arbre sur deux ou un rang sur deux, le plan peut tre encore
amlior en faisant des randomisations distinctes pour les ramets qui doivent tre laisss en place et
pour ceux qui seront supprims lors des claircies. Assez souvent, la randomisation est limite par
des restrictions, par exemple par une interdiction de planter deux ramets du mme clone lun ct
de lautre lintrieur des ranges ou des colonnes, ou bien dans des positions adjacentes, en
diagonale ; ou quau moins deux ramets diffrents sintercalent entre des ramets du mme clone. Ces
restrictions supposent gnralement de manipuler les positions des ramets sur le plan, qui perd alors
son caractre purement alatoire, mais il est rare que cette perte soit rellement significative. Cette
stratgie vise essentiellement viter les risques de consanguinit.
Nous illustrerons ce qui prcde par la reprsentation graphique dun plan entirement randomis
comportant une dizaine de rptitions, relatif dix clones plants, avec un anneau disolation.
Figure 6.1. Reprsentation schmatique dun PER, comportant dix rptitions, concernant 10
clones, avec un anneau disolation autour des ramets de chaque clone.
4 7 4 8 5 10 7 6 4 7
8 3 9 1 2 1 3 5 3 5
6 1 5 3 10 5 10 9 7 10
8 4 2 1 9 7 6 3 5 8
5 7 3 6 2 3 5 2 10 2
1 10 4 7 10 6 8 4 1 5
9 7 6 3 5 2 7 3 6 2
1 5 2 10 1 3 10 5 4 9
8 10 4 7 5 7 8 2 1 6
7 2 8 6 1 4 6 7 10 4
Ces concepts peuvent tre largis aux plans exprimentaux en blocs alatoires complets (PEBAC)
ou aux plans en blocs incomplets, comme les treillis examins dans le chapitre 4 de ce manuel, qui
permettent de contrler plus facilement la composante derreur. Toutefois, la randomisation
lintrieur des blocs est ordinairement modifie pour respecter les restrictions concernant la proximit
des ramets dun mme clone. Ces plans dexprience sont surtout appropris pour les tudes
comparatives de clones, mais ils ont des inconvnients, notamment : le PEBAC ne fonctionne pas
bien avec un grand nombre de clones ; les treillis et les autres plans en blocs incomplets ne sont
disponibles que pour certaines combinaisons dtermines de nombre de clones et de nombres de
ramets par clone, et sont inapplicables dans le cas dclaircies systmatiques qui dtruiraient le plan.
La Bastide (1967) a mis au point un programme informatique qui fournit un plan ralisable pour des
nombres dtermins de clones, de ramets par clone, et pour un rapport dtermin entre les lignes et
les colonnes. Ce programme comporte deux contraintes : premirement, il faut un double anneau de
clones diffrents pour isoler chaque ramet dun mme clone (qui sont plants dans des rangs
disposs en quinconce) ; une combinaison quelconque de deux clones adjacents ne peut se trouver
Cas particuliers
- 184 -
quune seule fois dans une direction spcifique quelconque (voir Figure 6.2.). Ce plan peut tre
appel plan de permutation des combinaisons de voisinage .
Figure 6.2. Fragment dun plan de permutation des combinaisons de voisinage relatif 30 clones,
avec les restrictions au caractre alatoire imposes par La Bastide (1967) dans son programme
informatique, savoir i) 2 anneaux de clones diffrents isolent chaque ramet, et ii) une combinaison
quelconque de deux clones adjacents ne peut pas se retrouver plus dune fois dans une direction
spcifique quelconque.

16 22 18 24 10 23
21 5 29 3 19 5 1
15 23 14 22 30 24
6 4 26 7 25 8 3
25 23 2 29 8 2
5 8 6 9 10 7 15
21 22 12 20 27 26
7
7
Lidal est que le plan soit construit pour un nombre de rptitions gal au nombre de clones diminu
de un, de faon ce que chaque clone se trouve ct de chaque autre clone une fois dans chacune
des six directions possibles. Pour trente clones, il faudrait donc 29 ramets par clone, soit au total 870
greffons, mme sil nest pas toujours possible de construire des plans de cette taille. Mme dans ce
cas, les petits blocs qui ont t crs sont pour linstant les meilleurs plans dont on dispose pour
garantir, au moins en thorie, la permutation maximale des combinaisons de voisinage et la
production minimale de frres complets dans la descendance du verger. Chakravarty et Bagchi
(1994) et Vanclay (1991) dcrivent de bons programmes dordinateur permettant de construire des
plans de permutation de voisinage relatifs des vergers graines..
Lorsque lon tablit des vergers graines, on part ordinairement de lhypothse que chaque clone
(ou ramet, ou parcelle familiale ou plantule) du verger fleurira la mme priode ; aura le mme
cycle de grosse floraison priodique ; sera compltement inter fcondable avec tous ses voisins et
produira un nombre identique de semences viables par plant; aura le mme degr de rsistance
lautostrilit ; et aura un taux de croissance et une forme de couronne similaires tous les autres
plants. Comme chacun sait, il nen est, et nen sera probablement jamais ainsi. Pour obtenir de bons
rsultats, un slectionneur doit tre patient et observateur et rassembler sans relche toutes les
informations essentielles sur le comportement des clones, leurs compatibilits et leurs facults de
combinaison, et en tenir compte pour amliorer les gnrations prochaines et successives de vergers
graines. Ce type de plans utilise le maximum de donnes existantes.
Cas particuliers
- 185 -
6.2. Dendromtrie
6.2.1. Equations de volume et de biomasse
Dans de nombreux domaines de recherche forestire, comme la sylviculture, lcologie ou la science
du bois, on doit dterminer le volume ou la biomasse des arbres, le plus souvent, dune partie
spcifique de larbre. Comme les mthodes physiques de mesure du volume et de la biomasse sont
destructrices, on peut recourir des quations prtablies pour obtenir des estimations de ces
caractristiques. Ces quations varient dune espce lautre, et pour une espce donne, dun
peuplement lautre. Les estimations se rapportant un seul arbre manquent parfois de prcision,
mais elles sont valables si on les refait pour plusieurs arbres, et si lon additionne les rsultats, comme
pour calculer le volume dun peuplement. Dans tous les cas o lon ne dispose pas dune quation
approprie, on devra tablir une quation prdictive. Il faut pour cela dterminer le volume ou la
biomasse rels dun ensemble darbres-chantillons et les relier, par une analyse de la rgression,
des mesures non-destructrices telles que le diamtre hauteur dhomme ou la hauteur des arbres.
(i) Mesure du volume et de la biomasse dun arbre
La dtermination du volume dune partie spcifique de larbre, telle que le ft ou une branche,
sobtient, en gnral, en dcoupant la partie considre en grumes, puis en mesurant celles-ci. Les
grumes coupes aux fins de la recherche font gnralement 3 mtres de long, sauf celle de lextrmit
suprieure qui peut mesurer jusqu 4,5m. Cependant, si le dernier tronon fait plus de 1,5m de
long, on le considre comme une grume et on le met de ct. Le diamtre, ou la circonfrence, se
mesure au centre et aux deux extrmits de la grume, ou en bas, au milieu et au sommet des grumes,
selon le cas. On mesure aussi la longueur de chaque grume. Les mesures peuvent tre prises sur ou
sous corce, aprs lavoir enleve. Selon les mesures dont on dispose, on peut calculer le volume de
chaque grume laide de lune des formules du tableau ci-dessous.
Volume de la grume Observations
( ) b t l
2 2
8
+

Formule de Smalian
l
4
m
2

,
_

Formule de Huber
( )

+ +
24
l t m 4 b
2 2 2
Formule de Newton
o b est la circonfrence de la base de la grume,
m est la circonfrence de la partie centrale de la grume
t est la circonfrence du fin bout de la grume
l est la longueur ou la hauteur de la grume
Pour expliquer le calcul du volume dun arbre laide des formules ci-dessus, nous prendrons les
donnes sur la longueur et la circonfrence (du bas, du milieu et du bout) de diffrentes grumes dun
arbre, reprises dans le Tableau 6.6.
Tableau 6.6. Circonfrences (du bas, du milieu et du bout) et longueurs des grumes dun teck.
Cas particuliers
- 186 -
Circonfrence (cm) Volume des grumes (cm)
3
Numro
de la
grume
Bas
(b)
Milieu
(m)
Bout
(t)
Longueur
(l)
Formule de
Smalian
Formule de
Huber
Formule de
Newton
1 129.00 99.00 89.00 570.00 556831.70 444386.25 481868.07
2 89.00 90.10 91.00 630.00 405970.57 406823.00 406538.86
3 64.00 60.00 54.90 68.00 19229.35 19472.73 19391.60
4 76.00 85.00 84.60 102.00 52467.48 58621.02 56569.84
5 84.90 80.10 76.20 111.00 57455.84 56650.45 56918.91
Total 1091954.94 985953.45 1021287.28
En additionnant les volumes de chaque grume, on obtiendra la valeur du volume de larbre ou de la
partie considre. On peut exprimer ce volume en m
3
en divisant la valeur obtenue (en (cm)
3
) par
1000.000.
Dans le commerce du bois, la mesure utilise est gnralement le volume, mais certains produits
comme le bois de feu ou le bois de trituration se vendent aussi au poids. Le poids est aussi la mesure
standard pour de nombreux produits forestiers mineurs. En recherche, on se rfre de plus en plus
souvent la biomasse. Il est certes plus facile de dterminer le poids plutt que le volume, mais
divers problmes, comme le caractre variable de la teneur en humidit et de lpaisseur de lcorce,
font que cette mesure nest pas fiable. On exprime donc en gnral la biomasse en poids sec des
parties de larbre (tronc, branches, et feuilles). On utilise des mthodes destructrices pour dterminer
la biomasse darbres individuels, en les abattant et en sparant les parties, comme le tronc, les
branches, les rameaux et les feuilles. Il importe de bien dfinir toutes les parties constituantes de
larbre: par exemple, tout matriel issu du tronc, dont la circonfrence mesure sur corce est
infrieure 10 cm, fait partie du bois des branches. Les diffrentes parties doivent tre peses
immdiatement aprs labattage. Si lon veut obtenir des poids schs ltuve, les chantillons sont
prlevs ce stade. Au moins trois chantillons denviron 1 kilo doivent tre prlevs sur le tronc,
les branches et les rameaux de chaque arbre ; ensuite il faut les peser et les emporter au laboratoire
pour le schage ltuve. Le poids sec total de chaque partie constituante de larbre est ensuite
estim en appliquant le rapport poids frais / poids sec observ dans lchantillon, au poids frais total
correspondant des parties constituantes de larbre. Par exemple,
( ) fut du FW Total
fut du ns chantillo des FW
fut du ns chantillo des DW
fut du DW Total (6.15)
o FW = Poids frais
DW = Poids sec
Cas particuliers
- 187 -
Pour illustrer ceci par un exemple, nous prendrons les donnes du Tableau 6.7.
Tableau 6.7. Poids frais et poids sec de disques-chantillons prlevs sur le ft dun arbre
Disque Poids frais
(kg)
Poids sec
(kg)
1 2.0 0.90
2 1.5 0.64
3 2.5 1.37
Total 6.0 2.91
( ) fut du FW Total
fut du ns chantillo des FW
fut du ns chantillo des DW
fut du DW Total
DW total du ft de larbre = 460.8 kg
(ii) Estimation dquations allomtriques
Les donnes sur le volume ou la biomasse ainsi que sur le diamtre hauteur dhomme (dbh) et la
hauteur issues de lobservation darbres-chantillons, sont utilises pour dvelopper des quations
prdictives, laide de techniques de rgression. Pour les quations de biomasse, on prend parfois
comme variable de rgression un diamtre mesur un point plus bas que la hauteur de poitrine. Le
volume, ou la biomasse, est la variable dpendante et les fonctions du dbh et de la hauteur sont les
variables indpendantes de la rgression. On trouvera ci-dessous quelques formes classiques
dquations prdictives du volume ou de la biomasse.
y = a + b D + c D
2
(6.16)
ln y = a + b D (6.17)
ln y = a + b ln D (6.18)
y
0.5
= a + b D (6.19)
y = a + b D
2
H (6.20)
ln y = a + b D
2
H (6.21)
y
0.5
= a + b D
2
H (6.22)
ln y = a + b ln D + c ln H (6.23)
y
0.5
= a + b D + c H (6.24)
y
0.5
= a + b D
2
+ c H + d D
2
H (6.25)
Cas particuliers
- 188 -
Dans toutes ces quations, y reprsente le volume ou la biomasse de larbre, D est son diamtre
mesur, de manire uniforme pour tous les arbres-chantillon, hauteur dhomme ou un point plus
bas, H sa hauteur et a, b, c des coefficients de rgression (ln indique le logarithme naturel).
En gnral, plusieurs formes dquations sont adaptes aux donnes, et la plus approprie est choisie
sur la base de certaines mesures, comme le coefficient de dtermination ajust, ou lindice de
Furnival. Ce dernier doit imprativement tre utilis si lon doit comparer des modles comprenant
des variables dpendantes de formes diffrentes.
) -R 1 (
n-p
1 n-
1 adapt R
2 2
(6.26)
o R
2
est le coefficient de dtermination, donn par le rapport de la somme des carrs de rgression
la somme totale des carrs (voir Section 3.7)
n est le nombre dobservations concernant la variable dpendante
p est le nombre de paramtres intervenant dans le modle
Lindice de Furnival se calcule comme suit. Pour chaque modle intervenant dans lanalyse de la
variance, on calcule la racine carre du carr moyen de lerreur. A partir des observations, on
dtermine, pour chaque modle, la moyenne gomtrique de la drive de la variable dpendante
par rapport y. La moyenne gomtrique dun ensemble de n observations est dfinie par la racine
n-me du produit des observations. Lindice de Furnival de chaque modle sobtient ensuite en
multipliant les valeurs correspondantes de la racine carr du carr moyen de lerreur par linverse de
la moyenne gomtrique. Par exemple, la drive de ln y est (1/y) et lindice de Furnival est dans ce
cas,
Indice de Furnival =
( )

,
_

1
y e gomtriqu Moyenne
1
MSE (6.27)
La drive de y
0.5
est (1/2)(y
- 0.5
) ; lEquation (6.27) devra donc tre modifie en consquence si la
variable dpendante est y
0.5
.
A titre dexemple, prenons les donnes du Tableau 6.8 sur le poids sec et le diamtre hauteur
dhomme de 15 acacias.
Cas particuliers
- 189 -
Tableau 6.8. Poids sec et dbh de 15 acacias.
N de
larbre
Poids sec (en tonnes)
(y)
Dbh (en m)
(D)
1 0.48 0.38
2 0.79 0.47
3 0.71 0.44
4 1.86 0.62
5 1.19 0.54
6 0.51 0.38
7 1.04 0.50
8 0.62 0.43
9 0.83 0.48
10 1.19 0.48
11 1.03 0.52
12 0.61 0.40
13 0.68 0.44
14 0.20 0.26
15 0.66 0.44
Avec les donnes qui prcdent, deux modles de rgression y = a + b D + c D
2
et
ln y = a + b D ont t ajusts laide de lanalyse de rgression multiple dcrite dans Montgomery
et Peck (1982),. Pour ces deux modles, on a calcul la valeur ajuste de R
2
et lindice de Furnival.
Les rsultats sont reports dans les tableaux 6.9 6.12.
Tableau 6.9. Estimation des coefficients de rgression et erreur-type pour le modle de
rgression y = a + b D + c D
2
.
Coefficient de
Rgression
Coefficient de rgression
estim
Erreur-type du
coefficient estim
a 0.5952 0.4810
b -3.9307 2.0724
c 9.5316 2.4356
Tableau 6.10. Table danalyse de variance pour lanalyse de rgression, modle y = a
+ b D + c D
2
.
Source df SS MS F
calcul
Rgression 2 2.0683 1.0341 105.6610
Rsidu 12 0.1174 0.0098
R
2
=
SSR
SSTO
=
2 0683
21857
.
.
= 0.9463
Cas particuliers
- 190 -
0.9463) - (1
3 - 15
1 - 15
1 ajust R
2

= 0.9373
Ici, la drive de y est 1. Par consquent,
Indice de Furnival MSE = 00098 . = = 0.0989.
Tableau 6.11. Estimation des coefficients de rgression et erreur-type pour le modle
de rgression ln y = a + b D.
Coefficient de
Rgression
Coefficient de rgression
estim
Erreur-type du
coefficient estim
a -3.0383 0.1670
b 6.0555 0.3639
Table 6.12. Table danalyse de variance pour lanalyse de rgression modle
ln y = a + b D
Source df SS MS F
calcul
Rgression 1 3.5071 3.5071 276.9150
Rsidu 13 0.1646 0.0127
R
2
=
SSR
SSTO
=
35071
35198
.
.
= 0.9552
0.9552) - (1
2 - 15
1 - 15
1 ajust R
2

= 0.9517
Ici, la drive de y est 1/y. Lindice de Furnival, donn par lquation (6.27), est
Indice de Furnival = 00127
1
13514
.
.

_
,
== 0.0834
La moyenne gomtrique de (1/y) est ici la moyenne gomtrique des inverses des quinze valeurs de
y du Tableau 6.8.
Dans lexemple considr, le modle ln y = a + b D a un indice de Furnival plus faible, de sorte quil
est prfr lautre modle y = a + b D + c D
2
. On note galement que le second modle a aussi
une valeur ajuste de R
2
plus leve.
6.2.2. Modles de croissance et de rendement relatifs des peuplements forestiers
Lestimation de la croissance et du rendement est un aspect important des sciences forestires. Le
terme croissance se rfre aux changements irrversibles qui se produisent dans le systme sur de
brefs cycles de temps, alors que le rendement est la croissance globale au cours dun intervalle de
temps donn, et reflte ltat du systme des moments, ou points de temps, donns. Ces modles
sont importants car de nombreuses dcisions de gestion se fondent sur les prvisions de croissance
et de rendement. Supposons par exemple que lon se pose les questions suivantes : Est-il plus
rentable de cultiver des acacias ou des tecks, sur une station? La rponse dpend, non seulement du
Cas particuliers
- 191 -
prix, mais aussi des rendements escompts de ces espces sur cette station. Ou encore, combien de
fois faudrait-il claircir une plantation de tecks ? La rponse dpend bien videmment du taux de
croissance attendu de la plantation. Quadviendrait-il des tecks sils taient cultivs en mlange avec
dautres espces? Avec des modles de croissance appropris, il est possible de rpondre ce type
de questions.
Dans la majorit des modles, le peuplement est considr comme une unit damnagement. On
entend par peuplement un groupe darbres associs une station. Les modles tentent de
comprendre le comportement dun peuplement au moyen dquations algbriques. Avant dtudier
les diffrents modles de peuplement, nous commencerons par dcrire quelques-unes des mesures
les plus courantes de leurs attributs.
(i) Mesure des caractristiques dun peuplement
Les mesures les plus courantes des arbres, autres que le simple comptage, sont le diamtre ou la
circonfrence hauteur dhomme et la hauteur totale. Pour la dfinition de ces termes, nous nous
sommes rfrs aux manuels classiques sur ce sujet (Chaturvedi et Khanna, 1982). Quelques
attributs des peuplements qui peuvent tre drivs de ces mesures de base, et quelques
caractristiques additionnelles sont dcrites ci-dessous.
Diamtre moyen : diamtre correspondant la surface terrire moyenne dun groupe darbres, ou
dun peuplement, la surface terrire tant la superficie de la section de la tige de larbre, mesure
hauteur dhomme.
Surface terrire dun peuplement : Somme des surfaces de la section, hauteur dhomme, des
tiges des arbres du peuplement, ordinairement exprime en m
2
par rapport une unit de surface.
Hauteur moyenne: hauteur correspondant au diamtre moyen dun groupe darbres, donne par la
courbe hauteur-diamtre du peuplement.
Hauteur dominante : hauteur correspondant au diamtre moyen des 250 arbres ayant le plus gros
diamtre, sur un hectare, donne par la courbe hauteur-diamtre.
Indice de la qualit de la station : hauteur dominante prvue dun peuplement, un certain ge
(gnralement ge o la croissance en hauteur est son maximum).
Volume dun peuplement: volume total de tous les arbres du peuplement, habituellement exprim en
m
3
par rapport une unit de surface.
Suivant le degr de rsolution des variables dentre, les modles de peuplement peuvent tre
classs comme suit: i ) modles de peuplement globaux ii) modles de classes de diamtre et iii)
modles darbres individuels. Bien quil existe des modles diffrents pour les peuplements
quiennes et non quiennes, la majorit sappliquent dans les deux cas. En gnral, les plantations
sont principalement constitues darbres du mme ge et de la mme espce, alors que les forts
naturelles contiennent des arbres despces et dges diffrents. Le terme quienne sapplique
des cultures darbres qui ont peu prs le mme ge, mais on tolre des diffrences allant jusqu
25% de lge de rotation si un peuplement na pas t exploit depuis au moins 100 ans. En
Cas particuliers
- 192 -
revanche, le terme inquienne sapplique des peuplements dans lesquels lge des fts varie
considrablement, la fourchette de variation tant ordinairement de plus de 20 ans et, dans le cas de
peuplements rotation longue, de plus de 25% de la rotation.
Les modles de peuplement globaux prvoient les diffrents paramtres dun peuplement
directement partir des variables de rgression concernes. Les paramtres habituellement pris en
considration sont le volume commercial /ha, le diamtre et la hauteur du peuplement. Les variables
de rgression sont principalement lge, la densit de peuplement et lindice de qualit de la station.
Etant donn que lge et lindice de la qualit de la station dterminent la hauteur dominante, on se
contente parfois de prendre en considration cette dernire caractristique, la place des deux
premires. Les modles de peuplement globaux peuvent tre classs en modles avec ou sans
densit de peuplement comme variable indpendante. Les tables de production normales classiques
ne prennent pas en considration la densit de peuplement, tant donn que le terme normal
sous-entend une densit naturelle maximale. En revanche, les tables de production empiriques
supposent une densit naturelle moyenne. Il existe deux sortes de modles variable -densit: ceux
o le volume prsent ou futur est estim directement par les fonctions de croissance et ceux o le
volume du peuplement est obtenu en additionnant des classes de diamtre engendres
mathmatiquement. De plus, certains modles estiment la croissance directement alors que dautres
procdent en deux tapes (estimation de la densit de peuplement future, estimation du peuplement
futur sur la base de cette information, et obtention de la croissance, par soustraction).
Les modles en classes de diamtre retracent les variations du volume ou dautres caractristiques,
pour chaque classe de diamtre en calculant la croissance de larbre moyen de chaque classe, et en
multipliant le chiffre obtenu par le nombre de fts rpertoris dans chaque classe. Les volumes de
toutes les classes sont regroups pour obtenir les caractristiques du peuplement.
Les modles darbres individuels sont les plus complexes et modlisent chaque arbre sur une liste
darbres-chantillon. Presque tous ces modles calculent un indice de concurrence des cimes pour
chaque arbre, afin de dterminer si larbre vivra ou non et, dans laffirmative, de dterminer sa
croissance, en termes de diamtre du ft, de hauteur et de diamtre de la couronne. Lun des
critres de distinction entre les types de modles est le mode de calcul de lindice de concurrence
des cimes. Si le calcul est bas sur la distance (mesure ou releve sur une carte) entre un sujet et
tous les arbres situs lintrieur de sa zone de concurrence, le modle est dit dpendant de la
distance. Si lindice de concurrence des cimes est calcul uniquement daprs les caractristiques du
sujet et de lensemble du peuplement, on a un modle indpendant de la distance.
Nous allons maintenant dcrire quelques modles appropris dune part pour des peuplements
quiennes et de lautre pour des peuplements inquiennes.
ii) Modles pour peuplements quiennes
Sullivan et Clutter (1972) ont donn trois quations de base qui forment un ensemble compatible en
ce sens que le modle de rendement sobtient en sommant les croissances prvues sur des priodes
appropries. Plus prcisment, la forme algbrique du modle de rendement peut tre drive dune
intgration, au sens mathmatique, du modle de croissance. La forme gnrale de ces quations est
la suivante
Cas particuliers
- 193 -
Rendement actuel = V
1
= f (S, A
1
, B
1
) (6.28)
Rendement futur = V
2
= f (S, A
2
, B
2
) (6.29)
Surface terrire projete = B
2
= f (A
1
, A
2
, S, B
1
) (6.30)
O S = Indice de la qualit de la station
V
1
= Volume actuel du peuplement
V
2
= Volume projet du peuplement
B
1
= Surface terrire actuelle du peuplement
B
2
= Surface terrire projete du peuplement
A
1
= Age actuel du peuplement
A
2
= Age projet du peuplement
Dans lEquation (6.29), on remplace B
2
par lquation (6.30), et on obtient une quation du
rendement futur, en fonction des variables actuelles et de lge projet du peuplement,
V
2
=f(A
1
,A
2
, S, B
1
) (6.31)
Prenons un exemple particulier:
( ) ( )
1
2 1 1 4
1
2 1 3
1
2 2 1 0 2
A A B log A A 1 A S V log

+ + + + (6.32)
On peut estimer directement les paramtres de lEquation (6.32) grce une analyse de rgression
linaire multiple (Montgomery et Peck, 1982), avec un nouveau mesurage des donnes observes
sur des parcelles-chantillon permanentes, en gardant V
2
comme variable

dpendante et A
1
, A
2
, S et
B
1
comme variables indpendantes.
En posant A
2
= A
1
, lEquation (6.32) devient,
B log A S V log
3
1
2 1 0
+ + +

(6.33)
qui permettra de prvoir le volume actuel.
Nous illustrerons une application de lapproche de modlisation laide des quations de Brender et
Clutter (1970), ajustes pour 119 peuplements de pins lencens de pimont, prs de Macon, en
Gorgie. Lquation du volume projet (en acres/ pieds cubes) est
( ) ( )
1
2 1 1
1
2 1
1
2 2
A A B log 93112 . 0 A A 1 291143 . 2 A 1585 . 6 S 002875 . 0 52918 . 1 V log

+ + + +
(6.34)
En posant A
2
= A
1
, cette quation permet de prvoir le volume actuel, soit
( ) B log 93112 . 0 A 15851 . 6 S 002875 . 0 52918 . 1 V log
1
+ +

(6.35)
Pour illustrer une application du modle de Brender-Clutter, prenons le cas dun peuplement
actuellement g de 25 ans, dune surface terrire de 70 pieds
2
/acre, situ dans une station ayant un
indice de qualit de 80 pieds. Le propritaire veut faire estimer le volume actuel et le volume projet
aprs dix annes de croissance supplmentaires. Le volume actuel est estim par lquation (6.35),
( ) 70 log 93112 . 0 (1/25) 15851 . 6 (80) 002875 . 0 52918 . 1 V log + +
= 1.52918 + 0.23 - 0.24634 + 1.71801
= 3.23085
Cas particuliers
- 194 -
V = 10
3.23085
=1,701 pieds
3
.
Le volume projet dans 10 ans sobtient par lEquation (6.34),
( ) 35 / 25 1 291143 . 2 (1/25) 1585 . 6 (80) 002875 . 0 52918 . 1 V log
2
+ + +
( )(25/35) 70 log 93112 . 0 +
= 1.52918 +0.23 - 0.24634 + 0.65461 -1.22714
= 3.39459
V
2
= 2,480 pieds
3
iii) Modles pour peuplements inquiennes
Boungiorno et Michie (1980) prsentent un modle en matrices dans lequel les paramtres
reprsentent i) le passage stochastique des arbres dune classe de diamtre lautre et ii) les recrues
de nouveaux arbres, qui dpendent de ltat du peuplement. Le modle se prsente comme suit
( ) ( ) ) h y ( g .... h y g h y g y
nt nt n t 2 t 2 2 t 1 t 1 1 0 t 1
+ + + +
+
(6.36)
) h y ( a ) h y ( b y
t 2 t 2 2 t 1 t 1 2 t 2
+
+
. . .
. . .
. . .
{ } { }
( ) ( )
nt nt n t 1 n t 1 n n nt
h y a h y b y +
+
o
+ it
y est le nombre prvu darbres vivants dans la i-eme classe de taille au temps t.

it
h est le nombre darbres de la i-eme classe de taille abattus pendant un intervalle de temps.
g
i
, a
i
, b
i
sont des coefficients estimer.
Ici le nombre darbres dans la plus petite classe de taille est exprim en fonction du nombre total
darbres dans toutes les classes de taille et de la rcolte pendant un certain intervalle de temps. Sur la
mme priode de rfrence, les nombres darbres dans les plus grandes classes de taille sont des
fonctions des nombres darbres dans les classes de taille adjacentes. Il est possible destimer ces
paramtres par une analyse de rgression en utilisant des donnes provenant de parcelles-
chantillons permanentes en prcisant le nombre darbres, et leur tat, dans les diffrentes classes de
diamtre, chaque priode, avec un intervalle de temps donn, ainsi que le nombre darbres abattus
entre deux mesurages successifs.
Nous illustrerons ce qui prcde par un exemple trs simple, laide des donnes suivantes,
collectes en deux occasions successives, espaces par un intervalle = 5 ans, dans un petit nombre
de parcelles-chantillon permanentes situes dans des forts naturelles. Les donnes du Tableau
6.13 indiquent le nombre darbres appartenant trois classes de diamtres, lors des deux
mesurages. Supposons quaucune rcolte nait eu lieu pendant cet intervalle de temps, ce qui
implique que les quantits h
it
; i = 1, 2, , n sont nulles. Dans la ralit, il se peut que les classes de
diamtre soient plus nombreuses, et quil faille prendre plusieurs mesures dans un grand nombre de
parcelles, en enregistrant le nombres darbres enlevs de chaque classe de diamtres entre deux
mesurages successifs.
Cas particuliers
- 195 -
Tableau 6.13. Nombre darbres/ha dans trois classes de diamtres, lors de deux mesurages
successifs, dans des forts naturelles.
N de la
parcelle
Nombre darbres/ha
au Mesurage - I
Nombre darbres/ha
au Mesurage - II
chantillon classe
dbh
<10cm
(y
1t
)
classe
dbh
10-60 cm
(y
2t
)
classe
dbh
>60 cm
(y
3t
)
classe
dbh
<10cm
(y
1t+
)
classe
dbh
10-60 cm
(y
2t+
)
classe
dbh
>60 cm
(y
2t+
)
1 102 54 23 87 87 45
2 84 40 22 89 71 35
3 56 35 20 91 50 30
4 202 84 42 77 167 71
5 34 23 43 90 31 29
6 87 23 12 92 68 20
7 78 56 13 90 71 43
8 202 34 32 82 152 33
9 45 45 23 91 45 38
10 150 75 21 83 128 59
Les quations estimer sont les suivantes
t 3 3 t 2 2 t 1 1 0 t 1
y g y g y g y + + +
+
(6.37)
t 2 2 t 1 2 t 2
y a y b y +
+
t 3 3 t 2 3 t 3
y a y b y +
+
En regroupant les donnes respectives du Tableau 6.13, et en effectuant comme dhabitude lanalyse
de rgression linaire multiple (Montgomery et Peck,1982), on obtient les estimations suivantes.
t 3 t 2 t 1 t 1
y 1476 . 0 y 0738 . 0 y 0526 . 0 8293 . 99 y
+
(6.38)
t 2 t 1 t 2
y 2954 . 0 y 7032 . 0 y +
+
t 3 t 2 t 3
y 2938 . 0 y 7016 . 0 y +
+
Comme lont dmontr Boungiorno et Michie (1980), les quations de ce type (6.38)) sont
fondamentales pour prvoir ltat futur dun peuplement et concevoir des politiques dexploitation
optimales sur lunit damnagement. Dans le domaine de lamnagement des forts, les modles de
croissance sont gnralement utiliss pour comparer diffrentes options damnagement. Avec des
modles de simulation de la croissance, il est possible de comparer les rsultats des diffrentes
simulations, notamment les taux de rentabilit interne et dtablir des programmes dexploitation
optimaux. Etant donn que divers modles permettent dtablir des projections de la croissance et
du rendement, il faudra choisir le plus adapt, en tenant compte des donnes quils ncessitent et de
Cas particuliers
- 196 -
la complexit des calculs quils impliquent. En outre, la validit biologique et la prcision des
prvisions sont des lments cruciaux du choix du modle.
6.3. Ecologie forestire
6.3.1. Mesure de la biodiversit
La biodiversit est la proprit quont les systmes vivants dtre distincts, cest dire diffrents,
dissemblables. Dans cet ouvrage, celle qui nous intresse est la diversit biologique, ou biodiversit,
de groupes ou de classes dentits biologiques. La biodiversit se manifeste sous deux formes,
savoir la varit et labondance relative des espces (Magurran, 1988). La premire est souvent
exprime par lindice de la richesse en espces, donn par lexpression,
Indice de la richesse en espces =
S
N
(6.39)
o S = Nombre despces dans une collection
N = Nombre dindividus rcolts
Supposons, par exemple, que lon identifie 400 espces dans une collection de 10 000 individus,
lindice de la richesse en espces sera
Indice de la richesse en espces =
400
10000
4
Laugmentation du nombre despces en fonction du nombre dindividus ou de la surface couverte
est reprsente par une courbe daccumulation des espces. La relation entre le nombre despces
(S) et la surface couverte (A) est souvent donne mathmatiquement par lquation S = A

, dont
on trouvera ci-dessous la reprsentation graphique pour des valeurs spcifiques de et ( = 100
et = 0.2). Ici , les paramtres et devront tre estims empiriquement laide des techniques
de rgression linaire avec des donnes sur la surface couverte et le nombre despces enregistr
correspondant.
Figure 6.3. Exemple de courbe espces- surface

Nombre despces
0
100
200
300
400
500
Surface couverte (ha)
Cas particuliers
- 197 -
Lquation S = 100A
0.2
, va nous permettre de prvoir le nombre despces quil serait possible
dobtenir en couvrant une plus grande surface, lintrieur de la rgion dchantillonnage. Dans
lexemple ci-dessus, nous devrions obtenir 458 espces pour une surface de 2000 hectares.
Si lon capture des insectes laide de piges lumineux, une courbe espces-individus sera plus utile.
Pour trouver une courbe asymptotique, il faut parfois utiliser des quations non-linaires de la forme,
S
N
N

(6.40)
o S tend vers lorsque N tend vers . Autrement dit, sera le nombre limite despces dans une
collection infiniment grande dindividus. Dans ce cas, les paramtres et devront tre estims
laide de techniques de rgression non-linaire (Draper et Smith, 1966). Un graphique de lquation
(6.40) est donn ci-dessous pour = 500 et = 100.
Figure 6.4. Exemple de courbe espces-individus
Labondance relative se mesure habituellement par des indices de diversit. Lun des plus connus est
lindice de Shannon-Wiener (H).
H p p
i
i
S
i

1
ln

(6.41)
o p
i
= proportion dindividus dans la i-me espce
ln indique le logarithme naturel.
Les valeurs de lindice de Shannon-Wiener obtenues pour diffrentes communauts peuvent tre
vrifies laide du test t de Student, o t est dfini par
t

+
H H
Var H Var H
1 2
1 2
( ) ( )
(6.42)
et suit une loi de distribution de Student avec degrs de libert, o

+
+
( ( ) ( ))
( ( )) ( ( ))
Var H Var H
Var H N Var H N
1 2
2
1
2
1 2
2
2
(6.43)
Nombre despces
0
100
200
300
400
500
Nombre dindividus
Cas particuliers
- 198 -
Var H
p p p p
N
S
N
i i i i
( )
(ln ) ( ln )


+

2
2
2
1
2
(6.44)
Les mthodes employer pour calculer lindice de Shannon-Wiener et tester la diffrence entre les
indices de deux endroits sont illustres dans ce qui suit.
Le Tableau 6.14 montre le nombre dindividus appartenant diffrentes espces dinsectes attraps
laide de piges lumineux, dans deux endroits du Kerala ( Matthew et al., 1998).
Tableau 6.14. Nombre dindividus appartenant diffrentes espces dinsectes
attraps laide de piges lumineux dans deux endroits.
Code de
lespce
Nombre dindividus
attraps
Nelliampathy
Nombre dindividus
attraps
Parambikulum
1 91 84
2 67 60
3 33 40
4 22 26
5 27 24
6 23 20
7 12 16
8 14 13
9 11 12
10 10 7
11 9 5
12 9 5
13 5 9
14 1 4
15 4 6
16 2 2
17 2 4
18 1 4
19 2 5
20 4 1
*Etape 1. Lorsque lon calcule manuellement lindice de Shannon-Wiener, on commence par
dresser un tableau (Tableau 6.15) donnant les valeurs de p
i
et p
i
ln p
i
.

Si lon utilise aussi le
test t, il convient dajouter au tableau une colonne contenant les valeurs de p
i
(ln p
i
)
2
.
*Etape 2. La diversit des insectes est H
1
= 2.3716 Nelliyampathy, alors qu Parambikulam elle
est de H
2
= 2.4484. Ces valeurs reprsentent la somme des colonnes p
i
ln p
i
relatives
chaque endroit. La formule de calcul de lindice de Shannon-Wiener est prcde dun signe
moins, ce qui annule le signe ngatif du lutilisation de logarithmes de proportions.
Cas particuliers
- 199 -
*Etape 3. La variance de diversit des deux endroits peut tre estime laide de lEquation (6.44).
Var H
p p p p
N
S
N
i i i i
( )
(ln ) ( ln )


+

2
2
2
1
2
Do, Var( H
1
) -Nelliyampathy =
( )
66000 56244
349
19
2 349
2
. .
+ = 0.0029
Var ( H
2
) -Parambikulam =
( )
69120 59947
347
19
2 347
2
. .
+ = 0.0027
Tableau 6.15. Calcul de lindice de Shannon-Wiener pour les deux endroits
code Nelliyampathy Parambikulam
de
lespce
p
i
p
i
ln p
i
p
i
(ln p
i
)
2
p
i
p
i
ln p
i
p
i
(ln p
i
)
2
1 0.2607 -0.3505 0.4712 0.2421 -0.3434 0.4871
2 0.1920 -0.3168 0.5228 0.1729 -0.3034 0.5325
3 0.0946 -0.2231 0.5262 0.1153 -0.2491 0.5381
4 0.0630 -0.1742 0.4815 0.0749 -0.1941 0.5030
5 0.0774 -0.1980 0.5067 0.0692 -0.1848 0.4936
6 0.0659 -0.1792 0.4873 0.0576 -0.1644 0.4692
7 0.0344 -0.1159 0.3906 0.0461 -0.1418 0.4363
8 0.0401 -0.1290 0.4149 0.0375 -0.1231 0.4042
9 0.0315 -0.1090 0.3768 0.0346 -0.1164 0.3916
10 0.0286 -0.1016 0.3609 0.0202 -0.0788 0.3075
11 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591
12 0.0258 -0.0944 0.3453 0.0144 -0.0611 0.2591
13 0.0143 -0.0607 0.2577 0.0259 -0.0946 0.3456
14 0.0029 -0.0169 0.0990 0.0115 -0.0514 0.2295
15 0.0115 -0.0514 0.2297 0.0173 -0.0702 0.2848
16 0.0057 -0.0294 0.1518 0.0058 -0.0299 0.154
17 0.0057 -0.0294 0.1518 0.0115 -0.0514 0.2295
18 0.0029 -0.0169 0.099 0.0115 -0.0514 0.2295
19 0.0057 -0.0294 0.1518 0.0144 -0.0611 0.2591
20 0.0115 -0.0514 0.2297 0.0029 -0.0169 0.0987
Total 1 -2.3716 6.6000 1 -2.4484 6.9120
*Etape 4. Le test t permet de comparer les diversits des deux endroits. Les formules appropries
sont donnes par les Equations (6.42) et (6.43).
Cas particuliers
- 200 -
t

+
H H
Var H Var H
1 2
1 2
( ) ( )

+
+
( ( ) ( ))
( ( )) ( ( )
Var H Var H
Var H N Var H N
1 2
2
1
2
1 2
2
2
Dans notre exemple, t

+
2 3716 2 4484
00029 00027
. .
. .
= 1.0263
Les degrs de libert correspondants sont donns par

+
+
( . . )
( . ) ( . )
00029 00027
0 0029 349 0 0027 347
2
2 2
= 695.25
La valeur tabulaire de t correspondant 695 degrs de libert (Annexe 2) montre que la diffrence
entre les indices de diversit des deux endroits nest pas significative.
Par convention, pour des tudes de la biodiversit on emploie des modles dchantillonnage
alatoire. Il convient aussi de se demander quelle taille doivent avoir les chantillons pour estimer un
indice de diversit spcifique, quel quil soit. Des exercices de simulation fonds sur une structure
raliste des abondances despces ont rvl que lobservation de 1000 individus slectionns au
hasard tait suffisante pour estimer lindice de Shannon-Wiener. Lestimation de la richesse en
espces requiert parfois jusqu 6000 individus (Parangpe etGore, 1997).
6.3.2. Relation dabondance des espces
Un modle dabondance des espces permet dobtenir une description complte de labondance
relative de diffrentes espces au sein dune communaut. La distribution empirique de labondance
des espces sobtient en traant point par point le graphe du nombre despces et du nombre
dindividus. Ensuite, on obtient une distribution thorique approchant la distribution observe. Lun
des modles thoriques utiliss cet gard, en particulier en prsence de populations partiellement
perturbes, est la srie logarithmique. Celle-ci prend la forme
x,
x
2
2
,
x
3
3
, . . . ,
x
n
n
(6.45)
x tant le nombre despces constitues dun individu, x
2
/2 le nombre despces de deux
individus, etc... Le nombre total despces (S) dans la population sobtient en sommant tous les
termes de la srie, ce qui donnera
S = [- ln (1-x)].
Pour ajuster la srie, il faut calculer le nombre despces qui devraient avoir un, deux etc
individus. Ces valeurs prvues sont ensuite ranges dans les mmes classes dabondance que celles
qui ont t utilises pour la distribution observe et les deux distributions sont compares laide
dun test de validit de lajustement. Le nombre total despces est bien entendu identique dans les
distributions observe et prvue.
Cas particuliers
- 201 -
Tous les calculs sont illustrs par lexemple qui suit. Mathew et al. (1998) ont tudi limpact de la
perturbation dune fort sur la diversit des espces dinsectes, dans quatre stations du Western
Ghats, dans le Kerala. Dans le cadre de cette tude, ils ont tabli une liste de labondance de 372
espces, Nelliyampathy. Cette liste nest pas reproduite ici, pour des raisons despace, en srie
log.
*Etape 1. Ranger les abondances observes dans les classes dabondance. Dans notre cas, on
choisit des classes en log
2
(cest dire en octaves, ou doubles, des abondances despces).
Il suffit dajouter 0.5 la borne suprieure de chaque classe, pour assigner clairement les
abondances despces observes chaque classe. Ainsi, dans le tableau ci-dessous
(Tableau 6.16), on constate que 158 espces ont une abondance dun ou deux individus,
55 espces en ont 3 ou 4 etc.
Tableau 6.16. Nombre despces obtenues dans diffrentes classes dabondance.
Classe Borne suprieure Nombre despces
observes
1 2.5 158
2 4.5 55
3 8.5 76
4 16.5 49
5 32.5 20
6 64.5 9
7 128.5 4
8 1
Nombre total
despces (S)
- 372
*Etape 2. Les deux paramtres ncessaires pour ajuster la srie sont x et . La valeur de x est
estime par itration du terme suivant

S
N
[(1 ) / ][ ln (1 )] x x x (6.46)
o S = Nombre total despces (372)
N = Nombre total dindividus (2804).
La valeur de x est en gnral suprieure 0.9 et toujours <1.0. Il suffit de faire quelques oprations
sur une calculatrice, pour obtenir la bonne valeur de x, en essayant diffrentes valeurs de x dans
lexpression [(1 ) / ][ ln (1 )] x x x jusqu arriver S/N = 0.13267.
x
[(1 ) / ][ ln (1 )] x x x
0.97000 0.10845
0.96000 0.13412
0.96100 0.13166
0.96050 0.13289
0.96059 0.13267
Cas particuliers
- 202 -
La valeur correcte de x est donc 0.96059. Une fois que lon a obtenu cette valeur de x, on peut
facilement calculer laide de lquation,

N x
x
(1 )
=
2804 1 0 96059
0 96059
( . )
.

= 115.0393 (6.47)
*Etape 3. Lorsque lon a obtenu les valeurs de et x, on peut calculer le nombre despces qui
devraient contenir 1, 2, 3, . . ., n individus. Ceci est illustr ci dessous, pour les quatre
premires classes dabondance correspondant aux sommes cumules.
Tableau 6.17. Calculs effectuer pour obtenir le nombre despces prvu dans un modle en
srie log.
Nombre
dindividus
Terme de la srie Nombre despces
prvu
Somme cumule
1 x 110.5
2 x
2
/2 53.1 163.6
3 x
3
/3 33.9
4 x
4
/4 24.5 58.5
5 x
5
/5 18.8
6 x
6
/6 15.1
7 x
7
/7 12.4
8 x
8
/8 10.4 56.7
9 x
9
/9 8.9
10 x
10
/10 7.7
11 x
11
/11 6.7
12 x
12
/12 6.0
13 x
13
/13 5.2
14 x
14
/14 4.7
15 x
15
/15 4.2
16 x
16
/16 3.8 47.1
*Etape 4. Ltape suivante consiste dresser un tableau du nombre despces prvu et observ
dans chaque classe dabondance et comparer les deux distributions laide dun test de
validit de lajustement. Le test du
2
est lun des plus utiliss.
Pour chaque classe, calculer
2
comme suit.

2
= (Frquence observe Frquence prvue)
2
/ Frquence prvue (6.48)
Par exemple, dans la classe 1,
2
= (158-163.5809)2 /163.5809 =0.1904. Pour finir, sommer cette
colonne pour obtenir la validit globale de lajustement,

2
. Vrifier la valeur du
2
obtenue dans
la table du
2
(Annexe 4) en prenant comme degr de libert le nombre de classes moins 1. Dans
notre cas,


2
12 0624 . , avec 6 degrs de libert. La valeur de
2
pour P=0.05 est 12.592.
Cas particuliers
- 203 -
On en conclut quil ny a pas de diffrence significative entre la distribution observe et la distribution
prvue. Le modle en srie log est donc bien ajust aux donnes.
Lorsque le nombre despces prvues est petit (<1.0), la valeur calcule du
2
peut tre trs leve.
Dans ce cas, il est prfrable de combiner le nombres despces observ dans au moins deux
classes adjacentes, et de le comparer avec le nombre combin despces prvu dans les deux
mmes classes. Les degrs de libert doivent tre rduits en consquence. Dans lexemple qui
prcde, la frquence prvue de la classe 8 est infrieure 1, de sorte que lon a combin les
frquences observe et prvue de la classe 8 avec celles de la classe 7, pour tester la validit de
lajustement.
Tableau 6.18. Test de validit de lajustement dun modle en srie log.
Classe Borne
suprieure
Observe Prvue (Observe - prvue)2
Observe
1 2.5 158 163.5809 0.1904
2 4.5 55 58.4762 0.2066
3 8.5 76 56.7084 6.5628
4 16.5 49 47.1353 0.0738
5 32.5 20 30.6883 3.7226
6 64.5 9 11.8825 0.6992
7 128.5 5 3.5351 0.6070
Total 372 372.0067 12.0624
6.3.3. Etude de la configuration spatiale
La distribution spatiale des vgtaux et des animaux est une importante caractristique des
communauts cologiques. Cest habituellement lune des premires caractristiques que lon
observe lorsque lon tudie une communaut et cest lune des proprits les plus fondamentales de
tout groupe dorganismes biologiques. Une fois quune configuration a t identifie, lcologiste peut
proposer des hypothses qui expliquent les causes profondes de cette configuration et les tester.
Ainsi, en fin de compte, cest principalement pour tirer des hypothses concernant la structure des
communauts cologiques que lon cherche identifier les distributions spatiales. Nous allons dcrire
dans cette section lutilisation de distributions statistiques ainsi que quelques indices de dispersion,
pour dtecter et mesurer la distribution spatiale des espces au sein des communauts.
On discerne dans les communauts trois grands types de configuration : alatoire, en bouquets et
uniforme (voir Figure 6.5). Les mcanismes de causalit suivants sont souvent utiliss pour expliquer
les rpartitions observes dans les communauts cologiques. Dans une population dorganismes, la
rpartition alatoire implique un environnement homogne et des comportements non slectifs. En
revanche, les configurations non alatoires (regroupement en bouquets et uniformes) impliquent que
des contraintes soient exerces sur la population. Le regroupement en bouquets laisse penser que
les individus sont regroups dans les endroits les plus favorables; Il peut y avoir diverses causes : le
comportement grgaire, lhtrognit de lenvironnement, le mode de reproduction etc. Les
dispersions uniformes rsultent dinteractions ngatives entre les individus, telles que la concurrence
pour la nourriture et lespace. On notera que lidentification dune configuration et lexplication des
causes possibles de cette configuration sont deux problmes diffrents. De plus, il ne faut pas oublier
Cas particuliers
- 204 -
le caractre multifactoriel de la nature; de nombreux processus (biotiques et abiotiques)
interdpendants) peuvent favoriser les configurations.
Figure 6.5. Les trois grands types de distribution spatiale
(a) Alatoires (b) En bouquets (c) Uniforme
Hutchinson a t lun des premiers spcialistes de lenvironnement prendre conscience de
limportance des configurations spatiales dans les communauts et identifier divers facteurs de
causalit pouvant conduire la structuration dorganismes, notamment : i) facteurs vectoriels rsultant
de laction de forces environnementales externes (vent, courants de leau, et intensit de la lumire) ;
ii) facteurs de reproduction, pouvant tre attribus au mode de reproduction de lorganisme (clonage
et rgnration de la descendance) ; iii) facteurs sociaux ds des comportements inns (ex :
comportement territorial) ; iv) facteurs coactifs, rsultant dinteractions intra-spcifiques (ex :
concurrence) ; et v) facteurs stochastiques rsultant dune variation alatoire de lun des facteurs qui
prcdent. Ainsi les processus entrant en jeu dans les configurations spatiales peuvent tre
considrs comme intrinsques (ex : facteurs sociaux, coactifs et de reproduction) ou extrinsques
aux espces (ex : vectoriel). Les causes de la distribution spatiale sont analyses de faon plus
approfondie dans Ludwig and Reynolds (1988).
Si des individus dune espce sont disperss sur des units dchantillonnage discontinues (ex :
cochenilles sur les feuilles des plantes), et si, un moment donn, on prleve un chantillon du
nombre dindividus par unit dchantillonnage, il est possible de rcapituler les donnes en terme de
distribution de frquence, cest--dire du nombre dunits dchantillonnage avec 0, 1, 2, etc
individus. Cette distribution est lensemble de donnes de base qui entre en jeu dans les mthodes de
dtection des configurations dcrites plus loin. On remarquera que les espces sont supposes
apparatre sur des sites ou des units dchantillonnage naturelles discontinus, telles que feuilles,
fruits, arbres. En gnral, les relations entre la moyenne et la variance du nombre dindividus par
unit dchantillonnage sont fonction des modes de dispersion de la population. Par exemple, la
moyenne et la variance sont peu de choses prs gales dans les rpartitions alatoires, mais la
variance est plus grande que la moyenne dans les distributions en bouquets, et plus petite dans les
rpartitions uniformes. Il existe certains types de distribution de frquence statistique qui, en raison
de leurs rapports variance-moyenne, ont t utiliss comme modles de ces types de configurations
cologiques. Il sagit de i) la distribution de Poisson pour les configurations alatoires ; ii) la
distribution binomiale ngative pour les distributions en bouquets et iii) la distribution binomiale
positive pour les distributions uniformes. Ces trois modles statistiques ont couramment t utiliss
dans les tudes de configuration spatiale, mais il existe dautres distributions statistiques tout aussi
appropries.
Cas particuliers
- 205 -
La premire tape de la dtection du mode de distribution, dans une communaut cologique,
implique souvent de tester lhypothse la distribution du nombre dindividus par unit
dchantillonnage est alatoire . La distribution de Poisson a dj t dcrite dans la Section 2.4.2.
Si lhypothse de la distribution alatoire est rejete, la distribution peut tendre vers le regroupement
en bouquets (cas habituel) ou uniforme (exception). Si la direction tend vers une dispersion en
bouquets, la concordance avec la distribution binomiale ngative doit tre teste et certains indices
de dispersion, bass sur le rapport de la variance la moyenne, peuvent tre utiliss pour mesurer le
degr de regroupement. Ce cas nest pas abord ici, dune part parce que les configurations
uniformes sont relativement rares dans les communauts naturelles, et dautres part parce que la
distribution binomiale a dj t dcrite dans la Section 2.4.1.
Avant de poursuivre, quelques rserves simposent. Tout dabord, le non-rejet dune hypothse de
distribution alatoire signifie seulement quaucun caractre non alatoire na t dtect laide de
lensemble de donnes spcifi. Deuximement, les hypothses proposes doivent tre raisonnables,
cest--dire soutenables et fondes la fois sur le bon sens et sur des connaissances biologiques. Ce
second point est li par dimportantes ramifications au premier. Il nest pas rare quune distribution
statistique thorique (ex. distribution de Poisson) ressemble une distribution de frquence observe
(cest--dire quil y a concordance statistique entre les deux), mme si les hypothses qui sous-
tendent ce modle thorique ne sont pas vrifies par lensemble de donnes. Il sensuit que lon
peut accepter une hypothse nulle mme si elle na pas de justification biologique. Troisimement, les
conclusions ne doivent pas tre bases uniquement sur les tests de signification. Toutes les sources
dinformation disponibles (cologiques et statistiques) devraient tre utilises ensemble. Ainsi, le non
rejet dune hypothse nulle, base sur une petite taille dchantillon, devrait tre considr comme
une faible confirmation de ladite hypothse. Enfin, il faut avoir prsent lesprit que la dtection
dune configuration spatiale et lexplication de ses causes possibles sont deux problmes diffrents.
Lutilisation de la loi binomiale ngative pour la vrification de configurations en bouquets est dcrite
ici. Le modle binomial ngatif est vraisemblablement la loi de probabilit la plus couramment utilise
pour les distributions en bouquets (galement appeles distributions contagieuses ou
agrgatives ). Lorsque deux des conditions requises pour lemploi du modle de Poisson ne sont
pas vrifies - savoir la condition 1 (toutes les units dchantillonnage naturelles ont la mme
probabilit de contenir un individu) et la condition 2 (la prsence dun individu dans une unit
dchantillonnage est sans influence sur le fait quelle soit occupe par un autre individu) - on obtient
en gnral un rapport variance- moyenne lev du nombre dindividus par unit dchantillonnage.
Comme on la vu plus haut, ceci laisse penser que lon est en prsence dune configuration en
bouquets.
La loi binomiale ngative a deux paramtres, , le nombre moyen dindividus par unit
dchantillonnage et k, un paramtre li au degr de regroupement. Les tapes de la vrification de la
concordance entre la distribution de frquence observe et la loi binomiale ngative sont dcrites ci-
dessous.
*Etape 1. Formulation de lhypothse; il sagit de tester lhypothse selon laquelle le nombre
dindividus par unit dchantillonnage suit une loi de distribution binomiale ngative, ce qui
Cas particuliers
- 206 -
dnote lexistence dune dispersion non-alatoire ou en bouquets. Sil narrive pas rejeter
cette hypothse, lcologiste peut avoir un bon modle empirique pour dcrire un ensemble
de donnes de frquence observes, sans que ce modle explique quels sont les causes
profondes possibles de cette configuration. Autrement dit, il faut se garder de dduire la
causalit uniquement sur la base de nos mthodes de dtection du mode de dispersion.
*Etape 2. Le nombre dindividus par unit dchantillonnage est rsum sous la forme dune
distribution de frquence, autrement dit du nombre dunits dchantillonnage avec 0, 1, 2,
, r individus.
*Etape 3. Calculer les probabilits P(x) de la loi binomiale ngative. La probabilit de trouver x
individus dans une unit dchantillonnage, cest dire que dans P(x), x soit gal 0, 1, 2,
, r individus, est donne par la formule,
P x
k
k x
x k k
x
k
( )
( )
( )!
!( )!

1
]
1
+

1
]
1
+

1
]
1

1
1
1 (6.49)
Le paramtre est estim partir de la moyenne de lchantillon (x ). Le paramtre k mesure le
degr de regroupement et tend vers zro pour le regroupement maximal. On peut obtenir une
estimation de k par itrations successives de lquation suivante :
log
$
log
$
10
0
10
1
N
N
k
x
k

_
,
+

_
,

1
]
1
(6.50)
o N est le nombre total dunits dchantillonnage dans lchantillon, et N
0
est le nombre dunits
dchantillonnage avec 0 individus. Dans un premier temps, on remplace
$
k dans le second membre
de lquation par une estimation initiale. Si le second membre de lquation est infrieur au premier,
on essaie une valeur plus leve de
$
k , et lon compare nouveau les deux membres. On itre ce
processus (en choisissant de manire approprie des valeurs infrieures ou suprieures de
$
k )
jusqu obtenir une valeur de
$
k vers laquelle les deux membres de lquation convergent. Une
bonne estimation initiale de
$
k pour la premire itration est obtenue grce la formule,

$
k =
x
s x
2

(6.51)
o s
2
est la variance de lchantillon estime.
Lorsque la moyenne est basse (infrieure 4), lEquation (6.50) fournit un bon moyen destimer
$
k .
Par contre, si la moyenne est leve (suprieure 4), la mthode itrative nest efficace que si le
regroupement de la population est gnralis. Ainsi, lorsque la moyenne (x ) de la population et la
valeur de
$
k (le paramtre de regroupement calcul partir de lquation (6.51)) sont toutes les deux
suprieures 4, lquation (6.51) est prfre lquation (6.50) pour estimer
$
k .
Une fois que lon a obtenue les deux statistiques, x et
$
k , on calcule, avec la formule (6.49), les
probabilits P(x) de trouver x individus dans une unit dchantillonnage, o x = 0, 1, 2, , r
individus,
Cas particuliers
- 207 -
( )
P
x
x k
k
k
x
k
k
( )
$
$
!
!( )!
$
0
0 1
0 1
1
0

1
]
1
+

'

1
]
1

= 1+

_
,

1
]
1

x
k
k
$
( )
P
x
x k
k
k
x
k
k
( )
$
$
!
!(
$
)!
$
1
1 1
1 1
1
1

1
]
1
+

'

_
,

1
]
1

=
x
x k
k
P
+

1
]
1

_
,

$
$
( )
1
0
( )
P
x
x k
k
k
x
k
k
( )
$
$
!
!(
$
)!
$
2
2 1
2 1
1
2

1
]
1
+

'

_
,

1
]
1

=
x
x k
k
P
+

1
]
1
+

_
,

$
$
( )
1
2
1
( )
P r
x
x k
k r
r k
x
k
r k
( )
$
$
!
!(
$
)!
$

1
]
1
+

'

_
,

1
]
1

1
1
1
=
x
x k
k r
r
P r
+

1
]
1
+

_
,

$
$
( )
1
1
*Etape 4. Trouver les frquences binomiales ngatives thoriques. Le nombre thorique dunits
dchantillonnage contenant x individus sobtient en multipliant chaque probabilit binomiale
ngative par N, le nombre total dunits dchantillonnage dans lchantillon. Le nombre de
classes de frquence, not q, est aussi dtermin selon la mthode dcrite pour le modle de
Poisson.
*Etape 5. Test de la validit de lajustement. Le test du
2
sera effectu suivant la procdure dcrite
dans la Section 3.5.
Nous allons maintenant examiner un exemple dajustement dune distribution binomiale ngative. On
trouve souvent des larves dabeilles charpentires dans les pdicelles des inflorescences des yuccas
(arbre savon), dans le sud du Nouveau Mexique. Un cologiste spcialiste des insectes qui tudiait
les modes de dispersion spatiale de ces abeilles, a rcolt au hasard un chantillon de larves sur 180
pdicelles de yucca. Les donnes observes sont rsumes dans le tableau de frquence suivant,
x 0 1 2 3 4 5 6 7 8 9 10
f
x
114 25 15 10 6 5 2 1 1 0 1
Cas particuliers
- 208 -
o x est le nombre de larves dabeilles par pdicelle et f
x
est la frquence de pdicelles de yucca
ayant x = 0, 1, 2, ., r larves. Dans cet exemple, r = 10. Le nombre total dunits
dchantillonnage est
N = ( ) f
x
x

0
10
= 114 + 25 + ..+ 0 + 1 = 180
et le nombre total dindividus est
n xf
x
x

( )
0
10
= (0)(114) + (1)(25) + (9)(0) + (10)(1) = 171
La moyenne arithmtique de lchantillon est
x
n
N

171
180
= 0.95
et sa variance est
s
2
=
( ) xf xn
x
x
2
0
10

_
,

( 1) n

( )( )
[ ]

681 095 171


179
.
= 2.897
*Etape 1. Hypothse: Lhypothse nulle est les larves dabeilles charpentires se regroupent en
bouquets sur les pdicelles des inflorescences de yucca . Il convient donc de tester la concordance
(du nombre dindividus par unit dchantillonnage) avec la loi binomiale ngative. La variance
suprieure la moyenne laisse penser que les abeilles sont distribues en bouquets.
*Etape 2. Distribution de frquence, f
x
: La distribution de frquence observe, sa moyenne et sa
variance, sont donnes plus haut.
*Etape 3. Probabilits binomiales ngatives, P(x) : Une estimation de
$
k , obtenue laide de
lEquation (6.51) avec x = 0.95 est s
2
= 2.897 est

( )
( )
$
.
. .
k

095
2 897 0 95
2
= 0.4635
Les valeurs de
$
k et x tant lune et lautre infrieures 1, lEquation (6.50) peut tre utilise pour
donner une estimation de
$
k . En prenant les valeurs N =180 et N
0
=114 dans le premier membre de
lquation (6.50), on obtient la valeur 0.1984. Ensuite, en posant
$
k = 0.4635 dans le second
membre de lEquation (6.50), on obtient :
Itration 1 :
$
log
$
. log
.
.
k
x
k
10 10
1 0 4635 1
095
04635
+

_
,
+

_
,

Cas particuliers
- 209 -
= 0.2245
Puisque le second membre de lquation donne une valeur suprieure 0.1984, on remplace
$
k par
une valeur plus petite que 0.4635, dans lEquation (6.50). En choisissant
$
k = 0.30 on trouve,
Itration 2 :
$
log
$
. log
.
.
k
x
k
10 10
1 0 30 1
0 95
030
+

_
,
+

_
,

= 0.1859
Cette valeur est proche de 0.1984, (mais prsent plus petite). Pour litration suivante, on choisit
donc une valeur de
$
k lgrement plus grande. En prenant
$
k =0.34, on a
Itration 3 :
$
log
$
. log
.
.
k
x
k
10 10
1 0 34 1
095
0 34
+

_
,
+

_
,
= 0.1969
L encore, pour litration suivante, on essaye une valeur de
$
k lgrement plus leve. Pour
$
k =0.3457,
Itration 4 :
$
log
$
. log
.
k
x
k
10 10
1 0 3457 1
95
0 3457
+

_
,
+

_
,
= 0.1984
Cette valeur numrique est identique la valeur fournie par le premier membre de lEquation (6.50)
de sorte que, dans notre exemple, la meilleure estimation de
$
k est 0.3457. Enfin, les probabilits,
individuelles et cumulatives, de trouver 0, 1, 2, et 3 larves par pdicelles [pour x =0.95 et
$
k =0.3457, o
( )
x
x k +

$
. 0 7332] sont donnes dans le Tableau 6.18.
Les probabilits cumules, aprs avoir trouv 4 individus dans une unit dchantillonnage sont de
94.6%. Les probabilits restantes, de P(5) P(10) sont donc de 5,4%, soit
P(5
+
) = 1.0 - 0.946 = 0.054.
Cas particuliers
- 210 -
Tableau 6.18. Calcul de P(x), les probabilits binomiales ngatives, pour x individus (abeilles) par
unit dchantillon (pdicelle de yucca)
Probabilit Probabilit
Cumule
P( )
.
.
.
0 1
095
0 3457
0 3457
+

_
,

1
]
1

=0.6333 0.6333
[ ] P P ( ) .
.
( ) 1 07332
0 3457
1
0

_
,
= (0.2535)(0.6333)
=0.1605 0.7938
[ ] P P ( ) .
.
( ) ( . )( . ) 2 07332
13457
2
1 0 4933 01605

_
,

=0.0792 0.8730
[ ] P P ( ) .
.
( ) ( . )( . ) 3 0 7332
2 3457
3
2 05733 00792

_
,

=0.0454 0.9184
[ ] P P ( ) .
.
( ) ( . )( . ) 4 07332
33457
4
3 0 6133 0 0454

_
,

=0.0278 0.9462
P( ) . . 5 100 0 9462
+

=0.0538 1.0000
*Etape 4. Frquences thoriques, E
x
: Elles sobtiennent en multipliant les frquences thoriques par
le nombre total dunits dchantillonnage (Tableau 6.19)
Tableau 6.19. Calcul des frquences thoriques dunits dchantillonnage contenant un
nombre variable dabeilles.
Probabilit Probabilit
Cumule
E
0
=(N)P(0) =(180)(0.633) =114.00 114.00
E
1
=(N)P(1) =(180)(0.161) = 28.90 142.90
E
2
=(N)P(2) =(180)(0.079) = 14.25 157.20
E
3
=(N)P(3) =(180)(0.045) = 8.17 165.30
E
4
=(N)P(4) =(180)(0.028) = 5.00 170.30
E
5+
=(N)P(5
+
) =(180)(0.054) = 9.68 180.00
*Etape 5. Validit de lajustement : Le test statistique
2
est calcul comme suit,

2
=
( ) ( ) 114 114 0
114 0
10 9 67
9 67
2 2

1
]
1
1
+ +

1
]
1
1
.
.
...
.
.
= 0.00 + + 0.01= 1.18
On compare cette valeur du critre de test la table des valeurs critiques du
2
avec (nombre des
classes 3)= 3 degrs de libert. La valeur critique, au seuil de probabilit de 5%, est de 7.82
Cas particuliers
- 211 -
(Annexe 4), et, puisque la probabilit dobtenir une valeur de
2
gale 1.18 est nettement infrieure
cette valeur, on ne rejette pas lhypothse nulle. Le modle binomial ngatif apparat donc comme
un bon ajustement des donnes observes, mais nous souhaitons obtenir une confirmation
supplmentaire (par exemple, un ensemble de donnes indpendant) avant de conclure que les larves
dabeilles charpentires sont effectivement rparties en bouquets. On notera que si, dans notre
exemple, on laisse descendre les valeurs thoriques minimales jusqu 1.0 et 3.0, les valeurs de
2
sont respectivement 2.6 et 2.5 niveaux encore nettement infrieurs la valeur critique.
Tableau 6.20. Calculs pour le critre de test
2
Nombre de
larves dabeilles
par pdicelle
(x)
Frquence
observe
f
x
Frquence
thorique
E
x
( ) f E
E
x x
x

2
0 114 114.0 0.00
1 25 28.9 0.53
2 15 14.3 0.04
3 10 8.2 0.41
4 6 5.0 0.19
5 10 9.7 0.01
Total 180 180.0
2
= 1.18
Pour dtecter des configurations spatiales, on peut prfrer aux distributions statistiques certains
indices faciles calculer, comme lindice de dispersion ou lindice de Green, si les units
dchantillonnage sont discrtes.
(i) I ndice de dispersion : Le quotient variance-sur-moyenne ou indice de dispersion (ID) est
ID =
s
x
2
(6.52)
o x est s
2
sont respectivement la moyenne et la variance de lchantillon. Le quotient variance-sur-
moyenne (ID) est utile pour valuer la concordance dun ensemble de donnes avec la srie de
Poisson. Par contre, ce nest pas un bon paramtre pour mesurer le degr de regroupement. Si la
population est regroupe en bouquets, le ID est fortement influenc par le nombre dindividus dans
lchantillon, et ne sera un bon indice comparatif de regroupement que dans le cas o n est le mme
dans chaque chantillon. Lindice de Green (GI), qui est une version modifie de lID, indpendante
de n, est donn par la formule,
GI =
s
x
n
2
1 1
1

_
,

(6.53)
GI varie de 0 (pour la dispersion alatoire) 1 (pour le regroupement maximal). On peut donc
utiliser lindice de Green pour comparer des chantillons dont le nombre total dindividus, la
moyenne et le nombre dunits dchantillonnage dans lchantillon varient. En consquence, parmi
Cas particuliers
- 212 -
les nombreuses variantes de lID qui ont t proposes pour mesurer le degr de regroupement, le
GI semble la plus approprie. Les valeurs du GI pour la population de cochenilles peuvent tre
obtenues comme suit
( )
( )
GI


305 1
171 1
0 012
.
.
Comme la valeur maximale du GI est 1.0 (si les 171 individus taient apparus dans une seule
pdicelle de yucca), cette valeur reprsente un degr de regroupement relativement faible.
6.3.4. Dynamique des cosystmes
Il est bien connu que les forts, en tant qucosystmes, varient considrablement au fil du temps. Il
est important, aussi bien du point de vue scientifique, que sur le plan de lamnagement, de
comprendre ces processus dynamiques. On sest beaucoup intress dans le pass lestimation de
la croissance et du rendement des forts, qui est lun des lments de ces processus. Cependant
plusieurs aspects tout aussi importants sont lis la dynamique des forts, notamment les effets
long terme de la pollution de lenvironnement, les variations des cycles cologiques dans les forts,
la dynamique, la stabilit et la rsilience des cosystmes tant naturels quartificiels etc Ces
diffrents objectifs des applications requirent des approches de modlisation radicalement
diffrentes. Ces modles sont si complexes quil est impossible, ne serait-ce que den donner un bref
aperu ici, de sorte que lon sest limit tenter de donner une description simplifie de quelques-uns
de ceux qui pourraient tre utilises dans ce contexte.
Tout processus dynamique est configur par lchelle de temps caractristique de ses composantes.
Dans les forts, ces chelles peuvent se compter en minutes (processus stomatiques) en heures
(cycle diurne, dynamique sol-eau), en jours (dynamique des nutriments, phnologie), en mois (cycle
saisonnier, accroissement), en annes (croissance et snescence des arbres), en dcennies (stades
de vgtation successifs des forts) ou en sicles (raction dune fort un changement climatique).
Lchelle de temps que lon privilgiera dpend de lobjet du modle. On la dtermine
habituellement avec des donnes agrges dcrivant les processus qui ont des chelles de temps
diffrentes, mais le niveau dagrgation dpend du degr de validit comportementale vis.
Pour rassembler des donnes sur la dynamique des forts, au niveau du macro-environnement, la
mthode traditionnelle consiste tablir des parcelles chantillons permanentes et faire des
observations priodiques. Dernirement, la tldtection par satellite et par dautres dispositifs a
largi le champ dapplication de la collecte de donnes historiques prcises sur les forts. Sans entrer
dans les dtails de ces autres approches possibles qui sont complexes, nous allons expliquer dans
cette section comment sont utilises les parcelles chantillons permanentes, dans les recherches
forestires long terme, et illustrer un modle de succession forestire par un exemple trs simplifi.
i) Utilisation des parcelles-chantillons permanentes
Le meilleur moyen dtudier la dynamique des forts naturelles est dtablir des parcelles chantillons
permanentes. Bien que la taille et la forme des parcelles et la nature et la priodicit des observations
varient suivant lobjet de lenqute, nous proposons quelques directives valables pour les tudes
cologiques en gnral ou pour les tudes sur lamnagement des forts.
Il convient de choisir des stations reprsentatives dans chaque catgorie de forts et dtablir des
parcelles chantillons pour observer en dtail la regnration et la croissance. Les parcelles doivent
Cas particuliers
- 213 -
tre assez grandes - au moins un hectare (100 m x 100 m) et tre situes dans diffrentes stations
ayant des peuplements de densits variables. Lidal est davoir au moins 30 parcelles dans une
catgorie de fort particulire pour tudier la dynamique et les interactions entre le peuplement et la
station. Les parcelles peuvent tre dlimites par de petites tranches aux quatre coins. Il faut aussi
dresser une carte du lieu, indiquant lemplacement exact de la parcelle. Un inventaire complet des
arbres se trouvant dans les parcelles doit tre fait en marquant chaque arbre avec des bagues
daluminium numrotes. Linventaire prcisera certains paramtres de base, comme le nom de
lespce et la circonfrence hauteur dhomme sur les arbres adultes (gbh sur corce > 30 cm) et
sur les gaulis (gbh sur corce >10 cm <30 cm). Les plantules (gbh sur corce < 10 cm) peuvent tre
comptes dans des sous-parcelles dune taille de 1m x 1m, slectionnes de manire alatoire ou
systmatique.
Des informations sur les proprits du sol de chaque parcelle sont rassembles dans plusieurs fosses
dobservation, dont les on regroupera les diffrentes donnes. Les paramtres de base seront le pH
du sol, le carbone organique, la texture du sol (teneur en gravier, sable, limon et argile), temprature
et rserves dhumidit du sol. Des observations concernant certaines caractristiques
topographiques, comme la pente, laspect, la proximit dune source deau etc, sont aussi
enregistres pour chaque parcelle.
ii) Modle de transition des forts (dun tat lautre)
Nous allons maintenant concentrer notre attention sur un modle particulier, appel modle de
Markov, qui ncessite lutilisation doutils mathmatiques appeles matrices. Une description
lmentaire de la thorie des matrices est fournie lAnnexe 7, pour les non initis. Dans un modle
de Markov du premier ordre, lvolution future dun systme est dtermine par son tat prsent, et
ne dpend pas de la manire dont cet tat sest dvelopp. Lenchanement de rsultats produits par
un modle de ce type est souvent appel chane de Markov. Lapplication de ce modle des
problmes concrets est limite par trois contraintes majeures, savoir: le systme doit tre class en
un nombre fini dtats, les transitions doivent avoir lieu des instants discrets, mme si, pour le
systme en cours de modlisation, ces derniers peuvent tre si proches quils peuvent tre
considrs comme continus dans le temps, et enfin les probabilits de transition ne doivent pas varier
avec le temps. Il est possible de modifier dans une certaine mesure ces contraintes, quitte
augmenter la complexit mathmatique du modle. On peut utiliser des probabilits variant en
fonction du temps, ou des intervalles variables entre les transitions et, dans les modles de Markov
dordre plus lev, les probabilits de transition dpendent, non seulement de ltat actuel, mais aussi
dun ou plusieurs tats antrieurs.
Les modles markoviens ont une valeur potentielle particulirement leve, mais jusqu prsent ils
ont t peu utiliss en cologie. Toutefois des tudes prliminaires laissent penser que, lorsque les
systmes cologiques tudis affichent des proprits markoviennes, et plus particulirement dune
chane de Markov stationnaire de premier ordre, il est possible de faire plusieurs analyses
intressantes et importantes du modle. Par exemple, lanalyse algbrique dune matrice de transition
dterminera lexistence dune srie dtats transitoires, densembles ferms dtats ou dun tat
absorbant. Une analyse plus approfondie permet de fractionner la matrice de transition de base et
dtudier sparment les diffrentes composantes, ce qui simplifie le systme cologique ltude.
Lanalyse dune matrice de transition peut aussi conduire calculer les temps de passage moyens
dun tat lautre et la dure moyenne dun tat particulier, depuis son dbut. En prsence dtats
Cas particuliers
- 214 -
ferms ou absorbants, il est possible de calculer la probabilit dabsorption et le temps moyen
dabsorption. Un ensemble transitoire dtats est un ensemble dans lequel chaque tat peut en fin de
compte tre atteint partir de tout autre tat faisant partie de lensemble, mais qui est abandonn
lorsque ltat entre dans un ensemble dtats ferms ou dans un tat absorbant. Un ensemble ferm
se distingue dun ensemble transitoire en ce sens que, une fois que le systme est entr dans un tat
quelconque de lensemble ferm, lensemble ne peut pas tre abandonn. Un tat absorbant est un
tat que lon ne peut plus quitter, cest dire o lauto remplacement est complet. Cest pourquoi le
temps de passage moyen reprsente le temps moyen ncessaire pour passer travers un tat
particulier de la succession, et le temps moyen dabsorption est le temps moyen pour atteindre une
composition stable.
Pour construire des modles apparents celui de Markov, les principales informations ncessaires
sont les suivantes: une classification quelconque qui, jusqu un degr acceptable, spare les tats de
la succession en des catgorie dfinissables, des donnes servant dterminer les probabilits de
transferts ou les vitesses auxquelles les tats passent, au cours du temps, dune catgorie de cette
classification une autre et des donnes dcrivant les conditions initiales un temps donn,
habituellement suivant une perturbation bien tablie.
Prenons pour exemple les interactions forts (terres boises) prairies sur de longues priodes de
temps dans des paysages naturels. Il est bien connu que lorsque les forts naturelles sont
continuellement perturbes par lhomme ou affectes par des incendies rpts, elles peuvent
retourner ltat de prairie. Linverse peut aussi se produire, en ce sens que des prairies peuvent se
transformer en forts dans certains environnements propices. Dans cet exemple, les forts et les
prairies sont deux tats que le systme peut prendre avec des dfinitions bien adaptes mme si,
dans la ralit, il peut y avoir plus de deux catgories.
Le Tableau 6.21 prsente les donnes collectes dans 20 parcelles chantillons permanentes, sur
ltat de la vgtation se trouvant dans les parcelles classes dans la catgorie forts (F) ou prairies
(G), en 4 occasions successives, espaces de 5 ans.
Les probabilits historiques de transition entre les deux tats possibles, sur une priode de 5 ans,
sont indiques dans le Tableau 6.22. Ces probabilits ont t estimes en comptant le nombre de
fois o se produit un type particulier de transition, disons F-G, sur une priode de 5 ans, et en
divisant ce nombre par le nombre total de transitions possibles dans les 20 parcelles, en vingt ans.
Cas particuliers
- 215 -
Tableau 6.21. Etat de la vgtation dans les parcelles tmoin, en 4 occasions
Numro de
la parcelle
Occasions
1 2 3 4
1 F F F F
2 F F F F
3 F F G G
4 F F F G
5 G G G G
6 G G G G
7 F F G G
8 F G G G
9 F F F G
10 G G F F
11 F F F F
12 G G F F
13 G G F F
14 F F G G
15 F F G G
16 F F F F
17 F F G G
18 F F F F
19 F F G G
20 F F F F
Tableau 6.22. Probabilits de transition, relatives aux changements successifs se produisant dans un
paysage (intervalle = 5 ans)
Etat initial Probabilit de transition jusqu ltat final
Fort Prairie
Fort 0.7 0.3
Prairie 0.2 0.8
Ainsi, les parcelles qui sont initialement des forts ont une probabilit de 0,7 de rester ltat de
forts la fin de la priode de 5 ans, et une probabilit de 0,3 dtre convertie en prairie. Les
surfaces qui, au dpart, sont des prairies ont une probabilit de 0,8 de rester dans cet tat et une
probabilit de 0,2 de retourner ltat de fort. Aucun des tats nest donc absorbant ou ferm,
mais chacun reprsente une transition de la fort la prairie, et vice-versa. En labsence dtats
absorbants, le processus de Markov prend le nom de chane ergodique et lon peut tudier toutes les
consquences de la matrice des probabilits de transition en exploitant les proprits fondamentales
du modle markovien.
Cas particuliers
- 216 -
Les valeurs du Tableau 6.22 montrent les probabilits de transition dun tat quelconque un autre
aprs un intervalle de temps (5ans). Les probabilits de transition aprs deux intervalles de temps
peuvent tre drives directement en multipliant la matrice de transition en une tape par elle-mme,
de manire ce que, dans le cas plus simple o il est existe deux tats, les probabilits
correspondantes soient donnes par la matrice suivante:
p
11
2 ( )
p
12
2 ( )
p
11
p
12
p
11
p
12
=
p
21
2 ( )
p
22
2 ( )
p
21
p
22
p
21
p
22
Sous une forme condense, on peut crire :
P
(2)
= PP
De mme, la matrice de transition en trois tapes scrit :
p
11
3 ( )
p
12
3 ( )
p
11
2 ( )
p
12
2 ( )
p
11
p
12
=
p
21
3 ( )
p
22
3 ( )
p
21
2 ( )
p
22
2 ( )
p
21
p
22
ou P
(2)
= P
(2)
P
En gnral, pour la n-me tape, on peut poser :
P
(n)
= P
(n-1)
P (6.54)
Pour la matrice du Tableau 6.22, les probabilits de transition lissue de deux intervalles de temps
sont:
0.5500 0.4500
0.3000 0.7000
Et lissue de quatre intervalles de temps :
0.4188 0.5813
0.3875 0.6125
Si une matrice de probabilits de transition est leve des puissances successives jusqu atteindre
un tat o toutes les lignes de la matrice sont identiques, formant un vecteur de probabilit fixe, la
matrice est appele matrice de transition rgulire. La matrice donne la limite laquelle les
probabilits de passer dun tat un autre sont indpendantes de ltat initial, et le vecteur fixe de
probabilit t exprime les proportions dquilibre des diffrents tats. Par exemple, le vecteur des
probabilits dquilibre est
0.40 0.60
Donc, si les probabilits de transition ont t correctement estimes et restent stationnaires - ce qui
implique quil ne se produit aucun changement majeur dans les conditions environnementales ou dans
le modle damnagement de la rgion considre - le paysage finira par atteindre un tat dquilibre
form denviron 40% de fort et environ 60 % de prairie.
Cas particuliers
- 217 -
Lorsque, comme dans cet exemple, il nexiste pas dtats absorbants, on peut aussi estimer, au
moyen de calculs complexes, lintervalle de temps moyen ncessaire pour quune surface de prairie
se transforme en fort, (et vice-versa) compte tenu des conditions qui prvalent dans la rgion, cest
dire les temps moyens de premier passage. En dautres termes, si lon choisit une surface au
hasard, pendant combien de temps devrons nous attendre, en moyenne, pour que cette surface
devienne une fort ou une prairie, cest--dire les temps moyens de premier passage lquilibre.
6.4. Biologie de la faune sauvage
6.4.1. Estimation de labondance de la faune
Lchantillonnage par lignes interceptes est une mthode couramment employe pour estimer
labondance de la faune. Cette mthode peut tre grossirement dcrite comme suit. Supposons que
lon ait une surface de limites connues et de taille A et que lon veuille estimer labondance dune
population biologique, sur cette surface. La technique dchantillonnage par lignes interceptes
requiert ltablissement dau moins une ligne de parcours (ou transect) sur la surface considre. On
note le nombre dobjets dtects (s
i
) et les distances perpendiculaires (x
i
), de la ligne jusquaux
objets dtects. On peut aussi enregistrer la distance dobservation r
i
et l angle dobservation
i
,
qui permettent de retrouver x
i
laide de la formule x = r sin(). Soit n la taille de lchantillon.
Lchantillon correspondant de donnes potentielles est index par (s
i,
r
i,

i
, i = 1,..., n). La
mthode est reprsente graphiquement la Figure 6.6.
Figure 6.6. Reprsentation graphique de lchantillonnage par lignes interceptes
r
x
L
Quatre hypothses cruciales doivent tre poses pour obtenir des estimations fiables de labondance
de la population partir dune enqute par lignes interceptes, savoir: i) Les points situs
directement sur la ligne ne sont jamais omis ii) Les points sont fixes leur emplacement
dobservation initial, dont ils ne bougent pas avant dtre dtects et ils ne sont jamais compts deux
fois iii) Les distances et les angles sont mesurs avec exactitude iv) Les observations sont des
vnements indpendants.
Une estimation de la densit est donne par la formule suivante :
D
nf
L

(0)
2
(6.55)
Cas particuliers
- 218 -
o n = Nombre dobjets observs
f(0) = Estimation de la fonction de densit de probabilit des valeurs des distances, distance
nulle
L = Longueur du transect
Pour estimer la quantit f(0) on part du principe quune distribution thorique, comme la distribution
semi-normale ou la distribution exponentielle ngative, est un bon ajustement de la distribution de
frquences observe des valeurs des distances. Dans le contexte de lchantillonnage par lignes
interceptes, ces distributions prennent le nom de modles de fonction de dtection. Lajustement de
ces distributions peut aussi tre test en calculant les frquences thoriques et en effectuant un test de
validit de lajustement du
2
. Une autre variante permet destimer la distribution de frquence
observe par des fonctions non-paramtriques comme la srie de Fourier, et destimer f(0). Lidal
est deffectuer au moins 40 observations indpendantes pour obtenir une estimation prcise de la
densit. On trouvera dans Buckland et al. (1993) une description dtaille des diffrents modles de
fonction de dtection qui entrent en jeu dans les chantillonnages par lignes interceptes.
Prenons par exemple lchantillon suivant de 40 observations sur la distance perpendiculaire (x), en
mtres sparant des troupeaux dlphants de 10 transects de 2 km de long chacun, disposs au
hasard dans un sanctuaire de faune
32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15
32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15
Ici n = 40, L = 20 km. Si la fonction de dtection est semi-normale, la densit de troupeaux
dlphants dans le sanctuaire de faune peut tre estime par la formule,
$
.
D
nf
L
L
x
n
i

1
]
1
1

(0)
2
2
2
2
3
0 5

i 1
n
$
.
D
nf
L

+ + +

1
]
1

(0)
(20)
(0.032) (0.056) ... (0.015)
(40)
2
2 2 2
3
2
2
0 5

= 13.63 Troupeaux/ km
2
Dans le cas dune fonction de dtection semi-normale, lerreur-type relative, ou au choix, le
coefficient de variation (CV) de lestimation de D est donn par la relation,
CV D
n n
(
$
) +

_
,
100
1 1
2
(6.56)
=100
1
40
1
(2)(40)
+

_
,

= 19.36%
6.4.2. Estimation du domaine vital
Le domaine vital, ou aire de rpartition naturelle, est lespace dans laquelle vit normalement un
animal, quil le dfende ou non comme son territoire, et quil le partage ou non avec dautres
Cas particuliers
- 219 -
animaux. En gnral, le domaine vital ne comprend pas les zones de migration ou de dispersion. Les
donnes gographiques concernant un ou plusieurs animaux servent de base pour calculer le
domaine vital, et toutes les statistiques sur ce sujet sont obtenues grce la manipulation de ces
donnes pendant une certaine unit de temps. Il existe plusieurs mthodes dvaluation du domaine
vital, mais elles rentrent gnralement dans 3 catgories, suivant quelles sont bases sur i) un
polygone ii) un centre dactivits ou iii) des fonctions non paramtriques (Worton,1987), chacune
ayant ses avantages et ses inconvnients. Nous allons illustrer ce qui prcde laide dune mthode
base sur un centre dactivit.
Si x et y sont deux co-ordonnes indpendantes de chaque position et n est la taille de lchantillon,
le point ( x y , ) est considr comme le centre dactivit
x
x
n
y
y
n
i
i
n
i
i
n



1 1
, (6.57)
Le calcul dun centre dactivit simplifie les donnes gographiques en les rduisant un point
unique. Cette mesure peut tre utile pour sparer les domaines des individus dont les points relatifs
aux donnes gographiques empitent largement les uns sur les autres.
Lune des principales mthodes proposes pour mesurer le domaine vital est base sur un modle
elliptique deux variables. Pour estimer le domaine vital par cette approche, on commence par
calculer certaines mesures de dispersion lmentaires concernant le centre dactivit, comme la
variance et la covariance,
( )
( )
s
x x
n
x
i
i
n
2
2
1
1

,
( )
( )
s
y y
n
y
i
i
n
2
2
1
1

,
( )( )
( )
s
x x y y
n
xy
i
i
n
i

1
1
(6.58)
ainsi que lcart-type, ( ) s s
x x

2
1
2
et
( )
s s
y y

2
1
2
. Ces statistiques de base peuvent tre utilises
pour dterminer dautres variables, comme les valeurs propres, connues aussi sous le nom de
racines caractristiques ou latentes, de la matrice 2 x 2 des variances-covariances. Les quations des
valeurs propres sont les suivantes:
( ) ( )

x y x y x y x xy
s s s s s s s + + +

1
]
1

'

1
2
4
2 2 2 2
2
2 2 2
1
2
(6.59)
( ) ( )

y y x y x y x xy
s s s s s s s + +

1
]
1

'

1
2
4
2 2 2 2
2
2 2 2
1
2
(6.60)
Ces valeurs mesurent la variabilit intrinsque de la dispersion des positions selon deux axes
orthogonaux (perpendiculaires et indpendants) passant par le centre dactivit.
Bien que lorientation de ces nouveaux axes ne puisse pas se dduire directement des valeurs
propres, leurs pentes peuvent tre dtermines par les relations,
Cas particuliers
- 220 -
b
1
(pente de laxe principal [le plus long]) =
( )
s
s
xy
x y

2
(6.61)
b
2
(pente de laxe secondaire [le plus court]) =
1
1
b
(6.62)
Les ordonnes y lorigine ( ) a y b x y b x
1 1 1 2 2 2
and a ainsi que les pentes des axes
compltent les calculs ncessaires pour tracer les axes de variabilit. Les quations
y a b x a b x
1 1 1 2 2
+ + and y
2
(6.63)
dcrivent respectivement laxe de variabilit principal et laxe de variabilit secondaire.
Considrons un ensemble de donnes gographiques reprsent par un nuage de points orient
paralllement lun des axes de la grille. Les cart-types des coordonnes x et y (s
x
et s
y
) sont
proportionnels aux longueurs des axes principal et secondaire (ou semi-principal et semi-secondaire)
dune ellipse passant par ces points. En utilisant la formule de laire dune ellipse, A
e
= s
x
s
y
, on peut
obtenir une estimation de la taille du domaine vital. Dans le reste de notre dmonstration, nous
prendrons pour ellipse type lellipse ayant des axes de longueur 2s
x
et 2s. Si laxe principal et laxe
secondaire de lellipse sont gaux, la figure est un cercle et la formule devient A
c
= r
2
, o r = s
x
=
s
y
.
Lun des inconvnients vidents de cette mesure est que les axes calculs de donnes gographiques
naturelles sont rarement parfaitement aligns avec les axes dune grille dtermins arbitrairement. Il
sensuit que les valeurs s
x
et s
y
dont dpend laire de lellipse, peuvent tre affectes par lorientation
et la forme de lellipse. Ce problme nexiste pas dans les modles circulaires de domaine vital. Il
existe deux mthodes qui permettent de calculer des valeurs de s
x
et s
y
, corriges pour lorientation
(covariance). Dans la premire, chaque ensemble de coordonnes est transform comme suit, avant
de calculer laire de lellipse
x x x y y
t
( ) cos ( ) sin (6.64)
et y x x y y
t
+ ( ) sin ( ) cos (6.65)
o = arctan(-b) et b est la pente de laxe principal de ellipse.
La deuxime mthode, beaucoup plus simple, qui permet de dterminer s
x
et s
y
corrigs pour
lorientation de lellipse, fait appel aux valeurs propres de la matrice des variances-covariances
drives des coordonnes des observations. Puisque ces valeurs propres sont analogues des
variances, leurs racines carres fournissent aussi des valeurs quivalentes aux carts-types des
donnes gographiques transformes (cest dire, ( )
x x
s
t
1
2
et
( )

y y
s
t
1
2
.). Bien que cette
seconde procdure soit beaucoup plus simple, les transformations trigonomtriques de points
individuels des donnes sont galement utiles plusieurs gards, comme le verrons plus loin.
Le fait de prendre lellipse type comme mesure du domaine vital pose un autre problme car les
variances et covariances utilises dans les calculs sont des estimations de valeurs paramtriques. En
tant que telles, elles sont influences par la taille de lchantillon. A partir du moment o les donnes
suivent une loi de distribution normale deux variables, lincorporation du critre de test statistique F
dans le calcul de lellipse permet de compenser en partie la taille de lchantillon. La formule,
Cas particuliers
- 221 -
A
s n
n
F n
p
x y
t t

s 2 1
2
2 2
( )
( ) , (6.66)
peut tre utilise pour liminer lincidence de la taille de lchantillon qui a servi dterminer ce qui
est maintenant devenu une ellipse dun pourcentage de confiance de [(1-)100]. Cette mesure est
suppose fournir une estimation fiable de la taille du domaine vital, lorsque les donnes
gographiques suivent une loi de distribution normale deux variables. Avant lintroduction du test
F, les calculs prsents pourraient sappliquer tous les cas o lparpillement des donnes
gographiques est symtrique, unimodal. White et Garrott (1990) ont indiqu les calculs
supplmentaires qui doivent tre faits pour tracer sur papier lellipse de confiance [(1-)100].
Lapplication dun modle gnral du domaine vital permet de tirer des conclusions sur la familiarit
relative dun animal avec un point quelconque situ lintrieur de son domaine vital. Ces
informations peuvent tre dtermines avec plus de prcision par une simple observation, mais elles
sont extrmement coteuses, en temps, et il est difficile de faire des comparaisons quantitatives entre
des individus ou entre des enqutes. A propos du concept de centre dactivit, Hayne (1949) estime
que, bien quil soit tentant didentifier le centre dactivit avec lemplacement du domaine vital dun
animal, cela ne doit pas tre fait car ce point est une moyenne des points de capture et na pas
ncessairement dautre signification biologique. Mis part le problme que nous venons de
mentionner, les carts inhrents la normalit des donnes gographiques peuvent tre une source
de difficults. Du fait de ltalement (asymtrie du domaine vital), le centre dactivit se trouve en
ralit plus prs dun arc de lellipse de confiance que ne le prvoyait le modle, de sorte que la taille
du domaine vital (lellipse de confiance [1-]100 ) est surestime. La kurtose (aplatissement) peut
augmenter ou diminuer les estimations de la taille du domaine vital. Si les donnes sont platikurtiques,
la taille du domaine vital est sous-value, et inversement dans le cas de donnes leptokurtiques. La
transformation trigonomtrique de donnes deux variables aide rsoudre ce problme en
fournissant des distributions non-corrles des coordonnes x et y. Quoiquil en soit, pour vrifier le
bien-fond de lhypothse de la distribution normale deux variables, on peut se rfrer aux
mthodes dcrites par White et Garrott (1990), que nous ne dvelopperons pas ici pour ne pas
compliquer notre expos.
La taille de lchantillon peut avoir une influence importante sur la fiabilit des statistiques prsentes
ici. Il est assez vident que les petites tailles dchantillons (ex : n <20), peuvent fausser srieusement
les mesures considres. Une multitude de facteurs qui nont pas t pris en considration dans cette
tude, peuvent galement influencer les rsultats sans que lon sache encore comment. Cest
notamment le cas des diffrences entre les espces et les individus, du comportement social, des
sources de nourriture et de lhtrognit de lhabitat, pour nen citer que quelques-uns.
Les tapes du calcul du domaine vital sont dcrites ci-aprs, partir de donnes simules obissant
une loi de distribution normale deux variables avec
x
=
y
= 10,
x
=
y
= 3, et cov (x,y) = 0
(White and Garrott (1990)). Ces donnes sont reportes dans le Tableau 6.23.
Cas particuliers
- 222 -
Tableau 6.23. Donnes simules obissants une loi de distribution normale deux variables
avec
x
=
y
= 10,
x
=
y
= 3, et cov (x,y) = 0.
N
Observation
x
(m)
y
(m)
N
Observation
x
(m)
y
(m)
1 10.6284 8.7061 26 16.9375 11.0807
2 11.5821 10.2494 27 9.8753 10.9715
3 15.9756 10.0359 28 13.2040 11.0077
4 10.0038 10.8169 29 6.1340 7.6522
5 11.3874 10.1993 30 7.1120 12.0681
6 11.2546 12.7176 31 8.8229 13.2519
7 16.2976 9.1149 32 4.7925 12.6987
8 18.3951 9.3318 33 15.0032 10.2604
9 12.3938 8.8212 34 11.9726 10.5340
10 8.6500 8.4404 35 9.8157 10.1214
11 12.0992 6.1831 36 6.7730 10.8152
12 5.7292 10.9079 37 11.0163 11.3384
13 5.4973 15.1300 38 9.2915 8.6962
14 7.8972 10.4456 39 4.4533 10.1955
15 12.4883 11.8111 40 14.1811 8.4525
16 10.0896 11.4690 41 8.5240 9.9342
17 8.4350 10.4925 42 9.3765 6.7882
18 13.2552 8.7246 43 10.8769 9.0810
19 13.8514 9.9629 44 12.4894 11.4518
20 10.8396 10.6994 45 8.6165 10.2106
21 7.8637 9.4293 46 7.1520 9.8179
22 6.8118 12.4956 47 5.5695 11.5134
23 11.6917 11.5600 48 12.8300 9.6083
24 3.5964 9.0637 49 4.4900 10.5646
25 10.7846 10.5355 50 10.0929 11.8786
*Etape 1. Calcul des moyennes, des variances et des covariances
x
+ + + 1063 1158 1009
50
. . ... .
= 10.14
y
+ + 871 10 25 1188
50
. . ... .
=10.35
( )
s
x
2
2 2 2
1063 1014 1158 1014 1009 1014
50 1

+ +

( . . ) ( . ) ...( . . )
=11.78
Cas particuliers
- 223 -
( )
s
y
2
2 2 2
871 10 35 1025 10 35 1188 1035
50 1

+ +

( . . ) ( . . ) ...( . . )
= 2.57
( )
s
xy

+ + +

_
,

1
50 1
1063 1014 8 71 10 35 1158 1014 10 25 10 35
1009 1014 1188 10 35
( . . )( . . ) ( . . )( . . ) ...
( . . )( . . )
= -1.22
( ) s
x
1178
1
2 .
= 3.43
( )
s
y
257
1
2
.
= 1.60
*Etape 2. Calcul des valeurs propres et des pentes des axes.
( ) ( )
[ ]

x
+ + +

'

1
2
257 1178 257 1178 4 2 57 1178 122
2
1
2
. . . . ( . )( . ) ( . )
= 11.6434
( ) ( )
[ ]

y
+ +

'

1
2
257 1178 2 57 1178 4 257 1178 122
2
1
2
. . . . ( . )( . ) ( . )
= 2.7076
*Etape 3. Calcul des valeurs de s
x
t
et s
y
t
.
( ) s
x x
t

1
2
= ( ) 116434
1
2
. = 3.4122
( )
s
y y
t

1
2
= ( ) 2 7076
1
2
. = 1.6455
*Etape 4. Calcul du domaine vital sur la base du test F (1-) = 0.95.
A
s n
n
F n
p
x y
t t

s 2 1
2
2 2
( )
( ) , .
=
( )( )( )( )
( )
3 3 16455 2 50 1
50 2
3188
.1416 .4122 .
.
( )

= 114.8118 m
2
= 0.0115 ha
224
7. CONCLUSION
Le prsent manuel couvre quelques-uns des concepts fondamentaux qui entrent en jeu dans les
statistiques appliques la recherche forestire, tant au niveau thorique que pratique. Tout
chercheur digne de ce nom doit comprendre ces concepts pour appliquer avec succs la mthode
scientifique dans ses enqutes. Cependant, les situations que lon rencontre dans la ralit sont
souvent beaucoup trop complexes pour pouvoir tre apprhendes par les techniques et les modles
de base auxquels se rfre le prsent manuel. Ainsi, le recours une analyse multivariable est
souvent ncessaire, lorsque les observations faites dans les units exprimentales portent sur de
multiples caractres. Trs souvent, les hypothses relatives aux distributions ne sont pas respectes,
ce qui impose le recours des statistiques non paramtriques. De nombreux problmes
doptimisation imposent ladoption de techniques de recherche oprationnelle ou dune approche
conforme la thorie de la dcision. Etant donn que beaucoup denqutes sur les forts se
prolongent sur une longue priode, des tudes de simulation seraient plus appropries quune
approche exprimentale. Les processus cologiques sont souvent trop complexes pour pouvoir tre
manipuls travers les modles simples tudis dans ce manuel. Malgr ces limites, cet ouvrage a
une fonction bien prcise, qui est dinculquer aux chercheurs les principes statistiques les plus
lmentaires, dans le domaine de la recherche, et de leur donner la possibilit de communiquer et de
collaborer en connaissance de cause avec un expert, pour sattaquer des problmes plus
complexes.
225
8. BIBLIOGRAPHIE
Anderson, R. L. et Bancroft, T. A. 1952. Statistical Theory in Research. Mc. Graw Hill Book Co.,
New York.
Borders, B. E. et Bailey, R. L. 1986. A compatible system of growth and yield equations for slash
pine fitted with restricted three-stage least squares. Forest Science, 32: 185-201.
Brender, E.V. et Clutter, J. L. 1970. Yield of even-aged natural stands of loblolly pine. Report 23,
Georgia Forest Research Council.
Boungiorno, J. et Michie, B. R. 1980. A matrix model of uneven-aged forest management. Forest
Science, 26(4): 609-625.
Buckland, S. T., Anderson, D. R., Burnham, K. P. et Laake, J. L. 1993. Distance Sampling :
Estimating Abundance of Biological Populations. Chapman and Hall, London. 446 p.
Chacko, V. J. 1965. A Manual on Sampling Techniques for Forest Surveys. The Manager of
Publications, Delhi.172 p.
Chakravarty, G. N. et Bagchi, S. K. 1994. Short note: enhancement of the computer program of the
permutated neighbourhood seed orchard design. Silvae-Genetica., 43: 2-3, 177-179.
Chaturvedi, A. N. et Khanna, E. S. 1982. Forest Mensuration. International Book Distributors,
India. 406 p.
Clutter, J. L. Fortson, J. C. Pienaar, L.V. Brister, G. H. et Bailey, R. L. 1983. Timber Management:
A Quantitative Approach. John Wiley and Sons, New York. 333 p.
Comstock, R. E. et Moll, R. H. 1963. Genotype-environment interactions. In : W. D. Hanson and
H. F. Robinson (Eds). Statistical Genetics and Plant Breeding, 164-194.
Crowder M. J. et Hand, D. J. 1990. Analysis of Repeated Measures. Chapman and Hall, New
York. 257 p.
Das, M. N. et Giri, N. C. 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. New
Delhi. 295 p.
Dixon, W. J. et Massey, F. J. 1951. Introduction to Statistical Analysis. Mc. Graw Hill Book Co.,
New York.
Draper, N. R. et Smith, H. 1966. Applied Regression Analysis. John Wiley and Sons, New York.
407 p.
Gomez, K. A. rt Gomez, A. A. 1984. Statistical Procedures for Agricultural Research. John Wiley
and Sons. New York. 680 p.
Bibliographie
- 226 -
Faulkner, R. 1975. Seed Orchards. Forestry Commission Bulletin No.54. Her Majestys Stationary
Office, London. 149 p.
Falconer, D. S. 1960. Introduction to Quantitative Genetics. Longman Group Ltd.,365 p.
Fisher, R. A. et Yates, F. 1963. Statistical Tables for Biological, Agricultural and Medical Research.
Longman Group Limited, London. 146 p.
Freeman, G. H. et Perkins, J. M. 1971. Environmental and genotype-environmental components of
variability. VIII. Relations between genotypes grown in different environments and measure
of these environments. Heredity, 26: 15-23.
Hayne, D. W. 1949. Calculation of size of home range. Journal of Mammology, 30: 1-18.
Jain, J. P. 1982. Statistical Techniques in Quantitative Genetics. Tata McGraw-Hill Publishing
Company Ltd. New Delhi. 328 p.
Jeffers, J. N. R. 1978. An Introduction to Systems Analysis : with Ecological Applications. Edward
Arnold, London. 198 p.
La Bastide, J. G. A. 1967. A computer programme for the layouts of seed orchards. Euphytica, 16,
321-323.
Lahiri, D. B. 1951. A method of sample selection providing unbiased ratio estimates. Bull. Inst. Stat.
Inst., 33, (2) 133-140.
Ludwig, J. A. et Reynolds, J. F. 1988. Statistical Ecology : A Primer on Methods and Computing.
John Wiley and Sons, New York. 337 p.
Magurran, A. E. 1988. Ecological Diversity and its Measurement. Croom Helm Limited, London.
179 p.
Mathew, G, Rugmini, P. et Sudheendrakumar, V. V. 1998. Insect biodiversity in disturbed and
undisturbed forests in the Kerala part of Western Ghats. KFRI Research Report No. 135,
113 p.
Mood, A. 1950. Introduction to the Theory of Statistics. Mc. Graw Hill Book Co., New York.
Montogomery, D.C. 1991. Design and analysis of Experiments. John Wiley and Sons. New York.
649 p.
Montogomery, D. C. et Peck, E. A. 1982. Introduction to Linear Regression Analysis. John Wiley
and Sons, New York. 504 p.
Namkoong, G., Snyder, E. B. et Stonecypher, R. W. 1966. Heretability and gain concepts for
evaluating breeding systems such as seedling orchards. Silvae Genetica, 15, 76-84.
Bibliographie
- 227 -
Parangpe, S. A. et Gore, A. P. 1997. Effort needed to measure biodiversity. International Journal of
Ecology and Environmental Sciences, 23: 173-183.
Searle, S. R. 1966. Matrix Algebra for the Biological Sciences (Including Applications in Statistics).
John Wiley and Sons, Inc., New York. 296 p.
Seigel, S. 1956. Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill International
Book Company. Tokyo. 312 p.
Snedecor G. W. et Cochran. W. G. Statistical Methods. USA: The Iowa State University Press,
1980. pp. 232-237.
Sokal, R. R. et Rolhf, F. J. 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.
Spiegel, M. R. et Boxer, R. W. 1972. Schaums Outline of Theory and Problems of Statistics in SI
units. McGraw-Hill International Book Company, New York. 359 p.
Steel, R. G. D. et Torrie, J. A. 1980. Principles and Procedures of Statistics, 2nd ed., USA:
McGraw-Hill, pp. 183-193.
Sukhatme, P. V., Sukhatme, B. V., Sukhatme, S. et Asok, C. 1984. Sampling theory of Surveys
and Applications. Iowa State University Press, U.S.A. and ISAS, New Delhi. 526 p.
Sullivan, A. D. et Clutter, J. L. 1972. A simultaneous growth and yield model for loblolly pine.
Forest Science, 18: 76-86.
Vanclay, J. K. 1991. Seed orchard designs by computer. Silvae-Genetica, 40: 3-4, 89-91.
White, G. C. et Garrott, R. A. 1990. Analysis of Wildlife Radio-Tracking Data. Academic Press,
Inc. San Diego. 383 p.
Worton, B. J. 1987. A review of models of home range for animal movement. Ecological modelling,
38, 277-298.
Wright, J. W. 1976. Introduction to Forest Genetics. Academic Press, Inc. 463 p.
Bibliographie
- 228 -
Rfrences bibliographiques complmentaires
sur les plans dexprience
Box. G.E.P., Hunter W.G., Hunter J.S. Statistics for experimenters. John wiley & sons, New
York, 1978.
CEA Ouvrage collectif. Statistique applique lexploitation des mesures. Masson, Paris, 1978.
Chapouille P. Planification et analyse des expriences. Masson et Cie, 1973.
Cochran W.G. et Cox G.M. Experimental designs, John Wiley & sons, New York, 1957
Cox D.R. Planning of experiments. John Wiley & sons, New York, 1958.
Dagnelie P. Principes dexprimentation. Les Presses Agronomiques de Gembloux, 1980.
Dagnelie P. Thorie et mthodes statistiques 1 et 11. Les Presses Agronomiques de Gembloux,
1973.
Das M.N., Giri N.C. Design and analysis of experiments. Wiley Eastern limited, 1979.
Dodge Y. Analysis of experiments with missing data. John wiley & sons, New York, 1985.
Dogu D. et Girault M. Analyse de variance et palns dexprience. Dunod, 1969.
Federer W.T. Experimental design. Oxford & IBH Publishing, 1955.
Finney D.J. An introduction to the theory of experimental design. Midway reprint, 1960
Finney D.J. Statistical method in biological assay. Charles Griffin and Cy, 1978.
Fisher R.A. The design of experiments. Oliver & Boyd Edinburgh (7me dition), 1960.
Gomez K.A. et Gomez A.A. Statistical procedures for agricultural research. John Wiley & sons,
New York (2e dition), 1984.
Kempthorne O. Design and analysis of experiments. John Wiley & sons, New York, 1952.
Lellouch J., Lazar P. Mthodes statistiques en exprimentation biologique. Flammarion, 1974.
Ogawa J. Statistical theory of the analysis of experimental designs. Marcel Dekker, New York,
1974.
Pearce S.C. The agricultural field experiment. John Wiley & sons, New York, 1983.
Philippeau G. Thorie des plans dexprience (application lagronomie).
Bibliographie
- 229 -
Snedecor G.M. et Cochran W.G. Statistical methods. Iowa State University Press (6me
dition), 1967.
Sokal R.R. abd Rohlf F.J. Biometry. W.H. Freeman and Cy (2medition), 1969.
Tassi P. Mthodes statistiques. Economica, 1985.
Tomassone R., Dervin C. et Masson J.P. Biomtrie modlisation de phnomnes biologiques.
Masson, 1993.
Vajda S. The mathematics of experimental design. Griffins statistical monographs & courses,
1967.
Vessereau A. Mthodes statistiques en biologie et en agronomie. J.B. Baillire (2me dition),
1988.
Winer B.J. Statistical principles in experimental design. McGraw-Hill (2me dition), 1971.
230
Annexe 1. Points de pourcentage de la distribution normale
Cette table donne les points de pourcentage de la distribution normale standard. Ce sont les valeurs
de z pour lesquelles un pourcentage donn, P, de la distribution normale standard est situ en dehors
de la fourchette allant de -z +z.
P (%) z
90 0.1257
80 0.2533
70 0.3853
60 0.5244
50 0.6745
40 0.8416
30 1.0364
20 1.2816
15 1.4395
10 1.6449
5 1.9600
2 2.3263
1 2.5758
0.50 2.8070
0.25 3.0233
0.10 3.2905
0.01 3.8906
Annexes
- 231 -
Annexe 2. Distribution de t de Student
Cette table donne les points de pourcentage de la distribution de t avec degrs de libert. Ce sont
les valeurs de t pour lesquelles un pourcentage donn, P, de la distribution de t est situ en dehors
de la fourchette allant de -t +t. Au fur et mesure que le nombre de degrs de libert augmente, la
distribution se rapproche de la distribution normale standard.
Test unilatral Test bilatral
Pourcentage (P)
Degr de
libert
(v)
5% 1% 5% 1%
1 6.31 31.8 12.7 63.7
2 2.92 6.96 4.30 9.92
3 2.35 4.54 3.18 5.84
4 2.13 3.75 2.78 4.60
5 2.02 3.36 2.57 4.03
6 1.94 3.14 2.45 3.71
7 1.89 3.00 2.36 3.50
8 1.86 2.90 2.31 3.36
9 1.83 2.82 2.26 3.25
10 1.81 2.76 2.23 3.17
11 1.80 2.72 2.20 3.11
12 1.78 2.68 2.18 3.05
13 1.77 2.65 2.16 3.01
14 1.76 2.62 2.14 2.98
15 1.75 2.60 2.13 2.95
16 1.75 2.58 2.12 2.92
17 1.74 2.57 2.11 2.90
18 1.73 2.55 2.10 2.88
19 1.73 2.44 2.09 2.86
20 1.72 2.53 2.09 2.85
22 1.72 2.51 2.07 2.82
24 1.72 2.49 2.06 2.80
26 1.71 2.48 2.06 2.78
28 1.70 2.47 2.05 2.76
30 1.70 2.46 2.04 2.75
35 1.69 2.44 2.03 2.72
40 1.68 2.42 2.02 2.70
45 1.68 2.41 2.01 2.69
50 1.68 2.40 2.01 2.68
55 1.67 2.40 2.00 2.67
60 1.67 2.39 2.00 2.66
1.64 2.33 1.96 2.58
Annexes
- 232 -
Annexes
- 233 -
Annexe 3. Distribution de F (5%)
Cette table donne les valeurs pour lesquelles le pourcentage de la distribution de F dans le titre est
suprieur la valeur tabulaire de F pour v
1
(degrs de libert du numrateur) et v
2
(degrs de libert
du dnominateur) associs au rapport F.
Degr de libert (v
1
)
Degr
de
libert
(v
2
)
1 2 3 4 5 6 7 8 10 12 24
2 18.5 19.0 19.2 19.2 9.3 19.3 19.4 19.4 19.4 19.4 19.5
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.79 8.74 8.64
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 5.96 5.91 5.77
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.74 4.68 4.53
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.06 4.00 3.84
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.64 3.57 3.41
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.35 3.28 3.12
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.14 3.07 2.90
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 2.98 2.91 2.74
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.85 2.79 2.61
12 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.75 2.69 2.51
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.67 2.60 2.42
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.60 2.53 2.35
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.54 2.48 2.29
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.49 2.42 2.24
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.45 2.38 2.19
18 4.41 3.55 3.16 2.93 2.77 3.66 2.58 2.51 2.41 2.34 2.15
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.38 2.31 2.11
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.35 2.28 2.08
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.30 2.23 2.03
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.25 2.18 1.98
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.22 2.15 1.95
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.19 2.12 1.91
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.16 2.09 1.89
35 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.11 2.04 1.83
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.08 2.00 1.79
45 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.05 1.97 1.76
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.03 1.95 1.74
55 4.02 3.16 2.77 2.54 2.38 2.27 2.18 2.11 2.01 1.93 1.72
Annexes
- 234 -
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 1.99 1.92 1.70
Annexes
- 235 -
Annexe 4. Distribution de
2
Cette table prsente les points de pourcentage de la distribution chi-carr

avec degrs de libert.
Ce sont les valeurs de
2
pour lesquelles un pourcentage donn, P, de la distribution chi-carr est
suprieur
2
.
Pourcentage (P)
Degr de
libert
()
97.5 95 50 10 5 2.5 1 0.1
1 .000982 .00393 0.45 2.71 3.841 5.02 6.64 10.8
2 0.0506 0.103 1.39 4.61 5.99 7.38 9.21 13.8
3 0.216 0.352 2.37 6.25 7.81 9.35 11.3 16.3
4 0.484 0.711 3.36 7.78 9.49 11.1 13.3 18.5
5 0.831 1.15 4.35 9.24 11.1 12.8 15.1 20.5
6 1.24 1.64 5.35 10.6 12.6 14.5 16.8 22.5
7 1.69 2.17 6.35 12.0 14.1 16.0 18.5 24.3
8 2.18 2.73 7.34 13.4 15.5 17.5 20.1 26.1
9 2.70 3.33 8.34 14.7 16.9 19.0 21.7 27.9
10 3.25 3.94 9.34 16.0 18.3 20.5 23.2 29.6
11 3.82 4.57 10.3 17.3 19.7 21.9 24.7 31.3
12 4.40 5.23 11.3 18.5 21.0 23.3 26.2 32.9
13 5.01 5.89 12.3 19.8 22.4 24.7 27.7 34.5
14 5.63 6.57 13.3 21.1 23.7 26.1 29.1 36.1
15 6.26 7.26 14.3 22.3 25.0 27.5 30.6 37.7
16 6.91 7.96 15.3 23.5 26.3 28.8 32.0 39.3
17 7.56 8.67 16.3 24.8 27.6 30.2 33.4 40.8
18 8.23 9.39 17.3 25.0 28.9 31.5 34.8 42.3
19 8.91 10.1 18.3 27.2 30.1 32.9 36.2 43.8
20 9.59 10.9 19.3 28.4 31.4 34.2 37.6 45.3
22 11.0 12.3 21.3 30.8 33.9 36.8 40.3 48.3
24 12.4 13. 9 23.3 33.2 36.4 39.4 43.0 51.2
26 13.8 15. 4 25.3 35.6 38.9 41.9 45.6 54.1
28 15.3 16. 9 27.3 37.9 41.3 44.5 48.3 56.9
30 16.8 18.5 29.3 40.3 43.8 47.0 50.9 59.7
35 20.6 22.5 34.3 46.1 49.8 53.2 57.3 66.6
40 24.4 26. 5 39.3 51.8 55.8 59.3 63.7 73.4
45 28.4 30.6 44.3 57.5 61.7 65.4 70.0 80.1
50 32.4 34. 8 49.3 63.2 67.5 71.4 76.2 86.7
55 36.4 39.0 54.3 68.8 73.3 77.4 82.3 93.2
60 40.5 43. 2 59.3 74.4 79.1 83.3 88.4 99.7
Annexes
- 236 -
Annexe 5. Valeurs significatives du coefficient de corrlation
Cette table prsente les valeurs au-del desquelles le coefficient de corrlation est dclar
significatif, pour un seuil de signification dtermin et un nombre donn de paires
dobservations de x et y
n .1 .05 .02 .01 .001
1 .9877 .9969 .9995 .9999 .9999
2 .9000 .9500 .9800 .9900 .9990
3 .8054 .8783 .9343 .9587 .9912
4 .7293 .8114 .8822 .9172 .9741
5 .6694 .7545 .8329 .8745 .9507
6 .6215 .7067 .7887 .8343 .9249
7 .5822 .6664 .7498 .7977 .8982
8 .5494 .6319 .7155 .7646 .8721
9 .5214 .6021 .6851 .7348 .8471
10 .4973 .5760 .6581 .7079 .8233
11 .4762 .5529 .6339 .6835 .8010
12 .4575 .5324 .6120 .6614 .7800
13 .4409 .5139 .5923 .6411 .7603
14 .4259 .4973 .5742 .6226 .7420
15 .4124 .4821 .5577 .6055 .7246
16 .4000 .4683 .5425 .5897 .7084
17 .3887 .4555 .5285 .5751 .6932
18 .3783 .4438 .5155 .5614 .6787
19 .3687 .4329 .5034 .5487 .6652
20 .3598 .4227 .4921 .5368 .6524
25 .3233 .3809 .4451 .4869 .5974
30 .2960 .3494 .4093 .4487 .5541
35 .2746 .3246 .3810 .4182 .5189
40 .2573 .3044 .3578 .3932 .4896
45 .2428 .2875 .3384 .3721 .4648
50 .2306 .2732 .3218 .3541 .4433
60 .2108 .2500 .2948 .3248 .4078
70 .1954 .2319 .2737 .3017 .3799
80 .1829 .2172 .2565 .2830 .3568
90 .1726 .2050 .2422 .2673 .3375
100 .1638 .1946 .2301 .2540 .3211
Annexes
- 237 -
Annexe 6. Nombres alatoires
Tous les chiffres figurant dans la table ci-dessous sont indpendants et ont une probabilit de
1
10
. La
table a t calcule partir dune population dans laquelle les chiffres de 0 9 taient galement
vraisemblables.
77 21 24 33 39 07 83 00 02 77 28 11 37 33
78 02 65 38 92 90 07 13 11 95 58 88 64 55
77 10 41 31 90 76 35 00 25 78 80 18 77 32
85 21 57 89 27 08 70 32 14 58 81 83 41 55
75 05 14 19 00 64 53 01 50 80 01 88 74 21
57 19 77 98 74 82 07 22 42 89 12 37 16 56
59 59 47 98 07 41 38 12 06 09 19 80 44 13
76 96 73 88 44 25 72 27 21 90 22 76 69 67
96 90 76 82 74 19 81 28 61 91 95 02 47 31
63 61 36 80 48 50 26 71 16 08 25 65 91 75
65 02 65 25 45 97 17 84 12 19 59 27 79 18
37 16 64 00 80 06 62 11 62 88 59 54 12 53
58 29 55 59 57 73 78 43 28 99 91 77 93 89
79 68 43 00 06 63 26 10 26 83 94 48 25 31
87 92 56 91 74 30 83 39 85 99 11 73 34 98
96 86 39 03 67 35 64 09 62 36 46 86 54 13
72 20 60 14 48 08 36 92 58 99 15 30 47 87
67 61 97 37 73 55 47 97 25 65 67 67 41 35
25 09 03 43 83 82 60 26 81 96 51 05 77 72
72 14 78 75 39 54 75 77 55 59 71 73 15 56
59 93 34 37 34 27 07 66 15 63 14 50 74 29
21 48 85 56 91 43 50 71 58 96 14 31 55 61
96 32 49 79 42 71 79 69 52 39 45 04 49 91
16 85 53 65 11 36 08 14 86 60 40 18 51 15
64 28 96 90 23 12 98 92 28 94 57 41 99 11
60 54 36 51 15 63 83 42 63 08 01 89 18 53
42 86 68 06 36 25 82 26 85 49 76 15 90 13
00 49 62 15 53 32 31 28 38 88 14 97 80 33
26 64 87 61 67 53 23 68 51 98 60 59 02 33
02 95 21 53 34 23 10 82 82 82 48 71 02 39
65 47 77 14 75 30 32 81 10 83 03 97 24 37
28 55 15 36 46 33 06 22 29 23 81 14 20 91
59 75 78 49 51 02 20 17 02 30 32 78 44 79
87 54 57 69 63 31 61 25 92 31 16 44 02 10
94 53 87 97 15 23 08 71 26 06 25 87 48 97
79 43 75 93 39 10 18 51 28 17 65 43 22 06
48 38 71 77 53 37 80 13 60 63 59 75 89 73
98 30 59 32 90 05 86 12 83 70 50 30 25 65
85 80 16 77 35 74 09 32 06 30 91 55 92 33
87 03 96 27 05 59 64 25 33 07 03 08 55 58
Annexes
- 238 -
Annexe 7. Concepts mathmatiques et statistiques lmentaires
Logarithme: Le logarithme dun nombre N base a est le nombre x auquel la base doit tre leve
pour galer le nombre de dpart. En symboles, si log
a
N = x, on a a
x
= N. Le nombre N est appel
antilogarithme (ou logarithme inverse) de x. Le logarithme base 10 est appel logarithme ordinaire
(ou logarithme dcimal) et est not log. Le logarithme base e, une constante mathmatique, est
appel logarithme naturel (not ln).
Factoriel n : n factoriel, not n!, est dfini par n! = n(n-1)(n-2)1. Par exemple, 5! = 5.4.3.2.1 =
120. Par convention, on pose 0! = 1.
Combinaisons : Une combinaison de n objets diffrents pris r r est une slection de r objets
parmi les n objets, sans tenir compte de lordre dans lequel ils sont rangs. Le nombre de
combinaisons de n objets pris r r est not
n
r

_
,
et est donn par


n
r

_
,
=
n n n n r
r
n
r n r
( )( ) . . .( )
!
!
!( )!
+

1 2 1
Par exemple, le nombre de combinaisons de deux des lettres a, b, c est
3
2
32
2
3

_
,

.
!
. Ces
combinaisons sont ab, ac, bc. Remarquons que ab est la mme combinaison que ba mais avec une
permutation diffrente.
Esprance mathmatique: Si X est une variable alatoire discrte pouvant prendre les valeurs X
1
,
X
2
, , X
k
avec les probabilits respectives p
1
, p
2
, , p
k
o p
1
+ p
2
+ + p
k
= 1, lesprance
mathmatique de X (ou, simplement, esprance de X), note E(X), est dfinie par
E(X) = p
1
X
1
+ p
2
X
2
+ + p
k
X
k

p X
j j
j
k
1

pX .
Dans le cas de variables continues, la dfinition de lesprance est modifie comme suit. Soient g(X)
une fonction dune variable alatoire continue X, et f(x) la fonction de densit de probabilit de X.
Lesprance mathmatique de g(x) est alors donne par
E{ ( )} ( ) ( ) g X g x f x dx
R


o R reprsente lamplitude des valeurs de X (espace-chantillon), condition que lintgrale
converge absolument.
Annexes
- 239 -
Matrice: Une matrice est un tableau rectangulaire de nombres disposs en lignes et colonnes. Les
lignes ont la mme longueur que les colonnes. Si a
ij
dnote llment situ sur la i-me ligne et la j-
me colonne dune matrice A constitue de r lignes et c colonnes, A peut scrire
A
r x c
= A = {a
ij
}

1
]
1
1
1
1
1
1
1
1
a a a a
a a a a
a a a a
a a a a
j c
j c
i i ij ic
r r rj rc
11 12 1 1
21 22 2 2
1 2
1 2
... ...
... ...
. . . .
... ...
. . . .
... ...
Un exemple simple de matrice 2 x 3 est A
2 x 3
=
4 0 - 3
- 7 2 1

1
]
1
Une matrice constitue dune seule colonne est appele vecteur-colonne. De mme, une matrice
constitue dune seule ligne est appele vecteur-ligne. Par exemple, x =
4
- 7

1
]
1
est un vecteur-
colonne et y =[ ] 4 2 un vecteur-ligne. Un nombre unique, comme 2, 4 ou 6, est un
scalaire .
La somme de deux matrices A = {a
ij
} et B = {b
ij
} est dfinie par C ={c
ij
} = {a
ij
+ b
ij
}. Par
exemple, si,
A =
4 0 - 3
- 7 2 1

1
]
1
et B =
2 1 - 3
1 1 2

1
]
1
, on a C =
6 1 - 6
- 6 3 3

1
]
1
Le produit de deux matrices est dfini par C
r x s
= A
r x c
B
c x s
o le ij-me lment de C est donn
par c
ij
= a b
ik kj
k
c

1
. Par exemple, si
A =
4 0 - 3
- 7 2 1

1
]
1
et B =
2 1
1 1
2 1

1
]
1
1
1
, alors C =
2 1
- 10 - 4

1
]
1
Pour avoir de plus amples dtails et des exemples tirs de la biologie, le lecteur peut se rfrer
Searle (1966).