FO : GCP/INT/679/EC
de
K. JAYARAMAN
Kerala Forest Research Institute
Peechi, Thrissur, Kerala (Inde)
Le présent manuel est dédié à tous ceux qui sont fermement décidés à chercher la VERITE, en
tranchant le voile du hasard avec le sabre de la raison pure
i
NOTE INTRODUCTIVE
(à la version française)
Face aux différents défis que connaît l’Afrique dans son développement, la forêt et les ressources
ligneuses ont une place essentielle à jouer. Il est ainsi indispensable de promouvoir une gestion
durable des arbres et des forêts pour qu’un tel patrimoine puisse au mieux servir les besoins et les
espérances des hommes. Pour tendre vers cette politique où s’intègrent, d’une manière équilibrée,
les aspects économiques, sociaux et environnementaux, la Commission européenne et le
Département des forêts de la FAO ont décidé d’un programme de partenariat qui définit une
démarche commune en faveur de l’Afrique, celle de soutenir l’aménagement durable des forêts.
Un tel objectif appelle à un renforcement des capacités nationales dans la collecte et l’analyse d’une
information fiable et actualisée portant sur le secteur forestier. Toutefois, améliorer la qualité des
données, s’assurer de leur validité ou élaborer un cadre effectif pour leur collecte et diffusion sont
des difficultés quotidiennes et répétées pour de nombreux services forestiers africains. Cette réalité,
cette préoccupation, nos collègues forestiers africains nous l’ont expliquée et soulignée au cours des
activités menées dans le cadre du programme CE-FAO durant les ateliers techniques ou parmi les
recommandations de leurs rapports. Enfin le résultat des échanges et discussions nous a montré que
l’organisation des données et leur valeur passent aussi par une meilleure maîtrise des concepts et
principes statistiques.
A travers un constat similaire et afin de donner aux forestiers asiatiques les outils nécessaires dans
leurs travaux de planification, de collecte des données et d’interprétation des résultats, FORSPA
(acronyme de “Forestry Research Support Programme for Asia and the Pacific” ou “Programme de
soutien à la recherche forestière pour l’Asie et le Pacifique”) a facilité la rédaction d’un manuel de
statistiques.
De ce travail en anglais, il nous est paru important de pouvoir le traduire et d’en proposer une
version française pour une plus ample diffusion. Celle-ci a pu être produite grâce aux fonds mis à
disposition par la Commission européenne.
Avec le présent document, nous espérons que vous, experts, chercheurs ou spécialistes forestiers,
puissiez y trouver les exemples et les techniques utiles à votre activité professionnelle.
Michael Martin
Chef de la Sous-Division
de la planification et des statistiques forestières
1
INTRODUCTION
Le présent manuel a été rédigé pour le FORSPA (Bangkok) qui demandait que soit préparé un
manuel de formation spécialement conçu à l’intention des spécialistes de la recherche forestière du
Bhoutan. A cette fin, nous nous sommes rendus au Bhoutan pour examiner la nature des travaux de
recherche entrepris dans ce pays et nous avons dressé un plan du manuel en consultation étroite avec
les chercheurs. A l’origine, le manuel devait être structuré suivant un plan précis, en fonction de la
série de travaux de recherche envisagée dans le huitième plan quinquennal pour le Bhoutan, mais
nous avons choisi une présentation susceptible d’intéresser une plus vaste gamme de chercheurs qui
entreprennent des enquêtes similaires. Ce manuel s’adresse aux chercheurs spécialisés dans les
ressources naturelles renouvelables, en particulier les forêts, les terres agricoles et l’élevage, et
devrait leur servir de référence pour planifier leurs travaux, collecter et analyser les données
pertinentes et en interpréter les résultats. Les exemples utilisés pour illustrer les différentes techniques
proviennent principalement du secteur forestier.
Après quelques remarques d’introduction sur la nature de la méthode scientifique et le rôle des
statistiques dans la recherche scientifique, le manuel présente des techniques spécifiques. Il
commence par décrire les procédures élémentaires d’estimation et de vérification statistique, les
méthodes de planification et d’analyse des expériences, ainsi que quelques techniques
d’échantillonnage classiques, pour ensuite passer à des méthodes statistiques utilisées dans certaines
disciplines spécifiques comme l’amélioration génétique des arbres, la biologie de la faune, la
dendométrie et l’écologie – qui sont souvent l’apanage exclusif de la recherche forestière.
En décrivant ces méthodes, nous ne prétendons pas en avoir fait le tour, d’une part parce qu’il est
toujours possible d’utiliser les données de façon plus approfondie en fonction des besoins des
chercheurs, et de l’autre, parce que les méthodologies sont constamment perfectionnées. En écrivant
ce manuel, notre intention était surtout de présenter aux chercheurs quelques-uns des concepts et
des techniques fondamentaux des statistiques, qui trouvent de nombreuses applications dans la
recherche forestière et dans des domaines connexes.
Il nous a également été précisé que le manuel devait être rédigé dans un style aussi simple que
possible, et enrichi d’illustrations de manière à offrir aux chercheurs une source de référence facile à
consulter. C’est pourquoi nous nous sommes limités à décrire des plans et des analyses d’expérience
simples, accompagnés d’illustrations appropriées. Pour les techniques plus complexes, nous
renvoyons le lecteur aux ouvrages classiques sur ce sujet. Malgré cette réserve, nous nous sommes
efforcés d’insérer dans le manuel tous les éléments requis pour un cours élémentaire de statistiques
appliquées, en indiquant plusieurs domaines d’application et en conseillant d’autres ouvrages à lire.
En ajoutant d’autres thèmes, nous n’aurions fait qu’alourdir ce manuel et le rendre trop compliqué.
Toute personne ayant une connaissance élémentaire des mathématiques de base devrait être
capable de comprendre les descriptions fournies dans ce manuel. Dans la mesure du possible, on a
évité la théorie et le calcul matriciel. Dans le cas contraire, les explications nécessaires sont fournies.
Il est conseillé aux débutants de lire les chapitres les uns après les autres dans l’ordre où ils sont
présentés. Les chercheurs plus expérimentés peuvent sauter les premières sections et passer
directement aux applications décrites dans les suivantes.
2
NOTATION
Tout au long de cet ouvrage, les noms des variables sont indiqués en italiques. Le symbole
n
ou simplement G = ∑ y si l’on comprend, d’après le contexte, quels sont les termes à additionner.
Dans le cas d’une sommation comprenant plusieurs indices, les sommes marginales sont notées par
un point (.) à la place de l’indice inférieur, comme indiqué ci-dessous :
∑ yij = yi. , ∑ yij = y.j , ∑ yij = y..
j i ij
La juxtaposition de deux lettres, comme par exemple ab dans les équations, signifie généralement
produit de a et b, sauf indication contraire expresse ou se comprenant d’après le contexte. Les
chiffres à multiplier sont indiqués par des parenthèses, par ex : (4)(5) signifie 4 multiplié par 5. La
division est indiquée par une barre transversale (/) ou par une ligne de séparation horizontale entre le
numérateur et le dénominateur.
La numérotation des équations, des tableaux et des figures est fonction des numéros des chapitres.
Par exemple, l’équation (3.1) est l’équation 1 du chapitre 3.
3
1. LA METHODE STATISTIQUE DANS LA RECHERCHE SCIENTIFIQUE
Comme dans toute autre branche de la science, la recherche forestière est basée sur une méthode
scientifique familièrement appelée approche induco-déductive. Toute méthode scientifique passe par
la formulation d’hypothèses à partir de faits observés, puis par des cycles successifs de déduction et
de vérification. Les faits sont des observations qui sont considérées comme vraies, alors qu’une
hypothèse est une conjecture provisoire concernant le phénomène à l’examen. Des déductions sont
faites à partir des hypothèses, au moyen d’arguments logiques qui sont eux-mêmes vérifiés par des
méthodes objectives. Le processus de vérification peut déboucher sur de nouvelles hypothèses,
déductions et vérifications s’enchaînant dans un long processus au cours duquel émergent des
théories, des principes et des lois scientifiques.
Ceci peut être illustré par l’exemple suivant : supposons que l’on observe que les arbres se trouvant
aux limites d’une plantation poussent mieux que ceux qui sont à l’intérieur. L’une des hypothèses
provisoires qui pourraient être formulées à partir de ce fait est « la croissance des arbres est plus
rapide à la périphérie de la plantation, parce qu’il rentre davantage de lumière par les côtés
ouverts ». On peut ensuite en déduire qu’en variant l’espacement entre les arbres, ce qui permet de
contrôler la quantité de lumière qui rentre, on peut modifier la croissance des arbres. Ceci conduira à
planifier une expérience d’espacement dans laquelle on plantera des arbres à des espacements
différents, pour observer leur croissance. Si, à l’issue de cette expérience, on observe que des
arbres plantés à la même distance n’ont pas la même croissance, on sera amené à formuler une
deuxième hypothèse « la variation de la fertilité du sol est la cause des différences de croissance ».
Ceci pourrait conduire à planifier un nouvel essai d’espacement avec engrais. Si le chercheur
observe à l’issue de celui-ci que des arbres soumis au même espacement et recevant la même dose
d’engrais n’ont pas la même croissance, il peut être incité à conduire un essai d’espacement, avec
engrais et variétés. A la fin d’une série d’expériences, on peut en arriver à la conclusion que la loi des
facteurs limitants s’applique, c’est-à-dire que la croissance des plantes cultivées est entravée par le
facteur environnemental le plus limitant.
Les deux principales caractéristiques d’une méthode scientifique sont sa répétabilité et son
objectivité. Alors que ces conditions sont rigoureusement vérifiées dans le cas de nombreux
processus physiques, les phénomènes biologiques sont caractérisés par la variation et l’incertitude.
Des expériences répétées dans des conditions similaires ne donnent pas nécessairement les mêmes
résultats, car elles sont soumises à des fluctuations dues au hasard. En outre, il est souvent impossible
d’observer l’ensemble complet des individus qui forment la population et, dans de telles situations,
les déductions doivent être faites sur la base d’un ensemble d’échantillons d’observations. La science
des statistiques est utile pour choisir objectivement un échantillon, faire des généralisations valables à
partir des observations faites sur l’ensemble d’échantillons, mais aussi pour mesurer le degré
d’incertitude, ou la fiabilité, des conclusions tirées.
La collecte des données et leur interprétation sont deux aspects pratiques majeurs des investigations
scientifiques. Les données peuvent être obtenues dans le cadre d’une enquête par sondage sur une
population existant dans la nature, ou dans le cadre d’un plan d’expérience portant sur une
population fictive. Les données collectées sont résumées et des informations utiles en sont extraites à
l’aide de techniques d’inférence statistique. En outre, la simulation est une autre méthode, d’une
importance capitale pour la recherche forestière, qui gagne du terrain depuis quelques années, avec
-4-
La méthode statistique dans la recherche scientifique
l’apparition de l’informatique. Cette méthode est particulièrement utile dans le secteur forestier car
les techniques de simulation peuvent remplacer des expériences en champ à grande échelle qui sont
extrêmement coûteuses et longues. La méthode consiste à élaborer des modèles mathématiques
captant la plupart des caractéristiques pertinentes du système examiné, puis à faire des essais sur
ordinateur plutôt qu’en conditions réelles. Nous allons commencer par examiner quelques traits
distinctifs supplémentaires de ces trois approches – à savoir enquête, expérience et simulation –
avant de passer à une description détaillée des techniques concernées, dans les chapitres suivants.
Au sens large, toutes les études in situ impliquant des observations indépendantes sur la nature
peuvent être classées dans la catégorie des enquêtes. Ces enquêtes peuvent être entreprises pour
diverses raisons, par exemple pour estimer les paramètres d’une population, pour comparer des
populations différentes, pour étudier le mode de distribution de certains organismes, ou pour
découvrir les interactions entre plusieurs variables. Les relations observées dans le cadre de ces
études sont rarement des relations de cause à effet, mais elles ont une valeur prévisionnelle. Les
études portant sur des sciences comme l’économie, l’écologie et la biologie de la faune rentrent
généralement dans cette catégorie. La théorie statistique des enquêtes repose sur l’échantillonnage
aléatoire, qui assigne une probabilité de sélection donnée à chaque unité d’échantillonnage de la
population.
Les expériences servent à vérifier des hypothèses dans des conditions que l’on maîtrise. Dans le
secteur forestier, les expériences sont réalisées en forêt, en pépinière ou en laboratoire, à l’aide de
traitements déterminés au préalable, sur des unités expérimentales bien définies. L’expérimentation
repose sur les trois principes de la randomisation, de la répétition et du contrôle local, qui sont
indispensables pour obtenir une estimation valable de l’erreur et réduire son ampleur. L’allocation
aléatoire des unités expérimentales aux différents traitements garantit l’objectivité, la répétition des
observations accroît la fiabilité des conclusions et le principe du contrôle local réduit l’incidence de
facteurs extérieurs sur la comparaison des traitements. Les essais sylvicoles en plantations et en
pépinières et les essais en laboratoire sont des exemples typiques d’expériences forestières.
Une expérimentation relative à l’état d’un système, faite à l’aide d’un modèle temporel, est appelée
simulation. Un système peut être défini comme un ensemble d’éléments, également appelés
composantes. Un ensemble d’arbres dans un peuplement forestier, ou des producteurs et des
consommateurs dans un système économique sont des exemples de composantes. Les éléments
(composantes) ont certaines caractéristiques, ou attributs, auxquels sont attachées des valeurs
numériques ou logiques. Il existe des relations entre les éléments, de sorte que ceux-ci interagissent.
L’état d’un système est déterminé par les valeurs numériques ou logiques des attributs des éléments
qui le composent. Les interactions entre les éléments d’un système peuvent être exprimées au moyen
d’équations mathématiques ; il est donc possible de prévoir l’état du système dans d’autres
conditions possibles, au moyen de modèles mathématiques. La simulation revient à tracer l’évolution
d’un système à travers le temps, dans le cadre de diverses hypothèses.
Les enquêtes, les expérimentations et les simulations sont des éléments essentiels de tout programme
de recherche scientifique, mais il importe de les incorporer dans un cadre plus large et plus
stratégique, pour garantir l’efficacité de l’ensemble du programme. Il est désormais reconnu qu’une
analyse de systèmes fournit un tel cadre, dont l’objet est d’aider les décideurs à choisir une ligne
d’action rationnelle ou de prévoir l’issue d’une ou plusieurs lignes d’action qui semblent souhaitables.
-5-
La méthode statistique dans la recherche scientifique
Selon une autre définition plus formelle, l’analyse de systèmes désigne l’organisation ordonnée et
logique des données et de l’information dans des modèles, suivie d’une vérification et d’une
exploration rigoureuses de ces modèles, en vue de les valider et les améliorer (Jeffers, 1978).
Dans le domaine forestier, les recherches vont du niveau moléculaire à l’ensemble de la biosphère.
La nature du matériel étudié détermine dans une large mesure les méthodes employées pour les
enquêtes. De nombreux niveaux d’organisation dans la hiérarchie naturelle, par exemple des micro-
organismes ou des arbres, peuvent faire l’objet d’expérimentations, alors que d’autres niveaux se
prêtent uniquement à des observations passives et à des exercices de modélisation. Quels que soient
les objets à l’étude, on constate que le cadre logique de l’approche scientifique et de l’inférence
statistique restent inchangés. Le présent manuel décrit essentiellement les différentes méthodes
statistiques qui permettent en toute objectivité de collecter des données et d’en tirer des déductions
valables.
-6-
2. NOTIONS DE STATISTIQUE
Le concept de probabilité est au centre des sciences statistiques. En tant que notion subjective, la
probabilité est en quelque sorte le degré de croyance en la survenue d’un événement, dans un
intervalle de variation continu entre l’impossibilité et la certitude. En termes généraux, la valeur p
attribuée par une personne à la probabilité P(E) d’un événement E représente le prix que cette
dernière est prête à payer pour gagner une somme d’argent déterminée, si ledit événement se
matérialise. Si le prix que la personne est prête à payer est de x unités pour gagner y unités de
monnaie, la probabilité assignée est P(E)= x / (x + y). Des mesures plus objectives de la probabilité
se fondent sur les issues également vraisemblables et la fréquence relative qui sont décrits plus loin.
En théorie statistique, il existe aussi une définition axiomatique rigoureuse de la probabilité, dont il ne
sera pas question ici.
Par exemple, supposons que la couleur des fleurs d’une espèce végétale particulière soit gouvernée
par la présence d’un gène dominant A dans un seul locus du gène, les combinaisons gamétiques AA
et Aa donnant des fleurs rouges et la combinaison aa des fleurs blanches. E est l’événement “ obtenir
des fleurs rouges ” dans la descendance par autofécondation d’un hétérozygote, Aa. Supposons que
les quatre combinaisons gamétiques AA, Aa, aA et aa aient toutes les mêmes chances d’être
réalisées. Puisque l’événement E peut être réalisé par trois de ces combinaisons, on a :
3
p = P(E) =
4
La probabilité d’obtenir des fleurs blanches dans la descendance par autofécondation d’un
hétérozygote Aa est
3 1
q = P(E) = 1 − =
4 4
Notons que la probabilité d’un événement est un nombre compris entre 0 et 1. Si l’événement ne
peut pas se produire, sa probabilité est égale à 0. S’il doit se produire, c’est-à-dire si son
occurrence est certaine, sa probabilité est égale à 1. Si p est la probabilité qu’un événement se
produise, les chances de réussite sont p:q (lire ‘p contre q’) ; et les chances d’échec sont q:p. Ainsi,
-7-
Notions de statistique
dans l’exemple qui précède, les chances d’obtenir des fleurs rouges sont égales à
3 1
p : q = : = 31: , ou 3 contre 1.
4 4
Par exemple, une enquête concernant une espèce particulière menacée d’extinction, a donné les
suites de nombres de plantes de cette espèce, indiquées ci-après.
x (nombres de plantes de l’espèce menacée) : 1, 6, 62, 610
n (nombres de plantes examinées) : 1000, 10000, 100000, 1000000
p (proportion de l’espèce menacée) : 0.001, 0.00060, 0.00062, 0.00061
Lorsque n tend vers l’infini, la fréquence relative semble tendre vers une certaine limite. Cette
propriété empirique est appelée stabilité de la fréquence relative.
Considérons par exemple la ségrégation conjointe de deux caractères, tels que la couleur des fleurs
et la forme des graines d’une espèce végétale, chacun de ces caractères étant respectivement
gouverné par la présence des gènes dominants A et B. Individuellement, les combinaisons AA et Aa
donnent des fleurs rouges et la combinaison aa des fleurs blanches, les combinaisons BB et Bb
donnent des graines arrondies alors que la combinaison bb produit des graines ridées.
Soient E1 et E2 les événements ‘obtenir des plantes à fleurs rouge’ et ‘obtenir des plantes à graines
arrondies’ dans la descendance respectivement obtenue par autofécondation d’un hétérozygote
AaBb. Si E1 et E2 sont des événements indépendants, c’est à dire s’il n’y a pas d’interaction entre les
-8-
Notions de statistique
deux locus de gène, la probabilité d’obtenir des plantes à fleurs rouges et à graines rondes dans la
descendance autofécondée est,
3 3 9
P(E1E2)=P(E1)P(E2)= =
4 4 16
En général, si E1, E2, E3, …, En sont n événements indépendants ayant les probabilités respectives
p1, p2, p3, …, pn, la probabilité d’occurrence de E1 et E2 et E3 et … En est p1p2p3…pn.
Indépendamment de l’échelle de mesure, la réduction des données peut se faire par la méthode dite
des fréquences de classe, qui consiste à répartir les données en classes ou catégories et à
déterminer le nombre d’individus appartenant à chacune de ces classes. On appelle distribution de
fréquence, ou tableau de fréquences, la mise en tableaux de données ventilées par classes, avec
les fréquences de classes correspondantes. Le Tableau 2.1 présente une distribution de fréquence
des diamètres à hauteur d’homme (dbh) enregistrés au centimètre le plus proche, de 80 Tecks, sur
une parcelle-témoin. La fréquence relative d’une classe, généralement exprimée en pourcentage,
est égale à la fréquence de la classe considérée divisée par la fréquence totale de toutes les classes.
Ainsi, la fréquence relative de la classe 17-19, dans le Tableau 2.1 est (30/80)100 = 37,4%. La
somme de toutes les fréquences relatives de toutes les classes est bien entendu égale à 100%.
-9-
Notions de statistique
Tableau 2.1. Fréquence de distribution des diamètres à hauteur d’homme (dbh) des Tecks, sur une
parcelle.
Classe de dbh Fréquence Fréquence relative
(cm) (Nombre d’arbres) (%)
11-13 11 13.8
14-16 20 25.0
17-19 30 37.4
20-22 15 18.8
23-25 4 5.0
Total 80 100.0
Le symbole définissant l’amplitude d’une classe, tel que 11-13 dans le tableau ci-dessus, est appelé
intervalle de classe. Les chiffres extrêmes 11 et 13 forment les limites de classe ; le plus petit
nombre (11) constitue la limite inférieure de classe, et le plus grand la limite supérieure de classe.
Les termes de “classe ” et “ intervalle de classe ” sont souvent utilisés indifféremment l’un pour
l’autre, à tort, car l’intervalle de classe est en réalité un symbole de la classe. Un intervalle de classe
pour lequel l’une des deux limites (supérieure ou inférieure) n’est pas indiquée, au moins en théorie,
est dit intervalle de classe ouverte ; l’intervalle de classe “ 23 cm et plus ” est par exemple un
intervalle de classe ouverte.
Si les valeurs des dbh sont enregistrées au centimètre le plus proche, la classe d’intervalle 11-13
comprend théoriquement toutes les mesures allant de 10,5 à 13,5 cm. Ces nombres sont les
extrémités, ou limites réelles, des classes; le plus petit nombre (10,5) est l’extrémité inférieure de la
classe et le plus grand (13.5) l’extrémité supérieure de la classe. Dans la pratique, les limites
réelles des classes s’obtiennent en ajoutant la limite supérieure d’un intervalle de classe à la limite
inférieure de l’intervalle de classe suivant plus élevé, et en divisant par deux.
Il arrive que les classes soient symbolisées par les extrémités de classe. Par exemple, les symboles
des différentes classes de la première colonne du Tableau 2.1 pourraient être 10,5-13,5 ; 13,5-
16,5 ; etc. Pour éviter toute ambiguïté lorsque l’on utilise ces notations, on évitera que les extrémités
de classe coïncident avec des observations effectives. En effet, à supposer par exemple que l’une
des mesures observées soit 13,5, il serait impossible de savoir s’il faut la ranger dans classe
d’intervalle 10,5-13,5 ou 13,5-16,5. L’étendue d’une classe d’intervalle, ou amplitude de la
classe, est égale à la différence entre les extrémités inférieures et supérieures. La valeur centrale de la
classe est le point médian de l’intervalle de classe, qui se calcule en additionnant les limites inférieure
et supérieure de la classe et en divisant par deux.
- 10 -
Notions de statistique
valeur centrale d’une classe. Il s’obtient en reliant les points médians des sommets des rectangles
dans l’histogramme.
Frequence
Une fois la distribution de fréquence établie, on peut en tirer un certain nombre de paramètres qui
conduisent à une réduction ultérieure des données. Ces paramètres sont les mesures de position, de
dispersion, d’asymétrie et d’aplatissement.
- 11 -
Notions de statistique
les plus communes étant la moyenne arithmétique (ou en abrégé la moyenne), la médiane et le
mode. Chacune a des avantages et des inconvénients, qui dépendent du type de données et du but
poursuivi.
∑x
j =1
j
∑x
= =
N N
N
Le symbole ∑x j caractérise la somme de tous les xj de j = 1 à j = N.
j =1
∑ f jx j
∑ fx
j=1
= =
K
∑f j
∑f
j=1
*Etape 1. Trouver les centres , ou points médians, des classes. A cette fin, additionner les limites
inférieure et supérieure de la première classe et diviser par 2. Procéder de la même manière
en additionnant l’intervalle de classe, pour chacune des classes suivantes.
*Etape 2. Multiplier les points médians des classes par les fréquences correspondantes, et faire la
somme des résultats pour obtenir ∑ fx .
Les résultats de ces étapes peuvent être résumés comme indiqué dans le Tableau 2.2.
- 12 -
Notions de statistique
Médiane : La médiane d’une série de nombres rangés par ordre de grandeur (c.à.d., dans un
ensemble) est la valeur centrale ou la moyenne arithmétique des deux valeurs centrales.
Dans le cas des données groupées, la médiane, obtenue par interpolation, est donnée par la formule
N
( )
− ∑ f 1
2
Médiane = L1 + c (2.9)
fm
où L1 = extrémité inférieure de la classe médiane (c’est-à-dire de la classe contenant la médiane)
N = nombre d’éléments des données (ou fréquence totale)
( )1
∑ f = somme des fréquences de toutes les classes inférieures à la classe médiane
f m = fréquence de la classe médiane
c = amplitude de l’intervalle de la classe médiane.
Le calcul de la médiane des données groupées du Tableau 2.1. se fait de la façon suivante:
*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et
supérieure de la première classe et diviser par 2. Procéder de la même manière en
additionnant l’intervalle de classe, pour chacune des classes suivantes.
- 13 -
Notions de statistique
*Etape 2. Ecrire les fréquences cumulées et présenter les résultats comme indiqué dans le Tableau
2.3.
*Etape 3. Trouver la classe médiane en localisant le (N / 2)-ème terme dans la colonne des
fréquences cumulées. Dans cet exemple, N / 2=40. Ce terme rentre dans la classe 17-19,
qui est donc la classe médiane.
Mode : Le mode d’une série de nombres est la valeur qui apparaît avec la plus grande fréquence,
c’est à dire la valeur la plus commune. Le mode peut ne pas exister, et, même s’il existe, il peut ne
pas être unique.
La série de nombres 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 a pour mode 9. La série 3, 5, 8, 10, 12,
15, 16 n’a pas de mode. La série 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 a deux modes 4 et 7 , on dit qu’elle
est bimodale. Une distribution ayant un mode unique est appelée unimodale.
Dans le cas de données groupées représentées par une courbe des fréquences, le mode sera la
valeur (ou les valeurs) de x correspondant au(x) point(s) maximum(s) de la courbe.
A partir d’une distribution de fréquence ou d’un histogramme, le mode peut être obtenu en utilisant la
formule suivante :
f2
Mode = L1 + c (2.10)
f1 + f 2
où L1 = Extrémité inférieure de la classe modale (c.à.d. de la classe contenant le mode).
f 1 = Fréquence de la classe précédant la classe modale.
f 2 = Fréquence de la classe suivant la classe modale.
c = Amplitude de l’intervalle de la classe modale.
- 14 -
Notions de statistique
Pour calculer le mode à partir des données groupées du Tableau 2.1., on procède comme suit:
*Etape 1. Trouver la classe modale. La classe modale est la classe pour laquelle la fréquence est
maximale. Dans notre exemple, la fréquence maximale est 30, par conséquent la classe
modale est 17-19.
D’après les directives générales concernant l’utilisation des mesures de position, la moyenne s’utilise
essentiellement dans le cas de distributions symétriques (voir Section 2.3.3) puisqu’elle est fortement
influencée par la présence de valeurs extrêmes dans les données. La médiane possède l’avantage
d’être calculable même dans le cas de classes ouvertes, et le mode est utile dans le cas de
distributions multimodales puisqu’il apparaît comme l’observation la plus fréquente dans une série de
données.
Ecart-type: L’écart-type d’une série de N nombres x 1, x 2, …, x N est défini par la formule suivante
∑ (x − x)
N
2
j
j =1
Ecart - type = (2.11)
N
où x désigne la moyenne arithmétique.
L’écart-type est donc la racine carrée de la moyenne des carrés des écarts des valeurs individuelles
par rapport à leur moyenne, ou, comme on l’appelle parfois, l’écart quadratique moyen. L’écart-
type se calcule souvent à l’aide de la formule suivante qui est plus simple :
∑x ∑x
2
2
Par exemple, la série de données ci-après représente les diamètres à hauteur d’homme (dbh) de 10
Teck prélevés au hasard dans une parcelle : 23.5 ; 11.3, ; 17.5 ; 16.7 ; 9.6 ; 10.6 ; 24.5 ; 21.0 ;
18.1 ; 20.7.
Ici N = 10, ∑ x 2 = 3266.5 et ∑ x = 173.5. Par conséquent
2
3266.5 173.5
Ecart - type = − = 5.062
10 10
- 15 -
Notions de statistique
∑ f (x − x)
K
2
j j
j =1
Ecart - type = (2.13)
N
K
où N = ∑ fj = ∑ f
j =1
Une forme équivalente, souvent utile dans les calculs, de l’équation (2.13) est la suivante :
∑ fx ∑ fx
2
2
*Etape 1. Trouver les points médians des classes. Dans ce but, additionner les limites inférieure et
supérieure de la première classe et diviser par 2. Procéder de la même manière pour
chacune des classes suivantes, en additionnant l’intervalle de classe.
*Etape 2. Multiplier les centres des classes par les fréquences correspondantes, et sommer tous ces
produits pour obtenir ∑ fx .
*Etape 3. Multiplier les carrés des points médians des classes par les fréquences correspondantes,
et faire la somme de tous les produits pour obtenir ∑ fx 2 .
Les résultats de ces calculs peuvent être résumés comme indiqué dans le Tableau 2.4.
- 16 -
Notions de statistique
L’écart-type et la moyenne ont tous deux des unités de mesure, alors que le coefficient de variation
n’en a pas. Le coefficient de variation est donc utile pour comparer l’ampleur de la variation de
caractères qui ne s’expriment pas dans les mêmes unités de mesures. Cette propriété est utile pour
comparer les variations de deux séries de nombres dont les moyennes diffèrent. Supposons, par
exemple, que l’on veuille comparer les variations de la hauteur des plantules et de celle d’arbres plus
âgés appartenant à une même espèce. Supposons que les moyennes et les écarts-types respectifs
soient les suivants :
Hauteur moyenne des arbres = 50 cm, Ecart-type de la hauteur des arbres= 10 cm.
Hauteur moyenne des arbres = 500 cm, Ecart-type de la hauteur des arbres= 100 cm.
La valeur absolue de l’écart-type donne à penser que la variation est plus grande dans le cas des
arbres, mais la variation relative, indiquée par le coefficient de variation (20%) est la même dans les
deux cas.
∑(x ) ∑ ( x − x)
N
r
j −x r
j =1
µr = = (2.16)
N N
(x ) ∑ f (x − x)
K
∑f
r
j j −x r
j =1
µr = = (2.17)
N N
- 17 -
Notions de statistique
Dans le cas d’une distribution symétrique, β1 = 0. L’asymétrie est positive ou négative selon que µ 3
est positif ou négatif.
Les données du Tableau 2.1 sont utilisées comme exemple pour illustrer les étapes du calcul de la
mesure d’asymétrie.
Moyenne =
∑ fx = 17.29
∑f
*Etape 2. Calculer f j (x j - x )2, f j (x j - x )3 et leurs sommes récapitulées dans le Tableau 2.5.
Tableau 2.5. Les étapes du calcul du coefficient d’asymétrie à partir de données groupées
Classe de Point
diamètre médian f xj - x f j(xj - x )2 f j(x j - x )3 f j(x j - x )4
(cm) x
11-13 12 11 -5.29 307.83 -1628.39 8614.21
14-16 15 20 -2.29 104.88 -240.18 550.01
17-19 18 30 0.71 15.12 10.74 7.62
20-22 21 15 3.71 206.46 765.97 2841.76
23-25 24 4 6.71 180.10 1208.45 8108.68
Total 80 3.55 814.39 116.58 20122.28
µ2 =
∑ f (x − x) 2
N
814.39
=
80
= 10.18
µ3 =
∑ f ( x − x) 3
N
116.58
=
80
= 1.46
= 0.002.
- 18 -
Notions de statistique
Comme β1 = 0.002, la distribution est très légèrement désaxée, ou encore l’asymétrie est
négligeable. L’asymétrie est positive puisque µ 3 est positif.
2.3.4. Kurtose
La kurtose est le degré d’aplatissement d’une distribution, généralement considéré par comparaison
avec une courbe de distribution normale. Si une courbe est plus pointue que la normale, elle est
“ leptocurtique ”, si elle a un sommet aplati, on parle de courbe “platicurtique ”. Une courbe en
forme de cloche, ni trop pointue ni trop aplatie est dite “ mésocurtique ”.
Une mesure de l’aplatissement, exprimée sous forme adimensionnelle, est donnée par
µ
Coefficient de moment d’aplatissement = β2 = 42 (2.18)
µ2
où µ 4 et µ 2 peuvent être calculés avec la formule (2.16) dans le cas de données non groupées et
avec la formule (2.17) dans le cas de données groupées. On dit que la distribution est normale si
β 2 = 3. Lorsque β2 est supérieur à 3, la distribution est leptocurtique. Siβ2 est inférieur à 3, elle est
platicurtique.
Reprenons, par exemple, les données du Tableau 2.1. pour calculer le coefficient de moment de
l’aplatissement.
Moyenne =
∑ fx = 17.29
∑f
*Etape 2. Calculer f j (x j - x )2, f j (x j - x )4 et leur somme, d’après les données résumées du
Tableau 2.5.
µ2 =
∑ f (x − x) 2
N
814.39
=
80
= 10.18
µ4 =
∑ f (x − x) 4
N
20122.28
=
80
= 251.53
- 19 -
Notions de statistique
25153
.
Coefficient de moment d’aplatissement = β2 =
( 1018
. )
2
= 2.43.
La valeur de β2 est 2,38, chiffre inférieur à 3. La distribution est donc platicurtique.
2.4. Distributions théoriques discrètes
Lorsqu’une variable X peut prendre un ensemble discret de valeurs x 1, x 2,…, x K avec les
probabilités respectives p1, p2, …, pK où p1 + p 2 +...+ p K = 1 , on dit qu’une distribution discrète
de probabilités a été définie pour la variable X. La fonction p(x) qui prend les valeurs p1, p2, …, pK
pour x = x1, x2, …, xK respectivement, est appelée fonction de probabilité ou fonction de
fréquence de X. Comme X peut prendre certaines valeurs avec des probabilités données, on dit
souvent que c’est une variable aléatoire discrète.
Par exemple, supposons que l’on jette deux dés non pipés et que X désigne la somme des points
obtenus. La distribution de probabilités sera donnée par le tableau suivant :
X 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
La probabilité d’obtenir la somme 5 est 4/36 = 1/9 . Cela signifie que si les dés sont jetés 900 fois,
on peut s’attendre à ce qu’ils marquent 100 fois la somme 5.
Remarquons l’analogie avec la distribution de fréquence relative, les probabilités jouant ici le rôle des
fréquences relatives. On peut donc voir les distributions de probabilités comme des formes limites
théoriques, ou idéales, des distributions de fréquence, lorsque le nombre d’observations est très
élevé. C’est la raison pour laquelle les distributions de probabilités s’appliquent très bien aux
populations, alors que les distributions de fréquence relative concernent des échantillons prélevés
dans cette population.
Si les valeurs de x peuvent être rangées dans un ordre, comme dans le cas de nombres réels, on
peut définir une fonction de distribution cumulative,
F ( x ) = ∑ p( z ) pour tout x (2.19)
z< x
Nous allons maintenant nous arrêter brièvement sur deux importantes distributions discrètes, qui
reviennent souvent dans les travaux de recherche forestière, et qui pourront nous être utiles par la
suite.
- 20 -
Notions de statistique
n
p( x ) = p x (1 − p)
n −x
x = 0, 1, 2, ..., n (2.20)
x
où n est un entier positif et 0<p<1. Les constantes n et p sont les paramètres de la distribution
binomiale. Comme l’indique la formule, la valeur de x est comprise entre 0 et n.
Par exemple, si un sylviculteur observe le taux de mortalité des jeunes plants dans des parcelles
d’une forêt contenant chacune 100 unités, et enregistre les plants vivants comme des ‘succès’ et les
plants morts comme des ‘échecs’, la variable ‘nombre de plants vivants dans une parcelle ” peut
suivre une loi binomiale.
p$ =
∑ x = 25 = 0.2
∑ n 125
De plus, s’il choisit au hasard dans la plantation une parcelle de la même taille, la probabilité que
celle-ci contienne un nombre donné de plants infestés par les termites peut être obtenue grâce à
l’équation (2.20), à condition que l’infestation par les termites suive une loi binomiale. Ainsi, la
probabilité de choisir une parcelle non infectée par les termites est :
25
p(0) = 0.2 0 (1 − 0.2 )
25
0
= 0.0038
Dans les études écologiques, on constate que certains organismes rares sont répartis au hasard dans
l’espace. Lorsque c’est le cas, on remarque que les observations sur le nombre d’organismes
trouvés dans de petites unités d’échantillonnage suivent une loi de Poisson. Une distribution de
Poisson est déterminée par l’unique paramètre λ qui est à la fois la moyenne et la variance de la
distribution. L’écart-type est par conséquent λ . A partir d’échantillons, on peut estimer les valeurs
de λ par
- 21 -
Notions de statistique
∑x i
λ$ = i =1
(2.23)
n
où les x i sont les nombres de cas détectés dans unité d’échantillonnage et n est le nombre d’unités
d’échantillonnage observées.
Prenons l’exemple d’un biologiste qui observe le nombre de sangsues présentes dans 100
échantillons prélevés dans un lac d’eau douce. Si le nombre total de sangsues capturées est de 80, le
nombre moyen par échantillon se calcule comme suit,
n
∑x i
80
λ$ = i =1
= = 0.8
n 100
Si la variable suit une loi de Poisson, la probabilité de prélever au moins une sangsue dans un nouvel
échantillon peut être calculée par 1 - p(0), ce qui donne :
( 0.8) 0 e −0. 8
1 − p(0) = 1 −
0!
= 0.5507
L’idée de distribution discrète peut s’étendre au cas d’une variable X pouvant prendre un ensemble
continu de valeurs. Dans le cas théorique, ou limite, d’une population, le polygone des fréquences
relatives d’un échantillon devient une courbe continue d’équation y = p(x), comme celle de la Figure
2.3.
a b x
L’aire totale comprise entre la courbe et l’axe X est égale à un, et l’aire contenue sous la courbe
délimitée par les droites X = a et X = b (zone ombrée sur la figure) représente la probabilité que X
soit comprise entre a et b, ce que l’on note par P(a<X<b). On dit que p(x) est une fonction de
densité de probabilité, ou en abrégé une fonction de densité, et lorsqu’une telle fonction est donnée,
on dit qu’on a défini pour X une distribution continue de probabilité. La variable X prend alors le
nom de variable aléatoire continue.
Dans le cas d’une variable aléatoire continue, la fonction de distribution cumulative est donnée par la
relation
- 22 -
Notions de statistique
F( x ) = ∫ f ( t )dt
−∞
(2.24)
Le symbole ∫ indique l’intégration, analogue de la sommation dans le cas discret. Comme dans le cas
discret, F(X) représente la probabilité que la variable prenne une valeur inférieure ou égale à x. Une
propriété utile de la fonction de distribution cumulative est la suivante,
P( a ≤ X ≤ b ) = F ( b ) − F( a ) (2.25)
Nous allons maintenant examiner deux cas de distributions théoriques continues qui apparaissent
souvent dans les travaux de recherche forestière, et qui nous seront utiles par la suite.
- 23 -
Notions de statistique
68.27%
95.45%
99.73%
Si l’aire totale comprise entre la courbe et l’axe de la Figure 2.4 est prise comme unité de surface,
l’aire sous la courbe délimitée par les droites X = a et X = b, où a<b, représente la probabilité,
notée P(a<X<b), que X soit comprise entre a et b. L’appendice 1 donne l’expression de l’aire sous
la courbe à l’extérieur de la bande +z et –z.
A l’origine, la loi normale de distribution devait servir de modèle pour le calcul des erreurs de
mesure, mais on a constaté qu’elle était la base de la variation dans un grand nombre de caractères
biométriques. La distribution normale est censée être la résultante des effets additifs d’un grand
nombre de variables aléatoires ayant des causes indépendantes.
- 24 -
Notions de statistique
Les estimations de µ et σ à partir d’échantillons d’observations sont données par les formules
n
∑x i
i =1
µ$ = x = (2.27)
n
σ=
∑(x − x) 2
(2.28)
n −1
où x i, i = 1, …, n sont n observations indépendantes faites dans la population.
1 −
2 σ
f ( x) = e , 0 < x ,σ; − ∞ < µ < ∞ (2.29)
xσ 2 π
Dans ce cas, eµ est un paramètre d’échelle et σ un paramètre de forme. La forme d’une distribution
log-normale est hautement flexible, comme le montre la Figure 2.5 où sont tracées les courbes
d’équations (2.29) pour différentes valeurs de σ et pour µ = 0.
La moyenne et l’écart-type d’une distribution log-normale sont des fonctions complexes des
paramètres µ et σ. La moyenne et l’écart-type sont donnés respectivement par :
σ2
µ+
Moyenne = e 2
(2.30)
Ecart - type = (e 2 µ +σ
2
)(e σ
2
)
−1 (2.31)
- 25 -
Notions de statistique
variation, alors que les plus vieux auront une variation importante, car leur interaction avec
l’environnement s’est prolongée pendant plus longtemps.
Dans une distribution log-normale, les estimations des paramètres µ et σ sont données par les
relations
1 n
µ$ = ∑ ln xi (2.32)
n i =1
( ln xi − µ$ )
1 n
∑
2
σ$ = (2.33)
n − 1 i =1
où x i, i = 1, …, n sont n observations indépendantes prélevées sur la population.
Pour une analyse plus approfondie, contenant plusieurs exercices et problèmes, avec leurs solutions,
sur des thèmes abordés dans ce chapitre, le lecteur pourra se référer à Spiegel et Boxer (1972).
- 26 -
3. INFERENCE STATISTIQUE
Toute investigation de recherche avance à travers des cycles répétés de formulation et de vérification
d’hypothèses concernant le phénomène étudié. Afin de décider objectivement si une hypothèse est
confirmée par un ensemble de données, il faut adopter une procédure rationnelle pour l’acceptation
ou le rejet de ladite hypothèse. L’objectivité est fondamentale, car l’une des règles de la méthode
scientifique est d’arriver à des conclusions scientifiques par des méthodes publiques pouvant être
répétées par d’autres chercheurs compétents. Cette procédure objective sera fondée sur les
informations obtenues lors du travail de recherche et sur le risque d’erreur que nous acceptons de
prendre, à propos de la justesse de l’hypothèse.
- 27 -
Inférence statistique
ii) Choix du test statistique : La discipline des statistiques s’est tellement développée que l’on a
aujourd’hui le choix, pour presque tous les plans de recherche, entre plusieurs tests statistiques
pouvant servir à éclairer la décision au sujet d’une hypothèse. La nature des données rassemblées
détermine dans une large mesure le critère qui sera utilisé dans le test. Dans l’exemple qui nous
occupe, supposons que les données sur le rendement en bois par unité de superficie, à un âge donné,
puissent être dérivées d’un petit nombre de plantations ou parties de plantations récemment
exploitées de taille à peu près similaire, situées dans l’unité d’aménagement. Sur la base de la théorie
statistique pertinente, on pourrait choisir le critère de test suivant :
x − µ0
z= (3.1)
σ/ n
où x = rendement moyen, à un âge donné, des plantations récemment exploitées dans l’unité
d’aménagement.
σ = écart-type du rendement des plantations récemment exploitées dans l’unité d’aménagement.
n = nombre de plantations récemment exploitées, à partir desquelles les données peuvent être
collectées.
µ0 = rendement moyen des plantations, à l’âge donné, dans l’unité d’aménagement, quelques
décennies plus tôt, sur la base d’un grand nombre d’observations antérieures.
Le terme “ statistique “ désigne une valeur calculée à partir des observations d’un échantillon. Le
critère de test spécifié dans l’Equation (3.1) est le rapport de l’écart entre la moyenne de
l’échantillon et la valeur prédéterminée µ0, à la variance de ces écarts, et la question qui se pose est
de déterminer quelle est l’amplitude admissible de ces écarts, pour que l’hypothèse nulle soit vraie.
iii) Seuil de signification et taille de l’échantillon : Une fois que l’on a défini l’hypothèse nulle
et l’hypothèse alternative, et sélectionné le test statistique approprié, l’étape suivante consiste à
spécifier le seuil de signification (α) et à choisir la taille de l’échantillon (n). La procédure de prise de
décision se résume à rejeter H0 au profit de H1, si le résultat du test statistique est une valeur
correspondant à une probabilité de réalisation, dans l’hypothèse H0, égale ou inférieure à une faible
probabilité symbolisée par le signe α. Cette faible probabilité est appelée seuil de signification. Les
valeurs les plus courantes de α sont 0.05 et 0.01. En d’autres termes, si la probabilité associée à
l’obtention, dans H0 (c’est-à-dire quand l’hypothèse nulle est vraie) de la valeur spécifique résultant
d’un test statistique, est égale ou inférieure à α, nous rejetons H0 et nous acceptons H1, qui est la
formulation opérationnelle de l’hypothèse de recherche. Il s’ensuit que α indique la probabilité de
rejeter par erreur H0.
Etant donné que la décision de rejeter ou d’accepter l’hypothèse H0 est en partie déterminée par la
valeur de α, il est indispensable, pour des raisons d’objectivité, que α soit fixé avant la collecte des
données. Le niveau auquel le chercheur choisit de fixer α devrait être fonction de l’importance ou de
la signification pratique possible de ses constatations. Dans notre exemple, l’aménagiste peut fort
bien choisir un seuil de signification plutôt bas, s’il y a un risque élevé de rejeter à tort l’hypothèse
nulle (et, par conséquent, de préconiser ou de recommander sans que cela soit justifié un
changement radical des pratiques de gestion, sur la surface considérée). Dans son rapport,
l’aménagiste devrait indiquer le niveau de probabilité effectif associé à ses constatations, afin que le
lecteur puisse décider lui-même s’il convient de rejeter ou d’accepter l’hypothèse nulle.
- 28 -
Inférence statistique
On peut commettre deux types d’erreurs lorsque l’on prend une décision à propos de H0. La
première, dite Erreur de type I, est de rejeter H0 alors qu’elle est vraie. La seconde, que nous
appellerons Erreur de type II, est d’accepter H0 alors qu’elle est fausse. La probabilité de
commettre une erreur de type I est donnée par α. Plus α est grand, plus l’on a de chances de rejeter
H0 à tort, c’est-à-dire de commettre une erreur de type I. L’erreur de type II est ordinairement
représentée par le signe β; on a donc P(erreur de type I) = α, P(erreur de type II) = β. Les valeurs
de α et β sont de préférence spécifiées par le chercheur avant de commencer ses investigations. Ces
valeurs détermineront la taille de l’échantillon (n) qu’il devra prélever pour calculer le critère du test
statistique qu’il a choisi. Une fois que α et n ont été spécifiés, il faut calculer β. Dans la mesure où
les probabilités de commettre les deux types d’erreurs sont inversement proportionnelles, une
diminution de α entraînera une augmentation de β pour toute valeur de n. Pour minimiser le risque
de commettre les deux types d’erreurs, il faut augmenter n. L’expression 1 - β désigne la puissance
d’un test, c’est-à-dire la probabilité de rejeter l’hypothèse H0 alors qu’elle est fausse. Pour revenir à
notre exemple, pour certaines raisons d’ordre théorique, nous dirons que la taille de l’échantillon est
de 30 plantations ou parties de plantations de taille similaire choisies au hasard dans la série dans
laquelle peuvent être rassemblées des données sur les niveaux de rendement récents de l’unité
d’aménagement.
iv) La distribution d’échantillonnage : Une fois qu’un chercheur a choisi le test statistique qui
sera utilisé avec ses données, il doit déterminer la distribution d’échantillonnage du critère de test,
c’est-à-dire la distribution que l’on obtiendrait si l’on prenait tous les échantillons de même taille
pouvant être prélevés dans une même population, chacun d’eux étant tiré au hasard, et si l’on
établissait la distribution de fréquence de la statistique calculée à partir de chaque échantillon. On
peut aussi dire que la distribution d’échantillonnage est la distribution, dans l’hypothèse H0, de toutes
les valeurs possibles que peut prendre une mesure statistique quelconque (par exemple la moyenne
de l’échantillon), lorsqu’elle est calculée à partir d’échantillons de même taille tirés au hasard. Pour
revenir à notre exemple, s’il y avait 100 plantations d’un âge déterminé, disponibles pour la coupe,
100
30 plantations pourraient être tirées au hasard, de = 2.937 x 1025 manières. A partir de
30
chaque échantillon de 30 unités de plantation, il est possible de calculer une mesure statistique z, à
l’aide de l’équation (3.1) . Dans ce cas, une distribution de fréquences relatives établie à l’aide
d’intervalles de classes donnés pour les valeurs de z constituerait la distribution d’échantillonnage de
notre critère de test statistique. Ainsi, la distribution d’échantillonnage d’un paramètre statistique
montre la probabilité dans l’hypothèse H0 associée aux différentes valeurs numériques possibles
dudit paramètre. La probabilité d’obtenir une valeur particulière du paramètre statistique dans
l’hypothèse H0, englobe non seulement la probabilité de cette valeur, mais aussi les probabilités de
toutes les valeurs possibles plus extrêmes. Il s’agit donc de la probabilité d’obtenir, dans l’hypothèse
H0, une valeur aussi extrême ou plus extrême que la valeur particulière du critère de test.
Il est évident que dans notre exemple, il nous serait impossible de trouver la distribution
d’échantillonnage réelle et de vérifier la probabilité d’obtenir des valeurs données, à partir d’une telle
distribution. Nous nous reposerons donc sur des théorèmes mathématiques démontrés, qui font
autorité. Ces théorèmes impliquent invariablement des postulats que l’on doit avoir présents à
l’esprit, lorsqu’on les applique. Dans le cas présent, il peut être démontré que la distribution
d’échantillonnage de z suit une loi normale de moyenne zéro et d’écart type 1 si la taille de
- 29 -
Inférence statistique
l’échantillon (n) est grande. Lorsqu’une variable suit une loi normale, sa distribution est entièrement
caractérisée par la moyenne et l’écart-type. Il est donc possible de déterminer la probabilité qu’une
valeur observée de cette variable soit supérieure à une valeur donnée quelconque. Cette analyse et
cet exemple montrent clairement que si l’on connaît la distribution d’échantillonnage d’une certaine
mesure statistique, il est possible d’établir quelles sont les probabilités d’obtenir certaines valeurs
numériques de cette mesure. Nous allons voir dans les sections qui suivent comment on utilise les
probabilités ainsi formulées pour prendre une décision à propos de l’hypothèse H0.
v) La région de rejet : La distribution d’échantillonnage comprend toutes les valeurs que peut
prendre le critère de test dans l’hypothèse H0. La région de rejet est formée d’un sous-ensemble de
ces valeurs possibles, et est définie de telle manière que la probabilité associée à l’obtention, dans
l’hypothèse H0 , d’une valeur du critère de test située dans ce sous-ensemble, soit une probabilité α.
En d’autres termes, la région de rejet est constituée d’un ensemble de valeurs possibles qui sont si
extrêmes que, si H0 est vraie, la probabilité est très faible (probabilité α) que l’échantillon observé
donne une valeur située dans ce sous-ensemble. La probabilité associée à une valeur quelconque se
trouvant dans la région de rejet est égale ou inférieure à α.
La taille de la région est exprimée par le seuil de signification α. Si α = 0.05, cela signifie que la
région de rejet représente 5 pour cent de la totalité de l’espace compris sous la courbe dans la
distribution d’échantillonnage. Les régions de rejet unilatérales et bilatérales pour α = 0.05 sont
illustrées à la Figure 3.1. Les régions diffèrent par leur emplacement, mais leur taille totale est la
même.
vi) La décision : Si le test statistique donne une valeur qui se trouve dans la région de rejet, il faut
rejeter H0. Ce processus décisionnel repose sur un raisonnement très simple. Si, dans l’hypothèse
nulle, la probabilité d’obtenir une valeur particulière dans la distribution d’échantillonnage est très
faible, l’apparition effective de cette valeur peut s’expliquer de deux manières : premièrement en
décidant que l’hypothèse nulle est fausse, et deuxièmement, en décidant qu’un événement rare et
improbable s’est produit. Dans le processus de décision, nous choisissons la première de ces
explications. De temps en temps, c’est bien entendu la seconde qui est la bonne. De fait, la
probabilité que la deuxième explication soit la bonne est donnée par α, car le fait de rejeter
l’hypothèse H0 alors qu’elle est vraie est une erreur de type I.
Figure 3.1. Distribution d’échantillonnage de z dans H0 et régions de rejets d’un test unilatéral et d’un
test bilatéral
- 30 -
Inférence statistique
Lorsque la probabilité associée à une valeur observée d’un test statistique est égale ou inférieure à la
valeur déterminée au préalable de α, nous concluons que l’hypothèse H0 est fausse. Une telle valeur
observée est qualifiée de significative. L’hypothèse H0, qui fait l’objet du test, est rejetée dans tous
les cas où apparaît un résultat significatif. Une valeur significative est une valeur dont la probabilité
d’apparition dans H0 est égale ou inférieure à α.
Pour revenir à notre exemple, supposons que, dans une unité d’aménagement particulière, 30
plantations récemment exploitées, à l’âge de 50 ans aient un rendement moyen de 93 m3/ha, avec un
écart-type de 10 m3/ha. Si les statistiques antérieures avaient révélé que, quelques décennies plus
tôt, on obtenait dans cette même unité d’aménagement un rendement moyen de 100m3/ha au
même âge, la valeur du critère de test serait la suivante:
x − µ0 93 − 100
z= = = −3834
.
σ / n 10 / 30
On verra dans l’Annexe I que la probabilité d’obtenir une telle valeur, si l’hypothèse H0 est vraie, est
très inférieure à 0.05 qui est le seuil de signification fixé au préalable. On prendra donc la décision
d’accepter l’hypothèse alternative selon laquelle “ la productivité des plantations de l’espèce
considérée, dans l’unité d’aménagement, a considérablement diminué ”.
Les lecteurs qui souhaitent acquérir une compréhension plus complète des thèmes abordés dans
cette section peuvent se référer à Dixon et Massey (1951) pour une initiation particulièrement claire,
aux deux types d’erreurs, et à Anderson et Bancroft (1952) ou Mood (1950) pour des examens
approfondis de la théorie relative aux tests d’hypothèses. Les sections qui suivent décrivent des
procédures utilisées pour tester certains types d’hypothèses particuliers.
- 31 -
Inférence statistique
On a souvent besoin de comparer les moyennes de deux groupes d’observations représentant des
populations différentes pour savoir si les populations diffèrent par leurs positions. Dans ces situations,
l’hypothèse nulle sera ‘il n’y a pas de différence entre les moyennes des deux populations ”, soit en
symboles, H 0 :µ1 = µ 2 . L’hypothèse alternative est H 1:µ 1 ≠ µ 2 c.à.d., µ 1 < µ 2 ou µ 1 > µ 2 .
où x1 =
∑x 1i
, x2 =
∑x 2i
n1 n2
s =
2
( n1 − 1)s12 + ( n2 − 1) s22
n1 + n2 − 2
( ∑ x ) 2
( ∑ x ) 2
∑ x2 −
1i
1i
n1
∑ x2 −
2i
2i
n2
s12 = et s22 =
n1 − 1 n2 − 1
Le critère de test t suit une loi de Student avec n1 + n2 − 2 degrés de liberté. Dans ce cas
particulier, le degré de liberté est un paramètre associé à la distribution de t qui gouverne la forme de
la distribution. Le concept de degré de liberté est mathématiquement assez obscur, mais d’une
manière générale, il peut être considéré comme le nombre d’observations indépendantes dans un
ensemble de données, ou comme le nombre de comparaisons indépendantes pouvant être faites à
propos d’un ensemble de paramètres.
Ce test repose sur des hypothèses précises, à savoir: i) Les variables entrant en jeu sont continues
(ii) La population-mère des échantillons prélevés suit une loi de distribution normale (iii) Les
échantillons sont prélevés de manière indépendante (iv) Les variances des deux populations dans
lesquelles on prélève les échantillons sont homogènes (égales). L’homogénéité de deux variances
peut être testée à l’aide du test F décrit dans la Section 3.3.
- 32 -
Inférence statistique
Pour illustrer ce cas, nous allons étudier une expérience dont le but est d’évaluer l’effet de
l’inoculation d’un mycorrhize sur la croissance en hauteur de plantules de Pinus kesiya. Dans
l’expérience, 10 plantules, formant le Groupe I, ont été inoculées, et 10 autres (Groupe II) ont été
laissées telles quelles. Le Tableau 3.1 donne les hauteurs obtenues dans les deux groupes de
plantules.
Tableau 3.1. Hauteur des plantules de Pinus kesiya des deux groupes.
Parcelles Groupe I Groupe II
1 23.0 8.5
2 17.4 9.6
3 17.0 7.7
4 20.5 10.1
5 22.7 9.7
6 24.0 13.2
7 22.5 10.3
8 22.7 9.1
9 19.4 10.5
10 18.8 7.4
Les variances de la hauteur des plantules des deux groupes étant égales, l’analyse peut être
poursuivie comme suit :
*Etape 1. Calculer les moyennes et la variance groupée des deux groupes de mesures des hauteurs,
à l’aide des formules correspondantes indiquées dans l’équation (3.2),
x1 = 20.8 , x2 = 9.61
( 208) 2
( 23.0) + (17.4) + . . . + ( 18.8) −
2 2 2
s =
2 10
10 − 1
1
57 .24
= = 6.36
9
( 96.1) 2
( 8.5) + ( 9.6) + . . . + ( 7.4) −
2 2 2
s22 = 10
10 − 1
24 .3
= = 2.7
9
- 33 -
Inférence statistique
*Etape 3. Comparer la valeur calculée de t avec la valeur de t donnée par la table au niveau de
probabilité souhaité pour n1 + n2 − 2 = 18 degrés de liberté.
Etant donné que nous ne sommes pas sûrs du sens de la variation de la croissance des plantules due
au mycorrhize, nous utiliserons un test bilatéral. D’après la table de l’Annexe 2, les valeurs critiques
sont –2.10 et +2.10 de chaque côté de la distribution. Comme dans notre exemple, la valeur
calculée de t (11.75) est supérieure à 2.10, on en déduit qu’il existe des différences significatives
entre les hauteurs moyennes des populations de plantules inoculées et non-inoculées représentées
par nos échantillons.
La procédure ci-dessus n’est pas applicable si les variances des deux populations ne sont pas
égales. Dans ce cas, on adoptera une méthode légèrement différente :
t=
( x1 − x2 ) (3.3)
s12 s22
+
n1 n2
*Etape 2. Comparer la valeur de t ainsi obtenue avec la valeur pondérée (t’) donnée par la table, au
niveau de probabilité voulu. La valeur tabulaire pondérée de t se calcule comme suit.
w1t1 + w2t 2
t' = (3.4)
w1 + w2
s12 s22
où w1 = , w2 = ,
n1 n2
t1 et t 2 sont les valeurs tabulaires de t données par la loi de Student avec ( n1 − 1) et (n2 − 1)
degrés de liberté respectivement, au niveau de probabilité voulu.
Prenons par exemple les données figurant dans le Tableau 3.1. L’homogénéité des variances des
deux groupes peut être vérifiée à l’aide du Test F décrit dans la Section 3.3. Si les deux variances ne
sont pas égales, le critère de test t peut être calculé comme suit,
( 20.8 − 9.61)
t= = 11.76
6.36 2.7
10 + 10
- 34 -
Inférence statistique
Comme la valeur calculée de t (11.76) est supérieure à la valeur tabulaire (2.26), on peut conclure
que la différence des moyennes est significative. Ici, la valeur de t’ est égale à celles de t 1 et t 2
puisque n1 et n2 sont égaux. Il n’en est pas toujours ainsi.
Soient (x 1, y1), (x 2, y2), . . ., (x n, yn), les n observations appariées. Supposons que les observations
concernant la variable x proviennent d’une population de moyenne µ 1 et celles qui concernent la
variable y d’une population de moyenne µ 2 . L’hypothèse à vérifier est H 0:µ 1 = µ 2 . Si on forme
les différences di = xi - yi pour i = 1, 2, …, n (on peut considérer qu’elles appartiennent à une
population normale de moyenne zéro et de variance connue), on pourra utiliser le critère de test
suivant :
d
t= (3.5)
sd2
n
1
( ∑ ) d
2
∑ i
i
où sd2 = d
2
−
n −1 n
Le critère de test t donné par l’Equation (3.5) suit une loi de Student t avec n − 1degrés de liberté.
La valeur de t ainsi obtenue est donc comparable à la valeur tabulaire de t correspondant à n − 1
degrés de liberté, au niveau de probabilité souhaité.
Prenons par exemple les données du Tableau 3.2, qui ont été obtenues à partir de carottes de
sondage (échantillons cylindriques de terrain) prélevées à des niveaux de profondeur différents dans
une forêt naturelle. Les données sont des mesures de la teneur en carbone organique, prises à deux
niveaux différents de plusieurs fosses d’observation; il s’agit donc d’observations appariées pour
chaque fosse. Le test jumelé t peut être utilisé dans ce cas pour comparer la teneur en carbone
organique du sol à deux profondeurs différentes. La comparaison statistique se déroule comme
indiqué ci-après.
*Etape 1. Calculer la différence entre chaque paire d’observations d’après les données du Tableau
3.2
- 35 -
Inférence statistique
Tableau 3.2. Teneur en carbone organique mesurée à deux niveaux d’une série de fosses
d’observation situées dans une forêt naturelle.
*Etape 2. Calculer la différence moyenne et la variance des différences, à l’aide de l’Equation (3.5)
n
∑ di 1.81
i =1
d= = = 0.181
n 10
1 (181
. )
2
s =
2
d
10 − 1
(
( 0.38) + ( 0.47) + . . .+( 0.30) −
2 2 2
)
10
1.33789
= = 0.1486
9
*Etape 3. Calculer la valeur de t en remplaçant les valeurs de d et sd2 dans l’Equation (3.5).
0.181
t= = 1.485
0.1486
10
La valeur calculée de t (1.485) est inférieure à la valeur tabulaire (2.262), pour 9 degrés de liberté,
au seuil de signification de 5%. Il n’y a donc pas de différence significative entre la teneur en carbone
organique moyenne des deux couches de terrain.
- 36 -
Inférence statistique
deux échantillons sont indépendants et prélevés au hasard dans des populations normalement
distribuées de même variance ”, soit en symboles :
H0:σ21 = σ22
où σ21 , σ 22 sont les variances de deux populations dans lesquelles sont prélevés les deux échantillons.
L’hypothèse alternative est la suivante :
H1:σ12 ≠ σ22
Dans l’hypothèse nulle, on peut montrer que le critère statistique suit une distribution de F avec
(n1 − 1, n2 − 1) degrés de liberté. La règle de décision est la suivante: si la valeur calculée du critère
statistique est inférieure à la valeur critique de la distribution de F, au seuil de signification voulu, on
accepte l’hypothèse nulle, à savoir que les deux échantillons sont prélevés dans des populations de
même variance. Dans le cas contraire, l’hypothèse nulle est rejetée.
Supposons par exemple que les estimations des variances de deux populations soient s12 = 2187. et
s2 = 15.36 , et soient respectivement basées sur n1 =11 et n2 = 8 observations des deux populations.
2
Lorsque les observations consistent à classer les individus dans des catégories particulières, comme
‘malade’ ou ‘en bonne santé’, ‘mort’ ou ‘vivant’ etc…, les données sont généralement résumées en
termes de proportions. Il peut alors être intéressant de comparer les proportions de l’incidence d’un
caractère dans deux populations. L’hypothèse nulle à formuler dans de telles situations est
H 0: P1 = P2 , alors que l’hypothèse alternative est H 1: P1 ≠ P2 (ou P1 > P2 ou P1 < P2 ), où P1 et P2
sont des proportions représentant les deux populations. Pour tester cette hypothèse, on prélève deux
échantillons indépendants de grande taille, par exemple n1 et n2, dans les deux populations. On
obtient ainsi deux échantillons de proportions respectives p1 et p2 . Le critère statistique utilisé est le
suivant :
- 37 -
Inférence statistique
p1 − p2
z= (3.7)
p1q1 p2q2
+
n1 n2
où q1 = 1 - p1, q2 = 1 - p2. Cette statistique suit une loi de distribution normale standard.
Prenons pour exemple une expérience sur la formation des racines de boutures de tiges de
Casuarina equisetifolia, consistant à observer l’effet de l’immersion des boutures dans des
solutions d’AIB (acide indolylbutyrique), à deux concentrations différentes. Deux lots comprenant
chacun trente boutures ont été plongés dans des bains d’AIB, à des concentrations respectives de
50 et 100 ppm. Les observations ont permis de déterminer la proportion de boutures pourvues de
racines dans chaque lot de 30, à chaque concentration. A la concentration de 50 ppm, la proportion
de boutures à racines était de 0.5, contre 0.37, à la concentration de 100 ppm. La question qui nous
intéresse ici est de déterminer si les proportions observées reflètent des différences significatives de
l’effet de l’acide, aux deux concentrations.
Conformément à notre notation, p1 = 0.5 et p2 = 0.37. Par suite q1 = 0.5, q2 = 0.63. De plus n1 = n2
= 30. Le critère statistique vaut donc,
0.5 − 0.37
z= = 1.024
( 0.5)( 0.5) ( 0.37)( 0.63)
+
30 30
La valeur de z obtenue (1.024) est inférieure à la valeur donnée par la table (1.96) au seuil de
signification de 5%. Il n’y a donc pas de différence significative entre les proportions de boutures à
racines, aux deux concentrations.
Les tests d’hypothèses ont parfois pour but de vérifier si la population dont provient un échantillon
suit une loi de distribution de probabilité déterminée. La distribution escomptée peut être basée sur
un modèle théorique (loi normale, binomiale ou de Poisson) ou sur un schéma particulier, en raison
de facteurs techniques. Il peut par exemple être intéressant de vérifier si une variable comme la
hauteur des arbres suit une loi normale de distribution. Un spécialiste de l’amélioration génétique des
arbres peut avoir besoin de savoir s’il existe une déviation significative entre les rapports de
ségrégation relatifs à un caractère, tels qu’ils sont observés, et ceux de Mendel..Dans de telles
situations, on est amené à vérifier la correspondance entre les fréquences observées et théoriques.
Ce type de test a reçu le nom de test de la validité de l'ajustement.
Pour appliquer le test de la validité de l’ajustement, on utilise uniquement les fréquences réelles
observées, à l’exclusion des pourcentages ou proportions. De plus, il est indispensable que les
observations faites sur un même échantillon ne se chevauchent pas et soient indépendantes. Les
fréquences attendues dans chaque catégorie doivent de préférence être supérieures à 5. Le nombre
total d’observations doit être élevé, en général supérieur à 50.
- 38 -
Inférence statistique
Dans les tests de la validité de l’ajustement, l’hypothèse nulle est “ il n’y a pas de discordance entre
la distribution observée et la distribution théorique ”, ou “ la distribution observée est ajustée à la
distribution théorique ”. Le critère de test utilisé est le suivant
k
(Oi − Ei )2
χ =
2
∑ Ei
(3.8)
i =1
où Oi = fréquence observée dans la ième classe,
Ei = fréquence attendue dans la ième classe.
k = nombre de catégories ou classes.
La statistique χ2 de l’équation (3.8) suit une distribution de χ2 avec k-1 degrés de liberté. Si les
fréquences attendues sont dérivées de paramètres estimés dans l’échantillon, les degrés de libertés
sont au nombre de (k-p-1) (où p est le nombre de paramètres estimés). Si, par exemple, on veut
tester la normalité d’une distribution, une estimation de µ et σ2 à partir de l’échantillon sera donnée
par x et s2. Les degrés de liberté se réduisent donc à (k-2-1).
Examinons par exemple les données du Tableau 3.3 qui représentent le nombre d’espèces d’insectes
capturés, durant des mois différents, dans une zone non perturbée du Sanctuaire naturel de
Parambikkulam. Pour vérifier s’il y a des différences significatives entre le nombre d’espèces
d’insectes trouvés durant des mois différents, on formulera l’hypothèse nulle comme suit : la diversité,
exprimée par le nombre d’espèces d’insectes, est la même tous les mois, dans le sanctuaire, et l’on
en dérivera les fréquences attendues pendant les différents mois.
- 39 -
Inférence statistique
Tableau 3.3. Calcul de χ2 à partir des données sur le nombre d’espèces d’insectes
capturées à Parambikkulam pendant les différents mois.
Mois O E (O − E ) 2 E
Janvier 67 67 0.00
Février 115 67 34.39
Mars 118 67 38.82
Avril 72 67 0.37
Mai 67 67 0.00
Juin 77 67 1.49
Juillet 75 67 0.96
Août 63 67 0.24
Septembre 42 67 9.33
Octobre 24 67 27.60
Novembre 32 67 18.28
Décembre 52 67 3.36
Total 804 804 134.84
La valeur obtenue pour χ2 est 134.84. Si l’on se reporte à la table de distribution de χ2 (Annexe 4)
pour (12-1) = 11 degrés de liberté et α = 0.05, on trouve pour χ2 la valeur critique de 19.7. On
accepte donc l’hypothèse nulle et on conclut que le nombre d’espèces d’insectes trouvés est le
même tous les mois.
L’analyse de variance est essentiellement une technique de répartition de la variation totale des
réponses observées lors d’une expérience, entre les différentes sources de variation à laquelle elle
peut être attribuée, certaines de ces sources pouvant être déterminées alors que d’autres sont
inconnues. Cette technique permet aussi de vérifier si la variation due à une composante particulière
quelconque est significative, par rapport à la variation résiduelle qui peut apparaître entre les unités
d’observations.
L’analyse de variance se fait selon un modèle sous-jacent qui exprime la réponse comme somme de
différents effets. Etudions par exemple l’Equation (3.10).
yij = µ + α i + eij , i =1, 2, …, t; j = 1, 2, …, ni (3.10)
où yij est la réponse de la j-ème unité individuelle appartenant à la i-ème catégorie ou groupe, µ
est la moyenne de l’ensemble de la population, α i est l’effet associé à l’appartenance au i-ème
groupe et eij une erreur aléatoire associée à la (ij)-ème observation. Il s’agit d’un modèle d’analyse
de la variance à un critère de classification, qui peut être étendu en ajoutant de plus en plus d’effets
applicables à une situation particulière. Lorsque plusieurs sources de variations connues
interviennent, on a un modèle d’analyse de variance à plusieurs facteurs.
- 40 -
Inférence statistique
L’analyse repose sur quelques hypothèses de base à propos des observations et des effets, à savoir:
i) Les différents effets des composantes sont additifs ii) Les erreurs eij sont distribuées de manière
indépendante et égale, avec une moyenne nulle et une variance constante.
Le modèle (3.10) peut aussi s’écrire :
yij = µ i + eij (3.11)
où µ i = µ + α i
Si l’on ajoute quelques hypothèses, l’analyse de la variance permet aussi de vérifier les hypothèses
suivantes :
H 0: µ1 = µ 2 = . . . = µ t
H1: µ i ≠ µ j pour au moins un i et j (3.12)
L’hypothèse supplémentaire requise est “ les erreurs sont distribuées normalement ”. Même si de
légers écarts sont tolérables, l’interprétation de l’analyse de la variance n’aura de valeur que si ces
hypothèses sont réunies.
On notera en outre que les effets pris en compte dans le modèle peuvent être des effets fixes ou des
effets aléatoires. Par exemple, les effets de deux niveaux d’irrigation bien définis sont fixes, puisque
l’on peut raisonnablement supposer que chaque niveau a un effet déterminé. En revanche, si l’on
choisit au hasard un ensemble de provenances dans un plus grand ensemble, les effets imputables
aux provenances sont considérés comme aléatoires. Les effets aléatoires peuvent appartenir à une
population finie ou infinie. Les effets d’erreurs sont toujours aléatoires et peuvent appartenir à une
population finie ou infinie. Un modèle dans lequel tous les effets (autres que l’effet d’erreur qui est
toujours considéré comme aléatoire) sont fixes, est un modèle à effets fixes. Un modèle dans lequel
apparaissent les deux types d’effets est un modèle mixte et un modèle dans lequel tous les effets sont
aléatoires est un modèle à effets aléatoires. Les modèles à effets fixes ont pour principaux objectifs
d’estimer les effets fixes, de quantifier la variation due à ces effets dans la réponse, et enfin de
trouver la variation entre les effets d’erreur, alors que les modèles à effets aléatoires visent surtout à
estimer la variation de chaque catégorie d’effets aléatoires. La méthode à suivre pour obtenir des
expressions de la variabilité est en général la même pour tous les modèles, même si les méthodes de
test sont différentes.
La technique d’analyse de variance est illustrée ci-après, avec un modèle à un critère de classification
ne comprenant que des effets fixes. Des cas plus complexes sont abordés aux chapitre 4 et 6, lors
de l’illustration des analyses relatives aux différents plans d’expérience.
- 41 -
Inférence statistique
Espèces
1 2 .. i .. t
y11 y21 yi1 yt1
y12 y22 yi2 yt2
..
y1j y2j yij ytj
..
y1r y2r yir ytr
Total y1. y2. yi.
y..= Total général yt.
Moyenne y1 y2 yi
y = Moyenne générale yt
Note: Dans ce tableau, une période (.) en indice dénote la somme sur cet indice.
La théorie qui sous-tend l’analyse de variance est complexe et risquerait de rebuter le lecteur
profane. C’est pourquoi nous avons choisi de présenter une dérivation heuristique des formules.
Considérons les r observations concernant une espèce particulière quelconque, par exemple la i-
ème. Leurs valeurs peuvent être différentes, ce qui démontre l’influence de nombreux facteurs
externes sur les observations de tiges de cette espèce. Cette influence peut-être mesurée par les
écarts des observations individuelles à la moyenne. Il est préférable d’élever les écarts au carré car
les écarts simples pourraient s’éliminer lors de la sommation. L’amplitude d’une variation aléatoire
affectant les observations concernant la i-ème espèce est donnée par l’expression
( yi1 − yi . )2 + ( yi 2 − yi . )2 + . . . + ( yir − yi . ) ∑ (y )
r 2
2
= ij − yi . (3.13)
j =1
Pour chaque espèce, la variation produite par les sources externes reflète l’influence des facteurs
incontrôlés, qui peut être globalement estimée par sommation. La variation totale observée,
imputable à des facteurs externes, également connue sous le nom de somme des carrés due aux
erreurs (SSE) est donnée par
∑ ∑(y )
t r 2
SSE = ij − y i. (3.14)
i =1 j =1
Outre les fluctuations aléatoires, différentes espèces peuvent avoir différents effets sur la réponse
moyenne. La variation due à la i-ème espèce dans les r observations est donc
r ( yi . − y )
2
(3.15)
La variation due aux différences entre les espèces est donc donnée par la relation
algébriquement équivalente à
2
t t r
∑ y 2 ∑ ∑ yij
i.
i =1 j =1
SSS = i =1
− (3.17)
r tr
- 42 -
Inférence statistique
∑ ∑ ( yij − y )
t r 2
SSTO = (3.19)
i =1 j = 1
∑ ∑ ( y ij )2
t r
= − y i. + y i. − y
i =1 j =1
∑ ∑ ( yij − yi. ) ( )
t r
+ ( y i. − y ) + 2 yij − yi. ( yi . − y )
2 2
=
i =1 j =1
∑ ∑ ( y ij − yi. )
t r t
+ r ∑ ( yi. − y )
2 2
= (3.20)
i =1 j= 1 i =1
( ) ( )
t r t r
où ∑ ∑ 2 yij − yi. ( yi. − y ) = 2∑ ( yi. − y )∑ y ij − y i. = 0
i =1 j =1 i =1 j =1
La variation totale des réponses peut donc s’exprimer comme la somme des variations entre les
espèces et des variations au sein d’une espèce. C’est là l’essence même de l’analyse de la variance.
( )
t r t t r = =
SSTO = ∑ ∑ y ij − yi. + r ∑ ( yi. − y ) = ∑ ∑ yij2 −
2 2 i 1 j 1
(3.21)
i =1 j= 1 i =1 i =1 j=1
tr
Si la répartition de la variabilité totale entre ce qui est dû aux différences entre espèces et ce qui est
dû aux facteurs externes a une valeur informative, elle n’est guère utile en elle même pour pousser
plus avant l’interprétation. En effet, ces valeurs dépendent du nombre d’espèces et du nombre
d’observations effectuées sur chaque espèce. Pour éliminer l’effet dû au nombre d’observations, on
réduit les mesures de la variabilité observée à une variabilité par observation, c’est à dire à la
moyenne de la somme des carrés. Etant donné qu’il y a au total rt observations, dont on tire la
somme totale des carrés, il est évident que l’on peut calculer la moyenne de la somme des carrés en
divisant la somme totale des carrés par rt. Au lieu de cela, on la divise par (rt-1), qui est le nombre
total d’observations moins une. Ce diviseur est appelé degré de liberté et indique le nombre
d’écarts à la moyenne indépendants qui contribuent au calcul de la variation totale. Par conséquent,
SSS
Moyenne de la somme des carrés due aux espèces = MSS = (3.22)
t−1
- 43 -
Inférence statistique
SSTO - SSS
Moyenne de la somme des carrés due aux erreurs = MSE = (3.23)
t ( r − 1)
Le calcul de la moyenne des carrés des espèces et de la moyenne des carrés des erreurs est crucial
pour vérifier la signification des différences entre les moyennes des espèces. Ici, l’hypothèse nulle qui
est testée est que toutes les moyennes de population des espèces sont égales, c’est à dire :
H 0:µ 1 = µ 2 = . . . = µ t
Dans cette hypothèse, les deux moyennes des carrés ci-dessus représenteront deux estimations
indépendantes du même effet aléatoire, autrement dit MSS et MSE fournissent une estimation de la
même variance. On peut maintenant tester l’hypothèse “ les effets des espèces sont égaux ” à l’aide
du critère F, où F est le rapport de MSS à MSE. Le critère F suit une distribution F avec (t-1) et
t(r-1) degrés de liberté. La signification de F peut être déterminée de la manière habituelle en se
reportant à la table de F (Annexe 3). Si la valeur calculée de F est supérieure à la valeur indiquée
par la table, l’hypothèse est rejetée. Cela signifie que les observations concernant au moins une paire
d’espèces ont mis en évidence des différences significatives.
Les résultats qui précèdent peuvent être récapitulés dans un tableau d’analyse de variance, présenté
comme suit
Nous illustrerons ce qui précède à l’aide des données du Tableau 3.5. Celles-ci représentent un
ensemble d’observations sur la densité du bois, dérivées d’un ensemble, prélevé au hasard, de tiges
de cinq espèces de bambous.
- 44 -
Inférence statistique
*Etape 1. Calculer les totaux des espèces, la moyenne des espèces, le total général et la moyenne
générale (comme dans le Tableau 3.5) . Ici le nombre d’espèces = t = 5 et le nombre
d’observations = r = 3.
Tableau 3.5. Densité du bois (g/cc) observée sur un ensemble, prélevé au hasard, de tiges
appartenant à différentes espèces de bambous.
Espèces
1 2 3 4 5 Général
1 0.58 0.53 0.49 0.53 0.57
2 0.54 0.63 0.55 0.61 0.64
3 0.38 0.68 0.58 0.53 0.63
Total 1.50 1.85 1.62 1.67 1.85 8.49
Moyenne 0.50 0.62 0.54 0.56 0.62 0.57
*Etape 4. Calculer la somme des carrés relative aux espèces à l’aide de l’équation (3.17).
( 150
. ) + ( 184
2
. ) + . . . + ( 184
2
. )
2
(8.49) 2
SSS = −
5 (5)(3)
= 0.0307
*Etape 5. Calculer la somme des carrés des erreurs grâce à la relation SSE = SSTO - SSS
SSE = 0.0765 - 0.0307
= 0.0458
*Etape 6. Calculer la moyenne de la somme des carrés pour les espèces et les erreurs. Celles-ci
sont données par les équations (3.22) et (3.23).
0.0307
MSS =
5 −1
= 0.0153
0.0458
MSE =
5( 3 − 1)
= 0.0038
- 45 -
Inférence statistique
Comparer la valeur calculée et la valeur tabulaire de F, pour 4 et 10 degrés de liberté. Dans notre
exemple, la valeur calculée du rapport F (1.73) est inférieure à la valeur tabulaire (3.48), au seuil de
signification de 5%. On en conclut qu’il n’y a pas de différences significatives entre les moyennes des
différentes espèces.
On a déjà dit dans la section précédente que la validité de l’analyse de variance dépend de certains
hypothèses importantes. L’analyse peut aboutir à des conclusions fausses si toutes ces hypothèses ne
sont pas respectées, ce qui est par exemple relativement courant pour l’hypothèse de la variance
constante des erreurs. Dans ce cas, l’une des possibilités est d’effectuer une analyse de variance
pondérée, en vertu de laquelle chaque observation est pondérée par l’inverse de sa variance. Ceci
suppose d’estimer la variance de chaque observation, ce qui n’est pas toujours possible. Souvent,
les données subissent certaines transformations d’échelle, de sorte qu’à l’échelle transformée,
l’hypothèse de la variance constante est réalisée. Certaines de ces transformations peuvent aussi
corriger des écarts des observations par rapport à la normale, du fait qu’une différence de variance
est souvent aussi liée à la distribution de la variable. On dispose de méthodes spécifiques pour
identifier la transformation requise pour tout ensemble de donnée particulier (Montgomery et Peck,
1982), mais on peut aussi avoir recours à certaines formes de transformation normalisées suivant la
- 46 -
Inférence statistique
nature des données. Les plus courantes sont la transformation logarithmique, la transformation
racine carrée et la transformation angulaire.
Pour illustrer la transformation angulaire par un exemple, prenons les données du Tableau 3.7 qui
représentent le pourcentage de racines obtenu après avoir appliqué pendant six mois un traitement
hormonal, à des doses différentes, à des boutures de tiges d’une espèce d’arbre. Trois lots,
contenant chacun dix boutures, ont été trempés dans une solution hormonale, à des dosages
- 47 -
Inférence statistique
différents. L’hormone a été essayée à trois concentrations et l’expérience comprenait un lot témoin
non traité. Le pourcentage de racines de chaque lot de boutures a été obtenu en divisant le nombre
de boutures à racines par le nombre de boutures compris dans un lot.
Tableau 3.7. Pourcentage de boutures obtenu au bout de six mois de traitement
Traitements
Lot de Lot témoin AIB, à 10 AIB, à AIB, à
boutures ppm 50 ppm 100 ppm
1 0 70 60 30
2 0 80 70 20
3 0 60 70 10
Les données du Tableau 3.7 ont été transformées à l’échelle angulaire, à l’aide de la fonction,
sin −1 p après avoir remplacé les valeurs de “ 0 ” par (1/4n) où n =10. Les valeurs de la fonction
sin −1 p pour différentes valeurs de p peuvent aussi être extraites du Tableau (X) of Fisher et Yates
(1963). Les données transformées du Tableau 3.7 sont rassemblées dans le Tableau 3.8.
Afin de voir si les effets des traitements présentent des différences significatives, une analyse de
variance à un facteur peut être effectuée selon la méthode indiquée dans la section 3.6 sur les
données transformées. Les résultats de l’analyse de variance sont présentés au Tableau 3.9.
- 48 -
Inférence statistique
Avant de conclure cette section, il convient d’ajouter une note de caractère général. Une fois que la
transformation a été faite, l’analyse est effectuée avec les données transformées et toutes les
conclusions sont tirées à l’échelle transformée. Toutefois, lors de la présentation des résultats, les
moyennes et leurs écarts types sont reconverties aux unités originelles. Lors de cette reconversion,
certaines corrections doivent être apportées aux moyennes. Dans le cas de données soumises à une
transformation logarithmique, si la valeur moyenne est y, la valeur moyenne des unités originelles sera
antilog( y + 115
. y ) au lieu de antilog( y ) . Avec la transformation racine carrée, la moyenne à
( )
l’échelle initiale serait y + V ( y ) au lieu de ( y ) où V ( y ) représente la variance de y . On ne fait
2 2
généralement pas ces corrections dans le cas d’une transformation angulaire. Pour la transformation
angulaire, la transformation inverse serait p = (sin θ)2.
3.8. Corrélation
Dans beaucoup de systèmes naturels, les changements d’un attribut s’accompagnent de variations
d’un autre attribut, et il existe une relation définie entre les deux. En d’autres termes, il existe une
corrélation entre les deux variables. Par exemple, plusieurs propriétés des sols, comme la teneur en
azote, la teneur en carbone organique ou le pH, sont corrélées et varient de façon concomitante. On
a observé une forte corrélation entre plusieurs caractéristiques morphométriques d’un arbre. Dans de
telles situations, il peut être intéressant pour un chercheur de mesurer l’importance de cette relation.
Si (x i,yi); i = 1, ..., n, est un ensemble d’observations appariées effectuées sur n unités
d’échantillonnage indépendantes, une mesure de la relation linéaire entre deux variables est donnée
par la quantité suivante, appelée coefficient de corrélation linéaire de Pearson, ou simplement
coefficient de corrélation.
Covariance de x et y Cov(x, y)
r= = (3.24)
(Variance de x )(Variance de y ) (V(x ))(V( y))
n n
1 n
1 n
∑ xi ∑ yi
où Cov (x,y) = ∑ ( xi − x )( yi − y ) = ∑ xi yi − i =1 i =1
n i =1 n i =1 n
n
2
∑ xi
1 n 2 1 n 2 i =1
V(x) = ∑ ( xi − x ) = ∑ xi −
n i =1 n i =1 n
n
2
∑ yi
1 n 2 1 n 2 i =1
V(y) = ∑ ( yi − y ) = ∑ yi −
n i =1 n i =1 n
- 49 -
Inférence statistique
Ce paramètre statistique indique à la fois la direction et le degré de la relation existant entre deux
caractères quantitatifs x et y. La valeur de r peut varier de –1 à +1, sans atteindre ces valeurs. Si la
valeur de r est nulle, cela signifie qu’il n’y a pas de relation linéaire entre les deux variables
concernées (il peut toutefois y avoir une relation non-linéaire). La relation linéaire est forte lorsque la
valeur de r approche –1 ou +1. Une valeur négative de r indique que si la valeur d’une variable
augmente, celle de l’autre diminue. Au contraire, une valeur positive indique une relation directe,
c’est à dire que l’augmentation de la valeur d’une variable est associée à une augmentation de la
valeur de l’autre. Un changement d’origine, d’échelle, ou d’origine et d’échelle est sans incidence sur
le coefficient de corrélation. Lorsque l’on ajoute ou soustrait un terme constant aux valeurs d’une
variable, on dit que l’on a changé d’origine, alors que lorsque l’on multiplie ou divise par un terme
constant les valeurs d’une variable, on parle de changement d’échelle.
Tableau 3.10. Valeurs du pH et de la teneur en carbone organique observées dans des échantillons
de terrain prélevés dans des forêts naturelles.
Fosse pH Carbone organique
d’observation (x) (%) (x 2) (y2) (xy)
(y)
1 5.7 2.10 32.49 4.4100 11.97
2 6.1 2.17 37.21 4.7089 13.24
3 5.2 1.97 27.04 3.8809 10.24
4 5.7 1.39 32.49 1.9321 7.92
5 5.6 2.26 31.36 5.1076 12.66
6 5.1 1.29 26.01 1.6641 6.58
7 5.8 1.17 33.64 1.3689 6.79
8 5.5 1.14 30.25 1.2996 6.27
9 5.4 2.09 29.16 4.3681 11.29
10 5.9 1.01 34.81 1.0201 5.96
11 5.3 0.89 28.09 0.7921 4.72
12 5.4 1.60 29.16 2.5600 8.64
13 5.1 0.90 26.01 0.8100 4.59
14 5.1 1.01 26.01 1.0201 5.15
15 5.2 1.21 27.04 1.4641 6.29
Total 82.1 22.2 450.77 36.4100 122.30
- 50 -
Inférence statistique
= 0.05
1 (82.1) 2
V(x) = 450.77 −
15 15
= 0.0940
1 (22.2) 2
V(y) = 36.41 −
15 15
= 0.2367
Pour n relativement petit, l’hypothèse nulle (ρ = 0 ) peut être testée à l’aide du critère statistique
r n−2
t= (3.25)
1− r2
Ce critère statistique suit une distribution de Student t avec n-2 degrés de liberté.
Examinons les données du Tableau 3.10, où n = 15 et r = 0.3541. Pour tester si H 0:ρ = 0 ou si, au
contraire, H 1:ρ ≠ 0 , on calcule le critère statistique à l’aide de l’Equation (3.25).
0.3541 15 − 2
t= = 1.3652
1 − (0.3541) 2
Dans la table de l’Annexe 2, la valeur critique de t est 2,160, pour 13 degrés de liberté, au seuil de
signification α = 0,05. Comme la valeur calculée de t est inférieure à la valeur critique, on conclut
que le pH et la teneur en carbone organique mesurés à partir d’échantillons de terrain ne sont pas
corrélés de manière significative. Pour simplifier, on pourrait aussi se reporter à l’Annexe 5 qui donne
les valeurs au-delà desquelles un coefficient de corrélation observé peut être déclaré significatif, pour
un nombre donné d’observations au seuil de signification voulu.
Pour tester l’hypothèse H 0:ρ = ρ0 , où ρ0 est une valeur donnée quelconque de ρ, on utilise la
transformation Z de Fisher donnée par
1 1+ r
z = ln (3.26)
2 1− r
- 51 -
Inférence statistique
Pour illustrer ceci par un exemple, prenons les données du Tableau 3.10, pour n = 15 et r =
0.3541. Supposons que l’on veuille tester l’hypothèse nulle H 0 :ρ = ρ0 = 0.6 ; on commencera par
soumettre les valeurs de r et ρ à la transformation z.
1 1 + 0.3541
z = ln = 0.3701
2 1 − 0.3541
1 1 + 0.6
z0 = ln = 0.6932
2 1 − 0.6
Etant donné que la valeur de w est inférieure à la valeur critique 1.96, le critère n’est pas significatif
au seuil de signification de 5%. On en conclut que le coefficient de corrélation entre le pH et la teneur
en carbone organique ne diffère pas de manière significative de 0.6.
3.9. Régression
Le coefficient de corrélation mesure le degré de la relation entre deux variables qui varient de façon
concomitante, avec des effets qui se renforcent mutuellement. Dans certains cas, les changements
relatifs à une variable sont provoqués par les variations d’une variable connexe, sans qu’il y ait de
dépendance mutuelle. En d’autres termes, une variable est considérée comme dépendante des
variations de l’autre variable, dans la mesure où elles dépendent de facteurs externes. Une telle
relation entre deux variables est appelée régression. Lorsque ces relations sont exprimées sous forme
mathématique, il est possible d’estimer la valeur d’une variable d’après la valeur de l’autre. Par
exemple, le rendement de conversion photosynthétique et le coefficient de transpiration des arbres
dépendent de conditions atmosphériques comme la température ou l’humidité, sans pour autant que
l’on s’attende généralement à une relation inverse. Toutefois certaines variables sont souvent
déclarées indépendantes uniquement au sens statistique, même dans des situations où des effets
inverses sont concevables. Par exemple, dans une équation servant à estimer le volume, le volume
- 52 -
Inférence statistique
des arbres est souvent considéré comme dépendant du diamètre à hauteur d’homme, même si le
diamètre ne saurait être considéré comme indépendant des effets du volume des arbres au sens
physique. C’est pourquoi, dans le contexte de la régression, les variables indépendantes sont souvent
appelées variables exogènes (explicative), et la variable dépendante variable endogène (expliquée).
La variable dépendante est habituellement notée y et la variable indépendante x. Dans le cas où il n’y
a que deux variables en jeu, la relation fonctionnelle est appelée régression simple. Si la relation
entre les deux variables est linéaire, on parle de régression linéaire simple ; dans le cas contraire,
la régression est dite non-linéaire. Lorsqu’une variable dépend d’au moins 2 variables
indépendantes, la relation fonctionnelle entre la variable dépendante et l’ensemble des variables
indépendantes est une régression multiple. Dans un souci de simplification, on se limitera ici à
examiner le cas d’une régression linéaire simple. Pour des cas plus complexes, on se référera à
Montgomery et Peck (1982).
En pratique, les valeurs de α et β doivent être estimées à partir d’observations des variables y et x
effectuées sur un échantillon. Par exemple, pour estimer les paramètres d’une équation de régression
proposée liant la température atmosphérique et le taux de transpiration des arbres, un certain nombre
d’observations appariées sur la température et le taux de transpiration sont effectuées sur plusieurs
arbres, à différents moments de la journée. Notons (x i, yi); i = 1, 2, . . ., n ces couples de valeurs, n
étant le nombre de d’observations appariées indépendantes. Les valeurs de α et β sont estimées par
la méthode des moindres carrés (Montgomery et Peck, 1982) de sorte que la somme des carrés des
différences entre les valeurs observées et prévues soit minimale. Le processus d’estimation repose
sur les hypothèses suivantes: i) Les valeurs de x sont non aléatoires ou fixes ; ii) Pour tout x, la
variance de y est la même ; iii) Les valeurs de y observées pour différentes valeurs de x sont
complètement indépendantes. Si l’une de ces hypothèses n’est pas vérifiée, il faut apporter les
changements voulus. Pour les tests d’hypothèses se référant à des paramètres, une hypothèse
additionnelle de normalité des erreurs est nécessaire.
n ∑x ∑ y i i
∑x y − i i
i =1
n
i =1
β$ =
i =1
2 (3.29)
n
∑ xi
n
∑ xi2 − i −1n
i =1
- 53 -
Inférence statistique
α$ = y − β$ x (3.30)
L’équation y$ = α$ + β$ x représente la droite de régression ajustée, qui peut être utilisée pour estimer
la valeur moyenne de la variable dépendante, y, associée à une valeur particulière de la variable
indépendante, x. En général, il est plus sûr de limiter ces estimations à la fourchette des valeurs de x
dans les données.
On peut obtenir une estimation des erreurs-type de β$ and α$ avec la formule suivante :
σ$ 2
SE β$ = () n
2 (3.31)
∑ xi
n
i −1
∑
i =1
xi −
2
n
n
∑x
i= 1
i
2
σ$ 2
SE (α$ ) = n
2 (3.32)
n
∑ xi
n
i −1
∑
i =1
xi −
2
∑ ( y − y$ )
n
2
i
i =1
où σ$ 2 =
n
L’erreur-type d’une estimation, qui est l’écart-type de sa distribution d’échantillonnage, donne une
indication du degré de fiabilité de cette estimation.
Nous illustrerons ce qui précède à l’aide des données du Tableau 3.11 qui présente les valeurs
appariées du rendement photosynthétique et des radiations, obtenues à partir d’observations des
feuilles d’une essence forestière spécifique. Dans cet exemple, la variable dépendante est le
rendement photosynthétique et la variable indépendante est la quantité de lumière. La méthode de
calcul de l’ajustement d’une régression linéaire est indiquée ci-dessous.
*Etape 1. Calculer les valeurs du numérateur et du dénominateur de l’équation (3.29) en utilisant les
sommes, sommes des carrés et sommes des produits de x et y, dérivées du Tableau 3.11
∑ x∑ y (13.72)( 189.03)
∑ xy − n
= 175.59 −
15
= 2.6906
( ∑ x)
2
(13.72) 2
∑x 2
−
n
= 12.70 -
15
= 0.1508
- 54 -
Inférence statistique
Tableau 3.11. Données sur le rendement photosynthétique en µ mol m-2s-1 (y) et mesure de la
radiation en mol m-2s-1 (x), observées sur une essence forestière
X y x2 xy
0.7619 7.58 0.58 5.78
0.7684 9.46 0.59 7.27
0.7961 10.76 0.63 8.57
0.8380 11.51 0.70 9.65
0.8381 11.68 0.70 9.79
0.8435 12.68 0.71 10.70
0.8599 12.76 0.74 10.97
0.9209 13.73 0.85 12.64
0.9993 13.89 1.00 13.88
1.0041 13.97 1.01 14.02
1.0089 14.05 1.02 14.17
1.0137 14.13 1.03 14.32
1.0184 14.20 1.04 14.47
1.0232 14.28 1.05 14.62
1.0280 14.36 1.06 14.77
∑ x = 13.72 ∑ y = 189.03 ∑ x = 12.702
∑ xy = 175.59
*Etape 2. Calculer les estimations de α et β avec les équations (3.29) et (3.30).
2.6906
β$ = = 17.8422
01508
.
α$ = 12.60 - (17.8421)(0.9148)
= -3.7202
La droite de régression ajustée y$ = −3.7202 + 17.8422 x peut être utilisée pour estimer la valeur du
rendement photosynthétique à un niveau de radiation quelconque donné, dans la limite des données.
Ainsi, le rendement photosynthétique prévu, pour 1 mol m-2s-1 de lumière sera,
y$ = −3.7202 + 17.8422( 1) = 14.122
∑ ( y − y$ )
n
2
i
i =1
σ$ 2 = = 0.6966
n
*Etape 4. Estimer les erreurs-type de β$ and α$ à l’aide des Equations (3.31) et (3.32).
σ$ 2
()
SE β$ = =
0.6966
= 2.1495
(∑ x)
2
(13.72) 2
∑x 2
− 12.70 −
n 15
- 55 -
Inférence statistique
σ$ 2
∑x 2
0.6966
12.70
SE (α$ ) = n 15
(∑ x ) 2 = = 1.9778
(13.72) 2
∑x 2
−
n
12.70 −
15
Tableau 3.12. Représentation schématique d’une analyse de variance pour une analyse de
régression.
Source de Degré de Sommes des Carré moyen
variation liberté carrés SS F calculé
(df) (SS) MS =
df
Dû à la MSR
régression 1 SSR MSR MSE
Ecart par n-2 SSE MSE
rapport à la
régression
Total n-1 SSTO
*Etape 2. Calculer les différentes sommes des carrés, selon la méthode suivante :
( ∑ y)
2
Somme totale des carrés = SSTO = ∑y 2
−
n
(3.33)
(189.03)2
= (7.58)2 + (9.46)2 + . . . + (14.36)2 -
15
= 58.3514
- 56 -
Inférence statistique
∑ x ∑ y
2
∑ xy −
n
Somme des carrés dus à la régression = SSR = (3.34)
( ∑x ) 2
∑x 2
−
n
( 2.6906 )2
=
0.1508
= 48.0062
Somme des carrés dus à l’écart par rapport à la régression = SSE = SSTO - SSR(3.35)
=58.3514 - 48.0062 = 10.3452
*Etape 3. Entrer, comme indiqué dans le Tableau 3.13, les valeurs des sommes des carrés dans la
table d’analyse de variance et effectuer les calculs restants.
Tableau 3.13. Analyse de variance pour l’équation de régression relative aux données du Tableau
3.11.
Source de Degrés de Sommes des Carré moyen
variation liberté carrés SS F calculé à
(df) (SS) MS = 5%
df
Dû à la régression 1 48.0062 48.0062 60.3244
Ecart à la 13 10.3452 0.7958
régression
Total 14 58.3514
*Etape 4. Comparer la valeur calculée de F avec la valeur tabulaire correspondant à (1,n-2) degrés
de liberté. Dans notre exemple, la valeur calculée (60.3244) est supérieure à la valeur
tabulaire de F (4.67) correspondant à (1,13) degrés de liberté, au seuil de signification de
5%. La valeur de F est donc significative. Si la valeur calculée de F est significative, le
coefficient de régression β diffère de 0 de manière significative. Exprimée en proportion de
la somme totale des carrés, la somme des carrés due à la régression est appelée coefficient
de détermination et mesure la quantité de variation de y imputable à la variation de x. En
d’autres termes, le coefficient de détermination mesure la fraction de la variation de la
variable dépendante expliquée par le modèle. Dans notre exemple, le coefficient de
détermination (R2) est
SSR
R2 = (3.36)
SSTO
48.0062
=
58.3514
= 0.8255
- 57 -
Inférence statistique
Dans l’analyse de la variance, on évalue, en général, la signification d’un élément de variation connu,
par rapport à la variation résiduelle inexpliquée. Un contrôle approprié est donc nécessaire pour
réduire l’amplitude de la variation non contrôlée. A cette fin, on peut soit élargir le modèle à d’autres
sources de variations mieux connues, soit exercer un contrôle délibéré sur de nombreuses variables
ayant une incidence sur la réponse. A défaut d’un tel contrôle, des différences de groupe réelles ne
seraient pas détectées en présence d’une variation résiduelle importante. Dans de nombreux cas, la
variation existant au départ entre les unités d’observation est en grande partie responsable des
variations de leurs réponses futures, et il devient nécessaire d’éliminer l’influence des variations
endogènes entre les sujets de la comparaison des groupes étudiés. L’analyse de la covariance est
l’une des méthodes employées pour réduire l’amplitude des erreurs inexpliquées. Dans un contexte
expérimental, par exemple, on peut effectuer une analyse de la covariance lorsque l’on dispose
d’observations sur une ou plusieurs variables corrélées provenant de chaque unité expérimentale,
ainsi que d’ observations sur la variable de réponse considérée. Ces variables additionnelles reliées
sont appelées covariables ou variables accessoires ou concomitantes. Il est indispensable qu’elles
soient associées à la variable à l’étude. Par exemple, dans les essais de rendement, la variation du
volume sur pied initial due à des facteurs externes, les effets résiduels des plantes antérieurement
cultivées sur le site etc…, peuvent faire office de covariables.
L’analyse de la covariance étant essentiellement une extension de l’analyse de la variance, toutes les
hypothèses sur lesquelles se fonde cette dernière s’appliquent aussi. Dans une analyse de la
covariance, d’autres hypothèses sont également nécessaires, notamment i) la relation liant le
caractère principal considéré y et la covariable x est linéaire ii) l’importance de la relation entre x et y
est la même dans chaque groupe expérimental iii) la variation de la covariable n’est pas la résultante
de différences internes au groupe.
- 58 -
Inférence statistique
*Etape 1. Dans l’analyse de la covariance, la première étape consiste à calculer la somme des carrés
due aux différentes composantes, pour la variable y et la covariable x, comme pour une
analyse de la variance, à l’aide des formules indiquées ci-après :
t r
SS totale de y = SSTO(y) = ∑ ∑ yij2 − C. F. ( y ) (3.38)
i =1 j =1
2
t r
∑ ∑ yij
i=1 j =1
où C. F .( y ) = (3.39)
tr
t
∑ yi2.
SS de y dans le Groupe= SSG(y) = i =1 − C . F. ( y ) (3.40)
r
t r
SS Totale de x = SSTO(x) = ∑ ∑ xij2 − C. F .( x) (3.42)
i =1 j =1
2
t r
∑ ∑ xij
i =1 j= 1
où C. F .( x ) = (3.43)
tr
t
∑ x i2.
SS de x dans le Groupe = SSG(x) = i = 1 − C . F .( x ) (3.44)
r
t
∑ yi.xi.
SP dans le Groupe = SPG(xy) = i =1 − C. F. ( xy ) (3.48)
r
- 59 -
Inférence statistique
SSE ( x)
F= (3.51)
( SPE ( xy ) )
2
(t (r − 1) − 1)
SSE ( y ) −
SSE ( x )
Le critère statistique F suit une loi de F avec 1 et t(r-1)-1 degrés de liberté. Si le coefficient de
régression est significatif, on procède à des ajustements de la somme des carrés de y pour des
variations de x. Dans le cas contraire, les ajustements sont inutiles.
( SPE ( xy )) 2
Par convention, on regroupe tous ces résultats dans un seul tableau (voir Tableau 3.14).
*Etape 5. Les valeurs ajustées des moyennes de chaque groupe s’obtiennent avec la formule
yi ' = yi − β$ ( xi − x ) (3.55)
L’erreur-type dans l’appréciation de la différence entre deux moyennes ajustées est donnée par:
(
xi − x j )
2
1 1
SE(d) = MSE + + (3.56)
ri rj SSE ( x )
où les symboles ont les significations habituelles.
- 60 -
Inférence statistique
Si le nombre de répétitions est le même pour tous les groupes et si les moyennes des valeurs
(
globales de xi − x j ) on a,
2
2 MSE SSG( x )
1+
r ( t − 1) SSE ( x )
SE(d) = (3.57)
Utilisons les données du Tableau 3.15 pour montrer comment s’effectue l’analyse de la covariance.
Les données représentent les moyennes de parcelles, basées sur quarante observations de la hauteur
initiale (x) et de la hauteur atteinte après quatre mois (y) de trois variétés de Leucaena
leucocephala, chacune étant cultivée dans 10 parcelles d’une station expérimentale.
Tableau 3.15. Hauteur initiale (x) et hauteur quatre mois plus tard (y), en cm, de trois variétés de
Leucaena leucocephala), sur une station expérimentale.
Parcelle Variété 1 Variété 2 Variété 3
x y x y x y
1 18 145 27 161 31 180
2 22 149 28 164 27 158
3 26 156 27 172 34 183
4 19 151 25 160 32 175
5 15 143 21 166 35 195
6 25 152 30 175 36 196
7 16 144 21 156 35 187
8 28 154 30 175 23 137
9 23 150 22 158 34 184
10 24 151 25 165 32 184
Total 216 1495 256 1652 319 1789
Moyenne 21.6 149.5 25.6 165.2 31.2 178.9
- 61 -
Inférence statistique
L’analyse se fait suivant le modèle du Tableau 3.14. Les calculs sont expliqués ci-dessous:
*Etape 1. Calculer, à l’aide des équations (3.38) à (3.45), la somme des carrés des variables x et y.
(4936) 2
C.F.(y) = = 812136.5333
( 3)( 10)
(791)2
C.F.(x) =
( 3)(10)
= 20856.0333
SSE(x) = 966.9697-539.267
= 427.7027
*Etape 2. Calculer la somme des produits des variables x et y à l’aide des équations (3.46) à (3.49).
( 791)(4936)
C. F. ( xy ) =
(3)(10)
= 130145.8667
- 62 -
Inférence statistique
*Etape 3. Calculer le coefficient de régression et tester sa signification avec les équations (3.50) et
(3.51).
900.6933
β$ =
427.7027
= 2.1059
La signification de β$ peut être testée à l’aide du test F. Le critère statistique F est donné par
l’équation (3.51).
( 900.6933) 2
F= 427.7027
( 900.6933) 2
3615 − (3( 10 − 1) − 1)
427.7027
1896.7578
=
66.0862
= 28.7012
La valeur tabulaire de F correspondant à (1,26) degrés de liberté est égale à 9.41 au seuil de
signification de 5%. Ici, la valeur calculée de F est supérieure à la valeur tabulaire, par conséquent β
diffère de zéro de manière significative.
*Etape 4. Calculer les sommes ajustées des carrés relatives aux différentes sources dans l’analyse de
covariance à l’aide des équations (3.52) à (3.54). Synthétiser les résultats comme dans le
Tableau 3.14 et calculer les valeurs des carrés moyens des groupes (MSG) et des erreurs
(MSE), ainsi que la valeur de F basée sur ces carrés moyens.
2407.13332
SSTO Aj. (y) = 7493.4667 −
966.9697
= 1501.2513
900.6933
SSE Aj. (y) = 3165 −
427.7027
= 1268.2422
233.0091
MSG = = 116.5046
2
1268.2422
MSE =
3(10 - 1) − 1
= 48.7785
- 63 -
Inférence statistique
MSG
F=
MSE
116.5046
=
48.7785
= 2.39
*Etape 5. Trouver les moyennes ajustées de chaque groupe et l’erreur–type de la différence entre
les moyennes ajustées de deux groupes quelconques avec les équations (3.55) and (3.57).
2 MSE SSG( x )
1+
r ( t − 1) SSE ( x )
SE(d) =
( 2) ( 48.8) 539.267
= 1 + ( 3 − 1)( 427.703) = 3.9891
10
L’erreur-type de la différence entre les moyennes des groupes peut être utile dans la
comparaison par paire des moyennes des groupes, comme on le verra dans le Chapitre 4.
Les mesures répétées d’unités d’observations sont très fréquentes en recherche forestière. Le terme
« répétées » signifie que les mesures sont effectuées sur le même caractère et sur un même
échantillon d’observation, mais sont relevées à plusieurs reprises. Dans les études longitudinales, les
individus peuvent être suivis sur une période de temps pour enregistrer les changements qui
surviennent dans leur état. Parmi les exemples classiques, on peut citer les mesures périodiques du
- 64 -
Inférence statistique
diamètre ou de la hauteur des arbres dans une expérience sylvicole, ou les observations de
l’évolution des maladies sur un ensemble de plantules, dans un essai en pépinière. Les mesures
répétées peuvent être spatiales plutôt que temporelles. Prenons pour exemple les mesures des
caractéristiques du bois de plusieurs troncs dans leur partie basse, centrale et haute, chaque
ensemble de troncs appartenant à une espèce différente. Les propriétés du sol observées à partir de
multiples carottes de sondage, à des profondeurs de 0-15, 15-50 et de 50-100 cm, dans différents
types de végétation sont un autre exemple.
Les mesures répétées se caractérisent principalement par le fait qu’il peut exister une corrélation
entre les mesures successives dans l’espace ou dans le temps. L’autocorrélation entre les résidus
découlant de mesures répétées sur les mêmes unités expérimentales contredit l’hypothèse
fondamentale de l’indépendance des erreurs, sur laquelle se fonde une analyse de variance ordinaire.
Toutefois on dispose de plusieurs méthodes pour analyser des mesures répétées. Ces méthodes sont
plus ou moins efficaces ou appropriées suivant la nature des données. Si la variance des erreurs reste
la même à chacune des mesures successives, et si en outre les covariances entre les erreurs des
différentes mesures sont les mêmes, on peut choisir de soumettre les données à une “analyse de
modèle mixte à une variable”. Si les erreurs ne sont pas structurées, il est préférable d’effectuer une
analyse multivariable en prenant des mesures répétées des différents caractères observés sur les
mêmes entités (Crowder et Hand, 1990). Nous allons illustrer ci-après les détails d’une analyse à
une variable dans un contexte d’observation simplifié et conseillons à nos lecteurs de se référer à
(Crowder and Hand, 1990) pour une analyse multivariable dans ce contexte.
Ici, la situation se présente comme suit: on a n individus x p occasions, les individus étant répartis en
t groupes de tailles ni (i = 1, 2, …, t). L’hypothèse à tester implique une comparaison entre les
groupes. Le modèle utilisé est le suivant
yijk = µ + α i+ eij + β j + γij + eijk (3.58)
où yijk est l’observation sur le k-ème individu dans le i-ème groupe à la j-ème occasion;
( i =1, …, t, j =1, …, p, k =1, …, ni.)
µ est la moyenne générale,
α i est l’effet du i-ème niveau du facteur ‘groupe’,
β j est l’effet du j-ìème niveau du facteur ‘occasion’,
γij est l’effet d’interaction pour le i-ème niveau du facteur ‘groupe’ et le j-ème niveau du facteur
‘occasion’. Ce terme mesure les différences entre les types de réponses des groupes, au fil des
occasions. Cette interaction sera examinée plus en détail au Chapitre 4.
Dans le modèle (3.58), les composantes aléatoires eij et les composantes d’erreurs aléatoires eijk
sont supposées suivre des lois de distribution indépendantes et normales avec une moyenne nulle et
une variance σ e2 et σ w2 respectivement. En outre, les α i et les β j sont supposés fixes.
Notons yi.. le total de toutes les observations au niveau i du facteur groupe; y.j. le total de toutes les
observations au niveau j du facteur occasion; yij. le total de toutes les observations appartenant à
la (ij)-ème cellule; y… le total général de toutes les observations. Mathématiquement, ces notations
s’expriment comme suit
p ni t ni ni t p ni
yi.. = ∑∑ y
j k
ijk , y.j. = ∑∑y
i k
ijk , yij. = ∑y
k
ijk , y… = ∑ ∑∑ y
i j k
ijk
- 65 -
Inférence statistique
Tableau 3.17. Représentation schématique du modèle mixte à une variable d’analyse de variance.
Total p ∑ ni − 1 SSTO
i
Les sommes des carrés du tableau ci-dessus se calculent avec les formules suivantes,
y...2
SSTO = ∑ ∑ ∑ yijk 2
− (3.59)
i j k p ∑ ni
i
yi2.. y...2
SSG = ∑ − (3.60)
i pni p ∑ ni
i
yi2. k yi2..
SSEa = ∑ ∑ p ∑ pn − (3.61)
i k i i
y.2j . y...2
SSO = ∑ − (3.62)
j ∑ ni p∑ ni
i i
- 66 -
Inférence statistique
Nous illustrerons cette analyse à l’aide des données du Tableau 3.18, sur la croissance mycélienne
(en mm) de cinq isolats de Rizoctonia solani sur milieu de gélose dextrosée à base de fécule de
pomme de terre au bout de 14, 22, 30 et 38 heures d’incubation, chaque isolat étant cultivé dans
trois unités du milieu de culture. Ici, les isolats sont les « groupes » et les différents moments sont les
« occasions » dont il est question dans le Tableau 3.17.
Tableau 3.18. Données sur la croissance mycélienne (en mm) de cinq groupes d’isolats de
R. solani , sur milieu de culture de gélose dextrosée à base de fécule de pomme de terre
(PDA).
Croissance mycélienne (en mm) observée en
différentes occasions
Isolat de Unité de 14 h. 22 h. 30 h. 38 h.
R. Solani PDA
isolate
1 1 29.00 41.00 55.00 68.50
2 28.00 40.00 54.00 68.50
3 29.00 42.00 55.00 69.00
2 1 33.50 46.50 59.00 74.00
2 31.50 44.50 58.00 71.50
3 29.00 42.50 56.50 69.00
3 1 26.50 38.00 48.50 59.50
2 30.00 40.00 50.00 61.00
3 26.50 38.00 49.50 61.00
4 1 48.50 67.50 75.50 83.50
2 46.50 62.50 73.50 83.50
3 49.00 65.00 73.50 83.50
5 1 34.00 41.00 51.00 61.00
2 34.50 44.50 55.50 67.00
3 31.00 43.00 53.50 64.00
Total 506.50 696.00 868.00 1044.50
*Etape 1. Calculer, à l’aide de l’équation (3.59), la somme totale des carrés des valeurs du
Tableau 3.18.
( 3115.00) 2
SSTO = ( 29) + ( 28) + . . . + ( 64) −
2 2 2
( 4)(15)
= 14961.58
- 67 -
Inférence statistique
*Etape 2. Dresser un tableau à double entrée des totaux Isolat x unité de PDA, en additionnant les
observations correspondant aux différentes occasions et calculer les totaux marginaux,
comme indiqué dans le Tableau 3.19. Calculer SSG et SSEa en utilisant les valeurs indiquées
dans le Tableau et les équations (3.60) et (3.61).
Tableau 3.19. Totaux Isolat x unité de PDA calculés à partir des données du Tableau 3.18.
Isolats
Unité de 1 2 3 4 5 Total
PDA
1 193.50 213.00 172.50 275.00 187.00 1041.00
2 190.50 205.50 181.00 266.00 201.50 1044.50
3 195.00 197.00 175.00 271.00 191.50 1029.50
Total 579.00 615.50 528.50 812.00 580.00 3115.00
*Etape 3. Dresser le tableau à double entrée des totaux Isolat x Occasion et calculer les totaux
marginaux comme indiqué dans le Tableau 3.20. Calculer SSO, SSOG et SSEb à l’aide des
équations (3.62) à (3.64).
Tableau 3.20. Tableau des to totaux Isolat x Occasion calculés à partir des données du
Tableau 3.18
Occasion
Isolat 14 h 22 h 30 h 38 h Total
1 86.00 123.00 164.00 206.00 579.00
2 94.00 133.50 173.50 214.50 615.50
3 83.00 116.00 148.00 181.50 528.50
4 144.00 195.00 222.50 250.50 812.00
5 99.50 128.50 160.00 192.00 580.00
Total 506.50 696.00 868.00 1044.50 3115.00
- 68 -
Inférence statistique
*Etape 4. Faire la synthèse des résultats comme dans le Tableau 3.21 et effectuer les calculs restants
pour obtenir les carrés moyens et les rapports F, en utilisant les équations reportées dans le
Tableau 3.17.
Comparer les valeurs calculées de F avec les valeurs tabulaires de F aux degrés de liberté
correspondants, au seuil de probabilité souhaité. Toutes les valeurs calculées de F données dans le
tableau ci-dessus sont supérieures aux valeurs tabulaires correspondantes de F. On en déduit que la
variation due aux groupes, à l’occasion et leur interaction sont significatives, ce qui signifie que le
mode de croissance des isolats diffère au fil du temps.
- 69 -
4. PLAN ET ANALYSE D’EXPERIENCES
On appelle plan et analyse d’expérience l’opération consistant à planifier une expérience pour
obtenir des données appropriées et en tirer des conclusions sur tout problème soumis à l’examen.
Cette opération peut partir de la formulation, en termes clairs, des objectifs de l’expérience et
s’achever par la rédaction des rapports contenant les conclusions importantes de l’enquête. Elle
comprend aussi une phase intermédiaire durant laquelle sont définis les détails de l’expérience,
notamment la structuration des variables dépendantes et indépendantes, leurs niveaux dans
l’expérience, le type de matériel expérimental qui sera utilisé, la méthode de manipulation des
variables du matériel expérimental, des techniques d’inférence statistique efficaces et rationnelles
etc…
La majorité des expériences reposent sur trois principes fondamentaux, à savoir randomisation,
répétition et contrôle local. D’une certaine façon, ces trois principes se complètent mutuellement,
puisqu’ils tentent d’augmenter la précision de l’expérience et de garantir la validité du test de
signification, tout en conservant, dans toute l’expérience les caractéristiques propres à leurs rôles.
Avant de passer à un examen plus approfondi de ces trois principes, nous allons tenter d’expliquer
certains termes génériques de la théorie des plans d’expérience, ainsi que la nature de la variation
entre les observations faites dans une expérience.
Avant de réaliser une expérience, il convient de définir une unité expérimentale. Celle-ci peut par
exemple être constituée d’une feuille, d’un arbre ou d’un groupe d’arbres adjacents. Une unité
expérimentale est aussi parfois appelée parcelle. Un groupe de parcelles est appelé bloc. Les
observations faites sur les unités expérimentales se caractérisent par de grandes variations, en partie
produites par la manipulation de certaines variables, généralement appelées traitements, qui sont
inhérentes à l’expérience et manipulées à dessein pour étudier leurs influences. Par exemple, les
clones dans les tests clonaux, les doses et les types d’engrais dans les essais sur les engrais etc…
peuvent être appelés traitements. En plus de ces variations de source connue, il en existe d’autres
dont on ignore l’origine, ou la cause, comme par exemple la variation non contrôlée de facteurs
externes liés à l’environnement, les variations génétiques du matériel expérimental, autres que celles
dues aux traitements, etc… Ces variations sont inévitables et inhérentes au processus même de
l’expérimentation. En raison de leurs influences indésirables, elles ont reçu le nom d’erreurs
expérimentales, ce qui signifie qu’il ne s’agit pas d’erreurs arithmétiques, mais de variations dues à
une combinaison de facteurs sur lesquels l’expérimentateur ne peut pas agir.
De plus, il est intéressant de noter que ces erreurs introduites par des facteurs externes dans les
observations expérimentales peuvent avoir une incidence systématique ou aléatoire. Les erreurs
imputables à un équipement défectueux, comme un tendeur de chaîne qui aurait perdu son
étalonnage à force d’être utilisé, ou l’erreur due à la fatigue de l’observateur sont des exemples
d’erreur systématique. En revanche, la variation imprévisible de la quantité de feuilles ramassées dans
un collecteur de litière, dans le cadre d’un traitement particulier d’une expérience liée, est de
caractère aléatoire, ou fortuit. Il est clair que quel que soit le nombre de fois où l’on répètera les
- 70 -
Plan et analyse d’expériences
mesures, l’erreur systématique subsistera, alors que les erreurs aléatoires finissent le plus souvent par
disparaître à l’issue de mesures répétées. Les trois principes de base, à savoir randomisation,
répétition et contrôle local, permettent d’ éviter l’erreur systématique et de limiter l’erreur aléatoire.
4.1.1. Randomisation
On appelle randomisation la technique d’attribution des traitements, ou des facteurs à tester, aux
unités expérimentales conformément à des lois ou probabilités définies. C’est la randomisation dans
son sens technique strict, qui garantit l’élimination des erreurs systématiques et le caractère purement
aléatoire de tout élément d’erreur persistant dans les observations. A partir de là, on peut faire une
estimation valable des fluctuations aléatoires, indispensable pour tester la signification de différences
réelles.
Grâce à la randomisation, chaque unité expérimentale aura une chance égale de recevoir un
traitement quelconque. Si, par exemple, cinq clones d’eucalyptus doivent être testés dans 25
parcelles, la randomisation garantit que certains clones ne seront pas favorisés ou pénalisés par des
sources de variation externes qui ne dépendent pas de l’action, délibérée ou non, de
l’expérimentateur. Le processus d’allocation aléatoire peut se faire de plusieurs façons, par tirage au
sort ou en tirant des nombres d’une page, choisie au hasard, de nombres aléatoires. La méthode est
illustrée dans les sections qui suivent sur les différents types de plans expérimentaux.
4.1.2. Répétition
Par répétition, on entend la répétition d’une expérience dans des conditions identiques. Dans le
contexte des plans d’expérience, en revanche, le terme se réfère au nombre d’unités expérimentales
distinctes faisant l’objet du même traitement. La répétition, conjuguée à la randomisation, fournira
une base pour estimer la variance des écarts. Sans la randomisation, un nombre quelconque de
répétitions pourrait ne pas déboucher sur une estimation réelle de l’erreur. Plus le nombre de
répétitions est grand, plus la précision de l’expérience est grande.
Le nombre de répétitions que doit comporter une expérience quelconque dépend de nombreux
facteurs, notamment de l’homogénéité du matériel expérimental, du nombre de traitements, du degré
de précision requis etc… En règle général, on pourrait postuler que le nombre de répétitions dans un
plan doit fournir au moins dix à quinze degrés de liberté, pour calculer la variance de l’erreur
expérimentale.
- 71 -
Plan et analyse d’expériences
Pour résumer, on peut dire qu’alors que la randomisation vise à éliminer une erreur systématique (ou
biais) dans l’allocation et, partant, à ne laisser qu’un élément de variation d’erreur aléatoire, les deux
autres méthodes, à savoir la répétition et le contrôle local, tentent de maintenir cette erreur aléatoire à
un niveau aussi faible que possible. Les trois principes sont cependant essentiels pour faire une
estimation valable de la variance de l’erreur et garantir la validité du test de signification.
Dans un plan expérimental entièrement randomisé (PER), les traitements sont attribués complètement
au hasard de sorte que chaque unité expérimentale a la même chance de recevoir un traitement
donné quel qu’il soit. Dans un PER, toute différence entre les unités expérimentales soumises au
même traitement est considérée comme une erreur expérimentale. En conséquence, le PER n’est
approprié que pour les expériences ayant des unités expérimentales homogènes, telles que les essais
en laboratoire, dans lesquelles il est relativement facile de maîtriser les effets dus à l’environnement.
Le PER est rarement utilisé pour les essais en champs, où il existe une grande variation entre les
parcelles expérimentales, par exemple au niveau de facteurs comme les sols. .
*Etape 1. Déterminer le nombre total de parcelles expérimentales (n), comme produit du nombre de
traitements (t) et du nombre de répétitions (r); c’est-à-dire, n = rt. Dans notre exemple, n =
5 x 4 = 20. Dans ce cas, un pot contenant une seule plante sera considéré comme une
parcelle. Si le nombre de répétitions n’est pas le même pour tous les traitements, on
obtiendra le nombre total de pots expérimentaux en faisant la somme des répétitions de
chaque traitement :
t
n= ∑ ri où ri est le nombre de répétitions du ième traitement
i =1
*Etape 2. Attribuer un numéro à chaque parcelle expérimentale, selon une quelconque méthode
appropriée, par exemple, en utilisant des suites de chiffres de 1 à n.
*Etape 3. Allouer au hasard les traitements aux parcelles expérimentales, en utilisant une table de
nombres aléatoires de la manière suivante. Tirer un point de départ dans une table de
nombres aléatoires (voir Annexe 6), en pointant le doigt sur un endroit quelconque de la
page, les yeux fermés. En l’espèce, nous supposerons que le point de départ est tombé à
l’intersection du sixième rang et de la douzième colonne de nombres à deux chiffres. A partir
de ce point de départ, lire la colonne en descendant pour obtenir n = 20 nombres aléatoires
différents à deux chiffres. Dans notre exemple, en partant de l’intersection du sixième rang et
de la douzième colonne, ces 20 nombres sont indiqués ci-dessous, avec leur ordre
d’apparition.
- 72 -
Plan et analyse d’expériences
Nombre aléatoire : 37, 80, 76, 02, 65, 27, 54, 77, 48, 73,
Ordre d’apparition : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
Nombre aléatoire : 86, 30, 67, 05, 50, 31, 04, 18, 41, 89
Ordre d’apparition : 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
Rangez les n nombre aléatoires obtenus par ordre croissant ou décroissant. Dans notre
exemple, les 20 nombres aléatoires sont rangés du plus petit au plus grand, comme indiqué
dans le tableau suivant :
Diviser les n rangs obtenus en t groupes, contenant chacun r nombres, suivant l’ordre dans
lequel sont apparus les nombres aléatoires. Dans notre exemple, les 20 rangs sont divisés en
quatre groupes, dont chacun est constitué de cinq nombres :
- 73 -
Plan et analyse d’expériences
Figure 4.1. Schéma-type d’un plan d’expérience entièrement randomisé, comportant quatre
traitements (A, B, C et D), répétés cinq fois.
Parcelle N° 1 2 3 4
Traitement D A B B
5 6 7 8
B D D A
9 10 11 12
C A C C
13 14 15 16
A A B C
17 18 19 20
D B C D
L’un des avantages majeurs d’un PER est que son analyse de variance se calcule facilement, surtout
si le nombre de répétitions n’est pas uniforme pour tous les traitements. Pour la plupart des autres
plans, l’analyse de variance se complique lorsque la perte de données dans certaines parcelles
entraîne des disparités dans les répétitions des traitements testés.
Nous allons voir ci-dessous les étapes de l’analyse de variance des données provenant d’une
expérimentation relative à un PER comportant un nombre de répétitions non uniforme. Les formules
peuvent être adaptées facilement en cas de répétitions égales, de sorte qu’elles ne sont pas décrites à
part. Pour illustrer cette démonstration, on a utilisé des données provenant d’un essai en laboratoire,
dans lequel les observations portaient sur la croissance du mycelium de différents isolats de
Rizoctonia solani, sur milieu de culture PDA (Tableau 4.1).
*Etape 1. Regrouper les données par traitements et calculer les totaux des traitements (Ti) et le total
général (G). Les résultats de notre exemple sont indiqués dans le Tableau 4.1.
- 74 -
Plan et analyse d’expériences
Tableau 4.1. Croissance du mycélium, en diamètre (mm), de la colonie d’isolats de R. solani, sur
milieu de culture PDA, après 14 heures d’incubation
Tableau 4.2. Schéma de l’analyse de variance d’un PER, avec répétitions inégales
Source de Degrés de Somme des Carré moyen Valeur
variation liberté carrés SS calculée de
(df) (SS) MS = F
df
*Etape 3. Avec les totaux des traitements (Ti) et le total général (G) du Tableau 4.1, calculer comme
suit le facteur de correction et les différentes sommes des carrés. Supposons que yij
représente l’observation du jème milieu PDA appartenant au ième isolat; i = 1, 2, …, t ; j =
1, 2, …, ri..
G2
C. F. = (4.1)
n
(446) 2
=
13
= 15301.23
t ri
[ ]
= ( 29.0) 2 + ( 28.0) 2 +...+( 31.0) 2 − 15301.23
= 789.27
- 75 -
Plan et analyse d’expériences
t
Ti 2
SST = ∑ − C. F. (4.3)
i = 1 ri
( 86) 2 ( 94) 2 ( 65.5) 2
= + +...+ − 15301.23
3 3 2
= 762.69
*Etape 4. Entrer toutes les valeurs des sommes des carrés dans le tableau d’analyse de la variance
et calculer les carrés moyens et la valeur de F comme indiqué dans le Tableau 4.2
*Etape 5. Prendre dans l’Annexe 3 les valeurs tabulaires de F, avec f 1 et f 2 degrés de liberté, où f 1
= df du traitement = (t - 1) et f 2 = df de l’erreur = (n – t), respectivement. Dans notre
exemple, la valeur tabulaire de F, avec f 1 = 4 et f 2 = 8 degrés de liberté est de 3.84, au seuil
de signification de 5%. Ces résultats sont consignés dans le Tableau 4.3.
Tableau 4.3. Analyse de la variance des données du Tableau 4.1 sur la croissance du mycélium.
Source de Degré de Somme des Carré Valeur de F Valeur
variation liberté carrés moyen calculée tabulaire
de F
5%
Traitement 4 762.69 190.67 57.38* 3.84
Erreur 8 26.58 3.32
Total 12 789.27
* Significatif au seuil de 5%
Une valeur non significative de F dans l’analyse de variance indique que l’expérience n’a pas réussi à
détecter de différence entre les traitements. Elle ne prouve en aucun cas que tous les traitements sont
les mêmes car la non détection d’une différence entre les traitements, attestée par une valeur non
significative du critère F, pourrait s’expliquer par une différence nulle ou minime, ou par une erreur
expérimentale importante, ou encore par ces deux facteurs. Ainsi, dans tous les cas où la valeur de F
n’est pas significative, le chercheur devrait examiner l’ampleur de l’erreur expérimentale et les
- 76 -
Plan et analyse d’expériences
différences numériques entre les moyennes des traitements. Si ces deux valeurs sont grandes, il est
conseillé de refaire l’essai et de tenter de réduire l’erreur expérimentale pour que les éventuelles
différences entre les traitements puissent être détectées. En revanche, si les deux valeurs sont petites,
les différences entre les traitements sont probablement trop faibles pour avoir une signification
économique, si bien qu’il n’est pas nécessaire de faire de nouveaux essais.
Dans notre exemple, la valeur calculée de F (57.38) est supérieure à sa valeur tabulaire (3.84) au
seuil de signification de 5%. Les différences entre les traitements sont donc significatives. En d’autres
termes, les probabilités que toutes les différences observées entre les cinq moyennes des traitements
soient dues au hasard sont inférieures à 5 pour cent. On notera qu’une valeur significative de F
confirme l’existence de quelques différences entre les traitements testés, mais ne précise pas pour
quelle(s) paire(s) de traitements spécifiques la différence est significative. Ces informations
s’obtiennent grâce aux procédures de comparaison des moyennes examinées dans la Section 4.2.3.
MSE
cv = (100) (4.6)
Moyenne générale
3.32
cv = (100) = 5.31%
34.31
Le cv affecte le degré de précision des comparaisons entre les traitements et donne une bonne
indication de la fiabilité de l’expérience. C’est une expression de l’erreur expérimentale totale, en
pourcentage de la moyenne totale ; Ainsi, plus la valeur de cv est grande, moins l’expérience est
fiable. Le cv varie considérablement suivant le type d’expérience, la plante cultivée, et les caractères
mesurés. Toutefois, un chercheur expérimenté peut relativement bien juger de l’acceptabilité d’une
valeur spécifique du cv pour un type d’expérience donné. Les résultats d’expériences donnant un cv
supérieur à 30% sont sujets à caution.
- 77 -
Plan et analyse d’expériences
Deux traitements présentent donc des différences significatives à un seuil de signification prescrit si
leur différence est supérieure à la valeur calculée de la PPDS. Dans le cas contraire, leurs différences
sont considérées comme non significatives.
Si le test PPDS est tout à fait approprié pour les plans de comparaisons appariées, il ne permet pas
de comparer toutes les paires de moyennes possibles, surtout si le nombre de traitements est grand.
En effet, le nombre de paires de moyennes de traitements possibles augmente rapidement avec le
nombre de traitements. La probabilité qu’au moins une paire ait une différence supérieure à la valeur
de la PPDS, et uniquement due au hasard, augmente avec le nombre de traitements testés. Par
exemple, dans les expériences où il n’existe pas de différence réelle entre toutes les traitements, il est
possible de démontrer que la différence numérique entre la plus grande et la plus petite moyenne des
traitements devrait être supérieure à la valeur de la PPDS, au seuil de signification de 5%, 29 fois sur
cent dans le cas de 5 traitements, 63 fois sur cent dans le cas de 10 traitements, et 83 fois sur cent
dans le cas de 15 traitements. On évitera donc de recourir au test PPDS pour comparer toutes les
paires de moyennes possibles. Dans les cas où ce test s’applique, on ne l’utilisera que si le critère F
relatif à l’effet des traitements est significatif et si le nombre de traitements n’est pas trop élevé
(inférieur à six).
La procédure d’application du test PPDS pour comparer deux traitements quelconques – par
exemple le traitement i et le traitement j, se déroule en plusieurs étapes :
*Etape 3. Comparer la différence moyenne calculée au cours de l’étape 1 avec la valeur de la PPDS
calculée au cours de l’étape 2. Si la valeur absolue de dij est supérieure à la valeur de la
PPDS, conclure que les différences entre les traitements i et j sont significatives au seuil de
signification α ,.
Lorsque l’on applique cette procédure, il est important d’identifier l’erreur-type appropriée de la
différence moyenne (sd ), applicable à la paire de traitements que l’on veut comparer. La méthode
varie en fonction du plan d’expérience utilisé, du nombre de répétitions des deux traitements soumis
à la comparaison et du type spécifique de moyennes que l’on comparera. Dans le cas d’un PER,
lorsque les deux traitements n’ont pas le même nombre de répétitions, sd se calcule comme suit:
1 1
sd = s2 ( + ) (4.9)
ri rj
- 78 -
Plan et analyse d’expériences
Nous illustrerons ceci par un exemple, à l’aide des données du Tableau 4.1. Le chercheur veut
comparer les cinq isolats de R. solani, en particulier la croissance de leur mycélium sur milieu PDA.
Pour appliquer le test PPDS, on procèdera par étapes, de la manière suivante :
*Etape 1. Calculer la différence moyenne entre chaque paire de traitements (isolats) comme indiqué
dans le Tableau 4.4.
*Etape 2. Calculer la valeur de la PPDS, au seuil de signification α. Etant donné que certains
traitements sont répétés trois fois et d’autres deux fois, il faut calculer trois ensembles de
valeurs de la PPDS.
Pour comparer deux traitements comportant chacun trois répétitions, la valeur de la PPDS
se calcule comme suit.
2( 3.32)
LSD.05 = 2.31 = 3.44 mm
3
où la valeur de s2 = 3.32 est dérivée du Tableau 4.3 et la valeur de la distribution de Student t
(2.31), pour 8 degrés de liberté, au seuil de signification de 5% est extraite de l’Annexe 2.
Pour comparer deux traitements répétés trois fois chacun, calculer la valeur de la PPDS,
comme suit :
2( 3.32 )
LSD.05 = 2.31 = 4.21 mm
2
Pour comparer deux traitements dont un est répété deux fois et l’autre trois fois, la valeur de
la PPDS est
LSD.05 = 2.31 3.32( 1 / 3 + 1 / 2)
= 3.84 mm
*Etape 3. Comparer la différence entre chaque paire de traitements calculée à l’Etape 1 aux valeurs
correspondantes de la PPDS calculées à l’étape 2, et placer la notation appropriée
(astérisque, ns ou absence d’indication). Par exemple, la différence moyenne entre le
premier traitement (comportant trois répétitions) et le deuxième traitement (trois répétitions)
est de 2.66 mm. Etant donné que la différence moyenne est inférieure à la valeur de la PPDS
correspondante (3.44 mm), elle est non significative au seuil de signification de 5%. Par
ailleurs, la différence moyenne entre le premier traitement (trois répétitions) et le deuxième
(deux répétitions) est de 4.05 mm. Etant donné que la différence moyenne est supérieure à la
valeur de la PPDS correspondante (3.84), elle est significative au seuil de 5%, ce que l’on
indiquera par un astérisque. Les résultats du test, pour toutes les paires de traitements, sont
indiqués dans le Tableau 4.4.
- 79 -
Plan et analyse d’expériences
Tableau 4.4. Comparaison entre le diamètre moyen (en mm) de chaque paire de traitements, à l’aide
du test PPDS, avec des répétitions non uniformes, pour les données du Tableau 4.1.
Traitement RS 1 RS 2 RS 3 RS 4 RS 5
RS 1 0.00 2.66 0.42 19.33* 4.05*
(3.44) (3.84) (3.44) (3.84)
RS 2 0.00 3.08 16.67* 1.39
(3.84) (3.44) (3.84)
RS 3 0.00 19.75* 4.47*
(3.84) (4.21)
RS 4 0.00 15.28*
(3.84)
RS 5 0.00
* Significative au seuil de 5%
Note: Les valeurs indiquées entre parenthèses sont les valeurs de la PPDS
Avant de passer à la section suivante, nous mentionnerons un point qui peut être utile pour
déterminer le nombre de répétitions à pratiquer pour qu’une expérience soit “raisonnablement ”
fiable. Le principe est que le nombre de répétitions doit être tel que les degrés de liberté de l’erreur
soient de l’ordre de 12. En effet, les valeurs critiques dérivées de certaines distributions, notamment
des lois de Student ou des distributions de F, se stabilisent pratiquement après 12 degrés de liberté,
ce qui confère une certaine stabilité aux conclusions tirées de ces expériences. Par exemple, si l’on
planifie un PER dans lequel les traitements t sont répétés un nombre de fois égal, on identifiera le df
de l’erreur de t(r-1) à 12 et on calculera r pour des valeurs connues de t. Des stratégies similaires
peuvent être suivies pour de nombreux autres plans qui sont expliqués dans les sections suivantes.
Le plan expérimental en blocs aléatoires complets (PEBAC) est l’un des dispositifs les plus
largement utilisés en recherche forestière. Il se prête généralement à des expériences en champs dans
lesquels le nombre de traitements est peu important et où il existe un facteur évident pouvant servir
de base pour identifier des ensembles homogènes d’unités expérimentales. Le PEBAC se caractérise
principalement par la présence de blocs de taille égale, dont chacun contient tous les traitements.
Dans un dispositif par blocs, l’idéal est d’utiliser une source de variation grande et hautement
prévisible, telle que l’hétérogénéité du sol, dans un essai d’engrais ou de provenance dans lequel le
rendement est le principal caractère sur lequel on cherche à obtenir des informations. Dans le cas
- 80 -
Plan et analyse d’expériences
d’expériences de ce genre, après avoir identifié la source spécifique de variabilité qui servira de
critère pour les blocs, il faut choisir la taille et la forme des blocs pour maximiser la variabilité entre
ceux-ci. Les principes directeurs de cette décision sont les suivants : i) si le gradient est
unidirectionnel (c’est-à-dire s’il y a un seul gradient), les blocs seront longs et étroits, et orientés de
façon à ce que leur longueur soit perpendiculaire à la direction du gradient ; ii) si le gradient de
fertilité va dans deux directions, avec un gradient beaucoup plus fort que l’autre, on ignorera le plus
faible et l’on suivra les directives qui viennent d’être données pour le gradient unidirectionnel ; iii) si le
gradient de fertilité va dans deux directions, et si les deux gradients ont la même force et sont
perpendiculaires l’un par rapport à l’autre, on choisira des blocs aussi carrés que possible ou
d’autres types de plans comme le carré latin (Gomez et Gomez, 1980).
Si l’on utilise cette technique, la définition des blocs et l’objet de leur utilisation doivent être
compatibles tout au long de l’expérience. Cela signifie que dans tous les cas où il existe une source
de variation sur laquelle le chercheur ne peut pas agir, on veillera à ce que cette variation se produise
entre des blocs plutôt qu’à l’intérieur d’un même bloc. Par exemple, s’il est impossible de mener à
leur terme en un seul jour certaines opérations comme l’application d’insecticides ou la collecte de
données, pour toute l’expérience, celles-ci devront être achevées en une journée sur toutes les
parcelles d’un même bloc. De cette manière, la variation entre les jours (qui peut être renforcée par
des facteurs météorologiques) devient un élément de la variation du bloc et se trouve par conséquent
exclue de l’erreur expérimentale. Si, dans le cadre de l’essai, plusieurs chercheurs doivent prendre
des mesures, le même observateur sera chargé de prendre des mesures sur toutes les parcelles d’un
même bloc. Ainsi, l’éventuelle variation entre les observateurs constituera un élément de la variation
du bloc et non de l’erreur expérimentale.
*Etape 1. Diviser la surface expérimentale en r blocs égaux, r étant le nombre de répétitions, suivant
la technique des blocs décrite dans la Section 4.3.1. Dans notre exemple, la surface
expérimentale est divisée en trois blocs, comme dans la Figure 4.2. Nous supposerons qu’il
y a un gradient de fertilité unidirectionnel sur le côté long du champ d’expérimentation, de
sorte que le bloc est rectangulaire et perpendiculaire à la direction du gradient.
- 81 -
Plan et analyse d’expériences
Figure 4.2. Division d’une surface expérimentale en trois blocs constitués de six parcelles chacun,
pour un Plan expérimental en blocs aléatoires complets, comportant six traitements et trois
répétitions. Les blocs sont rectangulaires et disposés perpendiculairement à la direction du gradient
unidirectionnel (indiqué par une flèche).
Gradient
Figure 4.3. Numérotage des parcelles et allocation aléatoire des six traitements (A,
B, C, D, E, et F) aux six parcelles du Bloc I.
1
C
2
D
3
F
4
E
5
B
6
A
Bloc I
*Etape 3. Répéter toute la phase 2 pour chacun des blocs restants. En ce qui concerne notre
exemple, la disposition finale est illustrée à la Figure 4.4.
- 82 -
Plan et analyse d’expériences
Figure 4.4. Schéma-type d’un plan expérimental en blocs aléatoires complets, avec six traitements
(A, B, C, D, E et F) et trois répétitions.
1 7 13
C A F
2 8 14
D E D
3 9 15
F F C
4 10 16
E C A
5 11 17
B D B
6 12 18
A B E
Bloc I Bloc II Bloc III
Nous illustrerons les étapes de l’analyse de la variance applicable à un PEBAC, à l’aide des données
d’une expérience consistant à comparer la circonférence à hauteur de poitrine (gbh) d’arbres de huit
provenances de Gmelina arborea, six ans après leur plantation (Tableau 4.5).
Tableau 4.5. Gbh moyenne (en cm) des arbres dans des parcelles de différentes provenances de
Gmelina arborea, 6 ans après la plantation, dans une expérience en champ relevant d’un PEBAC.
Traitement Total des Moyenne
(Provenance) Répétition traitements des
traitements
I II III (Ti)
1 30.85 38.01 35.10 103.96 34.65
2 30.24 28.43 35.93 94.60 31.53
3 30.94 31.64 34.95 97.53 32.51
4 29.89 29.12 36.75 95.76 31.92
5 21.52 24.07 20.76 66.35 22.12
6 25.38 32.14 32.19 89.71 29.90
7 22.89 19.66 26.92 69.47 23.16
8 29.44 24.95 37.99 92.38 30.79
Total répét. (Rj) 221.15 228.02 260.59
Total général 709.76
(G) Moyenne 29.57
générale
- 83 -
Plan et analyse d’expériences
*Etape 1. Regrouper les données par traitement et par répétition et calculer les totaux des
traitements, (Ti), des répétitions (Rj) et le total général (G), comme indiqué dans le Tableau
4.5.
*Etape 3. Calculer le facteur de correction et les différentes sommes des carrés (SS) mentionnées
dans le tableau ci-dessus. Notons yij l’observation du i-ème traitement faite dans le jème
bloc; i = 1,…,t ; j = 1,…,r.
G2
CF = (4.10)
rt
( 709.76) 2
= = 20989.97
( 3)( 8)
t r
SSTO = ∑∑ y 2
ij − C. F. (4.11)
i =1 j =1
[
= ( 30.85) 2 + ( 38.01) 2 + ... + ( 37.99) 2 − 20989.97 ]
= 678.42
r
∑ R2j
j =1
SSR = − C.F. (4.12)
t
( 221.15) 2 + ( 228.02 ) 2 + ( 260.59) 2
= − 20989.97
8
= 110.98
t
∑ Ti 2
i =1
SST = − C. F. (4.13)
r
( 103.96) 2 + ( 94.60) 2 + ... + ( 92.38) 2
= − 20989.97
3
- 84 -
Plan et analyse d’expériences
= 426.45
- 85 -
Plan et analyse d’expériences
*Etape 4. A partir des sommes des carrés obtenues, calculer le carré moyen et la valeur de F pour
tester les différences des traitements, comme indiqué dans le Tableau 4.6. Les résultats sont
reportés dans le Tableau 4.7.
Tableau 4.7 Analyse de la variance des données sur la gbh figurant dans le Tableau 4.5.
Source de Degré de Somme des Carré F calculé F
variation liberté carrés moyen tabulaire
5%
Répétition 2 110.98 55.49
Traitement 7 426.45 60.92 6.05* 2.76
Erreur 14 140.98 10.07
Total 23 678.42
*Significative au seuil de 5%
- 86 -
Plan et analyse d’expériences
2s 2
sd = (4.17)
r
2
où s est le carré moyen dû à l’erreur et r le nombre de répétitions.
Pour illustrer ceci par un exemple, nous allons poursuivre l’analyse conduite pour les données du
Tableau 4.5 et comparer ainsi toutes les paires de traitements possibles à l’aide du test de la PPDS.
*Etape 1. Calculer la différence entre les moyennes des traitements comme indiqué dans le Tableau
4.8.
Tableau 4.8. Différence entre la gbh moyenne (en cm) pour chaque paire de traitements d’après les
données du Tableau 4.4.
Traitement 1 2 3 4 5 6 7 8
1 0.00 3.12 2.14 2.73 12.53* 4.75 11.49* 3.86
2 0.00 0.98 0.39 9.41* 1.63 8.37* 0.74
3 0.00 0.59 10.39* 2.61 9.35* 1.72
4 0.00 9.8* 2.02 8.76* 1.13
5 0.00 7.78* 1.04 8.67*
6 0.00 6.74* 0.89
7 0.00 7.63*
8 0.00
* Significative au seuil de 5%
*Etape 2. Calculer la valeur de la PPDS au seuil de signification α. Etant donné que tous les
traitements sont répétés le même nombre de fois, il suffit de calculer une seule valeur de la
PPPDS. Celle-ci s’obtient à l’aide des équations (4.16) et (4.17).
2( 10.07)
LSD.05 = 2.14 = 5.54 cm
3
*Etape 3. Comparer la différence entre les moyennes des traitements avec la valeur calculée de la
PPDS et marquer d’un astérisque les différences significatives. Les résultats sont reportés
dans le Tableau 4.8.
- 87 -
Plan et analyse d’expériences
broutée par des animaux errants ou vandalisée par des voleurs, les données manquantes doivent être
déclarées comme il convient. En revanche, si dans un essai d’insecticides, par exemple, une parcelle
témoin (non traitée) est totalement détruite par des insectes, ce dommage est la conséquence logique
de l’absence de traitement. Ainsi, les données correspondantes sur cette parcelle devraient être
reconnues comme valides (rendement nul si tous les arbres de la parcelle sont détruits, ou faible si
quelques plants ont survécu), et non pas considérées comme manquantes.
L’apparition de données manquantes a deux conséquences majeures : des informations sont perdues
et l’analyse de variance standard n’est pas applicable. Lorsqu’une expérience comporte une ou
plusieurs observations manquantes, les procédures de calcul standard de l’analyse de variance ne
s’appliquent plus, sauf pour le PER. Dans ces situations, il est possible d’utiliser la technique de
formulation d’une donnée manquante qui permet d’estimer une observation manquante unique à
l’aide d’une formule adaptée au plan d’expérience concerné. Cette estimation est insérée à la place
de la donnée manquante et l’ensemble de données ainsi complété est ensuite soumis à l’analyse de
variance standard, légèrement modifiée.
On notera que l’estimation d’une donnée manquantes obtenue grâce à cette technique ne donne pas
d’information supplémentaire ; aucune manipulation statistique ne permet de récupérer une donnée
une fois qu’elle est perdue. L’objet de cette procédure est simplement de permettre au chercheur de
faire les calculs habituels de l’analyse de la variance (comme si les données étaient complètes), sans
recourir aux procédures plus complexes nécessaires pour des ensembles de données incomplets.
Dans un plan expérimental en blocs aléatoires complets comprenant une seule valeur manquante,
celle-ci est estimée par la relation:
rB + tT0 − G0
y= 0 (4.18)
( r − 1)( t − 1 )
où y = estimation de la donnée manquante
t = Nombre de traitements
r = Nombre de répétitions
B0 = Total des valeurs observées de la répétition dans laquelle se trouve la donnée manquante
T0 = Total des valeurs observées du traitement dans lequel se trouve la donnée manquante
G0 = Total général de toutes les valeurs observées
La donnée manquante est remplacée par la valeur calculée de y et la procédure de calcul habituelle,
légèrement modifiée, de l’analyse de variance est appliquée à l’ensemble de données complété.
La procédure est illustrée à l’aide des données du Tableau 4.5. La donnée manquante est supposée
être la valeur du sixième traitement (sixième provenance) dans la répétition II (voir Tableau 4.9). Les
étapes du calcul de l’analyse de variance et des comparaisons appariées des moyennes de
traitements sont les suivantes :
*Etape 1. Estimer la valeur manquante à l’aide de l’équation (4.18) et les valeurs des totaux du
Tableau 4.9.
3(195.88) + 8(57.57) − 677.62
y= = 26.47
(3 − 1)(8 − 1)
- 88 -
Plan et analyse d’expériences
*Etape 2. Remplacer la donnée manquante du Tableau 4.9 par sa valeur estimée, calculée dans
l’étape 1, comme indiqué dans le Tableau 4.10 et effectuer l’analyse de variance de
l’ensemble de données augmenté, sur la base de la procédure standard de la Section 4.3.3.
Tableau 4.10. Données du Tableau 4.7 - la donnée manquante est remplacée par la valeur estimée
par la technique de formulation de la donnée manquante.
Traitement Total des
(Provenance) Répétition traitements
Rep. I Rep II Rep. III (T)
1 30.85 38.01 35.1 103.96
2 30.24 28.43 35.93 94.6
3 30.94 31.64 34.95 97.53
4 29.89 29.12 36.75 95.76
5 21.52 24.07 20.76 66.35
6 25.38 26.47a 32.19 84.04
7 22.89 19.66 26.92 69.47
8 29.44 24.95 37.99 92.38
Total rép. (R) 221.15 222.35 260.59
Total général 704.09
(G)
a
Donnée manquante estimée par la technique de formulation de la donnée manquante
- 89 -
Plan et analyse d’expériences
B=
[B 0 ]
− ( t − 1 )y
2
(4.19)
t( t − 1 )
=
[195.88 − (8 − 1)(26.47)] 2
8(8 − 1)
= 2.00
et soustraire la valeur calculée de B ( 2.00) de la somme des carrés des traitements et de la somme
totale des carrés. Dans notre exemple, la SSTO et la SST calculées dans l’étape 2 à partir des
données augmentées du Tableau 4.10, sont respectivement de 680.12 et de 432.09. En soustrayant
la valeur de B ( 2.00) de ces valeurs de SS, on obtient la SST et la SSTO ajustées:
SST ajustée = 432.09 - 2.00
= 430.09
Tableau 4.11. Analyse de la variance des données du Tableau 4.7, avec une valeur manquante
estimée par la technique de formulation d’une donnée manquante.
Source de Degré de Somme des Carré F F
liberté carrés tabulaire
variation moyen calculé 5%
Répétition 2 125.80 62.90 6.69
Traitement 7 430.09 61.44 6.53* 2.83
Erreur 13 122.23 9.40
Total 22 678.12
* Significative au seuil de 5%
*Etape 4. Pour les comparaisons par paire de moyennes de traitements, dont l’un contient une
donnée manquante, calculer l’erreur-type de la différence moyenne sd :
2 t
sd = s2 +
r(r - 1)(t - 1)
(4.20)
r
où s2 est le carré moyen de l’erreur fournit par l’analyse de variance de l’étape 3, r le nombre de
répétitions et t le nombre de traitements.
Par exemple, pour comparer la moyenne du sixième traitement (auquel manque une donnée) avec
celle d’un quelconque autre traitement, sd se calcule comme suit :
- 90 -
Plan et analyse d’expériences
2 8
sd = 9.40 + = 2.84
3 (3)(2)(7)
Cette valeur de sd peut être utilisée pour calculer les valeurs de la PPDS. La méthode de calcul des
valeurs de la PPDS est indiquée ci-dessous. Si l’on prend t v comme valeur tabulaire de t pour 13 df
au seuil de signification de 5% (voir Annexe 3), les valeurs de la PPDS servant pour comparer la
moyenne du sixième traitement avec toute autre moyenne de traitement se calculent de la manière
suivante:
LSDα = t v; a sd (4.21)
LSD.05 = (2.16)(2.84) = 6.13
Dans toute expérience, une ou plusieurs variables de réponse peuvent être affectées par un certain
nombre de facteurs dans le système global, dont certains sont maîtrisés ou maintenus aux niveaux
voulus dans l’expérience. Une expérience dans laquelle les traitements sont constitués de toutes les
combinaisons possibles de deux ou plusieurs facteurs, aux niveaux sélectionnés, est appelé plan
d’expérience factoriel. Par exemple, une expérience sur l’enracinement des boutures englobant deux
facteurs, mesurés à deux niveaux – par exemple deux hormones à deux dosages différents – est une
expérience factorielle 2 x 2 ou 22. Les traitements sont constitués des quatre combinaisons possibles
de chacun des deux facteurs, aux deux niveaux considérés.
On utilise parfois l’expression expérience factorielle complète lorsque les traitements comprennent
toutes les combinaisons des niveaux sélectionnés des facteurs, mais l’expression expérience
factorielle fractionnée ne s’applique que le test ne porte que sur une fraction de toutes les
combinaisons. Toutefois, pour simplifier, les expériences factorielles complètes seront, tout au long
de ce manuel, appelées simplement expériences factorielles. On notera que le terme factoriel se
réfère au mode de constitution spécifique des traitements et n’a rien à voir avec le plan décrivant le
dispositif expérimental. Par exemple, si l’expérience factorielle 22 dont nous avons parlé plus haut fait
partie d’un plan d’expérience en blocs aléatoires complets, l’expérience devrait être définie par
l’expression expérience factorielle 22 dans un plan en blocs aléatoires complets.
Dans un plan d’expérience factoriel, le nombre total de traitements est égal au produit du nombre de
niveaux de chaque facteur; dans l’exemple factoriel 22 , le nombre de traitements est égal à 2 x 2 =
4, dans une expérience factorielle 23, le nombre de traitements est 2 x 2 x 2 = 8.
Le nombre de traitements augmente rapidement avec le nombre de facteurs ou avec les niveaux de
chaque facteur. Pour une expérience factorielle comprenant 5 clones, 4 espacements et 3 méthodes
- 91 -
Plan et analyse d’expériences
L’effet d’un facteur est la variation moyenne d’une réponse dérivant d’un changement du niveau du
facteur considéré. Cet effet est souvent appelé effet principal. Prenons pour exemple les données du
Tableau 4.12.
a1 20 30
Facteur A
a2 40 52
L’effet principal du facteur A peut être considéré comme la différence entre la réponse moyenne au
premier niveau de A et la réponse moyenne au deuxième niveau de A. Numériquement :
40 + 52 20 + 30
A= − = 21
2 2
- 92 -
Plan et analyse d’expériences
Le principal avantage d’une expérience factorielle est qu’elle permet d’obtenir plus d’informations
sur l’interaction entre les facteurs. Dans certaines expériences, on constate que la différence de
réponse entre les niveaux d’un facteur n’est pas la même à tous les niveaux des autres facteurs, ce
qui signifie qu’il existe une interaction entre les facteurs. Prenons pour exemple les données du
Tableau 4.13.
a1 20 40
Facteur A
a2 50 12
Etant donné que l’effet de A est fonction du niveau choisi pour le facteur B, il est évident qu’il existe
une interaction entre A et B.
Ces concepts peuvent être illustrés par des graphiques. La figure 4.5 montre les données de réponse
du Tableau 4.2, par rapport au facteur A pour les deux niveaux du facteur B.
Les droites b1 et b2 sont presque parallèles, ce qui indique qu’il n’y a pas d’interaction entre les
facteurs A et B.
De même, la Figure 4.6 représente les données de réponse du Tableau 4.13. Dans ce cas, on
constate que les droites b1 et b2 ne sont pas parallèles, ce qui indique une interaction entre les
facteurs A et B. Si les graphiques de ce genre sont souvent très utiles pour interpréter des
interactions significatives et signaler les résultats à des gestionnaires non qualifiés en statistique, ils ne
doivent pas constituer la seule technique d’analyse des données, car leur interprétation est subjective
et leur apparence souvent trompeuse.
- 93 -
Plan et analyse d’expériences
On notera que lorsqu’une interaction est importante, les effets principaux correspondants ont peu de
signification pratique. Pour les données du Tableau 4.13, l’effet principal estimé de A serait
50 + 12 20 + 40
A= − =1
2 2
cette valeur étant très petite, nous sommes tentés de conclure à l’absence d’effets dus à A.
Toutefois, si l’on examine les effets de A à différents niveaux du facteur B, on constate qu’il n’en est
pas ainsi. Le facteur A a un effet, mais il dépend du niveau du facteur B, ce qui veut dire qu’une
interaction significative masque souvent la signification des effets principaux. En présence d'une
interaction significative, l'expérimentateur doit ordinairement examiner les niveaux d'un facteur, par
exemple A, alors que le niveau des autres facteurs reste fixe, pour tirer des conclusions sur l’effet
principal de A.
Dans la majorité des plans d’expérience factoriels, les traitements sont trop nombreux pour qu’un
plan en blocs aléatoires puisse être efficace. Certains types de plans ont cependant été
spécifiquement mis au point pour des expériences factorielles de grande envergure, (ex : plans
factoriels avec confusion). L’utilisation de ces plans est décrite dans Das et Giri (1980).
Nous allons décrire les différentes étapes de la procédure d’analyse de la variance d’une expérience
à deux facteurs sur les bambous, avec deux niveaux d’espacements (Facteur A) et trois niveaux
d’âge à la plantation (facteur B), définis dans un PEBAC, à trois répétitions. La liste des six
combinaisons factorielles des traitements figure dans le Tableau 4.14, le dispositif expérimental est
illustré à la Figure 4.7. et les données sont rassemblées dans le Tableau 4.15.
- 94 -
Plan et analyse d’expériences
Tableau 4.14. Les combinaisons factorielles (2 x3) des traitements, avec deux niveaux
d’espacement et trois niveaux d’âge.
Age à la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
(a1) (a2)
6 (b1) a1b1 a2b1
12 (b2) a1b2 a2b2
24 (b3) a1b3 a2b3
Figure 4.7. Schéma-type d’un plan d’expérience factoriel 2 × 3 avec deux niveaux
d’espacement et trois niveaux d’âge, dans un PEBAC, avec 3 répétitions.
Répétition I Répétition II Répétition III
a2b3 a2b3 a1b2
a1b3 a1b2 a1b1
a1b2 a1b3 a2b2
a2b1 a2b1 a1b3
a1b1 a2b2 a2b1
a2b2 a1b1 a2b3
Tableau 4.15. Hauteur maximale moyenne de la tige de Bambusa arundinacea testée avec trois
variantes d’âge et deux variantes d’espacement dans un PEBAC.
Combinaison des Hauteur maximale de la tige d’une cépée (en Total
traitements cm) traitements
Rép. I Rép. II Rép. III (Tij)
a1b1 46.50 55.90 78.70 181.10
a1b2 49.50 59.50 78.70 187.70
a1b3 127.70 134.10 137.10 398.90
a2b1 49.30 53.20 65.30 167.80
a2b2 65.50 65.00 74.00 204.50
a2b3 67.90 112.70 129.00 309.60
Total répétitions (Rk) 406.40 480.40 562.80 G=1449.60
- 95 -
Plan et analyse d’expériences
*Etape 2. Calculer les totaux des traitements (Tij), les totaux des répétitions (Rk), et le total général
(G), comme indiqué dans le Tableau 4.15 et calculer SSTO, SSR, SST et SSE en suivant la
procédure décrite dans la Section 4.3.3. Notons yijk l’observation correspondant au i-ème
niveau du facteur A et au j-ème niveau du facteur B dans la k-ième répétition.
G2
C . F. = (4.22)
rab
( 1449.60) 2
= = 11674112
.
( 3)( 2)(3)
a b r
SSTO = ∑ ∑ ∑ yijk
2
− C. F . (4.23)
i = 1 j = 1 k =1
[ ]
= ( 46.50) + ( 55.90) + . . . + (129.00) 2 − 116741.12
2 2
= 17479.10
r
∑ Rk2
k =1
SSR = − C. F . (4.24)
ab
( 406.40) 2 + . . . + (562.80) 2
= − 116741.12
(2 )( 3)
= 2040.37
a b
∑ ∑ Tij2
i = 1 j =1
SST = − C .F. (4.25)
r
- 96 -
Plan et analyse d’expériences
(181.10) 2 + . . . + ( 309.60) 2
= − 116741.12
3
= 14251.87
*Etape 3. Construire le tableau à double entrée des totaux facteur A x facteur B, avec le calcul des
totaux du facteur A et les totaux du facteur B. Dans notre exemple, le tableau des totaux
Espacement x Age (AB), avec les totaux de l’espacement (A) et les totaux de l’âge (B)
calculés, est illustré au Tableau 4.18
Tableau 4.18. Tableau des totaux Espacement x Age , pour les données du Tableau 4.15.
Age Espacement Total
a1 a2 (Bj)
b1 181.10 167.80 348.90
b2 187.70 204.50 392.20
b3 398.90 309.60 708.50
Total (Ai) 767.70 681.90 G = 1449.60
*Etape 4. Calculer les trois composantes factorielles de la somme des carrés des traitements:
b
∑ Ai2
SSA = i =1 − C. F . (4.27)
rb
( 767.70) 2 + ( 681.90) 2
= − 116741.12
( 3)( 3)
= 408.98
- 97 -
Plan et analyse d’expériences
b
∑ B2j
j =1
SSB = − C. F . (4.28)
ra
( 348.90) 2 + ( 392.20) + ( 708.50) 2
= − 116741.12
( 3)( 2 )
= 12846.26
*Etape 5. Calculer le carré moyen de chaque source de variation en divisant chaque somme des
carrés par les degrés de liberté qui lui sont associés et obtenir les valeur du rapport F pour
les trois composantes factorielles, selon le schéma du Tableau 4.16.
*Etape 6. Entrer toutes les valeurs obtenues durant les Etapes 3 à 5, dans l’analyse de variance
préliminaire de l’Etape 2 en suivant les indications du Tableau 4.19.
Tableau 4.19. Analyse de variance des données du Tableau 4.15 issues d’une expérience factorielle
2 x 3 dans un PEBAC.
Source de Degré de Somme des Carré F calculé F tabulaire
variation liberté carrés moyen 5%
Répétition 2 2040.37 1020.187 8.60* 4.10
Traitement 5 14251.87 2850.373 24.07* 3.33
A 1 12846.26 6423.132 3.45 4.96
B 2 408.98 408.980 54.12* 4.10
AB 2 996.62 498.312 4.20* 4.10
Erreur 10 1186.86 118.686
Total 17 17479.10
*Significatif au seuil de 5%
*Etape 7. Comparer chaque valeur calculée de F avec la valeur tabulaire de F figurant l’Annexe 3,
avec f 1 = df du MS du numérateur et f 2 = df du MS du dénominateur, au seuil de
signification voulu. Par exemple, la valeur calculée de F relative à l’effet principal du facteur
A est comparée avec les valeurs tabulaires de F (avec f 1=1 et f 2=10 degrés de liberté) de
4.96, au seuil de signification de 5%. Le résultat indique que l’effet principal du facteur A
(espacement) n’est pas significatif au seuil de 5%.
- 98 -
Plan et analyse d’expériences
La moyenne de Type-(1) est une moyenne de 3r observations, celle de Type-(2) est une moyenne
de 2r observations et celles de Type-(3) ou de Type-(4) sont des moyennes de r observations.
(
Ainsi, la formule sd = 2s2 / r )1/2 n’est appropriée que pour la différence moyenne mettant en jeu
des moyennes de Type-(3) ou de Type-(4). Dans les moyennes de Type-(1) et de Type-(2), le
diviseur r de la formule doit être remplacé respectivement par 3r et 2r. Autrement dit, pour
comparer deux moyennes de A, calculées sur la base de tous les niveaux du facteur B, la valeur sd
(
se calcule selon la relation sd = 2 s2 / 3r )1/2 et pour comparer toute paire de moyennes de B,
calculée sur la base de tous les niveaux du facteur A, la formule de calcul de la valeur sd est
*Etape 1.Calculer l’erreur-type de la différence moyenne d’après la formule applicable pour une
comparaison de Type-(3)
2 Erreur MS
sd = (4.31)
r
2( 118.686)
= = 8.89 cm
3
où la valeur du MS de l’erreur ( 118.686) est extraite de l’analyse de variance du Tableau 4.19.
*Etape 2. Tirer de l’Annexe 2 la valeur tabulaire de t value pour df de l’erreur (10 df), soit 2.23 au
seuil de signification de 5% et calculer la PPDS, à l’aide de l’expression,
( )( )
LSDα = t v ; α sd = ( 2 .23)( 8.89) = 19.82 cm
- 99 -
Plan et analyse d’expériences
*Etape 3. Dresser le tableau à deux entrées des moyennes du produit de l’espacement x Age,
comme indiqué dans le Tableau 4.20. Pour chaque paire de niveaux d’espacement à
comparer au même niveau d’âge, calculer la différence moyenne et la comparer avec la
valeur de la PPDS obtenue durant l’Etape 2. Par exemple, la différence moyenne de hauteur
de la tige entre deux niveaux d’espacement, à l’âge de 12 mois à la plantation, est égale à
5,6 cm. Etant donné que cette valeur est inférieure à la valeur de la PPDS au seuil de
signification de 5%, la différence n’est pas significative.
Tableau 4.20. Tableau des moyennes Espacement x Age de la hauteur des tiges,
sur la base des données du Tableau 4.15
Age à la plantation Espacement (en m)
(en mois) 10 m x 10 m 12 m x 12m
Hauteur moyenne de la tige (en cm)
6 60.37 55.93
12 62.57 68.17
24 132.97 103.20
Dans un plan d’expérience factoriel, si le nombre de facteurs à tester est trop grand, il devient
impossible de tester tous les traitements factoriels à la fois dans le cadre d’une seule expérience. Il
est alors plus logique de mettre au point un plan expérimental pour tester une fraction seulement du
nombre total de traitements. Le plan factoriel fractionné (PFF) est applicable, uniquement dans le cas
d’expériences englobant un grand nombre de facteurs. Il permet de sélectionner et de tester
systématiquement une fraction seulement de l’ensemble complet de combinaisons de traitements
factoriels. Ceci entraîne malheureusement une perte d’informations sur certains effets sélectionnés au
préalable. Alors que ces pertes peuvent être importantes dans des expériences à un ou deux
facteurs, elles sont plus tolérables si les facteurs sont nombreux. Le nombre d’effets d’interaction
augmente rapidement avec le nombre de facteurs, ce qui permet une certaine flexibilité dans le choix
des effets qui devront être sacrifiés. De fait, lorsque l’on sait avant de commencer que certains effets
spécifiques sont faibles ou sans importance, la perte d’information dérivant de l’adoption d’un Plan
d’expérience factoriel fractionné est négligeable.
Dans la pratique, les effets qui sont le plus couramment sacrifiés du fait du recours au PFF sont des
interactions d’ordre élevé – de quatre facteurs ou de cinq facteurs, voire interaction de trois facteurs.
Dans la majorité des cas, à moins de disposer d’informations préalables en sens contraire, le
chercheur a intérêt à sélectionner un ensemble de traitements qui permet de tester tous les effets
principaux et les interactions de deux facteurs. En recherche forestière, le PFF sera utilisé dans des
essais exploratoires ayant pour principal objectif d’examiner les interactions entre des facteurs. Pour
ces essais, les PFF les plus appropriés sont ceux qui ne sacrifient que les interactions concernant plus
de deux facteurs.
Avec le PFF, le nombre d’effets mesurables décroît rapidement avec la diminution du nombre de
traitements à tester. Ainsi, lorsque les effets à mesurer sont nombreux, le nombre de traitements à
- 100 -
Plan et analyse d’expériences
tester, même dans le cadre d’un PFF, peut être encore trop important. Il est alors possible de
diminuer encore la taille de l’expérience en réduisant le nombre de répétitions. Bien que les PFF
sans répétition soient rarement employés dans les expériences forestières, lorsqu’on les applique à
des essais exploratoires, le nombre de répétitions requis peut être réduit au minimum.
L’autre avantage du PFF est qu’il permet de réduire la taille des blocs puisque ceux-ci ne doivent
plus nécessairement contenir tous les traitements à soumettre au test. L’homogénéité des unités
expérimentales appartenant à un même bloc peut ainsi être améliorée. La réduction de la taille des
blocs s’accompagne toutefois d’une perte d’information qui s’ajoute à celle dérivant de la diminution
du nombre de traitements. Ainsi, le PFF peut être conçu sur mesure et adapté à la majorité des plans
d’expérience factoriels. Cependant, la procédure à employer à cette fin est complexe, c’est pourquoi
nous nous limiterons ici à décrire une catégorie particulière de PFF, adaptée au cas d’essais
exploratoires dans le domaine de la recherche forestière. Les principales caractéristiques de ces
plans d’expérience spécifiques sont les suivantes : i) ils s’appliquent uniquement aux expériences
factorielles 2’’ où n, le nombre de facteurs est de 5 au minimum, ii) ils comprennent seulement la
moitié de l’ensemble complet de combinaisons de traitements factoriels, dénoté par 2n-1 ; iii) ils
permettent d’estimer la totalité des effets principaux et des interactions à deux facteurs. Pour des
plans plus complexes, le lecteur peut se référer à Das et Giri (1980).
La procédure de définition du schéma et d’analyse de variance d’un PFF 25-1 , avec un essai en
champ comportant cinq facteurs A, B, C, D et E est illustrée dans la section suivante. Les différentes
combinaisons des traitements sont désignés par les lettres a, b, c,…, pour noter la présence (ou le
niveau élevé) des facteurs A, B, C,… Ainsi, la combinaison du traitement ab, dans une expérience
factorielle 25 indique une combinaison de traitement caractérisée par un niveau élevé (ou par la
présence) des facteurs A et B et par un bas niveau (ou par l’absence) des facteurs C, D et E. En
revanche, dans une expérience factorielle 26, cette même notation (ab) se référerait à une
combinaison de traitement contenant un niveau élevé des facteurs A et B et un bas niveau des
facteurs C, D, E, et F. Dans tous les cas, le symbole (1) indiquera la combinaison de traitement
caractérisée par un bas niveau de tous les facteurs.
- 101 -
Plan et analyse d’expériences
acde, bcde, abde, de, abce, ce, ae, be, abcde, bcde, abde, de, abce, ce, ae, be,
abcd, cd, ad, bd, ac, bc, ab, 1 abcd, cd, ad, bd, ac, bc, ab, 1
Par suite de la réduction du nombre de traitements inclus dans l’expérience, il va être impossible d’
estimer l’effet ABCDE à partir de l’ensemble fractionné. Tous les effets principaux et toutes les
interactions de deux facteurs peuvent être estimés dans l’hypothèse où toutes les interactions de trois
facteurs et d’ordre plus élevé sont négligeables. La procédure peut être généralisée puisque dans une
expérience 26, , il est possible d’isoler une demie fraction en retenant les traitements accompagnés
d’un signe positif ou négatif dans le développement de (a-1)(b-1)(c-1)(d-1)(e-1)(f-1).
Le PFF est simplement un dispositif qui permet de sélectionner des traitements ayant une structure
factorielle, et les combinaisons des facteurs qui en découlent peuvent être considérées comme un
ensemble de traitements applicables à l’expérience physique qui sera définie dans un plan standard
quelconque tel que PER ou PEBAC. On trouvera à la Figure 4.8. un schéma randomisé type, pour
un PFF 25-1 avec deux répétitions faisant partie d’un PEBAC.
Figure 4.8. Schéma-type d’un PFF 25-1 avec deux répétitions faisant partie d’un PEBAC.
1 9 1 9
de ab abce acde
2 10 2 10
1 adde cd bd
3 11 3 11
acde ad be de
4 12 4 12
ae abce ad bcde
5 13 5 13
ce be ae ce
6 14 6 14
ac bc abcd 1
7 15 7 15
bcde bcd abce ac
8 16 8 16
bd cd bc be
Répétition I Répétition II
- 102 -
Plan et analyse d’expériences
totaux, pour calculer les effets principaux, des tableaux à double entrée des totaux pour les
interactions de deux facteurs, etc, en suivant la méthode illustrée dans la Section 4.4.1.
L’analyse d’un PFF 25-1 est illustrée avec des données hypothétiques issue d’un essai dont le
schéma, décrit à la Figure 4.8, est conforme à celui d’un PEBAC. La réponse aux différentes
combinaisons de traitement, mesurée par le rendement en fourrage (tonnes/ha), est reportée dans le
Tableau 4.21. Les cinq facteurs étaient liés aux différentes composantes d’un programme
d’aménagement du sol (application de matière organique, fertilisation, désherbage, irrigation et
chaulage).
*Etape 1. Dresser le tableau préliminaire de l’analyse de variance présentée dans le Tableau 4.22.
- 103 -
Plan et analyse d’expériences
*Etape 2. Déterminer le nombre de facteurs réels (k) avec deux niveaux chacun, donnant lieu à un
nombre total de traitements factoriels égal au nombre de traitements (t) inclus dans
l’expérience (2k = t). Sélectionner ensuite l’ensemble des k facteurs réels particuliers dans
l’ensemble initial de n facteurs. Les (n - k) facteurs restants sont appelés facteurs factices.
Dans notre exemple, les t = 16 combinaisons de traitements correspondent à un ensemble
complet de 2k combinaisons factorielles avec k = 4. Dans un souci de simplification, nous
dirons que les quatre premiers facteurs A, B, C et D sont les facteurs réels, E étant le facteur
factice.
Tableau 4.22. Représentation schématique de l’analyse de variance d’un PFF 25-1 à deux
répétitions, s’inscrivant dans un PEBAC.
- 104 -
Plan et analyse d’expériences
liberté de l’erreur peut être obtenu en soustrayant du degré de liberté total le degré
de liberté relatif au bloc et les effets factoriels.
*Etape 3. Ranger les t traitements dans un ordre logique, d’après les k facteurs réels, en
commençant par les traitements ayant le plus petit nombre de lettres (ab avant abc, abc
avant abcd, et ainsi de suite). Si le traitement (1) est présent dans l’ensemble de t
traitements, il est toujours le premier de la liste. Les traitements ayant le même nombre de
lettres son rangés suivant l’ordre lexicographique. Par exemple, ab est devant ac, ad devant
bc, et ainsi de suite. Toutes les lettres d’identification des traitements correspondant à des
facteurs factices sont ignorées dans le processus de classement. Dans notre exemple, le
facteur E est le facteur factice ; la combinaison ae est donc simplement notée a, de sorte
qu’elle vient avant ab. Les 16 traitements de notre exemple, classés dans cet ordre logique,
figurent dans la première colonne du Tableau 4.23. On notera que les traitements sont
énumérés systématiquement, sans tenir compte de leur allocation dans les blocs, et que le
facteur factice E est indiqué entre parenthèses.
*Etape 4. Calculer les t totaux des effets factoriels: Prendre les totaux des traitements t comme
ensemble initial ou valeurs de T0. Dans notre exemple, l’ensemble des 16 valeurs de T0,
rangées dans l’ordre logique, est reporté dans la deuxième colonne du Tableau 4.23.
Ensuite, regrouper les valeurs de T0 en deux paires successives t/2. Dans notre exemple, les
paires successives sont au nombre de 8 : la première paire est 1.42 et 1.54, la seconde est
1.56 et 1.73, et la dernière est 1.97 et 1.96. Ajouter les valeurs des deux traitements dans
chacune des paires t/2 formées. Les résultats constituent la première moitié du deuxième
ensemble, ou valeurs de T1. Dans notre exemple, la première moitié des valeurs de T1 se
calcule comme suit :
2.96 = 1.42 + 1.54
3.29 = 1.56 + 1.73
….
….
3.93 = 1.97 + 1.96
Dans chacune des t/2 paires de T0, soustraire la première valeur de la seconde pour former la moitié
basse des valeurs de T1 . Dans notre exemple, la deuxième moitié des valeurs de T1 se calcule
comme suit :
-0.12 = 1.42 - 1.54
-0.17 = 1.56 - 1.73
….
….
0.01 = 1.97 - 1.96
Les résultats de ces opérations sont reportés dans la troisième colonne du Tableau 4.23.
Refaire les opérations précédentes, en utilisant à présent les valeurs de T1 à la place des valeurs de
T0 pour dériver le troisième ensemble, ou valeurs de T2. Dans notre exemple, les résultats des
opérations appliquées aux valeurs de T1 pour obtenir les valeurs de T2 figurent dans la quatrième
colonne du Tableau 4.23. Répétez l’opération (n - 1) fois, où n est le nombre total de facteurs
- 105 -
Plan et analyse d’expériences
compris dans l’expérience. A chaque fois, utilisez les nouvelles valeurs dérivées de T. Dans notre
exemple, l’opération est répétée encore deux fois pour dériver les valeurs de T3 et de T4, reportées
dans la cinquième et la sixième colonnes du Tableau 4.23.
Tableau 4.23. Application de la méthode de Yates, pour le calcul des sommes des carrés d’un PFF
25-1 avec les données du Tableau 4.21
Traitem Identification de ( T4 ) 2
ent T0 T1 T2 T3 T4 l’effet factoriel r 2n −1
Initial Final
(1) 1.42 2.96 6.25 12.97 27.52 (G) (G) 23.667
a(e) 1.54 3.29 6.72 14.55 -1.50 A AE 0.070
b(e) 1.56 3.30 6.77 -0.87 -0.82 B BE 0.021
ab 1.73 3.42 7.78 -0.63 0.04 AB AB 0.000
c(e) 1.52 3.24 -0.29 -0.45 -1.48 C CE 0.068
ac 1.78 3.53 -0.58 -0.37 0.14 AC AC 0.001
bc 1.55 3.85 -0.39 0.11 -0.42 BC BC 0.006
abc(e) 1.87 3.93 -0.24 -0.07 0.44 ABC D 0.006
d(e) 1.57 -0.12 -0.33 -0.47 -1.58 D DE 0.078
ad 1.67 -0.17 -0.12 -1.01 -0.24 AD AD 0.002
bd 1.62 -0.26 -0.29 0.29 -0.08 BD BD 0.000
abd(e) 1.91 -0.32 -0.08 -0.15 0.18 ABD C 0.001
cd 1.80 -0.10 0.05 -0.21 0.54 CD CD 0.009
acd(e) 2.05 -0.29 0.06 -0.21 0.44 ACD B 0.006
bcd(e) 1.97 -0.25 0.19 -0.01 0.00 BCD A 0.000
abcd 1.96 0.01 -0.26 0.45 -0.46 ABCD E 0.007
*Etape 5. Identifier l’effet factoriel spécifique représenté par chacune des valeurs du dernier
ensemble (communément appelé totaux des effets factoriels) dérivées lors de l’Etape 4.
Procéder somme suit : la première valeur représente le total général (G). En ce qui concerne
les (t – 1)valeurs restantes, assignez les effets factoriels préliminaires conformément aux
lettres des traitements correspondants, en ignorant les facteurs factices.
Par exemple, la seconde valeur de T4 correspond aux combinaisons de traitement a (e), de sorte
qu’elle est assignée à l’effet principal A. La quatrième valeur de T4 correspond au traitement ab et
est assignée à l’effet de l’interaction AB, et ainsi de suite. Les résultats relatifs aux 16 traitements
sont reportés dans la septième colonne du Tableau 4.23. Pour les traitements dans lesquels intervient
le facteur factice, ajuster les effets factoriels préliminaires comme suit. Identifier tous les effets
associés au facteur factice E pouvant être estimés dans le cadre du plan. Dans notre exemple, ceux-
ci sont l’effet principal de E et la totalité de ses interactions à deux facteurs AE, BE, CE et DE.
Identifier les alias de tous les effets énumérés comme “préliminaires ”. L’alias de tout effet est défini
comme étant l’interaction généralisée de cet effet avec le contraste déterminant. L’interaction
généralisée entre deux effets factoriels quelconques s’obtient en combinant toutes les lettres qui
apparaissent dans les deux effets puis en supprimant toutes celles que l’on retrouve deux fois. Par
exemple, l’interaction généralisée entre ABC et AB est AABBC ou C. Dans notre exemple, le
contraste déterminant est ABCDE, les alias des cinq effets associés au facteurs factice E sont :
E=ABCD, AE=BCD, BE=ACD, CE=ABD et DE=ABC.
- 106 -
Plan et analyse d’expériences
Les deux effets factoriels intervenant dans chaque paire d’alias (l’un à gauche, et l’autre à droite du
signe égal) sont indissociables (ils ne peuvent pas être estimés séparément). Par exemple, pour la
première paire (E et ABCD), l’effet principal du facteur E, ne peut pas être séparé de l’effet
d’interaction ABCD. A moins que l’on sache qu’une des paires est absente, il n’y a donc aucun
moyen de savoir quelle est celle qui contribue à l’estimation obtenue.
Remplacer tous les effets factoriels préliminaires qui sont des alias des effets estimables associés au
facteur factice, par ce dernier facteur. Par exemple, étant donné que ABCD (dernier traitement du
Tableau 4.23) est l’alias de E, il est remplacé par E. De la même manière, BCDE est remplacé par
A, ACDE par B et ainsi de suite… Les résultats finaux de l’identification des effets factoriels figurent
dans la huitième colonne du Tableau 4.23.
(T )2
*Etape 6. Ajouter au Tableau 4.23 une colonne supplémentaire 4n −1 , où r est le nombre de
r2
répétitions et n le nombre de facteurs inclus dans l’expérience. La valeur de cette colonne
correspondant à G dans la colonne précédente sera le facteur de correction. Les autres valeurs de
cette colonne seront la somme des carrés correspondant aux effets identifiés dans la colonne
précédente.
*Etape 7. Calculer les SS dûs aux autres effets pour compléter l’analyse de la variance. Supposons
que yij représente la valeur obtenue avec le i- ème traitement de la j-ème répétition.
G2
C. F .= (4.32)
rt
12 .37 2
= = 23.6672
( 2)( 16)
t r
SSTO = ∑ ∑ yij2 − C. F . (4.33)
i =1 j =1
[
= ( 101 ]
. ) 2 + (1.04) 2 + . . . + ( 0.69 )2 − 23.6672
= 0.2866
r
∑ R 2j
j =1
SSR = n− 1
− C. F . (4.34)
2
( 1383
. ) + (13.69) 2
2
= − 23.6672
24
= 0.0006
t
∑ Ti2
i =1
SST = − C. F . (4.35)
r
(1.42) 2 + (1.54) 2 +.........+(1.96)
2
= − 23.6672
4
- 107 -
Plan et analyse d’expériences
= 0.2748
- 108 -
Plan et analyse d’expériences
*Etape 8. Calculer le carré moyen (MS) de chaque source de variation en divisant chaque SS par
son degré de liberté df. Ici, le MS correspondant à chaque effet factoriel sera égal à sa SS
puisque, dans chaque cas, le df de ces effets est égal à 1.
Tableau 4.24. Analyse de variance des données du Tableau 4.21 correspondant à un plan
d’expérience factoriel 25-1.
Source de Degrés de Sommes des Carrés F calculé F
variation liberté carrés moyens Tabulaire
5%
Répétition 1 0.0006 0.0006 0.86ns 4.54
A 1 0.000 0.000 0.00 ns 4.54
B 1 0.006 0.006 8.57* 4.54
C 1 0.001 0.001 1.43 ns 4.54
D 1 0.006 0.006 8.57* 4.54
E 1 0.007 0.007 10.00* 4.54
AB 1 0.000 0.000 0.00 ns 4.54
AC 1 0.001 0.001 1.43 ns 4.54
AD 1 0.002 0.002 2.86 ns 4.54
AE 1 0.070 0.070 100.00* 4.54
BC 1 0.006 0.006 8.57* 4.54
BD 1 0.000 0.000 0.00 ns 4.54
BE 1 0.021 0.021 30.00* 4.54
CD 1 0.009 0.009 12.86* 4.54
CE 1 0.068 0.068 97.14* 4.54
DE 1 0.078 0.078 111.43* 4.54
Erreur 15 0.010 0.0007
Total 31 0.2866
ns
* Significatif au seuil de 5% l, = non significatif au seuil de 5%
*Etape 11.Comparer chaque valeur calculée de F avec les valeurs tabulaires de F correspondantes,
tirées de l’Annexe 3, avec f 1 = df du MS du numérateur et f 2 = df de l’erreur. Les résultats
montrent que les effets principaux B, D et E et les interactions de deux facteurs AE, BC, BE,
CD, CE et AE sont hautement significatifs et que les effets principaux A et C et les
interactions de deux facteurs AB, AC, AD et BD ne sont pas significatives.
- 109 -
Plan et analyse d’expériences
L’expérience avec parcelles divisées (ou dispositif en tiroir) convient très bien dans le cas d’une
expérience à deux facteurs dans laquelle les niveaux d’un des deux facteurs ne peuvent être testés
que dans des parcelles de grande taille et se caractérisent par des effets très différents. Dans une telle
situation, l’expérience sera formée d’un ensemble de “ grandes parcelles ” dans lesquelles des
niveaux sont assignés au facteur de grande parcelle. Chaque grande parcelle est divisée en petites
parcelles auxquelles est assigné le second facteur. Chaque grande parcelle devient ainsi un bloc pour
les traitements des petites parcelles (c’est-à-dire les niveaux du facteur de petite parcelle). Le facteur
de grande parcelle peut en réalité être alloué suivant l’un des systèmes existant ( plan entièrement
randomisé, plan en blocs aléatoires complets, ou carré latin) mais ici seul le plan entièrement
randomisé est envisagé pour le facteur de grande parcelle, car c’est probablement le plan le plus
approprié et le plus couramment employé pour les expériences forestières.
Avec un dispositif en parcelles divisées, la précision de la mesure des effets du facteur de grande
parcelle est sacrifiée au profit de celle du facteur de la petite parcelle. La mesure de l’effet principal
du facteur de petite parcelle et son interaction avec le facteur de grande parcelle sont plus précises
que celles qui peuvent être obtenues avec un plan en blocs aléatoires complets. En revanche, la
mesure des effets des traitements des grandes parcelles (les niveaux du facteur des grandes
parcelles) est moins précise que celle que l’on obtiendrait avec un plan en blocs aléatoires complets.
4.6.1. Dispositif
Un dispositif en parcelles divisées comprend deux processus de randomisation distincts – un pour les
grandes parcelles et l’autre pour les petites parcelles. Dans chaque répétition, on commence par
allouer au hasard les traitements des grandes parcelles, puis ceux des petites parcelles formées à
l’intérieur de chaque grande parcelle.
Ceci sera illustré par une expérience à deux facteurs comprenant quatre niveaux d’azote (traitements
des grandes parcelles) et trois clones d’eucalyptus (traitement des petites parcelles), avec trois
répétitions. Ici, les doses d’engrais ont été choisies pour les grandes parcelles, principalement en
fonction de leur facilité d’application et de contrôle de l’effet de lessivage et pour détecter la
présence d’une interaction entre les engrais et les clones. Dans notre description des étapes de la
randomisation et de la définition d’un dispositif en parcelles divisées, a est le nombre de traitements
des grandes parcelles, b est le nombre de traitements des petites parcelles et r est le nombre de
répétitions.
*Etape 1. Diviser la surface expérimentale en r = 3 blocs, dont chacun sera divisé en a = 4 grandes
parcelles, comme dans la Figure 4.9.
- 110 -
Plan et analyse d’expériences
Figure 4.10. Allocation aléatoire de quatre niveaux d’azote (n0, n1, n2 et n3) aux quatre
grandes parcelles, dans chacune des trois répétitions de la Figure 4.9.
n3 n1 n0 n2 n1 n0 n3 n2 n0 n1 n2 n3
Figure 4.11. Représentation type d’une expérience en parcelles divisées avec trois clones
d’eucalyptus (v1, v2 et v3) (traitements des petites parcelles) et quatre niveaux d’azote (n0, n1, n2
et n3) (traitements des grandes parcelles, dans trois répétitions).
n3 n1 n0 n2 n1 n0 n5 n2 n0 n1 n2 n3
v2 v1 v1 v2 v1 v3 v3 v1 v4 v3 v3 v1
v1 v3 v2 v3 v3 v1 v2 v2 v2 v4 v2 v3
v3 v2 v3 v1 v2 v2 v1 v3 v1 v1 v4 v2
Répétition I Répétition II Répétition III
Le schéma d’un champ, dans une expérience en parcelles divisées (comme celle de la Figure 4.11) a
quelques caractéristiques importantes: i) La taille de la grande parcelle est b fois plus grande que
celle de la petite parcelle. Dans notre exemple, avec 3 variétés (b = 3) la grande parcelle est 3 fois
plus grande que la petite ; ii) Chaque traitement de grande parcelle est testé r fois, alors que chaque
traitement de petite parcelle est testé ar fois. Ainsi, les traitements des petites parcelles sont toujours
testés un plus grand nombre de fois que ceux des grandes parcelles, ce qui explique leur plus grande
précision. Dans notre exemple, chacun des 4 niveaux d’azote est testé trois fois, mais chacun des 3
clones est testé douze fois.
- 111 -
Plan et analyse d’expériences
L’analyse de variance d’une expérience en parcelles divisées se fait en deux temps: l’analyse des
grandes parcelles, et l’analyse des petites parcelles. Les calculs sont présentés à l’aide des
données issues d’une expérience à deux facteurs sur les eucalyptus, comportant deux traitements
sylvicoles (taille de la fosse) et 4 traitements d’engrais. Les données sur la hauteur des plants un an
après la plantation sont reportées dans le Tableau 4.25.
Tableau 4.25. Données sur la hauteur (en cm) de plants d’ Eucalyptus tereticornis
dérivées d’une expérience en parcelles divisées, menée en champ.
Hauteur (en cm)
Engrais Répétition I Répétition II Répétition III
Notons A le facteur des grandes parcelles (taille de la fosse) et B, le facteur des petites parcelles
(traitements d’engrais). Effectuer comme suit l’analyse de variance:
*Etape 1. Dresser une table préliminaire de l’analyse de variance d’un plan en parcelles divisées.
- 112 -
Plan et analyse d’expériences
Tableau 4.26. Représentation schématique de l’analyse de variance d’un plan en parcelles divisées.
i) Tableau des totaux à deux entrées : répétition x facteur A, avec les totaux des répétitions,
les totaux du facteur A et le total général: Dans notre exemple, le tableau des totaux
((RA)ki) répétitions x taille de la fosse, avec les totaux de la répétition (Rk), les totaux de la
taille de la fosse (Ai) et le total général (G) calculés est présenté au Tableau 4.27.
Tableau 4.27. Tableau des totaux des hauteurs répétition x taille de la fosse, calculés à partir des
données du Tableau 4.25
ii) Le tableau des totaux à double entrée facteur A x facteur B : Dans notre exemple, le
tableau des totaux (AB) taille de la fosse x traitement d’engrais, avec le calcul des totaux
des traitements d’engrais (Bj) est présenté au Tableau 4.28.
- 113 -
Plan et analyse d’expériences
Tableau 4.28. Tableau des totaux des hauteurs taille de la fosse x traitement d’engrais, calculés à
partir des données du Tableau 4.25
Traitement d’engrais
Taille de la fosse f0 f1 f2 f3
p0 123.73 141.29 137.62 111.22
p1 132.66 85.62 132.60 88.97
Total (Bj) 256.39 226.91 270.22 200.19
*Etape 3. Calculer comme suit le facteur de correction et les sommes des carrés, pour l’analyse des
grandes parcelles. Notons yijk la réponse observée sur la i-ème grande parcelle, la j-ème
petite parcelle, dans la k-ème répétition.
G2
C.F.= (4.37)
rab
( 953.70) 2
= = 37897.92
( 3) ( 2)( 4)
a b r
SSTO = ∑ ∑ ∑ yijk2 − C.F.
i =1 j =1 k =1
(4.38)
= [(25.38)2 + (46.56)2 + … + (26.55)2] - 37897.92
= 6133.10
r
∑ Rk2
k =1
SSR = − C. F. (4.39)
ab
(247.10) 2 + (416.50) 2 + (290.10) 2
= − 37897.92
( 2)( 4 )
= 1938.51
a
∑ Ai2
i =1
SSA = − C.F. (4.40)
rb
( 513.86) 2 + ( 439.85) 2
= − 37897.92
( 3)( 4)
= 228.25
- 114 -
Plan et analyse d’expériences
∑ ∑ (( RA) )
r a
2
ki
k = i =1
SSEa = − C. F − SSR − SSA (4.41)
b
( 168.84) 2 + . . . + ( 167.83) 2
= − 40064.68
( 4)
= 1161.70
*Etape 4. Calculer comme suit les sommes des carrés pour l’analyse des petites parcelles:
b
∑ B 2j
j =1
SSB = − C.F. (4.42)
ra
( 256.39) 2 + . . . + ( 200.19) 2
= − 37897.92
( 3)( 2)
= 488.03
∑ ∑ ( ( AB) )
a b
2
ij
i =1 j =1
SSAB = − C.F.− SSB − SSA (4.43)
r
( 123.73) 2 +...+( 88.97) 2
= - 37897.92 - 488.03 - 1161.70
3
= 388.31
*Etape 5. Pour chaque source de variation, calculer le carré moyen en divisant SS par le degré de
liberté df qui lui est associé. La valeur de F de chaque effet à tester se calcule en divisant
chaque carré moyen par le terme d’erreur correspondant (voir Tableau 4.26).
*Etape 6. Entrer dans le tableau d’analyse de variance toutes les valeurs obtenues de l’étape 3 à
l’étape 5, comme indiqué dans le tableau 4.29; puis comparer chacune des valeurs calculées
de F avec les valeurs tabulaires de F correspondantes, et indiquer si la différence est
significative ou non, à l’aide de l’astérisque ou du signe approprié. Pour chaque effet dont la
valeur calculée de F n’est pas inférieure à 1, chercher dans l’Annexe 3 la valeur tabulaire de
F, avec f 1 = df du MS du numérateur et f 2 = df du MS du dénominateur, au seuil de
signification déterminé au préalable. Par exemple, la valeur tabulaire de F pour tester l’effet
AB est de 3.49 au seuil de signification de 5%, pour 3 et 12 degrés de liberté.
- 115 -
Plan et analyse d’expériences
Tableau 4.29. Analyse de variance des données du Tableau 4.20 issues d’une expérience en
parcelles divisées
*Etape 7. Calculer les deux coefficients de variation relatifs à l’analyse des grandes parcelles et à
l’analyse des petites parcelles.
Cov(β ii , β jj ) =
ˆ ˆ [
λ22 − λ 4 ]
[
2nλ 4 λ 4 ( k + 2) − kλ22 ] (4.45)
228.25
= x 100 = 60.95%
39.54
ŷ = βˆ 0 + ∑ βˆ ix i +∑ βˆ iix i +∑ βˆ ijx ix j
2
(4.46)
i i i <j
257.50
= x 100 = 40.58%
39.54
La valeur de cv (a) indique le degré de précision associé au facteur des grandes parcelles. La valeur
de cv(b) indique le degré de précision du facteur des petites parcelles et de son interaction avec le
facteur des grandes parcelles. En principe, la valeur de cv(b) est inférieure à celle de cv(a) car,
comme on l’a déjà indiqué, le facteur assigné aux grandes parcelles est généralement mesuré avec
moins de précision que celui assigné aux petites parcelles. Dans notre exemple, cv(b) est inférieur à
cv(a), mais les deux valeurs étaient suffisamment élevées pour masquer toute éventuelle différence
des traitements, ce qui rend non significatifs tous les effets des facteurs dans l’analyse de la variance.
- 116 -
Plan et analyse d’expériences
Type-(2). Comparaison entre deux moyennes de traitement des petites parcelles, calculées sur tous
les traitements des grandes parcelles.
Type-(3). Comparaison entre deux moyennes de traitement de petites parcelles, par rapport au
même traitement des grandes parcelles.
Type-(4). Comparaison entre deux moyennes des traitements des grandes parcelles, au niveau de
traitements de petites parcelles similaires ou différents (ou moyennes de deux combinaisons de
traitements quelconques)
Tableau 4.30 Erreur type de la différence moyenne pour chacun des 4 types de comparaisons de
paires
Lorsque le calcul de sd fait intervenir plus d’un terme d’erreur, comme c’est le cas dans les
comparaisons de Type-(4), les valeurs tabulaires de t, tirées de l’Annexe 2 ne peuvent pas être
utilisées telles quelles et il faut calculer des valeurs tabulaires pondérées de t. Dans ce cas ces valeurs
sont données par la formule:
(b - 1) Eb tb + E a ta
Valeur tabulaire pondérée de t = (4.47)
(b - 1) Eb + E a
où t a est la valeur de t pour le df de l’erreur (a) et t b est la valeur de t pour le df de l’erreur (b).
A titre d’exemple, prenons l’expérience factorielle 2 x 4 dont les données sont reportées dans le
Tableau 4.25. Bien que l’analyse de variance (Tableau 4.29) montre que les trois effets (c’est-à-dire
les deux effets principaux et l’effet d’interaction) ne sont pas significatifs, imaginons pour illustrer
notre exemple, qu’il existe une interaction significative entre la taille de la fosse et l’engrais. En
d’autres termes, on suppose que l’effet de l’engrais varie avec la taille de la fosse. En pareil cas, la
comparaison entre les moyennes des niveaux “ taille de la fosse ”, calculées par rapport à tous les
niveaux d’engrais, ou entre les moyennes des niveaux d’engrais, calculées par rapport à tous les
niveaux “ taille de la fosse ”, ne serait pas valide. Les comparaisons les plus appropriées seront celles
entre les moyennes des engrais, pour des fosses de même taille, ou entre les moyennes des tailles des
fosses, pour un même dosage d’engrais. Ainsi, les étapes de calcul de la PPDS, permettant la
- 117 -
Plan et analyse d’expériences
comparaison de deux moyennes afférentes aux petites parcelles, pour un même traitement de grande
parcelle, sont les suivantes :
*Etape 1. Calculer l’erreur type de la différence entre moyennes, à l’aide de la formule applicable à
la comparaison de Type-(3) du Tableau 4.30.
2 Eb
sd =
r
2( 257.5)
= = 3.27
3
( )( )
*Etape 2. Grâce à la formule LSDα = t v ; α sd , calculer la valeur de la PPDS (ou LSD) au seuil
de signification de 5%, avec la valeur tabulaire de t correspondant à 12 degrés de liberté de
l’erreur (b)
LSD. 05 = ( 2.18)( 3.27) = 7.129
*Etape 3. Dresser le tableau à double entrée (taille de la fosse x engrais) des moyennes des
différences de hauteur, comme indiqué dans le Tableau 4.31. Comparer les différences de
hauteur moyenne entre les niveaux d’engrais observées pour chaque taille de la fosse, avec la
valeur de la PPDS (ou LSD) calculée à l’Etape 2, et identifiez le cas échéant les différences
significatives.
Tableau 4.31. Différence entre la hauteur moyenne des plants d’eucalyptus, à quatre niveaux
d’engrais pour une fosse ayant une taille de 30 cm x 30cm x 30 cm, sur la base des données du
Tableau 4.25.
- 118 -
Plan et analyse d’expériences
En théorie, les plans en blocs complets, comme les PEBAC, sont applicables à toutes les
expériences quel que soit le nombre de traitements, toutefois, plus ils sont nombreux, moins ils sont
efficaces car les blocs perdent leur homogénéité en raison de leur grande taille. Il existe un autre type
de plans pour les expériences à un seul facteur comprenant un grand nombre de traitements. Ce sont
les plans en blocs incomplets, dans lesquels, comme leur nom l’indique, chaque bloc ne contient pas
tous les traitements, de sorte que les blocs peuvent être maintenus à une taille raisonnable, même si le
nombre de traitements est élevé. Comme les blocs sont incomplets, la comparaison des traitements
apparaissant ensemble dans un bloc est plus précise que celle des autres traitements. Cet
inconvénient peut être contourné, sachant que dans le plan d’ensemble, chaque paire de traitement
apparaît un nombre égal de fois dans un même bloc. On dit de ces plans qu’ils sont “ équilibrés ”, ou
“ compensés ”. Etant donné qu’il faut un grand nombre de répétitions pour arriver à un équilibre
complet, on peut opter pour un plan partiellement équilibré (ou partiellement compensé), dans lequel
sont admis des degrés de précision variables selon les groupes de traitements qui sont comparés.
Dans la catégorie des plans en blocs incomplets, on utilise souvent pour les expériences forestières
des plans en treillis, dans lesquels le nombre de traitements est un carré parfait et les blocs peuvent
être groupés en ensembles complets de répétitions. Les paragraphes qui suivent seront spécialement
consacrés à l’étude spécifique des plans en treillis simple.
*Etape 2. Disposer les nombres attribués aux traitements, de 1 à 25, de façon à former un carré,
comme dans la Figure 4.12.
Figure 4.12. Disposition initiale des traitements dans un plan en treillis simple
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25
- 119 -
Plan et analyse d’expériences
*Etape 3. Regrouper les traitements par ligne. On obtient les groupes (1, 2, 3, 4, 5), (6, 7, 8, 9,
10), (11, 12, 13, 14, 15), (16, 17, 18, 19, 20) et (21, 22, 23, 24, 25). A présent, chaque
bloc constitue un groupe de traitements assigné à un bloc et les cinq blocs ainsi formés
constituent une répétition complète. Cette méthode de groupement par lignes est
généralement connue sous le nom de groupement-X ou groupement -A.
*Etape 4. Grouper les traitements par colonne. Les groupes ainsi formés sont (1, 6, 11, 16, 21),
(2, 7, 12, 17, 22), (3, 8, 13, 18, 23), (4, 9, 14, 19, 24) et (5, 10, 15, 20, 25). A présent
chaque bloc constituera un groupe de traitements assigné à un bloc et les cinq blocs forment
une répétition complète. Cette méthode de groupement par colonnes est généralement
connue sous le nom de groupement-Y ou groupement-B.
Les deux groupements-X et Y garantissent que deux traitements qui sont apparus ensemble une fois
dans un même bloc ne s’y retrouveront plus simultanément. Avant la procédure de randomisation, les
deux ensembles de groupements qui viennent d’être décrits se présentent, comme dans Figure 4.13.
Bloc No. 2 6 7 8 9 10
Bloc No. 3 11 12 13 14 15
Bloc No. 4 16 17 18 19 20
Bloc No. 5 21 22 23 24 25
Répétition II (groupement-Y)
Bloc No.6 1 6 11 16 21
Bloc No.7 2 7 12 17 22
Bloc No.8 3 8 13 18 23
Bloc No.9 4 9 14 19 24
Bloc No.10 5 10 15 20 25
- 120 -
Plan et analyse d’expériences
*Etape 5. Dans chaque répétition, les groupes de traitements sont répartis au hasard à l’intérieur des
différents blocs. On pratique une randomisation distincte pour chaque répétition. L’allocation
des traitements aux parcelles, à l’intérieur de chaque bloc, se fait aussi de manière aléatoire.
La randomisation est pratiquée séparément pour chaque groupe, de manière indépendante
pour chaque répétition. Enfin, lorsque l’on conçoit le dispositif des répétitions sur le terrain, il
faut aussi allouer au hasard dans le champ les positions des répétitions X et Y. Cette
procédure d’allocation des traitements et des répétitions garantit l’élimination de tous types
de variations systématiques inconnues affectant les effets des traitements. A l’issue de la
randomisation complète, le plan effectif pourrait se présenter comme indiqué dans la Figure
4.14.
Bloc No. 4 20 19 18 17 16
Bloc No. 1 5 4 1 3 2
Bloc No. 3 13 14 15 12 11
Bloc No. 2 6 9 7 10 8
Bloc No. 6 16 6 1 21 11
Bloc No. 9 19 4 9 14 24
Bloc No. 7 7 2 17 22 12
Bloc No. 10 5 20 25 10 15
Bloc No. 8 23 3 8 18 13
Si, dans chaque répétition, les blocs sont contigus, on pourra, dans certaines conditions, analyser
toute l’expérience comme s’il s’agissait d’un PEBAC. On a déjà précisé qu’un plan en treillis simple
nécessitait au moins deux répétitions, l’une avec le groupement X, l’autre avec le groupement Y des
traitements. Si l’on juge préférable de faire plus de deux répétitions, on choisira un nombre pair, car
les deux groupes (X et Y) devront être répétés le même nombre de fois. L’allocation des traitements
se fait selon la procédure précédente.
- 121 -
Plan et analyse d’expériences
Le Tableau 4.32 montre la disposition effective du champ, avec les positions des blocs et l’allocation
des traitements à l’intérieur de chaque bloc, à l’issue de la procédure de randomisation. Le chiffre
inscrit dans le coin supérieur gauche de chaque case est le numéro d’identification du clone, alors
que le chiffre figurant dans le coin inférieur droit se réfère à la hauteur moyenne des arbres de la
parcelle, un an après la plantation. L’analyse de variance implique un ajustement des sommes des
carrés des traitements et des blocs, étant donné que les blocs sont incomplets. Cet ajustement ne
serait pas nécessaire pour des plans en blocs complets.
Tableau 4.32. Schéma d’un plan en treillis double 5 x 5 montrant la croissance en hauteur
(en cm) de clones d’Eucalyptus grandis.
Répétition - I
Bloc No. 5 25 24 21 23 22
96.40 107.90 119.30 134.30 129.20
Bloc No. 4 20 19 18 17 16
148.00 99.20 101.40 98.00 106.70
Bloc No. 1 5 4 1 3 2
158.00 122.50 136.70 123.60 113.50
Bloc No. 3 13 14 15 12 11
126.80 101.60 111.70 117.30 108.20
Bloc No. 2 6 9 7 10 8
126.80 127.00 119.10 90.90 130.40
Répétition - II
Bloc No. 6 16 6 1 21 11
169.60 157.90 124.10 134.50 112.10
Bloc No. 9 19 4 9 14 24
110.30 153.40 87.10 95.30 120.50
Bloc No. 7 7 2 17 22 12
125.60 151.10 115.90 168.40 93.30
Bloc No. 10 5 20 25 10 15
- 122 -
Plan et analyse d’expériences
Tableau 4.33. Arrangement systématique des blocs et des traitements à l’intérieur des blocs
du Tableau 4.32.
Répétition - I (groupe X)
Bloc No. 1 1 2 3 4 5
136.70 113.50 123.60 122.50 158.00
Bloc No. 2 6 7 8 9 10
126.80 119.10 130.40 127.00 90.90
Bloc No. 3 11 12 13 14 15
108.20 117.30 126.80 101.60 111.70
Bloc No. 4 16 17 18 19 20
106.70 98.00 101.40 99.20 148.00
Bloc No. 5 21 22 23 24 25
119.30 129.20 134.30 107.90 96.40
Répétition - II (groupe Y)
Bloc No. 6 1 6 11 16 21
124.10 157.90 112.10 169.60 134.50
Bloc No. 7 2 7 12 17 22
151.10 125.60 93.30 115.90 168.40
Bloc No. 8 3 8 13 18 23
142.70 115.80 115.80 128.90 133.10
Bloc No. 9 4 9 14 19 24
153.40 87.10 95.30 110.30 120.50
Bloc No. 10 5 10 15 20 25
126.00 132.90 117.30 106.80 137.60
*Etape 2. Dresser le tableau des totaux des traitements en additionnant les rendements de chaque
clone, obtenus dans les deux répétitions (voir Tableau 4.34). Ces totaux ne sont ajustés à
aucun effet de bloc.
- 123 -
Plan et analyse d’expériences
*Etape 3. Calculer les totaux de tous les blocs B1, B2, …, B10 en sommant les observations
apparaissant dans chaque bloc. Par exemple, le total B1 du premier bloc est donné par
B1 = 136.70+113.50+123.60+122.50+158.00 = 654.30
Calculer le total de chaque répétition en sommant les totaux des blocs dans chaque répétition. Pour
la répétition I,
R1 = B1 + B2 + B3+ B4+ B5 (4.48)
= 654.30 + 594.20 + 565.60 + 553.30 + 587.10
= 2954.50
- 124 -
Plan et analyse d’expériences
Tableau 4.35. Représentation schématique de la table d’analyse de la variance d’un treillis simple
Source de Degrés de Somme Carré moyen Rapport F
variation liberté des carrés SS calculé
MS =
(df) (SS) df
Répétition r-1 SSR MSR MSR
MSE
Traitement k2 - 1 SST MST MST (unadj.)
(non aj.) (non aj.) (non aj.) MSE
*Etape 5. Trouver la somme totale des carrés, la somme des carrés des répétitions et celles des
traitements non ajustés. A cette fin, calculer d’abord le facteur de correction (C.F.).
G2
C. F. = (4.50)
n
où n = rk 2
r = Nombre de répétitions
k 2 = Nombre de traitements
k = Nombre de parcelles dans un bloc
( 6130.50) 2
C. F. = = 751660.61
2 × 25
Pour la somme totale des carrés, trouver la somme des carrés de toutes les observations de
l’expérience et soustraire le facteur de correction.
SSTO = ∑ y 2 − C. F. (4.51)
2 2 2
= { (136.70) + (113.50) +……..+ (137.60) } - C. F.
= 770626.43 - 751660.61 = 18965.83
- 125 -
Plan et analyse d’expériences
*Etape 6. Calculer pour chaque bloc, dans la répétition 1 (groupe X), un total ajusté Cb en
soustrayant chaque total de bloc de la répétition 1 du total de la colonne correspondante de
la répétition II (groupe Y), qui contient le même ensemble de variétés (voir Tableau 4.36).
De la même manière, calculer pour chaque bloc de la répétition II, un total ajusté en
soustrayant chaque total de bloc de la répétition II du total de la colonne correspondante de
la répétition I (groupe X), contenant le même ensemble de variétés (voir Tableau 4.37).
Faire le total des valeurs Cb pour chaque répétition et vérifier si leur somme est nulle.
Cette vérification garantit l’exactitude arithmétique des calculs des étapes précédentes.
- 126 -
Plan et analyse d’expériences
La somme des carrés des blocs ajustés est donnée par la relation:
10 2
∑ Cb2 ∑ RCj2
b= 1 j =1
SSB (aj.) = − (4.54)
kr ( r − 1) k r ( r − 1)
2
où r = Nombre de répétitions,
k = Nombre de traitements par bloc.
. )2 +.......+( − 15.60) 2
( −4300 . ) 2 + (−22150
2
( 22150 . )
−
(52 )( 2)(1)
SSB (aj.) =
( 2 )( 5)(1)
= 3782.05 - 1962.49 = 1819.56
Pour finir, la somme des carrés des erreurs s’obtient par soustraction
SSE = SSTO - SSR - SST (non-aj.) - SSB (aj.) (4.55)
= 18965.83 - 981.24 - 9087.29 - 1819.56
= 7077.73
Remarquons que la somme des carrés due à l’erreur (SSE) calculée ici représente la part de la
variation (de la variable de réponse) entre les parcelles à l’intérieur de chaque bloc qui est causée
par des facteurs externes non contrôlés. Elle est donc généralement appelée variance (ou erreur)
intrabloc, alors que la somme des carrés des blocs ajustés est la variance interbloc (ou entre blocs).
*Etape 7. Après avoir obtenu les différentes sommes des carrés, insérer tous les résultats dans la
table d’analyse de la variance (Tableau 4.38). Les carrés moyens s’obtiennent, comme
d’habitude, en divisant les sommes des carrés par les degrés de liberté.
Tableau 4.38. Table d’analyse de variance d’un treillis simple, à l’aide des données du Tableau 4.32.
Source de variation Degrés de Somme des Carré moyen Rapport F
liberté carrés SS calculé
MS =
(df) (SS) df
Répétition 1 981.24 981.24 2.218
Traitement (non aj.) 24 9087.29 378.64 0.856
Blocs à l’intérieur 8 1819.56 227.44 0.514
d’une répétition (aj.)
Erreur intrabloc 16 7077.73 442.36
Total 49 18965.83
Le carré moyen des traitements figurant dans la table d’analyse de variance (Tableau 4.38) n’est pas
ajusté aux effets de bloc. Or, on a déjà signalé que les moyennes des traitements ne sont pas
exemptes de ces effets. Il s’ensuit que le test F fourni par l’analyse de la variance n’est pas valide
pour détecter les différences de traitements. Avant d’appliquer le test F, il faut donc ajuster les
moyennes des traitements compte tenu des effets de bloc et calculer la somme ajustée des carrés des
traitements. Pour ce faire, on suit la procédure décrite dans l’étape 9. Cette procédure peut être
- 127 -
Plan et analyse d’expériences
adoptée si les circonstances l’exigent, mais elle impose des calculs supplémentaires qui, sauf
indication contraire, peuvent être évités. Par exemple, dans un essai en champ comprenant un grand
nombre de traitements, on peut en général s’attendre à trouver une différence significative entre les
moyennes des traitements. A partir des résultats du Tableau 4.38, on peut effectuer l’analyse
préliminaire applicable à un PEBAC, test moins sensible aux différences des traitements.
*Etape 8. Analyse préliminaire d’un PEBAC: Pour obtenir la somme des carrés des erreurs, on
commence par additionner l’erreur interbloc et l’erreur intrabloc, puis on complète comme
suit la table de l’analyse de variance :
Erreur totale= Erreur Interbloc + Erreur Intrabloc (4.56)
= 1819.56 + 7077.73
= 8897.29
Tableau 4.39. Table d’analyse de variance pour une analyse préliminaire d’un PEBAC.
Source de Degrés de Somme des Carré moyen F
variation liberté carrés SS calculé
MS =
(df) (SS) df
Répétition 1 981.24 981.24
Traitement 24 9087.29 378.64 1.02
Erreur totale 24 8897.29 370.72
Total 49 18965.83
La valeur observée de F (1.02) obtenue en divisant le carré moyen des traitements par le carré
moyen de l’erreur totale, est inférieure à la valeur tabulaire de F (1,98) au seuil de signification de
5% pour (24, 24) degrés de liberté. On en déduit qu’il n’y a pas de différence significative entre les
traitements, au seuil de 5%. L’analyse PEBAC préliminaire ayant donnè une valeur non-significative
de F, on doit effectuer un test F plus approprié, en ajustant les sommes des carrés des traitements
aux effets de bloc, car cette procédure ne peut qu’augmenter la sensibilité du test. Pour effectuer cet
ajustement de la somme des carrés des traitements en vue d’obtenir un test F plus approprié pour
détecter les différences de traitements, on suivra la procédure de l’étape 9.
*Etape 9. Calculer les sommes des carrés des traitements ajustées aux effets de bloc: obtenir
d’abord la somme des carrés des blocs non ajustés à l’intérieur des répétitions. Les sommes
B1, B2, …, B10 des blocs ayant déjà été calculées à l’étape 3, les calculs restants sont
facilités:
SS de bloc non ajusté pour la répétition I = SSB1(non aj.)
B 2 + B22 + . . .+ B52 R12
= 1 − 2 (4.57)
k k
(654.30) 2 + . . .+( 587.10) 2 ( 2954.50) 2
= −
5 25
= 1219.75
- 128 -
Plan et analyse d’expériences
Pour finir, calculer la somme totale des carrés des blocs non ajustés SSB (non aj.)
SSB (non aj.) = SSB1(non aj.) + SSB2 (non aj.) (4.59)
= 1219.75 + 1850.83 = 3070.58
Calculer la quantité de correction Q suivante, à retrancher de la somme des carrés des traitements
non ajustés:
r
Q = k ( r − 1) µ ( SSB (unadj.) − SSB (adj.)) (4.60)
( r − 1)(1 + kµ )
Eb − E e
où µ = (4.61)
k ( r − 1 ) Eb
où Eb = Carré moyen interbloc ajusté
Ee = Carré moyen intrabloc
227.44 − 442.36
Dans notre exemple, µ =
5( 2 − 1) 227.44
= - 0.189
2
Q = (5)( 2 − 1)( −0.189) {( 3070.58) − (1819.56)}
( 2 − 1)(1 + {5}{−0.189})
= -42989.60
Pour finir, soustraire cette quantité Q de la somme des carrés des traitements non ajustée pour
obtenir leur somme des carrés ajustée.
SST (aj) = SST (non aj.) - Q (4.62)
= 9087.29 - (-42989.60) = 52076.89
Dresser la table d’analyse de variance suivante pour tester la signification des effets des traitements.
- 129 -
Plan et analyse d’expériences
Tableau 4.40. Table d’analyse de variance pour tester la signification des moyennes ajustées des
traitements.
Source de Degrés de Somme Carré moyen F F
variation liberté des SS calculé Tabulaire
MS =
(df) carrés df
(SS)
Traitement (aj.) 25 52076.89 2083.08 4.709 2.24
Erreur intrabloc 16 7077.73 442.358
Dans cet exemple, la valeur calculée de F s’avère significative au seuil de signification de 5%, ce qui
indique des différences significatives entre les traitements. La sensibilité du test F est plus grande
après l’élimination des effets de bloc. Bien qu’il n’en soit pas ainsi dans notre exemple, on part
généralement du principe que l’effet de bloc, estimé par la valeur Eb, est supérieur à l’erreur intrabloc
Ee.
Les moyennes des traitements doivent également être ajustées, car les moyennes des traitements
ordinaires ne sont pas des estimations sans biais de leurs valeurs réelles. Pour effectuer ces
ajustements en vue d’éliminer les effets de bloc, on procède comme suit:
*Etape 10. Calculer un terme de correction pour chaque bloc, en multipliant chaque valeur Cb par la
quantité µ ( -0.189), donnée par (4.61).
Insérer ces valeurs dans la dernière ligne et la dernière colonne du Tableau 4.34, d’après le modèle
du Tableau 4.41. Vérifier que la somme de toutes les valeurs µCb est nulle, si l’on excepte
l’arrondissement de l’erreur:
µC1 + µC2 + …+ µC10= -8.13+-4.74 +…+ 2.95= 0.00
Entrer les valeurs µCb de la répétition I dans l’avant- dernière colonne du Tableau 4.41 et les
valeurs de µCb de la répétition II, dans l’avant-dernière ligne de ce même tableau. En écrivant ainsi
les valeurs des corrections à apporter aux totaux non ajustés des traitements, on évitera de
nombreuses erreurs de calculs. Chaque total de traitement inscrit dans le Tableau 4.41 doit à présent
être ajusté pour tenir compte des effets des blocs, en apportant les corrections voulues aux blocs
dans lesquels apparaît le traitement considéré..
- 130 -
Plan et analyse d’expériences
Par exemple, le clone 1 apparaît dans le Bloc 1 de la Répétition 1 et dans le bloc 6 de la Répétition
2. Ajouter les valeurs de µC1 et µC6 au total du clone 1:
Total des traitements ajusté, pour le clone 1 = 260.80 -(-8.13) - 18.99 = 2.55
Etant donné que les corrections des blocs ont déjà été insérées dans le Tableau 4.41, les totaux
ajustés des traitements correspondent simplement aux valeurs respectives de µCb, dans la colonne et
la ligne où apparaît ce traitement. Pour finir, dresser un tableau faisant apparaître le total des
traitements ajusté aux effets de bloc. Les valeurs ajustées sont reportées dans le Tableau 4.42 ci-
dessous.
Déterminer les moyennes des traitements ajustées en divisant chaque valeur par 2 puisque chaque
total contient deux observations tirées de 2 répétitions (Tableau 4.43)
- 131 -
Plan et analyse d’expériences
[1 + ( r − 1)µ]
2 Ee
SE( d )1 = (4.63)
r
Eb − E e
où µ =
k ( r − 1 ) Eb
Eb = Carré moyen interbloc
Ee = Carré moyen intrabloc
r = Nombre de répétitions
L’erreur type de la comparaison des moyennes des traitements apparaissant dans des blocs
différents est,
SE ( d )2 =
2 Ee
r
(1 + rµ) (4.64)
Ici, SE ( d ) 2 < SE ( d )1 . Ceci est uniquement lié aux données spécifiques de notre exemple, et ne
saurait être considéré comme le cas courant.
- 132 -
Plan et analyse d’expériences
En multipliant ces erreurs-type par la valeur tabulaire du test t, pour les degrés de liberté des erreurs
intrabloc au seuil de signification spécifié, on obtiendra la valeur de la PPDS à l’aide de laquelle on
pourra comparer les moyennes ajustées des traitements pour détecter des différences significatives.
Dans les expériences dans lesquelles un ou plusieurs facteurs quantitatifs sont testés à plusieurs
niveaux, on a souvent intérêt à résumer les données en ajustant un modèle adéquat décrivant la
relation facteur-réponse. Ces facteurs quantitatifs peuvent être de divers ordres: engrais, irrigation,
densité de peuplement etc..., et la finalité de l’expérience peut être de déterminer l’influence des
niveaux de ces facteurs sur la réponse, γ. On peut représenter la réponse γ comme une fonction
appropriée des niveaux x 1u, x 2u,.. ., x ku des k facteurs et de β , l’ensemble des paramètres. Prenons
l’exemple d’un modèle classique:
γu = f (x 1u, x 2u, …, x ku ; β) + eu (4.65)
où u = 1, …, t représente les N observations et x iu le niveau du i-ème facteur (i = 1, 2, …, k)
dans la u-ème observation. Le résidu eu mesure l’erreur expérimentale dans la u-ème observation.
La fonction f est appelée surface de réponse. Lorsque l’on connaît f , on dispose d’une synthèse
complète des résultats de l’expérience, et il est plus facile de trouver la combinaison optimale des
dosages. On peut en outre estimer la réponse pour des valeurs de x iu qui ne sont pas testées dans le
cadre de l’expérience. Les dispositifs spécifiquement conçus pour ajuster la surface des réponses
sont appelés plans de surface de réponse. Les surfaces de réponse sont habituellement estimées par
des polynômes de degré approprié, le plus courant étant le polynôme de second degré. Nous
concentrerons donc notre attention sur les plans se prêtant à l’ajustement de ce type de polynôme.
Prenons par exemple le cas particulier d’un modèle (4.66) englobant seulement deux facteurs,
yu = β 0 + β1 x1u + β 2 x 2u + β 11 x 12u + β 22 x 22u + β 12 x1u x2 u + eu
Un plan de surface de réponse du second ordre permet un ajustement efficace de la relation facteur-
réponse, par un polynôme de second degré. Lorsque l’on choisit les points du plan, on impose
certaines contraintes aux niveaux des facteurs, de manière à simplifier l’estimation des paramètres et
- 133 -
Plan et analyse d’expériences
à conférer au plan obtenu et au modèle qui en découle les propriétés voulues, notamment le
caractère rotatif ou tournant. Dans les plans rotatifs, la variance de la réponse estimée à partir d’une
quelconque combinaison de traitements est une fonction de la somme des carrés des niveaux des
facteurs dans la combinaison de traitements considérée. En d’autres termes, un plan d’expérience est
dit rotatif (ou tournant) si la variance de la réponse estimée pour un ensemble donné de x valeurs
dépend uniquement de la distance du point défini par les x valeurs au centre du plan, et pas de la
direction. Les conditions suivantes doivent être vérifiées pour que les n points du plan constituent un
plan rotatif de second ordre (PRSO).
(i) ∑ xiu = ∑ xiu x ju = ∑ xiu x 2ju = ∑ xiu3 = 0 ,
u u u u
(iv) ∑ xiu2 x 2ju = tλ4 for i ≠ j or ∑ xiu4 = 3∑ xiu2 x 2ju for i ≠ j (4.70)
u u u
λ4 k
(v) 2 > (4.71)
λ2 ( k + 2 )
- 134 -
Plan et analyse d’expériences
x1 x2 x3
-1 -1 -1
-1 -1 +1
-1 +1 -1
-1 +1 +1
+1 -1 -1
+1 -1 +1
+1 +1 -1
+1 +1 +1
+α 0 0
-α 0 0
0 +α 0
0 -α 0
0 0 +α
0 0 -α
0 0 0
Le caractère rotatif d’un plan composite central est déterminé par le choix de α. La valeur de α
dépend du nombre de points dans la portion factorielle du plan. En effet, α = (nf)1/4 donne un plan
composite central rotatif, où nf est le nombre de points utilisés dans la portion factorielle du plan.
Dans notre exemple, la portion factorielle contient nf = 23 = 8 points. Ainsi, on obtient un plan rotatif
si la valeur de α = (8)1/4 = 1.682. On trouvera des détails supplémentaires et des exemples de
PRSO dans Das et Giri (1979) et Montgomery (1991).
Les combinaisons de traitements établies par un PRSO peuvent être essayées avec un nombre
suffisant de répétitions, dans le cadre d’un plan d’expérience standard quelconque suivant la
procédure de randomisation normale. Un plan de surface de réponse est donc uniquement un moyen
particulier de sélectionner la combinaison de traitements dans une expérience factorielle, et non un
plan, servant à représenter schématiquement une expérience.
4.8.3. Ajustement d’une surface de réponse de second degré, à partir d’un PRSO
Nous allons maintenant décrire l’analyse des données provenant d’un PRSO établi dans le cadre
d’un plan entièrement randomisé. Supposons que, dans une expérience, le plan soit constitué de t
points distincts, le g-ème point étant répété ng fois. On note ygu la réponse obtenue dans la u-ème
répétition du g-ème point du plan et x igu le niveau du i-ème facteur dans la u-ème répétition du g-
ème point (i = 1,…, k ; g = 1,…, t ; u = 1,…ng). Soit n le nombre total d’observations et (p+1) le
nombre de paramètres dans le modèle du second ordre devant être ajusté.
Nous illustrerons l’analyse à l’aide de données provenant d’un essai de culture en pots. Pour
simplifier, nous avons apporté quelques modifications aux données et à la structure du plan, de sorte
que l’ensemble de données est dans une certaine mesure hypothétique. Cet exemple permet
cependant de bien comprendre la procédure. L’expérience englobait trois facteurs: la quantité
d’azote (N), de phosphore (P) et de potassium (K), respectivement appliqués sous forme d’urée, de
superphosphate et de chlorure de potassium. Les unités expérimentales étaient des pots contenant
chacun une plantule de roseau (Calamus hookerianus) de deux ans. Au cours de l’expérience, les
quantités de N, P et K allaient de 5 à 20 g par pot. La structure des traitements était conforme au
- 135 -
Plan et analyse d’expériences
plan central composite décrit dans la Section 4.8.1, le schéma proprement dit étant un PER avec
deux répétitions. Comme α=1.682 était le plus haut niveau codé dans le plan, les autres niveaux (ou
doses) s’obtiennent en prenant pour α la valeur de 20g. Les autres doses sont donc (-α) = 5g, (-1)
= 8.041g , (0) =12.5g, , (+1) =16.959g, (α) = 20g. Les données, obtenues au terme d’une
expérience de 2 ans, sur le poids séché à l’étuve d’une pousse, sont reportées dans le Tableau 4.44.
Tableau 4.44. Données sur le poids séché à l’étuve d’une pousse, au terme d’une
expérience de deux ans
N P K Poids d’une pousse
(x 1) (x 2) (x 3) (en g)
(y)
Arbre 1 Arbre 2
-1 -1 -1 8.60 7.50
-1 -1 1 9.00 8.00
-1 1 -1 9.20 8.10
-1 1 1 11.50 9.10
1 -1 -1 10.00 9.20
1 -1 1 11.20 10.20
1 1 -1 11.00 9.90
1 1 1 12.60 11.50
1.682 0 0 11.00 10.10
-1.682 0 0 8.00 6.80
0 1.682 0 11.20 10.10
0 -1.682 0 9.50 8.50
0 0 1.682 11.50 10.50
0 0 -1.682 10.00 8.80
0 0 0 11.00 10.00
3t λ 4 = 24.00789
λ 4 = 0.5335
Conformément à la notation adoptée dans les équations (4.68) et (4.69), t est le nombre de points
distincts dans le plan.
- 136 -
Plan et analyse d’expériences
Tableau 4.45. Représentation schématique de la table d’analyse de variance pour l’ajustement d’un
PRSO.
Source de Degré de liberté Somme Carré Rapport
variation des moyen F
carrés calculé
MSR
Régression p SSR MSR
MSE
t
Manque SSL MSL MSL
d’ajustement n - 1- ∑(n g − 1) -
MSE
g= 1
p
t
Erreur pure SSE MSE
∑(n
g =1
g − 1)
SSTO = ∑ ∑ ygu
2
− C. F . (4.73)
g = 1 u =1
(293.60) 2
= (8.60) + ( 7.50) +...+(10.00) −
2 2 2
30
= 55.43
λ 4 ( k + 2 )∑ ∑ y gu − λ 2 ∑ ∑ ∑ ygu xigu
2
g =1 u = 1 i =1 g = 1 u =1
β$ 0 =
[
n λ 4( k + 2 ) − kλ22 ] (4.74)
- 137 -
Plan et analyse d’expériences
t ng
∑∑ y x
gu igu
g =1 u = 1
βi = (4.75)
nλ 2
25.20
β1 =
( 30)( 0.9106)
= 0.92
14.75
β2 =
(30)( 0.9106)
= 0.54
14.98
β3 =
( 30)( 0.9106)
= 0.55
ng ng
[ ]∑ ∑ ∑ y x − 2 λ λ ∑ ∑ y
k t t
t ng λ22 − λ 4 2
gu igu 2 4 gu
∑ ∑ y x2 +
1
β$ ii =
i =1 g =1 u =1 g =1 u =1
[λ ( k + 2 ) − kλ ]
(4.76)
2nλ 4 g=1 u=1 gu igu 2
4 2
β$ 11 =
1
258.17 +
[(0.9106) 2 − 0.5335](797.98) − (2 )(0.9106)(0.5335)(293.60)
( 2)( 30)(0.5335) [ (0.5335)(3 + 2) − (3)(0.9106) 2 ]
= - 0.50
β$ 22 =
1
267.78 +
[(0.9106) 2 − 0.5335](797.98) − (2)(0.9106)(0.5335)(293.60)
( 2)( 30)( 0.5335) [ (0.5335)(3 + 2 ) − (3)(0.9106)2 ]
= - 0.20
β$ 33 =
1
272.03 +
[ ( 0.9106) 2 − 0.5335]( 797.98) − (2 )( 0.9106)( 0.5335)(293.60)
( 2)(30)(0.5335) [ (0.5335)(3 + 2 ) − (3)(0.9106) 2 ]
= - 0.06
t ng
∑∑ y gu xigu x jgu
g =1 u =1
β$ ij = (4.77)
nλ 4
( −0.40)
β$ 12 =
( 30)( 0.5335)
= - 0.02
(1..20)
β$ 13 =
( 30)(0.5335)
= 0.07
- 138 -
Plan et analyse d’expériences
( 3.40)
β$ 23 =
( 30)( 0.5335)
= 0.21
(4.78)
( 293.60) 2
30
= 44.42
( )
t ng
SSE = ∑ ∑ y gu − yg (4.79)
g =1 u = 1
= 9.9650
*Etape 9. Insérer les différentes sommes des carrés dans la table d’analyse de la variance et calculer
les différents carrés moyens en divisant les sommes des carrés par leurs degrés de liberté.
Tableau 4.46. Table d’analyse de la variance pour l’ajustement d’un PRSO, d’après les données du
Tableau 4.44
Source de Degré de Somme des Carré Rapport F F
variation liberté carrés moyen calculé Tabulaire
5%
Régression 9 44.4232 4.9359 7.4299 2.56
Manque 5 1.0465 0.2093 0.3150 2.90
d’ajustement
Erreur pure 15 9.9650 0.6643
Total 29 55.4347
- 139 -
Plan et analyse d’expériences
*Etape 10. Calculer la valeur de F pour tester la signification du manque d’ajustement, pour détecter
d’éventuelles erreurs de spécification du modèle.
Manque d' ajustement MS
F= (4.81)
Erreur pure MS
Si le manque d’ajustement est significatif, le carré moyen de la régression est testé par rapport au
carré moyen du manque d’ajustement. Dans le cas contraire, il est testé par rapport au carré moyen
de l’erreur pure.
0.2093
Dans notre exemple, F = = 0.3150
0.6643
Ici, le manque d’ajustement n’est pas significatif. On peut donc tester le carré moyen de la régression
par rapport au carré moyen de l’erreur pure. La valeur de F servant à tester la signification de la
régression est
Régression MS
F= (4.82)
Erreur pure MS
4.9359
=
0.6643
= 7.4299
Cette valeur de F est significative, si on la compare avec sa valeur tabulaire, qui est de 2,56, pour 9
et 15 degrés de liberté, au seuil de signification de 5 %. Le rapport de la somme des carrés de la
régression à la somme totale des carrés indique que le modèle explique près de 80 % des variations
de la variable de réponse.
*Etape 11. Les variances et les covariances des coefficients estimés sont donnés par les relations,
λ4 ( k + 2 )
( ) [
V β$ 0 =
]
n λ 4 ( k + 2 ) − kλ22
E (4.83)
( 0.5335) ( 3 + 2)
( 0.6643)
30[ ( 0.5335) (3 + 2) − 3( 0.9106) 2 ]
=
= 0.3283
où E = Carré moyen de l’erreur pure dans la table d’analyse de la variance.
E
V ( β$ i ) = (4.84)
nλ 2
0.6643
=
( 30)( 0.9106)
= 0.0243
- 140 -
Plan et analyse d’expériences
V (β$ ii ) =
E
1+
[
λ22 − λ 4 ]
[ ]
(4.85)
2 nλ2 λ 4 ( k + 2) − kλ22
0.6643
1+
( 0.9106) 2 − 0.5335 [ ]
[ ]
=
( 2)( 30)( 0.9106) ( 0.5335) ( 3 + 2) − ( 3)( 0.9106) 2
= 0.03
E
V ( β$ ij ) = (4.86)
nλ 4
0.6643
=
( 30)( 0.5335)
− λ2
Cov( β$ 0 ,β$ ii ) =
[ ]
E (4.87)
n λ 4 ( k + 2 ) − kλ22
− 0.5335
( 0.6643)
[ ]
=
30 ( 0.5335) ( 3 + 2) − ( 3)( 0.9106)
2
= -0.11
Cov( β$ ii ,β$ jj ) =
[λ 2
2 − λ4 ]
[ ]
(4.88)
2nλ 4 λ 4 ( k + 2 ) − kλ22
(( 0.9106) − 0.5335) 2
= 0.05
= 10.47 + 0.92 x1 + 0.54 x2 + 0.55x3 − 0.50 x12 − 0.20 x22 − 0.02 x32
La surface sert entre autres à trouver la combinaison optimale des doses, pour laquelle la réponse est
maximale ou économiquement optimale. De plus, l’équation ajustée est utile pour analyser la nature
de la surface, dans des intervalles donnés des variables d’entrée. Etant donné que l’étude de ces
aspects demande une connaissance de techniques mathématiques avancées, elle ne sera pas abordée
ici, mais les lecteurs qui souhaitent approfondir cette question, peuvent se référer à Montgomery
(1991).
- 141 -
5. TECHNIQUES D’ECHANTILLONNAGE
L’échantillonnage consiste essentiellement à tirer des informations d’une fraction d’un grand groupe
ou d’une population, de façon à en tirer des conclusions au sujet de l’ensemble de la population. Son
objet est donc de fournir un échantillon qui représentera la population et reproduira aussi fidèlement
que possible les principales caractéristiques de la population étudiée.
Si l’échantillonnage est fait de façon à ce que chaque unité de la population ait quelque chance d’être
incluse dans l’échantillon et si la probabilité de sélection de chaque unité est connue, on parle de
méthode d’échantillonnage probabiliste. L’une de ces techniques est la sélection aléatoire, à ne pas
confondre avec la sélection au hasard, qui implique un processus de sélection rigoureux de type
- 142 -
Techniques d’échantillonage
tirage au sort. Dans ce manuel, le terme échantillonnage se réfère, sauf indication contraire, à une
forme quelconque d’échantillonnage probabiliste. La probabilité qu’une unité d’échantillonnage
quelconque soit incluse dans l’échantillon dépend de la procédure adoptée. Il faut toutefois savoir
que la précision et la fiabilité des estimations obtenues à partir d’un échantillon peuvent être évaluées
uniquement dans le cas d’un échantillon probabiliste, le contrôle des erreurs y étant relativement
facile.
Le but d’une enquête par sondage est de minimiser l’erreur dans les estimations finales. Toute
enquête forestière comportant des activités de collecte et d’analyse de données peut être entachée
de diverses erreurs. Il en existe deux sortes: i) les erreurs non liées à l’échantillonnage et ii) les
erreurs d’échantillonnage. Les erreurs non liées à l’échantillonnage, par exemple celles dues à la
localisation des unités, à la mesure des caractéristiques, à l’enregistrement des fautes, aux biais des
enquêteurs et aux méthodes d’analyse défectueuses peuvent représenter une grande part de l’erreur
totale des résultats finaux dans les recensements complets comme dans les enquêtes par sondage.
Cette part a des chances d’être plus grande dans un recensement complet car un projet échantillon,
de plus petite taille, permet d’être plus sélectif dans l’affectation du personnel aux opérations de
l’enquête, de leur offrir une formation plus complète, et de focaliser davantage l’attention sur la
réduction des erreurs non liées à l’échantillonnage. L’erreur d’échantillonnage est due au fait que
seule une fraction de la surface de forêt est recensée. Etant donné qu’un échantillon, même
probabiliste, se fonde sur des observations qui ne concernent qu’une fraction de la population, il ne
peut généralement pas représenter parfaitement la population. La grandeur moyenne des erreurs
d’échantillonnage de la majorité des échantillons probabilistes peut être estimée d’après les données
collectées, et elle dépend de la taille de l’échantillon, de la variabilité à l’intérieur de la population et
de la méthode d’échantillonnage adoptée. Ainsi, avec un échantillon probabiliste, il est possible de
déterminer à l’avance la dimension que doit avoir l’échantillon pour obtenir le degré de précision
souhaité, lequel doit être spécifié.
Un plan d’échantillonnage est déterminé par la taille des unités d’échantillonnage, leur nombre, leur
distribution sur la surface totale, le type et le mode de mesure dans les unités sélectionnées et les
procédures statistiques adoptées pour l’analyse des données de l’enquête. Des méthodes
d’échantillonnage et des techniques d’estimation différentes ont été mises au point spécifiquement en
fonction des besoins des statisticiens enquêteurs, de sorte que l’utilisateur a de vastes possibilités de
choix adaptées à des situations spécifiques. Il est possible de choisir la méthode ou la combinaison
de méthodes avec laquelle on obtiendra le degré de précision souhaité, à raison d’un coût minimum.
Pour de plus amples détails, on peut se référer à Chacko (1965) et Sukhatme et al, (1984).
- 143 -
Techniques d’échantillonage
marge des erreurs d’échantillonnage des résultats et, le cas échéant, les effets possibles des erreurs
non liées à l’échantillonnage. Quelques-unes de ces étapes sont décrites de façon plus approfondie
dans les passages qui suivent.
i) Définition des objectifs de l’enquête: Pour commencer, les objectifs de l’enquête doivent être
examinés attentivement. Par exemple, pour une enquête forestière, on détermine la superficie qui sera
couverte par l’enquête. Les caractéristiques sur lesquelles des informations seront collectées et le
niveau de détail souhaité seront précisés. Si l’enquête porte sur des arbres, on déterminera les
espèces d’arbres qui devront être recensés et l’on décidera s’il convient d’énumérer uniquement les
arbres faisant partie de classes de diamètres déterminées ou si l’on estimera aussi le volume des
arbres. C’est aussi durant la première étape que l’on détermine le degré de précision que devront
avoir les estimations.
ii) Elaboration d’un diagramme des unités: Dans tout échantillon probabiliste, la première
exigence est l’établissement d’une base de sondage. La structure d’une enquête par sondage est
largement déterminée par cette base. La base de sondage est une liste des unités d’échantillonnage
qui peuvent être clairement définies et identifiées dans la population. Ces unités peuvent être des
compartiments, des sections topographiques, des bandes d’une certaine largeur ou des parcelles de
forme et de taille définies.
L’élaboration d’une base de sondage adaptée aux objectifs d’une enquête demande de l’expérience
et peut fort bien absorber une part importante des travaux de planification, en particulier dans les
enquêtes forestières où il peut être nécessaire de dresser une liste artificielle des unités
d’échantillonnage, faites de sections topographiques, de bandes ou de parcelles. Par exemple, dans
une enquête forestière, une base de sondage peut se présenter sous la forme d’une carte appropriée
de la superficie forestière. Le mode de sélection des unités d’échantillonnage doit permettre
d’identifier sur le terrain une unité spécifique devant être incluse dans l’échantillon. Le choix est
fonction de plusieurs facteurs: l’objet de l’enquête, les caractéristiques qui doivent être observées
dans les unités sélectionnées, la variabilité entre des unités d’échantillonnage d’une taille donnée, le
plan d’échantillonnage, le plan des travaux de terrain, et le coût total de l’enquête. Le choix est aussi
déterminé par des considérations pratiques. Par exemple, dans des zones de collines, il n’est pas
toujours possible de prendre des bandes comme unités d’échantillonnage, et les compartiments ou
les sections topographiques peuvent être plus appropriés. En général, pour une intensité
d’échantillonnage donnée (proportion de la surface recensée), plus les unités d’échantillonnage sont
petites, plus l’échantillon est représentatif et plus les résultats ont de chances d’être précis.
iii) Choix d’un plan d’échantillonnage: Si le plan d’échantillonnage doit être de nature à fournir
une mesure statistiquement significative de la précision des estimations finales, l’échantillon doit être
probabiliste, en ce sens que chaque unité de la population doit avoir une probabilité connue d’être
incluse dans l’échantillon. Le choix des unités à inscrire sur la liste doit être basé sur une règle
objective qui ne laisse aucune part à l’opinion de l’homme de terrain. La détermination du nombre
d’unités à inclure dans l’échantillon et la méthode de sélection sont également fonction du coût
admissible de l’enquête et de la précision des estimations finales.
iv) Organisation des travaux sur le terrain: Une enquête par sondage n’est pleinement réussie
que si les opérations de terrain sont fiables. Dans le domaine forestier, les travaux sur le terrain
- 144 -
Techniques d’échantillonage
doivent être organisés avec le plus grand soin autrement, même si le plan d’échantillonnage est
excellent, les résultats de l’échantillon risqueraient d’être incomplets ou trompeurs. Le choix d’un
personnel adéquat, une formation intensive, des instructions claires et une bonne supervision des
opérations de terrain sont essentiels pour obtenir des résultats satisfaisants. Les équipes itinérantes
doivent être capables de localiser correctement les unités sélectionnées et enregistrer les mesures
nécessaires conformément aux instructions spécifiques reçues. Les superviseurs vérifient une partie
de leur travail sur le terrain et s’assurent que l’enquête qui y effectuée correspond en tous points au
plan.
vi) Enquête préliminaire (essais pilotes): La conception d’un plan d’échantillonnage approprié à
une enquête forestière demande une bonne connaissance de la théorie statistique et des données
concernant la nature de la zone forestière, le mode de variabilité et le coût opérationnel. Dans le cas
où l’on ne possède pas ces connaissances, il est parfois nécessaire d’effectuer une enquête pilote à
petite échelle statistiquement planifiée, avant de se lancer dans une enquête à grande échelle sur toute
la superficie de forêt. Ces enquêtes préparatoires, ou pilotes, fourniront les renseignements voulus
sur la variabilité du matériel et offriront la possibilité d’essayer et d’améliorer les procédures en
champ, de former des hommes de terrain, et d’étudier l’efficacité opérationnelle d’un plan. Une
enquête pilote donnera aussi des renseignements pour estimer les différentes composantes du coût
des opérations, par exemple le temps de trajet, le temps de localisation et de recensement des unités
d’échantillonnage etc... Ces informations seront essentielles pour définir le type de plan et l’intensité
d’échantillonnage appropriés aux objectifs de l’enquête.
Population : Le mot population désigne l’ensemble des unités parmi lesquelles l’échantillon est
prélevé. Si une surface forestière est divisée en un certain nombre de compartiments (ou blocs) qui
sont les unités d’échantillonnage, ces compartiments constituent la population des unités
d’échantillonnage. En revanche, supposons qu’une surface de forêt soit divisée en mille bandes de
20 m de large chacune, les mille bandes forment la population. De même, si la surface de forêt est
divisée en parcelles d’un demi hectare l’une, l’ensemble de ces parcelles forme la population.
Unités d’échantillonnage : Les unités d’échantillonnage peuvent être des unités administratives ou
des unités naturelles, par exemple des sections topographiques et des sous-compartiments, ou
encore des unités artificielles, par exemple des bandes d’une largeur donnée ou des parcelles de
forme et de taille définies. L’unité doit être un élément bien défini ou un groupe d’éléments
identifiable dans la surface de forêt, dont les caractéristiques que l’on compte étudier peuvent être
observées. La population est donc subdivisée en unités appropriées à l’objet de l’enquête, appelées
unités d’échantillonnage.
- 145 -
Techniques d’échantillonage
Base de sondage : Une liste d’unités d’échantillonnage est une base de sondage. Une population
est “ finie ” si elle comprend un nombre fini d’unités d’échantillonnage.
Echantillon : Une ou plusieurs unités d’échantillonnage sélectionnées dans une population suivant
une procédure définie constituent un échantillon.
Total de population : Supposons une population finie composée d’unités U1, U2, …, UN. Notons
yi la valeur de la caractéristique de la i-ème unité. Par exemple, les unités peuvent être des bandes et
les caractéristiques peuvent être le nombre d’arbres d’une espèce déterminée à l’intérieur d’une
bande. La somme des valeurs yi ( i = 1, 2, …, N), à savoir,
N
Y = ∑ yi (5.1)
i =1
est appelée total de population. Dans notre exemple, celui-ci est le nombre moyen d’arbres de
l’espèce spécifique dans toute la population.
Variance de la population: la variance de la population est une mesure de la variation entre les
unités de la population
1 N 1 N 2
S y = ∑ ( yi − Y ) = ∑ y i − Y
2 2 2
(5.3)
N i=1 N i =1
Dans notre exemple, la variance de la population mesure la variation du nombre d’arbres de l’espèce
considérée, entre les bandes. Des valeurs élevées indiquent une variation importante entre les unités
de la population, alors que des valeurs faibles montrent que les valeurs de la caractéristique dans les
unités sont proches de la moyenne de la population. La racine carrée de la variance est connue sous
le nom d’ écart-type.
Paramètre : On appelle paramètre toute fonction des valeurs des unités d’une population. La
moyenne de la population, la variance, le coefficient de variation etc... sont des exemples de
paramètres de population. Dans la théorie de l’échantillonnage, le problème est d’estimer les
- 146 -
Techniques d’échantillonage
paramètres à partir d’un échantillon, au moyen d’une procédure permettant de mesurer la précision
des estimations.
Estimateur, estimation : Notons y1, y2, …, yn les observations d’un échantillon de taille n. Toute
fonction des observations effectuées sur un échantillon est une statistique. Une statistique utilisée
pour estimer un paramètre de la population est un estimateur. Par exemple, la moyenne d’un
échantillon est un estimateur de la moyenne de la population. On appelle estimation toute valeur
spécifique d’un estimateur calculée à partir d’un échantillon observé.
Erreur provenant de l’estimation : Une statistique t est appelée estimateur non biaisé d’un
paramètre θ de la population si son espérance mathématique (ou valeur probable), notée E(t), est
égale à θ. Avec une procédure d’échantillonnage de type probabiliste, on obtient, par répétition, un
nombre certain nombre d’échantillons possibles. Si les valeurs de la statistique t sont calculées pour
chaque échantillon possible et si la moyenne des valeurs est égale à la valeur θ associée à la
population, on dit que t est un estimateur non biaisé de θ , basé sur la procédure d’échantillonnage.
La répétition de la procédure et du calcul des valeurs de t est une notion purement théorique, ces
opérations n’étant pas effectuées dans la réalité, mais l’idée selon laquelle on peut dériver toutes les
estimations possibles en répétant le processus d’échantillonnage est fondamentale pour l’étude du
biais. Si E(t) n’est pas égal à θ, la statistique t est un estimateur biaisé de θ et le biais est donné par
biais = E(t) - θ . L’introduction d’un processus réellement aléatoire pour la sélection d’un échantillon
est un pas important pour éviter les biais. Dans les enquêtes forestières, où les experts tendent à
choisir des étendues de forêt typiques pour les énumérations, les estimations sont inévitablement
biaisées, même si leur bonne foi n’est pas en cause.
Remarquons que la variance d’échantillonnage coïncide avec l’erreur quadratique moyenne dans le
cas où t est un estimateur non biaisé. Généralement, l’amplitude de l’estimation de la variance
d’échantillonnage calculée à partir d’un échantillon donne une idée de l’utilité d’une estimation
relative à un échantillon. Plus l’échantillon est grand et plus la variabilité entre les unités constituant la
population est petite, plus l’erreur d’échantillonnage sera petite et plus les résultats sont fiables.
Erreur type d’un estimateur : L’erreur-type de l’estimateur est la racine carrée de sa variance
d’échantillonnage. L’erreur-type d’une estimation divisée par la valeur de l’estimation est l’erreur
type relative, habituellement exprimée en pourcentage.
- 147 -
Techniques d’échantillonage
Exactitude et précision : L’erreur-type d’une estimation, obtenue à partir d’un échantillon, ne tient
pas compte du biais. On peut donc dire que l’erreur-type ou la variance d’échantillonnage de
l’estimation mesure à l’échelle inverse la précision de l’estimation, plutôt que son exactitude.
L’exactitude se réfère habituellement à l’ampleur des écarts entre l’estimation d’un échantillon et la
moyenne m = E (t) qui serait obtenue en appliquant plusieurs fois le procédé expérimental, le biais
étant ainsi mesuré par m - θ.
Le point le plus important, c’est l’exactitude de l’estimation d’un échantillon, la précision avec
laquelle nous sommes capables de mesurer, dans la majorité des cas. Nous nous efforçons de
concevoir l’enquête et d’analyser les données en utilisant des méthodes statistiques propres à
maximiser la précision et à minimiser le biais.
Quelques observations d’ordre général: Dans les sections qui suivent, les valeurs concernant la
population seront notées par des lettres majuscules et les valeurs de l’échantillon par des lettres
minuscules. Le symbole “cap” (^) au-dessus d’un symbole relatif à une valeur de la population
dénote son estimation basée sur des observations de l’échantillon. Les autres notations particulières
seront expliquées au fur et à mesure de leur apparition.
- 148 -
Techniques d’échantillonage
variable auxiliaire quelconque (x). Ces statistiques connexes peuvent toujours être calculées à partir
de la moyenne, à l’aide des relations générales ci-après:
Y$ = NY$ (5.7)
V ( Y$ ) = N 2V ( Y$ ) (5.8)
Y$
R$ = (5.9)
X
V ( Y$ )
V ( R$ ) = (5.10)
X2
où Y$ = Estimation du total de la population
N = Nombre total d’unités dans la population
R$ = Estimation du rapport de la population
X = Total de la population de la variable auxiliaire
Dans un échantillonnage aléatoire simple toutes les combinaisons possibles d’unités d’échantillonnage
tirées de la population ont les mêmes chances d’être sélectionnées. Théoriquement, l’échantillonnage
aléatoire simple est la procédure la plus simple, dont s’inspirent de nombreuses autres techniques.
Elle s’applique surtout au stade initial d’une enquête et aux études impliquant l’échantillonnage d’une
petite surface où la taille de l’échantillon est relativement petite. Si l’enquêteur connaît un peu la
population sondée, il peut adopter d’autres méthodes plus pratiques et plus efficaces pour organiser
l’enquête sur le terrain. Dans un échantillonnage aléatoire simple, la répartition irrégulière des unités
d’échantillonnage sur la surface de forêt peut être un gros inconvénient dans les zones difficilement
accessibles où les frais de déplacement et de localisation des parcelles sont considérablement plus
élevés que les coûts de l’énumération des parcelles.
- 149 -
Techniques d’échantillonage
tables de nombres aléatoires ont été conçues de manière à ce que les chiffres de 0 à 9 apparaissent
indépendamment les uns des autres, à peu près le même nombre de fois dans la table. La méthode la
plus simple pour choisir un échantillon aléatoire de la taille requise consiste à sélectionner un
ensemble de n nombres aléatoires l’un après l’autre, de 1 à N, dans la table, puis de prendre les
unités correspondant à ces numéros. Cette procédure peut comporter un certain nombre de rejets
du fait que tous les nombres supérieurs à N qui apparaissent dans la table sont exclus d’office. Dans
ces cas là, la procédure est modifiée comme suit. Si N est un nombre à d chiffres, on commence par
déterminer le plus grand multiple de N à d chiffres, noté N’. Ensuite, on choisit un nombre aléatoire r
de 1 à N’ et l’unité portant le numéro égal au restant obtenu après avoir divisé r par N, est
considérée comme sélectionnée. Si le reste est égal à zéro, la dernière unité est sélectionnée. Un
exemple numérique est donné ci-après.
Supposons que l’on doive choisir un échantillon aléatoire simple de 5 unités dans une liste de 40
unités numérotées en série, que l’on consulte l’Annexe 6 : Table de nombres aléatoires et que l’on
choisisse dans la colonne 5) des nombres à deux chiffres les nombres suivants :
39, 27, 00, 74, 07
Pour donner les mêmes probabilités de sélection aux 100 unités, il faut rejeter tous les nombres
supérieurs à 79 et considérer que (00) équivaut à 80. Ensuite, on divise les nombres ci-dessus par
40, et l’on prend les restes comme numéros des bandes sélectionnées pour l’échantillon, en rejetant
les restes qui sont répétés. On obtient ainsi les 16 numéros de bande comme échantillon, soit : 39,
27, 40, 34, 7.
∑(y i − y) 2
où s 2y = i =1
(5.13)
n −1
Si l’estimation y suit une loi normale, il est possible d’établir un intervalle de confiance sur la
moyenne de la population Y , les limites de confiance inférieure et supérieure étant définies par,
s N −n
Limite inférieure YˆL = y − z y (5.14)
n N
s N −n
Limite supérieure YˆU = y + z y (5.15)
n N
- 150 -
Techniques d’échantillonage
où z est la valeur de la table qui dépend du nombre d’observations incluses dans l’échantillon. Si leur
nombre est égal ou supérieure à 30, on peut extraire ces valeurs de la table de la distribution normale
(Annexe 1). Si le nombre d’observations est inférieur à 30, la valeur tabulaire sera extraite de la table
de distribution t (Annexe 2), avec n - 1 degrés de liberté.
Nous allons illustrer ces calculs par un exemple. Supposons qu’une forêt ait été divisée en 1000
parcelles de 0,1 hectare chacune et qu’un échantillon aléatoire simple de 25 parcelles ait été
selectionné. Pour chacune de ces parcelles d’échantillon, les volumes de bois, en m3, ont été
enregistrés. Ces volumes étaient les suivants:
7 10 7 4 7
8 8 8 7 5
2 6 9 7 8
6 7 11 8 8
7 3 8 7 7
Si le volume de bois de la i-ème unit d’échantillonnage est noté yi, un estimateur non biaisé de la
moyenne Y de la population, s’obtient à l’aide de l’Equation (5.11), soit :
7 + 8 + 2 + . . . + 7 175
Yˆ = y = =
25 25
= 7 m3
qui est le volume moyen de bois par parcelle de 0.1 ha , dans la superficie de forêt.
s 2
=
(7 − 7 ) + (8 − 7 ) + . . . + (7 − 7 )
2 2 2
25 − 1
y
82
= = 3.833
24
- 151 -
Techniques d’échantillonage
Les limites de confiance attachées à la moyenne de la population Y s’obtiennent par les équations
(5.14) et (5.15).
Limite inférieure Yˆ = 7 − (2.064) 0.1495
L
= 6.20 cordes
ˆ
Limite supérieure YU = 7 + ( 2.064) 0.1495
= 7.80 cordes
L’intervalle de confiance de 95% associé à la moyenne de la population est de (6.20, 7.80) m3. Cela
signifie que l’on peut estimer qu’il y a 95 chances sur cent que l’intervalle de confiance de (6.20,
7.80) m3 inclura la moyenne de la population.
On obtiendra facilement une estimation du volume total de bois dans la surface de forêt
échantillonnée en multipliant l’estimation de la moyenne par le nombre total de parcelles comprises
dans la population. Ainsi
Yˆ = 7(1000) = 7000 m 3
avec une intervalle de confiance de (6200, 7800) obtenu en multipliant les limites de confiance
associés à la moyenne par N = 1000. L’erreur-type relative RSE de Yˆ , n’est cependant pas
modifiée par cette opération.
La méthode d’échantillonnage systématique obéit à une règle simple, dans laquelle chaque k-ième
unité est sélectionnée à partir d’un nombre, de 1 à k, choisi au hasard comme point de départ
aléatoire. Supposons que N unités d’échantillonnage dans la population soient numérotées de 1 à N..
Pour sélectionner un échantillon systématique de n unités, on choisit une unité au hasard parmi les k
premières, puis on sélectionne chaque k-ième unité d’échantillonnage pour former l’échantillon. La
constante k est appelée pas d’échantillonnage, et est considérée comme étant le nombre entier le
plus proche de N / n, l’inverse du taux d’échantillonnage. La mesure de chaque k-ème arbre
correspondant à un relèvement au compas déterminé est un exemple d’échantillonnage systématique.
Dans les enquêtes forestières, une bande étroite, perpendiculaire à une ligne de base, traversant toute
la forêt est couramment prise comme unité d’échantillonnage. Si les unités d’échantillonnage sont des
bandes, le dispositif est connu sous le nom d’échantillonnage systématique en bandes, mais il existe
aussi un autre système, appelé échantillonnage systématique de parcelles en ligne, dans lequel des
parcelles de taille et de forme fixées sont sélectionnées à intervalles égaux le long de lignes parallèles
régulièrement espacées. Dans le dernier cas, l’échantillon pourrait aussi bien être systématique dans
deux directions.
Sur le plan intuitif, l’échantillonnage systématique est certainement attrayant, sans compter qu’il est
plus facile à sélectionner et à effectuer sur le terrain, du fait que l’échantillon est réparti également sur
toute la superficie de forêt et qu’il garantit une certaine quantité de représentation des différentes
parties de la surface. Ce type d’échantillonnage est souvent pratique pour contrôler les travaux de
terrain. A part ces considérations opérationnelles, il est démontré que la procédure de
l’échantillonnage systématique fournit des estimateurs plus efficaces que l’échantillonnage aléatoire
simple, dans des conditions sylvicoles normales. La propriété de l’échantillonnage systématique, à
- 152 -
Techniques d’échantillonage
savoir la répartition uniforme des unités d’échantillonnage sur la population peut être exploitée en
recensant les unités de manière à regrouper les unités homogènes ou de manière à ce que les valeurs
de la caractéristique relative aux unités soient rangées par ordre croissant ou décroissant. Par
exemple, si l’on connaît la tendance de fertilité de la surface de forêt, les unités (par exemple, les
bandes) peuvent être recensées conformément à cette tendance.
∑y i
Yˆ = y = i =1
(5.16)
n
où n est le nombre d’unités dans l’échantillon.
Dans le cas d’enquêtes par échantillonnage systématique en bandes ou, d’une manière générale,
dans tout système d’échantillonnage systématique unidimensionnel, on peut obtenir une
approximation de l’erreur-type à partir des différences entre deux unités qui se suivent. Supposons
que n unités aient été énumérées dans l’échantillon systématique, on aura (n-1) différences. La
variance par unité est donc donnée par la somme des carrés des différences divisée par le double du
nombre de différences. Ainsi, si y1, y2,…,yn sont les valeurs observées (par exemple, le volume) des
n unités dans l’échantillon systématique, et en définissant la première différence d(yi) comme indiqué
ci-dessous
d ( y i ) = y(i +1) − y (i ) ; (i = 1, 2, …, n -1), (5.17)
A titre d’exemple, le Tableau 5.1. donne les diamètres observés de 10 arbres sélectionnés par
prélèvement systématique d’un arbre sur 20 dans un peuplement contenant 195 arbres disposés par
- 153 -
Techniques d’échantillonage
rangées de 15. Le premier élément sélectionné était le huitième arbre de l’un des cotés extérieurs du
peuplement, en partant d’un coin. Les autres arbres ont été sélectionnés systématiquement, en
prenant chaque 20ème arbre, puis en passant à l’arbre le plus proche de la rangée suivante après le
dernier arbre de chaque rangée.
Tableau 5.1. Diamètre des arbres observé sur un échantillon systématique de 10 arbres prélevés
dans une parcelle.
Numéro de Diamètre à hauteur Première
l’arbre sélectionné d’homme (en cm) différence
yi
d(yi)
8 14.8
28 12.0 -2.8
48 13.6 +1.6
68 14.2 +0.6
88 11.8 -2.4
108 14.1 +2.3
128 11.6 -2.5
148 9.0 -2.6
168 10.1 +1.1
188 9.5 -0.6
Les neuf premières différences s’obtiennent avec la formule indiquée dans la colonne (3) du Tableau
5.1. La variance des écarts de la moyenne par unité est donc
ˆ (-2.8) 2 + (1.6) 2 + ... + (-0.6) 2 36.9
V (Y ) =
ˆ =
2 x9 x10 180
= 0.202167
L’un des inconvénients est qu’un échantillon systématique ne permet pas en lui-même d’obtenir une
évaluation valide de la précision des estimations. Pour en avoir, on peut avoir recours à des
échantillons partiellement systématiques. Il existe une méthode théoriquement valable qui fait appel au
concept d’échantillon systématique tout en aboutissant à des estimations non biaisées de l’erreur
d’échantillonnage; celle-ci consiste à prélever au moins deux échantillons systématiques, avec des
points de départ aléatoires indépendants. Si y1 , y 2 , …, ym sont m estimations de la moyenne de la
population basées sur m échantillons systématiques indépendants, l’estimation combinée est
1 m
y = ∑ yi (5.19)
m i=1
- 154 -
Techniques d’échantillonage
m
Vˆ ( y ) =
1
∑ ( yi − y )2 (5.20)
m ( m − 1) i=1
Remarquons que la précision augmente avec le nombre d’échantillons systématiques indépendants.
A titre d’exemple, prenons les données du Tableau 5.1, ainsi qu’un autre échantillon systématique
sélectionné avec des points de départ aléatoires indépendants. Dans le deuxième échantillon, le
premier élément sélectionné était le 10ème arbre. Les données concernant les deux échantillons
indépendants sont reportées dans le Tableau 5.2.
Tableau 5.2. Diamètre des arbres observé sur deux échantillons systématiques
indépendants de 10 arbres issus d’une parcelle.
Echantillon 1 Echantillon 2
Numéro de Diamètre à Numéro de Diamètre à
l’arbre hauteur de poitrine l’arbre hauteur de poitrine
sélectionné (en cm) sélectionné (en cm)
yi yi
8 14.8 10 13.6
28 12.0 30 10.0
48 13.6 50 14.8
68 14.2 70 14.2
88 11.8 90 13.8
108 14.1 110 14.5
128 11.6 130 12.0
148 9.0 150 10.0
168 10.1 170 10.5
188 9.5 190 8.5
Vˆ ( y ) =
1
(12.07 − 12.13)2 (12.19 − 12.13)2 = 0.0036
2( 2 − 1)
Il existe une autre variante de l’échantillonnage systématique, dans le cas d’un échantillonnage
systématique dans deux directions. Par exemple, si, dans des plantations, on veut estimer le volume
du peuplement, on peut adopter un échantillon systématique de rangées et prendre, dans chaque
rangée sélectionnée, des mesures sur le dixième arbre. Dans une enquête forestière, on peut prendre
- 155 -
Techniques d’échantillonage
une série de bandes parallèles équidistantes s’étendant sur toute la largeur de la forêt, et, dans
chaque bande, on peut procéder à l’énumération en prélevant un échantillon systématique de
parcelles ou d’arbres. Une autre méthode serait de former des grilles rectangulaires de (p x q)
mètres et de sélectionner un échantillon systématique de lignes et de colonnes, avec une parcelle
d’une taille déterminée et de la forme prescrite à chaque intersection.
Dans le cas d’un échantillon systématique bidimensionnel, on peut obtenir les estimations et une
approximation de l’erreur d’échantillonnage, grâce à une méthode basée sur la stratification. Celle-ci
est similaire à la méthode d’échantillonnage stratifié décrite dans la section 5.4. Par exemple,
l’échantillon peut être arbitrairement divisé en ensembles de 4 dans 2 x 2 unités, chaque ensemble
étant considéré comme formant une strate. On suppose en outre que les observations faites à
l’intérieur de chaque strate sont sélectionnées de manière indépendante et aléatoire. Pour ajuster les
bords, les strates qui se chevauchent seront prises en bordure de la zone forestière.
L’idée de base de l’échantillonnage aléatoire stratifié est de diviser une population hétérogène en
sous-populations, habituellement appelées strates, constituées d’éléments homogènes; on pourra
ainsi obtenir une estimation précise d’une moyenne de strate quelconque à partir d’un petit
échantillon prélevé dans cette strate, ainsi qu’une estimation précise pour l’ensemble de la
population, en combinant ces estimations. L’échantillonnage stratifié donne une meilleure section
transversale de la population que la procédure d’échantillonnage aléatoire simple. Cette méthode
peut aussi simplifier l’organisation des activités en champ. La proximité géographique est parfois
l’élément de base de la stratification, car on part du principe que des zones contiguës sont souvent
plus semblables que des zones très éloignées. L’élément de base de la stratification peut aussi être
dicté par des considérations d’ordre administratif. Par exemple, le personnel déjà disponible dans
chaque brigade d’une division forestière peut être chargé de superviser l’enquête dans la zone
relevant de sa compétence. Ainsi, des régions géographiques compactes peuvent former les strates.
Une méthode de stratification assez efficace consiste à effectuer une enquête préliminaire rapide de la
zone ou à rassembler l’information déjà disponible et à stratifier la surface de forêt suivant les types
de forêts, la densité des peuplements, la qualité de la station etc... Si l’on sait que la caractéristique à
l’étude est influencée par une variable supplémentaire au sujet de laquelle on dispose de données
réelles, ou au moins de bonnes estimations concernant les unités de la population, la stratification
peut être faite en utilisant les informations sur cette variable supplémentaire. Par exemple, la
population peut être stratifiée sur la base des estimations de volume obtenues lors d’un inventaire
antérieur de la superficie forestière.
- 156 -
Techniques d’échantillonage
Tous les choix étant équivalents, il est possible de prélever un plus grand échantillon d’une strate qui
a une variance plus grande, de sorte que la variance des estimations des moyennes des strates se
trouve réduite. L’application du principe ci-dessus nécessite des estimations préalables de la
variation à l’intérieur de chaque strate. Celles-ci peuvent avoir été acquises lors d’une enquête
antérieure ou provenir d’enquêtes pilotes de nature restreinte. Ainsi, si ces informations sont
disponibles, la fraction sondée dans chaque strate peut être considérée comme proportionnelle à
l’écart-type de chaque strate.
Si le coût par unité de l’enquête dans chaque strate est connu et varie d’une strate à l’autre, une
méthode d’allocation efficace, pour un coût minimum, consiste à prélever de grands échantillons dans
la strate où l’échantillonnage coûte le moins cher et où la variabilité est la plus élevée. Pour appliquer
cette procédure, il faut des renseignements sur la variabilité et le coût des observations pour chaque
unité dans les différentes strates.
A défaut d’informations sur les variances relatives à l’intérieur des strates et sur le coût des
opérations, la partie de l’échantillon attribuée aux différentes strates peut être proportionnelle au
nombre d’unités qu’elles contiennent ou à la surface totale de chaque strate. Cette méthode est
habituellement appelée “répartition proportionnelle de l’échantillon”.
Pour la sélection des unités dans les strates, d’une manière générale, on peut adopter n’importe
quelle méthode basée sur une sélection probabiliste d’unités. Toutefois, la sélection doit être
indépendante dans chaque strate. Si des échantillons aléatoires indépendants sont prélevés dans
chaque strate, la procédure d’échantillonnage prend le nom d’“échantillonnage aléatoire stratifié”.
D’autres modes de sélection de l’échantillon, comme l’échantillonnage systématique, peuvent aussi
être adoptés à l’intérieur des différentes strates.
- 157 -
Techniques d’échantillonage
Soit ytj (j = 1, 2,…., Nt ; t = 1, 2,..…k) la valeur de la caractéristique étudiée sur la j-ème unité
dans la t-ième strate. Dans ce cas, la moyenne de la population dans la t-ième strate est donnée par
la relation
Nt
1
Yt =
Nt ∑y j =1
tj , (t = 1, 2, ..., k ) (5.23)
Dans ce cas, une estimation de la moyenne Y de la population sera donnée par la formule
k
∑N t yt
Yˆ = t =1
(5.25)
N
nt
ytj
où y t = ∑ (5.26)
j =1 nt
Si elle est effectuée comme on l’a expliqué dans les sections précédentes, la stratification donne
ordinairement une variance plus faible pour le total ou la moyenne de la population estimée qu’un
échantillon aléatoire simple de la même taille. Toutefois, si l’échantillon stratifié est prélevé sans les
précautions voulues, les résultats ne seront pas meilleurs qu’avec un échantillon aléatoire simple.
Nous allons maintenant illustrer par un exemple numérique les calculs de l’estimation du volume
moyen par hectare d’une espèce particulière et de son erreur-type, à partir d’un échantillon aléatoire
stratifié de compartiments sélectionnés de manière indépendante, avec des probabilités égales dans
chaque strate.
Une étendue forestière, constituée de 69 compartiments a été divisée en trois strates contenant
respectivement les compartiments 1 à 29, 30 à 45 et 46 à 69; on a ensuite choisi au hasard 10, 5 et
8 compartiments dans les trois strates. Les numéros de série des compartiments sélectionnés dans
chaque strate sont indiqués dans la colonne (4) du Tableau 5.3. Le volume observé correspondant
de l’espèce particulière dans chaque compartiment sélectionné est donné, en m3/ha, dans la colonne
(5).
Tableau 5.3. Illustration des paramètres d’estimation dans un système d’échantillonnage stratifié
- 158 -
Techniques d’échantillonage
n = (10 + 5 + 8) = 23
- 159 -
Techniques d’échantillonage
∑N t yt
( 29 × 4.215) + (16 × 4.422) + ( 24 × 5.458) 323.979
Yˆ = t =1
= = = 4.70
N 69 69
( 22.11) 2
99.10 −
5 1.33
s 22( y ) = = = 0.333
4 4
( 43.66) 2
252.30 −
8 14.03
s32( y ) = = = 2.004
7 7
2
1 29 × 19 16 × 11 24 ×16
Vˆ (Yˆ ) = × 1.046 + × 0.333 + × 2.004
69 10 5 8
165.5482
= = 0.03477
4761
SE (Yˆ ) ×100
RSE (Yˆ ) = (5.29)
Yˆ
0.1865 × 100
= = 3.97%
4.70
Ignorons à présent les strates et supposons que le même échantillon de taille n = 23 formait un
échantillon aléatoire simple prélevé dans la population de N = 69. L’estimation de la moyenne de la
population se réduira alors à
n
42.15 + 22.11 + 43.66 107.92
y= 1
n ∑y i =
23
=
23
= 4.69
i =1
- 160 -
Techniques d’échantillonage
d’où
(69 − 23)
Vˆ ( y ) = ×1.4586
69 × 23
2.9172
= = 0.04230
69
0.2057 × 100
RSE ( y ) = = 4.39%
4.69
En vue de réduire les coûts et/ou de concentrer les opérations en champ autour de certains points et,
dans le même temps, d’obtenir des estimations précises, l’échantillonnage se fait parfois en plusieurs
étapes. La procédure consistant à commencer par sélectionner des unités de grande taille puis à
choisir un nombre déterminé de sous-unités dans les grandes unités, est connue sous le nom de sous-
échantillonnage. Les grandes unités prennent le nom d’“unités du premier degré” ou “d’unités
primaires” alors que les sous-unités sont appelées “unités du deuxième degré” ou “unités
secondaires”. La procédure peut aisément être généralisée aux échantillons à trois ou à plusieurs
degrés. Par exemple, l’échantillonnage d’une étendue de forêt peut être effectué en trois étapes,
premièrement en sélectionnant un échantillon de compartiments (unités du premier degré), puis un
échantillon de sections topographiques (unités du deuxième degré) dans chaque compartiment
sélectionné, et enfin en prélevant, dans chaque section topographique sélectionnée, un certain
nombre de parcelles-échantillons de taille et de forme déterminées (unités du troisième degré).
- 161 -
Techniques d’échantillonage
La sélection opérée à chaque stade peut être faite à l’aide d’une méthode d’échantillonnage aléatoire
simple ou de toute autre méthode d’échantillonnage probabiliste, et l’on peut employer une méthode
différente à chaque stade. Par exemple, on peut choisir un échantillon aléatoire simple de
compartiments et opter pour un sondage systématique de parcelles en ligne ou en bandes, avec une
origine choisie au hasard dans les compartiments sélectionnés.
pour la j-ème unité du second degré dans la i-ème unité du premier degré.
- 162 -
Techniques d’échantillonage
N Mi
∑∑ y ij
(5.30).
n mi
1
Yˆ = ∑ ∑y Mi
mi ij (5.30)
nM i =1 j =1
N
∑M i
où M = i =1
. (5.31)
N
L’estimation de la variance de Yˆ est donnée par la relation
1 n Mi 1 1 2
2
1 1
Vˆ (Yˆ ) = − sb2 +
n N
∑ − s
nN i =1 M mi M i wi
(5.32)
2
1 n Mi
où s =
2
b ∑
n − 1 i=1 M
yi − y
(5.33)
1 mi
mi − 1 ∑
s 2wi = ( y ij − y i ) 2 (5.34)
j =1
Ici, on remarque que la variance de Yˆ est composée de deux éléments. Le premier est une mesure
de la variation entre les unités du premier degré et l’autre est une mesure de la variation à l’intérieur
des unités du premier degré. Si mi = Mi, la variance est donnée uniquement par le premier élément.
Le second terme représente donc la contribution du sous-échantillonnage.
Nous allons illustrer par un exemple l’analyse d’un échantillon à deux degrés. Le Tableau 5.4 donne
des informations sur le poids de l’herbe (toutes espèces mélangées), en kilogrammes, dans des
parcelles de 0,025 ha sélectionnées dans 8 compartiments qui ont été choisis au hasard parmi les 40
compartiments d’une étendue forestière. La superficie totale de la forêt était de 1800 hectares.
- 163 -
Techniques d’échantillonage
Tableau 5.4. Poids de l’herbe, en kg, dans des parcelles sélectionnées dans le cadre d’une
procédure d’échantillonnage à deux degrés
Parcelle Numéro du compartiment Total
I II III IV V VI VII VIII
1 96 98 135 142 118 80 76 110
2 100 142 88 130 95 73 62 125
3 113 143 87 106 109 96 105 77
4 112 84 108 96 147 113 125 62
5 88 89 145 91 91 125 99 70
6 139 90 129 88 125 68 64 98
7 140 89 84 99 115 130 135 65
8 143 94 96 140 132 76 78 97
9 131 125 .. 98 148 84 .. 106
10 .. 116 .. .. .. 105 .. ..
Total 1062 1070 872 990 1080 950 744 810 7578
mi 9 10 8 9 9 10 8 9 72
Moyenne 118 107 109 110 120 95 93 90 842
( yi )
Mi 1760 1975 1615 1785 1775 2050 1680 1865 14505
sw2i 436.00 515.78 584.57 455.75 412.25 496.67 754.86 496.50 4152
2 48.44 51.578 73.07 50.63 45.80 49.667 94.35 55.167
s wi
mi
*Etape 1. Estimer le poids moyen par parcelle de l’herbe, en kg, à l’aide de la formule de l’équation
(5.30).
1 n M i mi
ˆ
Y = ∑ ∑ yij
nM i=1 mi j =1
1 N 1 1800
M = ∑
N i =1
Mi = (
40 0.025
)
= 1800
∑M i étant le nombre total d’unités du second degré, le poids moyen peut être obtenu en divisant
la superficie totale (1800 ha) par la taille d’une unité du second degré (0.025 ha).
- 164 -
Techniques d’échantillonage
1 1760
2 2 2
1975 1865
s =
2
× 118 − 105.25 + × 107 − 105.25 + ... + × 90 − 105.25
(8 − 1) 1800
b
1800 1800
=140.36
3.9356 × 100
RSE (Yˆ ) = = 3.72%
105.78
L’échantillonnage à plusieurs phases joue un rôle crucial dans les enquêtes forestières, puisqu’il est
utilisé aussi bien dans les inventaires forestiers continus que pour estimer le matériel sur pied, ou
encore dans les enquêtes par télédétection. L’idée de base de ce mode d’échantillonnage est
d’effectuer des sondages distincts, en plusieurs phases successives, commençant par un grand
nombre d’unités d’échantillonnage lors de la première phase, et en ne mesurant qu’un sous-ensemble
de ces unités durant chaque phase successive, de façon à estimer le paramètre visé avec plus de
précision et pour un coût relativement moindre, en étudiant la relation entre les caractères mesurés
durant différentes phases. Dans un souci de simplification, nous ne décrirons dans cette section que
l’échantillonnage à deux phases, ou échantillonnage double.
Une technique d’échantillonnage qui ne comporte que deux phases (occasions) prend le nom
d’échantillonnage à deux phases, ou d‘échantillonnage double. Elle est particulièrement utile dans les
situations où l’énumération du caractère étudié (caractère principal) coûte cher ou demande
beaucoup de main d’œuvre, alors qu’un caractère auxiliaire corrélé au caractère principal peut
facilement être observé. Dans ce cas, il est parfois plus facile et plus économique de prendre un
échantillon vaste pour analyser, dans le cadre d’une première phase, la variable auxiliaire. A l’issue
de cette phase on obtiendra des estimations précises de la valeur totale ou de la moyenne de la
population de la variable auxiliaire. Dans la seconde phase, on choisit un petit échantillon,
généralement un sous-échantillon, dans lequel il est possible d’observer à la fois le caractère principal
et la variable auxiliaire. A l’aide des renseignements supplémentaires obtenus lors de la première
phase, les estimations de régression ou par quotient permettent d’obtenir des estimations précises
concernant le caractère principal. La précision des estimations finales peut être accrue en incluant
plusieurs variables auxiliaires corrélées, au lieu d’une seule. Par exemple, pour estimer le volume
d’un peuplement, les variables auxiliaires peuvent être le diamètre ou la circonférence des arbres et
leur hauteur. Pour estimer le rendement en matières tannantes de l’écorce des arbres, on peut choisir
comme variables auxiliaires certaines mesures physiques des arbres comme la circonférence, la
hauteur, le nombre de pousses etc...
- 165 -
Techniques d’échantillonage
Comme bien d’autres modes d’échantillonnage, l’échantillonnage double est une technique utile pour
réduire le coût des énumérations et accroître la précision des estimations. Cette technique peut être
très avantageuse dans les enquêtes portant sur des superficies forestières. Elle permet par exemple,
après une enquête préliminaire de la forêt en question, d’obtenir une estimation du matériel sur pied à
une période ultérieure, par exemple à une distance de 10 à 15 ans, et de sa variation, sur la base
d’un échantillon relativement petit.
L’échantillonnage double est également utile pour stratifier une population. Un premier échantillon
concernant un caractère auxiliaire peut être utilisé pour subdiviser la population en strates dans
lesquelles le deuxième caractère (principal) varie peu. Si les deux caractères sont corrélés, on peut
ainsi obtenir des estimations précises du caractère principal, à partir d’un deuxième échantillon
relativement petit pour le caractère principal.
n
xi
Soient x( n) = moyenne de x dans le premier gros échantillon = x ( n) = ∑ (5.35)
i =1 n
m
x
x (m ) = moyenne de x dans le deuxième échantillon = x( m ) = ∑ i (5.36)
i =1 m
m
y
y = moyenne de y dans le deuxième échantillon = y = ∑ i (5.37)
i =1 m
On peut utiliser y pour estimer la moyenne de la population Y . Toutefois, avec les renseignements
précédemment obtenus sur les unités sondées, on peut obtenir une estimation plus précise de Y en
- 166 -
Techniques d’échantillonage
∑ (x − x( m) )( y i − y )
m
i
b= i =1
(5.39)
∑ (x − x( m) )
m
2
i
i =1
( yi − y) 2
m
s =∑
2
(5.42)
m −1
y
i =1
∑ (y
i =1
i − y)2
s 2y = (5.45)
m −1
− y )(xi − x ( m) )
m
∑(y
i =1
i
s yx = (5.46)
m −1
∑ (x i − xm )2
s 2x = i −1
(5.47)
m −1
- 167 -
Techniques d’échantillonage
y
Rˆ = (5.48)
x( m)
Nous allons illustrer par un exemple une analyse de données issues d’un échantillonnage double,
avec estimation de régression et estimation par quotient. Le Tableau 5.5 donne des renseignements
sur le nombre de cépées et le poids d’herbe correspondant sur des parcelles de 0,025 ha, observés
sur un sous-échantillon prélevé au hasard parmi 40 parcelles tirées d’un échantillon préliminaire de
200 parcelles, dans lesquelles seul était compté le nombre de cépées.
Tableau 5.5. Nombre de cépées et poids d’herbe observés sur des parcelles sélectionnées
dans le cadre d’une procédure d’échantillonnage à deux phases
Numéro Nombre de Poids en Numéro Nombre de Poids en
de série cépées kgs de série cépées kgs
(x) (y) (x) (y)
1 459 68 21 245 25
2 388 65 22 185 50
3 314 44 23 59 16
4 35 15 24 114 22
5 120 34 25 354 59
6 136 30 26 476 63
7 367 54 27 818 92
8 568 69 28 709 64
9 764 72 29 526 72
10 607 65 30 329 46
11 886 95 31 169 33
12 507 60 32 648 74
13 417 72 33 446 61
14 389 60 34 86 32
15 258 50 35 191 35
16 214 30 36 342 40
17 674 70 37 227 40
18 395 57 38 462 66
19 260 45 39 592 68
20 281 36 40 402 55
Ici, n = 200, m = 40. Le nombre moyen de cépées par parcelle, observé sur l’échantillon
préliminaire de 200 parcelles était x( n) = 374.4.
40 40
∑ x i = 15419 , ∑y i = 2104 ,
i =1 i =1
40 40 40
∑ x i = 7744481 ,
2
∑ y i = 125346 ,
2
∑x y i i = 960320
i =1 i =1 i =1
- 168 -
Techniques d’échantillonage
2
40
∑ xi
(15419 ) = 1800842
2
∑ ( xi − x( m) ) = ∑ x i − 1 40
40 40
2 2
= 7744481 −
1 i =1 40
2
40
∑ yi
( 2104) 2
= ∑ y i − i =1
40 40
∑ xi ∑ yi 15419 × 2104
∑ (x − x( m ) )( yi − y ) = ∑ x i y i −
40 40
i
1 1
= 960320 − = 149280.6
1 1 40 40
L’estimation de régression du poids moyen d’herbe par parcelle (en kg) s’obtient avec l’équation
(5.38), où le coefficient de régression b calculé à l’aide de l’équation (5.39) est
149280.6
b= = 0.08
1800842
D’où, y ( drg) = 52.6 + 0.08( 374.4 − 385.5)
= 52.6 - 0.89
= 51.7 kg /plot
s y2. x =
1
40 − 2
[
14675.6 − (0.08 ) (1800842 )
2
]
= 82.9
14675.6
s y2 =
39
=376.297
- 169 -
Techniques d’échantillonage
L’estimation par quotient du poids moyen d’herbe par parcelle (en kg) est donnée par l’équation
(5.43)
y ( dra) =
52.6
(374.4 )
385.5
= 51.085
149280.6
s yx =
40 − 1
= 3827.708
1800842
s x2 =
40 − 1
= 46175.436
52.6
Rˆ =
385.5
= 0.1364
V ( y dra ) =
40
+
(2)(0.1364 )(3827.708 ) − (0.1364 )2 (46175.436 )
200
= 5.67
Souvent, les unités d’échantillonnage ont une taille très variable, de sorte qu’un échantillonnage
aléatoire simple n’est pas toujours efficace, car il ne tient pas compte de l’importance que peuvent
avoir les unités plus grandes de la population. Dans ces situations, on a constaté que les
renseignements supplémentaires sur la taille des unités peuvent être mis à profit pour sélectionner
l’échantillon de façon à obtenir un estimateur plus précis des paramètres de la population. Une
méthode consiste à assigner des probabilités de sélection inégales aux différentes unités de la
population. Par exemple, les villages couvrant une zone géographique plus grande ont des chances
d’avoir une plus grande superficie sous cultures vivrières. Pour estimer la production, il est donc
souhaitable d’adopter un système d’échantillonnage dans lequel la probabilité de sélection des
villages est proportionnelle à la zone géographique. Si les unités ont une taille variable et si la variable
considérée est directement liée à la taille de l’unité, les probabilités peuvent être assignées
proportionnellement à la taille de l’unité. Ce type d’échantillonnage avec probabilité de sélection
proportionnelle à la taille de l’unité est appelé “échantillonnage PPT”. Lors de la sélection des unités
successives de la population, les unités antérieurement sélectionnées peuvent éventuellement être
remises dans la population. Dans les paragraphes qui suivent, nous aborderons uniquement
l’échantillonnage PPT avec remise des unités d’échantillonnage, car c’est le plus simple des deux
systèmes.
- 170 -
Techniques d’échantillonage
(i) Méthode des totaux cumulés: Supposons que la taille de la i-ème unité soit x i, (i = 1, 2, …,
N). On associe à la première unité les nombres allant de 1 à x i, à la seconde unité les nombres de
(x 1+1) à (x 1+x 2), et ainsi de suite, de manière à ce que le total des nombres ainsi associés soit égal à
X = x 1 + x 2 + … + x N. Ensuite, on choisit au hasard un nombre aléatoire de 1 à X et on sélectionne
l’unité associée à ce nombre.
Par exemple, un village a 8 vergers contenant respectivement 50, 30, 25, 40, 26, 44, 20 et 35
arbres. Un échantillon de 3 vergers doit être sélectionné avec remise et avec probabilité
proportionnelle au nombre d’arbres dans les vergers. La table des totaux cumulés se présentera
comme suit:
Numéro de série du Taille Taille cumulée Nombres associés
verger (x i)
1 50 50 1 - 50
2 30 80 51 - 80
3 25 105 81 -105
4 40 145 106 -145
5 26 171 146 - 171
6 44 215 172 - 215
7 20 235 216 - 235
8 35 270 236 - 270
Enfin, on choisit trois nombres aléatoires entre 1 et 270: ces nombres sont 200, 116 et 47. Les
unités associées à ces nombres sont la 6ème, la 4ème, et la 1ère. L’échantillon ainsi sélectionné contient
donc les unités portant les numéros de série 1, 4 et 6.
ii) Méthode de Lahiri: Comme on l’a vu, avec la méthode des totaux cumulés, il faut reporter les
totaux cumulés successifs, ce qui est à la fois long et fastidieux, en particulier si les populations sont
importantes. En 1951, Lahiri a proposé une autre procédure qui évite cette opération. La méthode
de Lahiri consiste à sélectionner un couple (i,j) de nombres aléatoires, où 1 ≤ i ≤ N et 1≤ j ≤ M; la
lettre M désignant le maximum des tailles des N unités de la population. Si j ≤ Xi, on sélectionne la
i-ème unité. Dans le cas contraire, la paire de nombres aléatoires est rejetée et on choisit une autre
paire. Pour sélectionner un échantillon de n unités, la procédure doit être répétée jusqu’à ce que les
n unités soient choisies. Cette procédure permet de déterminer les probabilités de sélection requises.
Par exemple, pour sélectionner, par la méthode de Lahiri de sélection d’un PPT avec remise, un
échantillon de 3 vergers dans la population de l’exemple précèdent (N = 8, M = 50 et n = 3), on
sélectionne trois paires de nombres aléatoires, dont le premier élément est inférieur ou égal à 8 et le
second inférieur ou égal à 50. Les trois paires sélectionnées dams la table des nombres aléatoires
sont (2, 23) (7,8) et (3, 30). Etant donné que, dans la troisième paire, j >Xi, une nouvelle paire doit
être sélectionnée. Celle-ci est (2, 18). L’échantillon sélectionné selon cette procédure est donc
- 171 -
Techniques d’échantillonage
constitué des unités portant les numéros de série 2, 7 et 2. Comme l’unité 2 revient deux fois dans
l’échantillon, la taille de l’échantillon est 2, dans ce cas. Pour obtenir une taille de l’échantillon de
trois, on peut répéter la procédure d’échantillonnage pour obtenir une nouvelle unité (distincte).
()
VY =
ˆ ˆ 1 N y 2
i − nYˆ 2
∑
n( n − 1 _ N 2 i=1 pi
(5.50)
x
où p i = i , Yˆ = NYˆ
X
Nous allons illustrer ceci par un exemple. Un échantillon aléatoire de 23 unités sur 69 a été
sélectionné avec probabilité proportionnelle à la taille de l’unité (compartiment) dans une superficie
forestière dans UP. La surface totale des 69 unités était de 14079 ha. Les volumes de bois
déterminés pour chaque compartiment sélectionné sont données dans le Tableau 5.6, avec la
superficie du compartiment.
- 172 -
Techniques d’échantillonage
- 173 -
6. CAS PARTICULIERS
En recherche forestière, un certain nombre de cas sont étudiés à l’aide d’applications statistiques
autres que les plans ou techniques classiques d’analyse ou d’échantillonnage. Ces méthodes
particulières sont entièrement subordonnées aux concepts afférents aux disciplines considérées de
sorte que, pour bien comprendre toutes leurs implications, il est indispensable d’avoir une bonne
maîtrise des statistiques et des disciplines en jeu. Quelques-uns de ces cas particuliers seront
brièvement examinés dans ce chapitre. On notera que chacun des cas décrits ci-dessous a été assez
largement développés et que cette section ne représente qu’un ensemble de base. Nous invitons nos
lecteurs à se reporter, le cas échéant, à d’autres ouvrages, pour mieux comprendre les variations
possibles, aussi bien dans la structure des données que dans la forme d’analyse.
Le gain génétique ou amélioration génétique par génération peut être défini comme l’augmentation de
la productivité dérivant d’un changement de la fréquence génique dû le plus souvent à la sélection.
L’héritabilité et le gain génétique peuvent être évalués par deux méthodes, au choix. L’estimation la
plus directe est dérivée de la relation entre les parents et leur descendance, et s’obtient en mesurant
les parents, en cultivant leurs descendants et en les mesurant. L’autre méthode consiste à examiner la
descendance de familles pleinement ou à demi apparentées, de faire une analyse de la variance et de
calculer l’héritabilité comme fonction des variances. Dans ce contexte, il est indispensable de
posséder une connaissance approfondie des statistiques pour comprendre la partie théorique. Les
formules que l’on trouvera plus loin dans cette section ne sont données qu’à titre de référence. De
plus, nous avons volontairement renoncé à couvrir les multiples variations qui pourraient résulter
d’irrégularités dans le plan. Nous illustrerons ce qui précède à l’aide d’un testage de la descendance
de familles à demi apparentées, qui est le plus utilisé dans le secteur forestier en raison de sa
simplicité.
- 174 -
Cas particuliers
voulus. Il est bon également d’établir la fiabilité statistique de chaque estimation de l’héritabilité, c’est
pourquoi les formules permettant de la calculer figurent aussi dans cette section. Pour en savoir plus,
le lecteur pourra se référer à Falconer (1960), Jain (1982) et Namkoong et al. (1966).
Nous illustrerons ces techniques à l’aide des données du Tableau 6.1, obtenues à l’issue d’un essai
sur la descendance de bambous conduit à Vellanikkara et Nilambur, dans le Kerala ; le testage
portait sur 6 familles, et a été répété 3 fois pour chaque station, sur des parcelles de 6 arbres
chacune. Les données du Tableau 6.1 faisaient partie d’un plus grand ensemble.
Tableau 6.1. Données sur la hauteur issues d’un test sur la descendance de bambous, avec
répétitions, conduit sur deux stations, dans le Kerala.
Pour estimer l’héritabilité et le gain génétique, sur la base d’un examen de la descendance de familles
à demi apparentées, on procède en plusieurs étapes:
- 175 -
Cas particuliers
*Etape 1. Etablir un test de la descendance répété portant sur la descendance obtenue par
pollinisation libre de f familles, répétée b (pour bloc) fois sur chacune des s stations, sur des
parcelles de n arbres. Mesurer un caractère, comme la hauteur, et calculer l’analyse de la
variance comme indiqué dans le Tableau 6.2. La descendance d’une plante femelle
quelconque constitue une famille.
Les formules permettant de calculer les différentes sommes des carrés de la table d’analyse de la
variance sont données plus loin, de même que la formule du facteur de correction (C.F.). Soit yijkl
l’observation correspondant au l-ème arbre appartenant à la k-ème famille du j-ème bloc dans la i-
ème station. Soit G le total général, Si le total de la i-ème station, Fk le total de la k-ème famille,
(SB)ij le total du j-ème bloc dans la i-ème station, (SF)ik le total de la k-ème famille dans la i-ème
station, (SBF)ijk le total de la k-ème famille dans le j-ème bloc de la i-ème station.
G2
CF = (6.1)
sbfn
15418.00 2
=
(2)(3)(6)( 6)
=1100531.13
s b f n
SSTO = ∑∑∑ ∑ y
i =1 j=1 k =1 l =1
2
ijkl − C.F. (6.2)
= (142)2+(95)2+…….+(61)2 - 1100531.13
= 408024.87
∑S 2
i
SSS = i =1
− C.F. (6.3)
bfn
- 176 -
Cas particuliers
(9334.00) 2 + ( 6084.00) 2
= -1100531.13
(3)(6)(6)
= 48900.46
s b
∑ ∑ (SB) 2
ij
i =1 j =1
SSB = − C. F. - SSS (6.4)
fn
(3238.00) 2 + (3377.00) 2 + ...... + (2042.00) 2
= -1100531.13 - 48900.46
(6)(6)
= 9258.13
∑F k
2
SSF = k =1
− C.F. (6.5)
sbn
(3332.00) 2 + (2574.00) 2 + ..... + (3289.00) 2
= - 1100531.13
(2)(3)(6)
= 80533.37
s b
∑∑ (SF)
i =1 j =1
2
ik
s b f
∑∑∑ (SBF)
i =1 j=1 k =1
2
ijk
Les carrés moyens se calculent de la manière habituelle en divisant les sommes des carrés par leurs
degrés de liberté. Les résultats qui précèdent peuvent être mis en tableau (voir Tableau 6.3).
- 177 -
Cas particuliers
En général, dans les études statistiques, on divise de plusieurs manières les carrés moyens les uns par
les autres pour obtenir des valeurs de F qui servent ensuite à tester la signification. Toutefois, comme
les carrés moyens sont par nature complexes, puisqu’ils contiennent généralement des variabilités
dues à plusieurs facteurs, on les fractionne en composantes de la variance selon les équivalents
présentés dans le Tableau 6.4.
Tableau 6.4. Composantes de la variance des carrés moyens pour un test de la descendance de
familles à demi-apparentées, pratiqué dans plusieurs plantations.
Source de variation Composantes de la variance des carrés moyens
Station Ve + n Vfb + n b Vfs + nf Vb + nfb Vs
Bloc-dans la station Ve + n Vfb + nf Vb
Famille Ve + n Vfb + n b Vfs + nbs Vf
Famille x Station Ve + n Vfb + nb Vfs
Famille x Bloc- Ve + n Vfb
dans la station
Arbre- dans la parcelle Ve
Dans le Tableau 6.4, Ve , Vfb , Vfs , Vf , Vb , et Vs sont les variances dues respectivement à l’arbre
dans la parcelle, à la famille x bloc dans la station, à la famille, au bloc dans la station, et à la station.
*Etape 2. Une fois les carrés moyens calculés, identifier chacun d’entre eux à sa composante de la
variance, comme dans le Tableau 6.4. Commencer par le bas du tableau de manière à
calculer les variances suivantes par un processus de soustraction et division. Pour ce faire,
soustraire le carré moyen dans la parcelle (Ve) du carré moyen famille x bloc (Ve + nsVfb)
pour obtenir nsVfb ; diviser ensuite par ns pour obtenir Vfb. Procéder de la même manière
jusqu’au haut du tableau.
*Etape 3. Après avoir calculé les variances, évaluer l’héritabilité des moyennes des familles à demi-
apparentées.
- 178 -
Cas particuliers
Vf
Héritabilité de la Famille = (6.9)
Ve Vfb Vfs
+ + + Vf
nbs bs s
251.02
=
1048.89 201.72 267.26
+ + + 251.02
(6)(3)(2) (3)(2) ( 2)
= 0.1600
En général, la sélection se fait sur la base des moyennes familiales, plus fiables que les moyennes par
parcelle ou par arbre.
*Etape 4. Si la sélection est basée sur les performances d’arbres individuels, on calcule l’héritabilité
individuelle. Dans un test de la descendance de familles à demi-apparentées, les différences
entre familles représentent un quart seulement de la variance génétique additive ; le reste
représente les variations au sein des familles. On multiplie donc Vf par 4 lorsque l’on calcule
l’héritabilité individuelle. En outre, comme la sélection est basée sur des arbres individuels,
toutes les variances sont insérées en totalité dans le dénominateur. La formule donnant
l’héritabilité individuelle est donc,
4Vf
Héritabilité individuelle = (6.10)
Ve + Vfb + Vfs + Vf
( 4)( 251.02)
=
1048.89 + 201.72 + 267.26 + 251.02
= 0.5676
Si les familles ne sont testées que dans une seule plantation, les procédures de test et de calcul sont
très simplifiées. Au total, les degrés de liberté sont nfb -1; les carrés moyens et les variances de la
station et de la famille x station sont éliminés du Tableau 6.2. Les familles ne sont mesurées que sur
une station, alors qu’elles pourraient avoir une croissance très différente ailleurs. La valeur calculée
de Vf est en réalité une combinaison de Vf et Vfs. L’héritabilité calculée à partir des données
provenant d’une seule plantation est donc surévaluée.
L’enregistrement et l’analyse de données concernant un arbre individuel sont les phases les plus
laborieuses, puisqu’elles absorbent souvent 75% des efforts de mesure et de calcul. Si les données
sont analysées en termes de moyenne par parcelles plutôt que de moyennes par arbre, les
estimations de Vfb, Vfs, et Vf ne varient pas, mais Ve ne peut pas être déterminé. Le terme (Ve/nbs)
est souvent si petit qu’il est sans incidence sur l’estimation de l’héritabilité familiale. L’héritabilité
individuelle est en revanche légèrement surévaluée si l’on omet Ve. On gagnera du temps en ne
prenant en considération que les moyennes familiales sur des stations différentes, c’est à dire en
calculant seulement Vfs et Vf . Normalement, l’élimination du terme Vfb/bs entraîne une légère
surestimation de l’héritabilité familiale, alors que la suppression du terme Vfb peut être à l’origine
d’une surévaluation plus importante de l’héritabilité individuelle.
- 179 -
Cas particuliers
1 − h )[1 + ( nbs − 1) h ]
( 2 2
SE( h ) =
2 4 4 (6.11)
[( ) ]
1
2 (nbs − 1)(f − 1)
nbs 2
=
( )[
1 − 0.5676 4 1 + ((6)( 3)( 2) − 1) 0.5676 4 ]
1
( 6)(3)( 2) (( 6)(3)( 2) − 11)(6 − 1) 2
2
= 0.0036
≅ 0.5525
où t est la corrélation au sein d’une classe (ou corrélation intraclasse), égale à un quart de
l’héritabilité individuelle.
Les formules précédentes sont correctes si Ve = Vfb = Vfs. Toutefois, si l’une de ces quantités est
nettement supérieure aux autres, le terme nbs sera réduit en conséquence. Par exemple, si, Vfs est
nettement supérieur à Vfb ou Ve , on peut remplacer nbs par s.
L’estimation de l’héritabilité familiale calculée plus haut s’applique exclusivement dans le cas où les
familles sélectionnées sont celles qui ont les meilleures performances globales dans toutes les
plantations. Il arrive qu’un sélectionneur choisisse des familles qui ne sont supérieures que dans une
seule plantation. Dans ce cas, l’héritabilité familiale se calcule comme précédemment, mais en
remplaçant Vfs par Vfs/s au dénominateur.
Si un sélectionneur se base sur les moyennes de parcelles, seule l’héritabilité familiale est calculée
selon la formule ci-dessus, à la différence près que Vfs et Vfb sont respectivement remplacés par Vfs
/s et Vfb /bs au dénominateur.
*Etape 6. Pour calculer le gain génétique à partir d’un test de la descendance de familles à demi
apparentées, on utilise la formule permettant d’obtenir l’amélioration génétique dérivant
d’une sélection familiale.
Gain Génétique = Différentiel de sélection x Héritabilité familiale (6.13)
où Différentiel de sélection = (Moyenne des familles sélectionnées – moyenne de toutes les familles)
- 180 -
Cas particuliers
Pour calculer le gain attendu d’une sélection de masse dans un tel test de la descendance, on utilise la
formule,
Gain attendu de la sélection de masse = Différentiel de sélection x héritabilité individuelle
(6.14)
où Différentiel de sélection = (Moyenne des arbres sélectionnés – Moyenne de tous les arbres)
L’environnement d’un individu est fait de tout ce qui a une influence sur son développement, à
l’exception de son génotype. On peut donc dire que l’environnement est la somme de tous les
facteurs non-génétiques externes à l’organisme. Comstock et Moll (1963) font une distinction entre
le micro et le macro-environnement. Le micro-environnement est celui d’un seul organisme, à
l’exclusion de tout autre qui se développerait en même temps et pratiquement au même endroit. Plus
spécifiquement, les différences micro-environnementales sont des fluctuations de l’environnement qui
se produisent même lorsque des individus sont apparemment soumis à des traitements identiques. En
revanche, le terme macro-environnement désigne l’ensemble des environnements, potentiels ou
effectifs, dans une zone et une période de temps déterminées. Un macro-environnement est donc en
quelque sorte l’ensemble des micro-environnements qu’il pourrait contenir. Les différences de
stations, de climat et même de pratiques de gestion sont des exemples de différences macro-
environnementales. On notera que l’effet d’un micro-environnement sur un organisme, et ses
interactions avec différents génotypes sont habituellement très faibles. De plus, étant donné qu’un
micro-environnement est par nature incontrôlable et imprévisible, ses interactions avec les génotypes
sont difficilement discernables. En d’autres termes, seule la déviation macro-environnementale et
son interaction avec un génotype peuvent être isolées et soumises à un test de signification.
L’une des méthodes employées pour détecter une interaction génotype-environnement consiste à
analyser les données provenant d’un essai multi-stations, comme dans le Tableau 6.2, et à tester la
signification du terme d’interaction Famille x Station. On compare la valeur calculée de F à sa valeur
tabulaire dans le cas de (f-1)(s-1) et s(f-1)(b-1) degrés de liberté (Voir Tableau 6.5).
Si l’interaction n’est pas significative ou ne comporte pas de différences notables de classement entre
les meilleures familles ou clones, celles-ci peuvent être ignorées et les sélections seront faites sur la
base de la performance moyenne du génotype, sur toutes les stations examinées. En revanche, si les
interactions sont importantes et peuvent être assez bien interprétées pour pouvoir déterminer à
l’avance les endroits où certains génotypes auront une croissance excellente ou, au contraire,
médiocre, elles ne peuvent pas être ignorées. Pour déterminer si elles sont significatives, on procède
comme suit : Regrouper les données provenant de plusieurs plantations suivant les caractéristiques de
la station (nord/sud ; sec/humide ; peu fertile/fertile). Déterminer la quantité d’interaction à l’intérieur
de ces groupes et entre eux. Si une part importante de l’interaction peut être imputable au
- 181 -
Cas particuliers
regroupement, faire des sélections distinctes pour les stations représentatives de chaque groupe de
plantation. Ensuite, la procédure correcte consiste à faire une analyse de variance distincte et une
estimation de l’héritabilité pour chaque groupe de plantation au sein duquel les interactions sont trop
faibles ou trop difficiles à interpréter pour avoir une signification pratique.
Une autre approche consiste à utiliser la technique de régression pour répartir la composante de
variabilité de l’interaction génotype – environnement entre ses fractions linéaires et non linéaires, en
vue d’évaluer la stabilité des génotypes sur une série d’environnements (Freeman et Perkins, 1971).
Un examen plus approfondi de cette méthode n’a pas sa place dans cette section.
Dans le cas de vergers à graines de clone, les plants d’un même clone sont appelés ramets.
Toutefois, dans cette section, les termes “clone ” ou “ramet ”, tels qu’ils s’appliquent dans des
vergers à graines de clones, sont utilisés à des fins descriptives. On peut adopter des plans analogues
pour les vergers à graines de plantule, et dans ce cas on dira “ descendance ” au lieu de “ clone ” et
“ parcelle familiale ” au lieu de “ ramet ”. Les parcelles familiales peuvent être composées d’un seul
arbre ou de groupes de plusieurs arbres.
- 182 -
Cas particuliers
Un plan entièrement randomisé (PER) avec sélection entièrement aléatoire de tous les ramets
disponibles de tous les clones, entre toutes les positions de plantation disponibles sur la station, est le
plus simple à concevoir, sur le papier. Toutefois, sa réalisation pose parfois des problèmes liés à la
plantation, ou au greffage in situ et à la réimplantation de chaque ramet à un stade ultérieur, en
particulier si le verger est grand et contient de nombreux clones. S’il est prévu de pratiquer des
éclaircies systématiques en enlevant un arbre sur deux ou un rang sur deux, le plan peut être encore
amélioré en faisant des randomisations distinctes pour les ramets qui doivent être laissés en place et
pour ceux qui seront supprimés lors des éclaircies. Assez souvent, la randomisation est limitée par
des restrictions, par exemple par une interdiction de planter deux ramets du même clone l’un à côté
de l’autre à l’intérieur des rangées ou des colonnes, ou bien dans des positions adjacentes, en
diagonale ; ou qu’au moins deux ramets différents s’intercalent entre des ramets du même clone. Ces
restrictions supposent généralement de manipuler les positions des ramets sur le plan, qui perd alors
son caractère purement aléatoire, mais il est rare que cette perte soit réellement significative. Cette
stratégie vise essentiellement à éviter les risques de consanguinité.
Nous illustrerons ce qui précède par la représentation graphique d’un plan entièrement randomisé
comportant une dizaine de répétitions, relatif à dix clones plantés, avec un anneau d’isolation.
Figure 6.1. Représentation schématique d’un PER, comportant dix répétitions, concernant 10
clones, avec un anneau d’isolation autour des ramets de chaque clone.
4 7 4 8 5 10 7 6 4 7
8 3 9 1 2 1 3 5 3 5
6 1 5 3 10 5 10 9 7 10
8 4 2 1 9 7 6 3 5 8
5 7 3 6 2 3 5 2 10 2
1 10 4 7 10 6 8 4 1 5
9 7 6 3 5 2 7 3 6 2
1 5 2 10 1 3 10 5 4 9
8 10 4 7 5 7 8 2 1 6
7 2 8 6 1 4 6 7 10 4
Ces concepts peuvent être élargis aux plans expérimentaux en blocs aléatoires complets (PEBAC)
ou aux plans en blocs incomplets, comme les treillis examinés dans le chapitre 4 de ce manuel, qui
permettent de contrôler plus facilement la composante d’erreur. Toutefois, la randomisation à
l’intérieur des blocs est ordinairement modifiée pour respecter les restrictions concernant la proximité
des ramets d’un même clone. Ces plans d’expérience sont surtout appropriés pour les études
comparatives de clones, mais ils ont des inconvénients, notamment : le PEBAC ne fonctionne pas
bien avec un grand nombre de clones ; les treillis et les autres plans en blocs incomplets ne sont
disponibles que pour certaines combinaisons déterminées de nombre de clones et de nombres de
ramets par clone, et sont inapplicables dans le cas d’éclaircies systématiques qui détruiraient le plan.
La Bastide (1967) a mis au point un programme informatique qui fournit un plan réalisable pour des
nombres déterminés de clones, de ramets par clone, et pour un rapport déterminé entre les lignes et
les colonnes. Ce programme comporte deux contraintes : premièrement, il faut un double anneau de
clones différents pour isoler chaque ramet d’un même clone (qui sont plantés dans des rangs
disposés en quinconce) ; une combinaison quelconque de deux clones adjacents ne peut se trouver
- 183 -
Cas particuliers
qu’une seule fois dans une direction spécifique quelconque (voir Figure 6.2.). Ce plan peut être
appelé “ plan de permutation des combinaisons de voisinage ”.
Figure 6.2. Fragment d’un plan de permutation des combinaisons de voisinage relatif à 30 clones,
avec les restrictions au caractère aléatoire imposées par La Bastide (1967) dans son programme
informatique, à savoir i) 2 anneaux de clones différents isolent chaque ramet, et ii) une combinaison
quelconque de deux clones adjacents ne peut pas se retrouver plus d’une fois dans une direction
spécifique quelconque.
16 22 18 24 10 23
21 5 29 3 19 5 1
15 23 14 22 30 24
6 4 26 7 25 8 3
21 22 12 20 27 26
5 8 6 9 10 7 15
25 23 2 29 8 2
L’idéal est que le plan soit construit pour un nombre de répétitions égal au nombre de clones diminué
de un, de façon à ce que chaque clone se trouve à côté de chaque autre clone une fois dans chacune
des six directions possibles. Pour trente clones, il faudrait donc 29 ramets par clone, soit au total 870
greffons, même s’il n’est pas toujours possible de construire des plans de cette taille. Même dans ce
cas, les petits blocs qui ont été créés sont pour l’instant les meilleurs plans dont on dispose pour
garantir, au moins en théorie, la permutation maximale des combinaisons de voisinage et la
production minimale de frères complets dans la descendance du verger. Chakravarty et Bagchi
(1994) et Vanclay (1991) décrivent de bons programmes d’ordinateur permettant de construire des
plans de permutation de voisinage relatifs à des vergers à graines..
Lorsque l’on établit des vergers à graines, on part ordinairement de l’hypothèse que chaque clone
(ou ramet, ou parcelle familiale ou plantule) du verger fleurira à la même période ; aura le même
cycle de grosse floraison périodique ; sera complètement inter fécondable avec tous ses voisins et
produira un nombre identique de semences viables par plant; aura le même degré de résistance à
l’autostérilité ; et aura un taux de croissance et une forme de couronne similaires à tous les autres
plants. Comme chacun sait, il n’en est, et n’en sera probablement jamais ainsi. Pour obtenir de bons
résultats, un sélectionneur doit être patient et observateur et rassembler sans relâche toutes les
informations essentielles sur le comportement des clones, leurs compatibilités et leurs facultés de
combinaison, et en tenir compte pour améliorer les générations prochaines et successives de vergers
à graines. Ce type de plans utilise le maximum de données existantes.
- 184 -
Cas particuliers
6.2. Dendrométrie
Pour expliquer le calcul du volume d’un arbre à l’aide des formules ci-dessus, nous prendrons les
données sur la longueur et la circonférence (du bas, du milieu et du bout) de différentes grumes d’un
arbre, reprises dans le Tableau 6.6.
Tableau 6.6. Circonférences (du bas, du milieu et du bout) et longueurs des grumes d’un teck.
- 185 -
Cas particuliers
Dans le commerce du bois, la mesure utilisée est généralement le volume, mais certains produits
comme le bois de feu ou le bois de trituration se vendent aussi au poids. Le poids est aussi la mesure
standard pour de nombreux produits forestiers mineurs. En recherche, on se réfère de plus en plus
souvent à la biomasse. Il est certes plus facile de déterminer le poids plutôt que le volume, mais
divers problèmes, comme le caractère variable de la teneur en humidité et de l’épaisseur de l’écorce,
font que cette mesure n’est pas fiable. On exprime donc en général la biomasse en poids sec des
parties de l’arbre (tronc, branches, et feuilles). On utilise des méthodes destructrices pour déterminer
la biomasse d’arbres individuels, en les abattant et en séparant les parties, comme le tronc, les
branches, les rameaux et les feuilles. Il importe de bien définir toutes les parties constituantes de
l’arbre: par exemple, tout matériel issu du tronc, dont la circonférence mesurée sur écorce est
inférieure à 10 cm, fait partie du bois des branches. Les différentes parties doivent être pesées
immédiatement après l’abattage. Si l’on veut obtenir des poids séchés à l’étuve, les échantillons sont
prélevés à ce stade. Au moins trois échantillons d’environ 1 kilo doivent être prélevés sur le tronc,
les branches et les rameaux de chaque arbre ; ensuite il faut les peser et les emporter au laboratoire
pour le séchage à l’étuve. Le poids sec total de chaque partie constituante de l’arbre est ensuite
estimé en appliquant le rapport poids frais / poids sec observé dans l’échantillon, au poids frais total
correspondant des parties constituantes de l’arbre. Par exemple,
Total DW du fut =
DW des échantillo ns du fut
(Total FW du fut ) (6.15)
FW des échantillo ns du fut
où FW = Poids frais
DW = Poids sec
- 186 -
Cas particuliers
Pour illustrer ceci par un exemple, nous prendrons les données du Tableau 6.7.
Tableau 6.7. Poids frais et poids sec de disques-échantillons prélevés sur le fût d’un arbre
Disque Poids frais Poids sec
(kg) (kg)
1 2.0 0.90
2 1.5 0.64
3 2.5 1.37
Total 6.0 2.91
Total DW du fut =
DW des échantillo ns du fut
(Total FW du fut )
FW des échantillo ns du fut
ln y = a + b D (6.17)
ln y = a + b ln D (6.18)
y0.5 = a + b D (6.19)
y = a + b D2H (6.20)
ln y = a + b D2H (6.21)
ln y = a + b ln D + c ln H (6.23)
y0.5 = a + b D + c H (6.24)
- 187 -
Cas particuliers
Dans toutes ces équations, y représente le volume ou la biomasse de l’arbre, D est son diamètre
mesuré, de manière uniforme pour tous les arbres-échantillon, à hauteur d’homme ou à un point plus
bas, H sa hauteur et a, b, c des coefficients de régression (ln indique le logarithme naturel).
En général, plusieurs formes d’équations sont adaptées aux données, et la plus appropriée est choisie
sur la base de certaines mesures, comme le coefficient de détermination ajusté, ou l’indice de
Furnival. Ce dernier doit impérativement être utilisé si l’on doit comparer des modèles comprenant
des variables dépendantes de formes différentes.
n-1
R 2 adapté = 1 − (1-R 2 ) (6.26)
n-p
où R2 est le coefficient de détermination, donné par le rapport de la somme des carrés de régression
à la somme totale des carrés (voir Section 3.7)
n est le nombre d’observations concernant la variable dépendante
p est le nombre de paramètres intervenant dans le modèle
L’indice de Furnival se calcule comme suit. Pour chaque modèle intervenant dans l’analyse de la
variance, on calcule la racine carrée du carré moyen de l’erreur. A partir des observations, on
détermine, pour chaque modèle, la moyenne géométrique de la dérivée de la variable dépendante
par rapport à y. La moyenne géométrique d’un ensemble de n observations est définie par la racine
n-ème du produit des observations. L’indice de Furnival de chaque modèle s’obtient ensuite en
multipliant les valeurs correspondantes de la racine carré du carré moyen de l’erreur par l’inverse de
la moyenne géométrique. Par exemple, la dérivée de ln y est (1/y) et l’indice de Furnival est dans ce
cas,
1
Indice de Furnival = MSE
Moyenne géométriqu e ( )
y −1
(6.27)
0.5 - 0.5
La dérivée de y est (1/2)(y ) ; l’Equation (6.27) devra donc être modifiée en conséquence si la
variable dépendante est y0.5.
A titre d’exemple, prenons les données du Tableau 6.8 sur le poids sec et le diamètre à hauteur
d’homme de 15 acacias.
- 188 -
Cas particuliers
SSR 2.0683
R2 = = = 0.9463
SSTO 2.1857
- 189 -
Cas particuliers
15 - 1
R 2 ajusté = 1 − (1 - 0.9463)
15 - 3
= 0.9373
SSR 3.5071
R2 = = = 0.9552
SSTO 35198
.
15 - 1
R 2 ajusté = 1 − (1 - 0.9552)
15 - 2
= 0.9517
Ici, la dérivée de y est 1/y. L’indice de Furnival, donné par l’équation (6.27), est
1
Indice de Furnival = 0.0127 == 0.0834
13514
.
La moyenne géométrique de (1/y) est ici la moyenne géométrique des inverses des quinze valeurs de
y du Tableau 6.8.
Dans l’exemple considéré, le modèle ln y = a + b D a un indice de Furnival plus faible, de sorte qu’il
est préféré à l’autre modèle y = a + b D + c D2. On note également que le second modèle a aussi
une valeur ajustée de R2 plus élevée.
- 190 -
Cas particuliers
prix, mais aussi des rendements escomptés de ces espèces sur cette station. Ou encore, combien de
fois faudrait-il éclaircir une plantation de tecks ? La réponse dépend bien évidemment du taux de
croissance attendu de la plantation. Qu’adviendrait-il des tecks s’ils étaient cultivés en mélange avec
d’autres espèces? Avec des modèles de croissance appropriés, il est possible de répondre à ce type
de questions.
Dans la majorité des modèles, le peuplement est considéré comme une unité d’aménagement. On
entend par ‘peuplement’ un groupe d’arbres associés à une station. Les modèles tentent de
comprendre le comportement d’un peuplement au moyen d’équations algébriques. Avant d’étudier
les différents modèles de peuplement, nous commencerons par décrire quelques-unes des mesures
les plus courantes de leurs attributs.
Diamètre moyen : diamètre correspondant à la surface terrière moyenne d’un groupe d’arbres, ou
d’un peuplement, la surface terrière étant la superficie de la section de la tige de l’arbre, mesurée à
hauteur d’homme.
Surface terrière d’un peuplement : Somme des surfaces de la section, à hauteur d’homme, des
tiges des arbres du peuplement, ordinairement exprimée en m2 par rapport à une unité de surface.
Hauteur moyenne: hauteur correspondant au diamètre moyen d’un groupe d’arbres, donnée par la
courbe hauteur-diamètre du peuplement.
Hauteur dominante : hauteur correspondant au diamètre moyen des 250 arbres ayant le plus gros
diamètre, sur un hectare, donnée par la courbe hauteur-diamètre.
Indice de la qualité de la station : hauteur dominante prévue d’un peuplement, à un certain âge
(généralement âge où la croissance en hauteur est à son maximum).
Volume d’un peuplement: volume total de tous les arbres du peuplement, habituellement exprimé en
m3 par rapport à une unité de surface.
Suivant le degré de résolution des variables d’entrée, les modèles de peuplement peuvent être
classés comme suit: i ) modèles de peuplement globaux ii) modèles de classes de diamètre et iii)
modèles d’arbres individuels. Bien qu’il existe des modèles différents pour les peuplements
équiennes et non équiennes, la majorité s’appliquent dans les deux cas. En général, les plantations
sont principalement constituées d’arbres du même âge et de la même espèce, alors que les forêts
naturelles contiennent des arbres d’espèces et d’âges différents. Le terme « équienne » s’applique à
des cultures d’arbres qui ont à peu près le même âge, mais on tolère des différences allant jusqu’à
25% de l’âge de rotation si un peuplement n’a pas été exploité depuis au moins 100 ans. En
- 191 -
Cas particuliers
revanche, le terme inéquienne s’applique à des peuplements dans lesquels l’âge des fûts varie
considérablement, la fourchette de variation étant ordinairement de plus de 20 ans et, dans le cas de
peuplements à rotation longue, de plus de 25% de la rotation.
Les modèles de peuplement globaux prévoient les différents paramètres d’un peuplement
directement à partir des variables de régression concernées. Les paramètres habituellement pris en
considération sont le volume commercial /ha, le diamètre et la hauteur du peuplement. Les variables
de régression sont principalement l’âge, la densité de peuplement et l’indice de qualité de la station.
Etant donné que l’âge et l’indice de la qualité de la station déterminent la hauteur dominante, on se
contente parfois de prendre en considération cette dernière caractéristique, à la place des deux
premières. Les modèles de peuplement globaux peuvent être classés en modèles avec ou sans
densité de peuplement comme variable indépendante. Les tables de production normales classiques
ne prennent pas en considération la densité de peuplement, étant donné que le terme «normal »
sous-entend une densité naturelle maximale. En revanche, les tables de production empiriques
supposent une densité naturelle moyenne. Il existe deux sortes de modèles à variable -densité: ceux
où le volume présent ou futur est estimé directement par les fonctions de croissance et ceux où le
volume du peuplement est obtenu en additionnant des classes de diamètre engendrées
mathématiquement. De plus, certains modèles estiment la croissance directement alors que d’autres
procèdent en deux étapes (estimation de la densité de peuplement future, estimation du peuplement
futur sur la base de cette information, et obtention de la croissance, par soustraction).
Les modèles en classes de diamètre retracent les variations du volume ou d’autres caractéristiques,
pour chaque classe de diamètre en calculant la croissance de l’arbre moyen de chaque classe, et en
multipliant le chiffre obtenu par le nombre de fûts répertoriés dans chaque classe. Les volumes de
toutes les classes sont regroupés pour obtenir les caractéristiques du peuplement.
Les modèles d’arbres individuels sont les plus complexes et modélisent chaque arbre sur une liste
d’arbres-échantillon. Presque tous ces modèles calculent un indice de concurrence des cimes pour
chaque arbre, afin de déterminer si l’arbre vivra ou non et, dans l’affirmative, de déterminer sa
croissance, en termes de diamètre du fût, de hauteur et de diamètre de la couronne. L’un des
critères de distinction entre les types de modèles est le mode de calcul de l’indice de concurrence
des cimes. Si le calcul est basé sur la distance (mesurée ou relevée sur une carte) entre un sujet et
tous les arbres situés à l’intérieur de sa zone de concurrence, le modèle est dit dépendant de la
distance. Si l’indice de concurrence des cimes est calculé uniquement d’après les caractéristiques du
sujet et de l’ensemble du peuplement, on a un modèle indépendant de la distance.
Nous allons maintenant décrire quelques modèles appropriés d’une part pour des peuplements
équiennes et de l’autre pour des peuplements inéquiennes.
- 192 -
Cas particuliers
Dans l’Equation (6.29), on remplace B2 par l’équation (6.30), et on obtient une équation du
rendement futur, en fonction des variables actuelles et de l’âge projeté du peuplement,
V2=f(A 1,A2, S, B1) (6.31)
On peut estimer directement les paramètres de l’Equation (6.32) grâce à une analyse de régression
linéaire multiple (Montgomery et Peck, 1982), avec un nouveau mesurage des données observées
sur des parcelles-échantillon permanentes, en gardant V2 comme variable dépendante et A1, A2, S et
B1 comme variables indépendantes.
Nous illustrerons une application de l’approche de modélisation à l’aide des équations de Brender et
Clutter (1970), ajustées pour 119 peuplements de pins à l’encens de piémont, près de Macon, en
Géorgie. L’équation du volume projeté (en acres/ pieds cubes) est
( )
log V2 = 1.52918 + 0.002875S + 6.1585A −21 + 2.291143 1 − A1 A −21 + 0.93112(log B1 )A1A −21
(6.34)
En posant A2 = A1, cette équation permet de prévoir le volume actuel, soit
log V = 1.52918 + 0.002875S − 6.15851A −1 + 0.93112(log B) (6.35)
Pour illustrer une application du modèle de Brender-Clutter, prenons le cas d’un peuplement
actuellement âgé de 25 ans, d’une surface terrière de 70 pieds2/acre, situé dans une station ayant un
indice de qualité de 80 pieds. Le propriétaire veut faire estimer le volume actuel et le volume projeté
après dix années de croissance supplémentaires. Le volume actuel est estimé par l’équation (6.35),
log V = 1.52918 + 0.002875(80) − 6.15851(1/25) + 0.93112(log 70)
= 1.52918 + 0.23 - 0.24634 + 1.71801
= 3.23085
- 193 -
Cas particuliers
V2 = 2,480 pieds3
y 2 t+ θ = b 2 ( y1t − h 1t ) + a 2 ( y 2t − h 2t )
. . .
. . .
. . .
y nt +θ = b n (y {n−1}t − h {n−1}t ) + a n ( y nt − h nt )
où y it+ ϑ est le nombre prévu d’arbres vivants dans la i-eme classe de taille au temps t.
h it est le nombre d’arbres de la i-eme classe de taille abattus pendant un intervalle de temps.
gi, ai, bi sont des coefficients à estimer.
Ici le nombre d’arbres dans la plus petite classe de taille est exprimé en fonction du nombre total
d’arbres dans toutes les classes de taille et de la récolte pendant un certain intervalle de temps. Sur la
même période de référence, les nombres d’arbres dans les plus grandes classes de taille sont des
fonctions des nombres d’arbres dans les classes de taille adjacentes. Il est possible d’estimer ces
paramètres par une analyse de régression en utilisant des données provenant de parcelles-
échantillons permanentes en précisant le nombre d’arbres, et leur état, dans les différentes classes de
diamètre, à chaque période, avec un intervalle de temps donné, ainsi que le nombre d’arbres abattus
entre deux mesurages successifs.
Nous illustrerons ce qui précède par un exemple très simple, à l’aide des données suivantes,
collectées en deux occasions successives, espacées par un intervalle θ = 5 ans, dans un petit nombre
de parcelles-échantillon permanentes situées dans des forêts naturelles. Les données du Tableau
6.13 indiquent le nombre d’arbres appartenant à trois classes de diamètres, lors des deux
mesurages. Supposons qu’aucune récolte n’ait eu lieu pendant cet intervalle de temps, ce qui
implique que les quantités hit; i = 1, 2, …, n sont nulles. Dans la réalité, il se peut que les classes de
diamètre soient plus nombreuses, et qu’il faille prendre plusieurs mesures dans un grand nombre de
parcelles, en enregistrant le nombres d’arbres enlevés de chaque classe de diamètres entre deux
mesurages successifs.
- 194 -
Cas particuliers
Tableau 6.13. Nombre d’arbres/ha dans trois classes de diamètres, lors de deux mesurages
successifs, dans des forêts naturelles.
N° de la Nombre d’arbres/ha Nombre d’arbres/ha
parcelle au Mesurage - I au Mesurage - II
échantillon classe classe classe classe classe classe
dbh dbh dbh dbh dbh dbh
<10cm 10-60 cm >60 cm <10cm 10-60 cm >60 cm
(y1t) (y2t) (y3t) (y1t+θ) (y2t+θ) (y2t+θ)
1 102 54 23 87 87 45
2 84 40 22 89 71 35
3 56 35 20 91 50 30
4 202 84 42 77 167 71
5 34 23 43 90 31 29
6 87 23 12 92 68 20
7 78 56 13 90 71 43
8 202 34 32 82 152 33
9 45 45 23 91 45 38
10 150 75 21 83 128 59
y 2 t+ θ = b 2 y1t + a 2 y 2 t
y 3t +θ = b 3 y 2 t + a 3 y 3t
En regroupant les données respectives du Tableau 6.13, et en effectuant comme d’habitude l’analyse
de régression linéaire multiple (Montgomery et Peck,1982), on obtient les estimations suivantes.
y 2 t+ θ = 0.7032 y 1t + 0.2954 y 2 t
y 3t + θ = 0.7016 y 2 t + 0.2938 y 3t
Comme l’ont démontré Boungiorno et Michie (1980), les équations de ce type (6.38)) sont
fondamentales pour prévoir l’état futur d’un peuplement et concevoir des politiques d’exploitation
optimales sur l’unité d’aménagement. Dans le domaine de l’aménagement des forêts, les modèles de
croissance sont généralement utilisés pour comparer différentes options d’aménagement. Avec des
modèles de simulation de la croissance, il est possible de comparer les résultats des différentes
simulations, notamment les taux de rentabilité interne et d’établir des programmes d’exploitation
optimaux. Etant donné que divers modèles permettent d’établir des projections de la croissance et
du rendement, il faudra choisir le plus adapté, en tenant compte des données qu’ils nécessitent et de
- 195 -
Cas particuliers
la complexité des calculs qu’ils impliquent. En outre, la validité biologique et la précision des
prévisions sont des éléments cruciaux du choix du modèle.
Supposons, par exemple, que l’on identifie 400 espèces dans une collection de 10 000 individus,
l’indice de la richesse en espèces sera
400
Indice de la richesse en espèces = =4
10000
Nombre d’espèces
500
400
300
200
100
0
- 196 -
Cas particuliers
L’équation S = 100A0.2, va nous permettre de prévoir le nombre d’espèces qu’il serait possible
d’obtenir en couvrant une plus grande surface, à l’intérieur de la région d’échantillonnage. Dans
l’exemple ci-dessus, nous devrions obtenir ‘458’ espèces pour une surface de 2000 hectares.
Si l’on capture des insectes à l’aide de pièges lumineux, une courbe espèces-individus sera plus utile.
Pour trouver une courbe asymptotique, il faut parfois utiliser des équations non-linéaires de la forme,
αN
S= (6.40)
β+ N
où S tend vers α lorsque N tend vers ∞. Autrement dit, α sera le nombre limite d’espèces dans une
collection infiniment grande d’individus. Dans ce cas, les paramètres α et β devront être estimés à
l’aide de techniques de régression non-linéaire (Draper et Smith, 1966). Un graphique de l’équation
(6.40) est donné ci-dessous pour α = 500 et β = 100.
Nombre d’espèces
500
400
300
200
100
0
Nombre d’individus
L’abondance relative se mesure habituellement par des indices de diversité. L’un des plus connus est
l’indice de Shannon-Wiener (H).
S
H = −∑ pi ln pi (6.41)
i =1
Les valeurs de l’indice de Shannon-Wiener obtenues pour différentes communautés peuvent être
vérifiées à l’aide du test t de Student, où t est défini par
H1 − H2
t= (6.42)
Var ( H1 ) + Var ( H2 )
- 197 -
Cas particuliers
∑ p (ln p ) − ( ∑ pi ln pi ) 2 S − 1
2
Var ( H ) = +
i i
2 (6.44)
N 2N
Les méthodes à employer pour calculer l’indice de Shannon-Wiener et tester la différence entre les
indices de deux endroits sont illustrées dans ce qui suit.
Le Tableau 6.14 montre le nombre d’individus appartenant à différentes espèces d’insectes attrapés
à l’aide de pièges lumineux, dans deux endroits du Kerala ( Matthew et al., 1998).
*Etape 2. La diversité des insectes est H1 = 2.3716 à Nelliyampathy, alors qu’à Parambikulam elle
est de H2 = 2.4484. Ces valeurs représentent la somme des colonnes pi ln pi relatives à
chaque endroit. La formule de calcul de l’indice de Shannon-Wiener est précédée d’un signe
moins, ce qui annule le signe négatif du à l’utilisation de logarithmes de proportions.
- 198 -
Cas particuliers
*Etape 3. La variance de diversité des deux endroits peut être estimée à l’aide de l’Equation (6.44).
∑ p (ln p ) − ( ∑ pi ln pi ) 2 S − 1
2
Var ( H ) = +
i i
2
N 2N
6.6000 − 5.6244 19
D’où, Var( H1 ) -Nelliyampathy = + 2 = 0.0029
349 2( 349 )
6.9120 − 5.9947 19
Var ( H2 ) -Parambikulam = + 2 = 0.0027
347 2( 347 )
*Etape 4. Le test t permet de comparer les diversités des deux endroits. Les formules appropriées
sont données par les Equations (6.42) et (6.43).
- 199 -
Cas particuliers
H1 − H2
t=
Var ( H1 ) + Var ( H2 )
2.3716 − 2.4484
Dans notre exemple, t = = 1.0263
0.0029 + 0.0027
Les degrés de liberté correspondants sont donnés par
( 0.0029 + 0.0027 ) 2
ν = = 695.25
( 0.0029 ) 2 349 + (0.0027) 2 347
La valeur tabulaire de t correspondant à 695 degrés de liberté (Annexe 2) montre que la différence
entre les indices de diversité des deux endroits n’est pas significative.
Par convention, pour des études de la biodiversité on emploie des modèles d’échantillonnage
aléatoire. Il convient aussi de se demander quelle taille doivent avoir les échantillons pour estimer un
indice de diversité spécifique, quel qu’il soit. Des exercices de simulation fondés sur une structure
réaliste des abondances d’espèces ont révélé que l’observation de 1000 individus sélectionnés au
hasard était suffisante pour estimer l’indice de Shannon-Wiener. L’estimation de la richesse en
espèces requiert parfois jusqu’à 6000 individus (Parangpe etGore, 1997).
Pour ajuster la série, il faut calculer le nombre d’espèces qui devraient avoir un, deux etc…
individus. Ces valeurs prévues sont ensuite rangées dans les mêmes classes d’abondance que celles
qui ont été utilisées pour la distribution observée et les deux distributions sont comparées à l’aide
d’un test de validité de l’ajustement. Le nombre total d’espèces est bien entendu identique dans les
distributions observée et prévue.
- 200 -
Cas particuliers
Tous les calculs sont illustrés par l’exemple qui suit. Mathew et al. (1998) ont étudié l’impact de la
perturbation d’une forêt sur la diversité des espèces d’insectes, dans quatre stations du Western
Ghats, dans le Kerala. Dans le cadre de cette étude, ils ont établi une liste de l’abondance de 372
espèces, à Nelliyampathy. Cette liste n’est pas reproduite ici, pour des raisons d’espace, en série
log.
*Etape 1. Ranger les abondances observées dans les classes d’abondance. Dans notre cas, on
choisit des classes en log2 (c’est à dire en octaves, ou doubles, des abondances d’espèces).
Il suffit d’ajouter 0.5 à la borne supérieure de chaque classe, pour assigner clairement les
abondances d’espèces observées à chaque classe. Ainsi, dans le tableau ci-dessous
(Tableau 6.16), on constate que 158 espèces ont une abondance d’un ou deux individus,
55 espèces en ont 3 ou 4 etc.
*Etape 2. Les deux paramètres nécessaires pour ajuster la série sont x et α. La valeur de x est
estimée par itération du terme suivant
S
= [(1 − x ) / x][ −ln (1 − x )] (6.46)
N
où S = Nombre total d’espèces (372)
N = Nombre total d’individus (2804).
La valeur de x est en général supérieure à 0.9 et toujours <1.0. Il suffit de faire quelques opérations
sur une calculatrice, pour obtenir la bonne valeur de x, en essayant différentes valeurs de x dans
l’expression [(1 − x ) / x ][ −ln (1 − x )] jusqu’à arriver à S/N = 0.13267.
x [(1 − x ) / x ][ −ln (1 − x )]
0.97000 0.10845
0.96000 0.13412
0.96100 0.13166
0.96050 0.13289
0.96059 0.13267
- 201 -
Cas particuliers
La valeur correcte de x est donc 0.96059. Une fois que l’on a obtenu cette valeur de x, on peut
facilement calculer α à l’aide de l’équation,
N (1 − x ) 2804(1 − 0.96059)
α= = = 115.0393 (6.47)
x 0.96059
*Etape 3. Lorsque l’on a obtenu les valeurs de α et x, on peut calculer le nombre d’espèces qui
devraient contenir 1, 2, 3, . . ., n individus. Ceci est illustré ci dessous, pour les quatre
premières classes d’abondance correspondant aux sommes cumulées.
Tableau 6.17. Calculs à effectuer pour obtenir le nombre d’espèces prévu dans un modèle en
série log.
Nombre Terme de la série Nombre d’espèces Somme cumulée
d’individus prévu
1 αx 110.5
2 α x 2/2 53.1 163.6
3 α x 3/3 33.9
4 α x 4/4 24.5 58.5
5 α x 5/5 18.8
6 α x6/6 15.1
7 α x 7/7 12.4
8 α x 8/8 10.4 56.7
9 α x 9/9 8.9
10 α x 10/10 7.7
11 α x 11/11 6.7
12 α x 12/12 6.0
13 α x 13/13 5.2
14 α x 14/14 4.7
15 α x 15/15 4.2
16 α x 16/16 3.8 47.1
*Etape 4. L’étape suivante consiste à dresser un tableau du nombre d’espèces prévu et observé
dans chaque classe d’abondance et à comparer les deux distributions à l’aide d’un test de
validité de l’ajustement. Le test du χ 2 est l’un des plus utilisés.
Pour chaque classe, calculer χ 2 comme suit.
χ 2 = (Fréquence observée – Fréquence prévue)2/ Fréquence prévue (6.48)
Par exemple, dans la classe 1, χ2 = (158-163.5809)2 /163.5809 =0.1904. Pour finir, sommer cette
colonne pour obtenir la validité globale de l’ajustement, ∑ χ . Vérifier la valeur du χ2 obtenue dans
2
la table du χ2 (Annexe 4) en prenant comme degré de liberté le nombre de classes moins 1. Dans
∑χ
2
notre cas, = 12 .0624 , avec 6 degrés de liberté. La valeur de χ2 pour P=0.05 est 12.592.
- 202 -
Cas particuliers
On en conclut qu’il n’y a pas de différence significative entre la distribution observée et la distribution
prévue. Le modèle en série log est donc bien ajusté aux données.
Lorsque le nombre d’espèces prévues est petit (<1.0), la valeur calculée du χ2 peut être très élevée.
Dans ce cas, il est préférable de combiner le nombres d’espèces observé dans au moins deux
classes adjacentes, et de le comparer avec le nombre combiné d’espèces prévu dans les deux
mêmes classes. Les degrés de liberté doivent être réduits en conséquence. Dans l’exemple qui
précède, la fréquence prévue de la classe 8 est inférieure à 1, de sorte que l’on a combiné les
fréquences observée et prévue de la classe 8 avec celles de la classe 7, pour tester la validité de
l’ajustement.
On discerne dans les communautés trois grands types de configuration : aléatoire, en bouquets et
uniforme (voir Figure 6.5). Les mécanismes de causalité suivants sont souvent utilisés pour expliquer
les répartitions observées dans les communautés écologiques. Dans une population d’organismes, la
répartition aléatoire implique un environnement homogène et des comportements non sélectifs. En
revanche, les configurations non aléatoires (regroupement en bouquets et uniformes) impliquent que
des contraintes soient exercées sur la population. Le regroupement en bouquets laisse penser que
les individus sont regroupés dans les endroits les plus favorables; Il peut y avoir diverses causes : le
comportement grégaire, l’hétérogénéité de l’environnement, le mode de reproduction etc. Les
dispersions uniformes résultent d’interactions négatives entre les individus, telles que la concurrence
pour la nourriture et l’espace. On notera que l’identification d’une configuration et l’explication des
causes possibles de cette configuration sont deux problèmes différents. De plus, il ne faut pas oublier
- 203 -
Cas particuliers
Si des individus d’une espèce sont dispersés sur des unités d’échantillonnage discontinues (ex :
cochenilles sur les feuilles des plantes), et si, à un moment donné, on préleve un échantillon du
nombre d’individus par unité d’échantillonnage, il est possible de récapituler les données en terme de
distribution de fréquence, c’est-à-dire du nombre d’unités d’échantillonnage avec 0, 1, 2, etc…
individus. Cette distribution est l’ensemble de données de base qui entre en jeu dans les méthodes de
détection des configurations décrites plus loin. On remarquera que les espèces sont supposées
apparaître sur des sites ou des unités d’échantillonnage naturelles discontinus, telles que feuilles,
fruits, arbres. En général, les relations entre la moyenne et la variance du nombre d’individus par
unité d’échantillonnage sont fonction des modes de dispersion de la population. Par exemple, la
moyenne et la variance sont à peu de choses près égales dans les répartitions aléatoires, mais la
variance est plus grande que la moyenne dans les distributions en bouquets, et plus petite dans les
répartitions uniformes. Il existe certains types de distribution de fréquence statistique qui, en raison
de leurs rapports variance-moyenne, ont été utilisés comme modèles de ces types de configurations
écologiques. Il s’agit de i) la distribution de Poisson pour les configurations aléatoires ; ii) la
distribution binomiale négative pour les distributions en bouquets et iii) la distribution binomiale
positive pour les distributions uniformes. Ces trois modèles statistiques ont couramment été utilisés
dans les études de configuration spatiale, mais il existe d’autres distributions statistiques tout aussi
appropriées.
- 204 -
Cas particuliers
Avant de poursuivre, quelques réserves s’imposent. Tout d’abord, le non-rejet d’une hypothèse de
distribution aléatoire signifie seulement qu’aucun caractère non aléatoire n’a été détecté à l’aide de
l’ensemble de données spécifié. Deuxièmement, les hypothèses proposées doivent être raisonnables,
c’est-à-dire soutenables et fondées à la fois sur le bon sens et sur des connaissances biologiques. Ce
second point est lié par d’importantes ramifications au premier. Il n’est pas rare qu’une distribution
statistique théorique (ex. distribution de Poisson) ressemble à une distribution de fréquence observée
(c’est-à-dire qu’il y a concordance statistique entre les deux), même si les hypothèses qui sous-
tendent ce modèle théorique ne sont pas vérifiées par l’ensemble de données. Il s’ensuit que l’on
peut accepter une hypothèse nulle même si elle n’a pas de justification biologique. Troisièmement, les
conclusions ne doivent pas être basées uniquement sur les tests de signification. Toutes les sources
d’information disponibles (écologiques et statistiques) devraient être utilisées ensemble. Ainsi, le non
rejet d’une hypothèse nulle, basée sur une petite taille d’échantillon, devrait être considéré comme
une faible confirmation de ladite hypothèse. Enfin, il faut avoir présent à l’esprit que la détection
d’une configuration spatiale et l’explication de ses causes possibles sont deux problèmes différents.
L’utilisation de la loi binomiale négative pour la vérification de configurations en bouquets est décrite
ici. Le modèle binomial négatif est vraisemblablement la loi de probabilité la plus couramment utilisée
pour les distributions en bouquets (également appelées distributions “ contagieuses ” ou
“ agrégatives ”). Lorsque deux des conditions requises pour l’emploi du modèle de Poisson ne sont
pas vérifiées - à savoir la condition 1 (toutes les unités d’échantillonnage naturelles ont la même
probabilité de contenir un individu) et la condition 2 (la présence d’un individu dans une unité
d’échantillonnage est sans influence sur le fait qu’elle soit occupée par un autre individu) - on obtient
en général un rapport variance- moyenne élevé du nombre d’individus par unité d’échantillonnage.
Comme on l’a vu plus haut, ceci laisse penser que l’on est en présence d’une configuration en
bouquets.
La loi binomiale négative a deux paramètres, µ, le nombre moyen d’individus par unité
d’échantillonnage et k, un paramètre lié au degré de regroupement. Les étapes de la vérification de la
concordance entre la distribution de fréquence observée et la loi binomiale négative sont décrites ci-
dessous.
- 205 -
Cas particuliers
dénote l’existence d’une dispersion non-aléatoire ou en bouquets. S’il n’arrive pas à rejeter
cette hypothèse, l’écologiste peut avoir un bon modèle empirique pour décrire un ensemble
de données de fréquence observées, sans que ce modèle explique quels sont les causes
profondes possibles de cette configuration. Autrement dit, il faut se garder de déduire la
causalité uniquement sur la base de nos méthodes de détection du mode de dispersion.
*Etape 2. Le nombre d’individus par unité d’échantillonnage est résumé sous la forme d’une
distribution de fréquence, autrement dit du nombre d’unités d’échantillonnage avec 0, 1, 2,
…, r individus.
*Etape 3. Calculer les probabilités P(x) de la loi binomiale négative. La probabilité de trouver x
individus dans une unité d’échantillonnage, c’est à dire que dans P(x), x soit égal à 0, 1, 2,
…, r individus, est donnée par la formule,
µ ( k + x − 1 )! µ − k
x
P( x ) = 1 + (6.49)
( µ + k ) x !( k − 1)! k
Lorsque la moyenne est basse (inférieure à 4), l’Equation (6.50) fournit un bon moyen d’estimer k$ .
Par contre, si la moyenne est élevée (supérieure à 4), la méthode itérative n’est efficace que si le
regroupement de la population est généralisé. Ainsi, lorsque la moyenne (x ) de la population et la
valeur de k$ (le paramètre de regroupement calculé à partir de l’équation (6.51)) sont toutes les deux
supérieures à 4, l’équation (6.51) est préférée à l’équation (6.50) pour estimer k$ .
Une fois que l’on a obtenue les deux statistiques, x et k$ , on calcule, avec la formule (6.49), les
probabilités P(x) de trouver x individus dans une unité d’échantillonnage, où x = 0, 1, 2, …, r
individus,
- 206 -
Cas particuliers
P( 0 ) =
0
(
x k + 0 − 1 !
$ ) x − k
1+
x + k$ 0!( k − 1 )! k$
−k
x
= 1 + $
k
P( 1 ) =
1
( $ )
x k + 1 − 1 ! x
−k
1 +
x + k$ 1!( k$ − 1 )! k$
x k$
= P (0)
x + k$ 1
P( 2 ) =
2
( $ )
x k + 2 − 1 ! x
−k
1 +
x + k$ 2 !( k$ − 1 )! k$
x k$ + 1
= P (1)
x + k$ 2
P( r ) =
r
( $ )
x k + r − 1 ! x
−k
1 +
x + k$ r !( k$ − 1 )! k$
x k$ + r − 1
= P( r − 1)
x + k$ r
*Etape 4. Trouver les fréquences binomiales négatives théoriques. Le nombre théorique d’unités
d’échantillonnage contenant x individus s’obtient en multipliant chaque probabilité binomiale
négative par N, le nombre total d’unités d’échantillonnage dans l’échantillon. Le nombre de
classes de fréquence, noté q, est aussi déterminé selon la méthode décrite pour le modèle de
Poisson.
*Etape 5. Test de la validité de l’ajustement. Le test du χ 2 sera effectué suivant la procédure décrite
dans la Section 3.5.
Nous allons maintenant examiner un exemple d’ajustement d’une distribution binomiale négative. On
trouve souvent des larves d’abeilles charpentières dans les pédicelles des inflorescences des yuccas
(arbre à savon), dans le sud du Nouveau Mexique. Un écologiste spécialiste des insectes qui étudiait
les modes de dispersion spatiale de ces abeilles, a récolté au hasard un échantillon de larves sur 180
pédicelles de yucca. Les données observées sont résumées dans le tableau de fréquence suivant,
x 0 1 2 3 4 5 6 7 8 9 10
fx 114 25 15 10 6 5 2 1 1 0 1
- 207 -
Cas particuliers
où x est le nombre de larves d’abeilles par pédicelle et f x est la fréquence de pédicelles de yucca
ayant x = 0, 1, 2, …., r larves. Dans cet exemple, r = 10. Le nombre total d’unités
d’échantillonnage est
10
N = ∑( f x )
x =0
et sa variance est
10
∑ ( xf x ) − xn
2
x =0
s2 =
( n − 1)
=
[ 681 − ( 0.95)(171)]
179
= 2.897
*Etape 1. Hypothèse: L’hypothèse nulle est « les larves d’abeilles charpentières se regroupent en
bouquets sur les pédicelles des inflorescences de yucca ». Il convient donc de tester la concordance
(du nombre d’individus par unité d’échantillonnage) avec la loi binomiale négative. La variance
supérieure à la moyenne laisse penser que les abeilles sont distribuées en bouquets.
Les valeurs de k$ et x étant l’une et l’autre inférieures à 1, l’Equation (6.50) peut être utilisée pour
donner une estimation de k$ . En prenant les valeurs N =180 et N0 =114 dans le premier membre de
l’équation (6.50), on obtient la valeur 0.1984. Ensuite, en posant k$ = 0.4635 dans le second
membre de l’Equation (6.50), on obtient :
x 0.95
Itération 1 : k$ log10 1 + = 0.4635 log10 1 +
k
$ 0.4635
- 208 -
Cas particuliers
= 0.2245
Puisque le second membre de l’équation donne une valeur supérieure à 0.1984, on remplace k$ par
une valeur plus petite que 0.4635, dans l’Equation (6.50). En choisissant k$ = 0.30 on trouve,
x 0.95
Itération 2 : k$ log10 1 + $ = 0.30 log10 1 +
k 0.30
= 0.1859
Cette valeur est proche de 0.1984, (mais à présent plus petite). Pour l’itération suivante, on choisit
donc une valeur de k$ légèrement plus grande. En prenant k$ =0.34, on a
x 0.95
Itération 3 : k$ log10 1 + $ = 0.34 log10 1 + = 0.1969
k 0.34
Là encore, pour l’itération suivante, on essaye une valeur de k$ légèrement plus élevée. Pour
k$ =0.3457,
x 95
Itération 4 : k$ log10 1 + $ = 0.3457 log10 1 + = 0.1984
k 0.3457
Cette valeur numérique est identique à la valeur fournie par le premier membre de l’Equation (6.50)
de sorte que, dans notre exemple, la meilleure estimation de k$ est 0.3457. Enfin, les probabilités,
individuelles et cumulatives, de trouver 0, 1, 2, et 3 larves par pédicelles [pour x =0.95 et
x
k$ =0.3457, où = 0.7332 ] sont données dans le Tableau 6.18.
( x + k$)
Les probabilités cumulées, après avoir trouvé 4 individus dans une unité d’échantillonnage sont de
94.6%. Les probabilités restantes, de P(5) à P(10) sont donc de 5,4%, soit
P(5+) = 1.0 - 0.946 = 0.054.
- 209 -
Cas particuliers
Tableau 6.18. Calcul de P(x), les probabilités binomiales négatives, pour x individus (abeilles) par
unité d’échantillon (pédicelle de yucca)
Probabilité Probabilité
Cumulée
−0.3457
0.95
P( 0) = 1 + =0.6333 0.6333
0.3457
0.3457
P(1) = [ 0.7332 ] P (0) = (0.2535)(0.6333)
1 =0.1605 0.7938
1.3457
P ( 2) = [ 0.7332] P (1) = ( 0.4933)( 01605
. )
2 =0.0792 0.8730
2.3457
P ( 3) = [ 0.7332] P ( 2 ) = ( 0.5733)( 0.0792 )
3 =0.0454 0.9184
33457
.
P ( 4) = [ 0.7332 ] P( 3) = ( 0.6133)( 0.0454)
4 =0.0278 0.9462
P(5+ ) = 100
. − 0.9462 =0.0538 1.0000
*Etape 4. Fréquences théoriques, Ex : Elles s’obtiennent en multipliant les fréquences théoriques par
le nombre total d’unités d’échantillonnage (Tableau 6.19)
On compare cette valeur du critère de test à la table des valeurs critiques du χ2 avec (nombre des
classes – 3)= 3 degrés de liberté. La valeur critique, au seuil de probabilité de 5%, est de 7.82
- 210 -
Cas particuliers
(Annexe 4), et, puisque la probabilité d’obtenir une valeur de χ2 égale à 1.18 est nettement inférieure
à cette valeur, on ne rejette pas l’hypothèse nulle. Le modèle binomial négatif apparaît donc comme
un bon ajustement des données observées, mais nous souhaitons obtenir une confirmation
supplémentaire (par exemple, un ensemble de données indépendant) avant de conclure que les larves
d’abeilles charpentières sont effectivement réparties en bouquets. On notera que si, dans notre
exemple, on laisse descendre les valeurs théoriques minimales jusqu’à 1.0 et 3.0, les valeurs de χ2
sont respectivement 2.6 et 2.5 – niveaux encore nettement inférieurs à la valeur critique.
Pour détecter des configurations spatiales, on peut préférer aux distributions statistiques certains
indices faciles à calculer, comme l’indice de dispersion ou l’indice de Green, si les unités
d’échantillonnage sont discrètes.
- 211 -
Cas particuliers
les nombreuses variantes de l’ID qui ont été proposées pour mesurer le degré de regroupement, le
GI semble la plus appropriée. Les valeurs du GI pour la population de cochenilles peuvent être
obtenues comme suit
( 3.05 − 1)
GI = = 0.012
( 171 − 1)
Comme la valeur maximale du GI est 1.0 (si les 171 individus étaient apparus dans une seule
pédicelle de yucca), cette valeur représente un degré de regroupement relativement faible.
Tout processus dynamique est configuré par l’échelle de temps caractéristique de ses composantes.
Dans les forêts, ces échelles peuvent se compter en minutes (processus stomatiques) en heures
(cycle diurne, dynamique sol-eau), en jours (dynamique des nutriments, phénologie), en mois (cycle
saisonnier, accroissement), en années (croissance et sénescence des arbres), en décennies (stades
de végétation successifs des forêts) ou en siècles (réaction d’une forêt à un changement climatique).
L’échelle de temps que l’on privilégiera dépend de l’objet du modèle. On la détermine
habituellement avec des données agrégées décrivant les processus qui ont des échelles de temps
différentes, mais le niveau d’agrégation dépend du degré de validité comportementale visé.
Pour rassembler des données sur la dynamique des forêts, au niveau du macro-environnement, la
méthode traditionnelle consiste à établir des parcelles échantillons permanentes et à faire des
observations périodiques. Dernièrement, la télédétection par satellite et par d’autres dispositifs a
élargi le champ d’application de la collecte de données historiques précises sur les forêts. Sans entrer
dans les détails de ces autres approches possibles qui sont complexes, nous allons expliquer dans
cette section comment sont utilisées les parcelles échantillons permanentes, dans les recherches
forestières à long terme, et illustrer un modèle de succession forestière par un exemple très simplifié.
- 212 -
Cas particuliers
être assez grandes - au moins un hectare (100 m x 100 m) – et être situées dans différentes stations
ayant des peuplements de densités variables. L’idéal est d’avoir au moins 30 parcelles dans une
catégorie de forêt particulière pour étudier la dynamique et les interactions entre le peuplement et la
station. Les parcelles peuvent être délimitées par de petites tranchées aux quatre coins. Il faut aussi
dresser une carte du lieu, indiquant l’emplacement exact de la parcelle. Un inventaire complet des
arbres se trouvant dans les parcelles doit être fait en marquant chaque arbre avec des bagues
d’aluminium numérotées. L’inventaire précisera certains paramètres de base, comme le nom de
l’espèce et la circonférence à hauteur d’homme sur les arbres adultes (gbh sur écorce > 30 cm) et
sur les gaulis (gbh sur écorce >10 cm <30 cm). Les plantules (gbh sur écorce < 10 cm) peuvent être
comptées dans des sous-parcelles d’une taille de 1m x 1m, sélectionnées de manière aléatoire ou
systématique.
Des informations sur les propriétés du sol de chaque parcelle sont rassemblées dans plusieurs fosses
d’observation, dont les on regroupera les différentes données. Les paramètres de base seront le pH
du sol, le carbone organique, la texture du sol (teneur en gravier, sable, limon et argile), température
et réserves d’humidité du sol. Des observations concernant certaines caractéristiques
topographiques, comme la pente, l’aspect, la proximité d’une source d’eau etc…, sont aussi
enregistrées pour chaque parcelle.
Les modèles markoviens ont une valeur potentielle particulièrement élevée, mais jusqu’à présent ils
ont été peu utilisés en écologie. Toutefois des études préliminaires laissent penser que, lorsque les
systèmes écologiques étudiés affichent des propriétés markoviennes, et plus particulièrement d’une
chaîne de Markov stationnaire de premier ordre, il est possible de faire plusieurs analyses
intéressantes et importantes du modèle. Par exemple, l’analyse algébrique d’une matrice de transition
déterminera l’existence d’une série d’états transitoires, d’ensembles fermés d’états ou d’un état
absorbant. Une analyse plus approfondie permet de fractionner la matrice de transition de base et
d’étudier séparément les différentes composantes, ce qui simplifie le système écologique à l’étude.
L’analyse d’une matrice de transition peut aussi conduire à calculer les temps de passage moyens
d’un état à l’autre et la durée moyenne d’un état particulier, depuis son début. En présence d’états
- 213 -
Cas particuliers
Pour construire des modèles apparentés à celui de Markov, les principales informations nécessaires
sont les suivantes: une classification quelconque qui, jusqu’à un degré acceptable, sépare les états de
la succession en des catégorie définissables, des données servant à déterminer les probabilités de
transferts ou les vitesses auxquelles les états passent, au cours du temps, d’une catégorie de cette
classification à une autre et des données décrivant les conditions initiales à un temps donné,
habituellement suivant une perturbation bien établie.
Prenons pour exemple les interactions forêts (terres boisées) – prairies sur de longues périodes de
temps dans des paysages naturels. Il est bien connu que lorsque les forêts naturelles sont
continuellement perturbées par l’homme ou affectées par des incendies répétés, elles peuvent
retourner à l’état de prairie. L’inverse peut aussi se produire, en ce sens que des prairies peuvent se
transformer en forêts dans certains environnements propices. Dans cet exemple, les forêts et les
prairies sont deux états que le système peut prendre avec des définitions bien adaptées même si,
dans la réalité, il peut y avoir plus de deux catégories.
Le Tableau 6.21 présente les données collectées dans 20 parcelles échantillons permanentes, sur
l’état de la végétation se trouvant dans les parcelles classées dans la catégorie forêts (F) ou prairies
(G), en 4 occasions successives, espacées de 5 ans.
Les probabilités historiques de transition entre les deux états possibles, sur une période de 5 ans,
sont indiquées dans le Tableau 6.22. Ces probabilités ont été estimées en comptant le nombre de
fois où se produit un type particulier de transition, disons F-G, sur une période de 5 ans, et en
divisant ce nombre par le nombre total de transitions possibles dans les 20 parcelles, en vingt ans.
- 214 -
Cas particuliers
Tableau 6.22. Probabilités de transition, relatives aux changements successifs se produisant dans un
paysage (intervalle = 5 ans)
Etat initial Probabilité de transition jusqu’à l’état final
Forêt Prairie
Forêt 0.7 0.3
Prairie 0.2 0.8
Ainsi, les parcelles qui sont initialement des forêts ont une probabilité de 0,7 de rester à l’état de
forêts à la fin de la période de 5 ans, et une probabilité de 0,3 d’être convertie en prairie. Les
surfaces qui, au départ, sont des prairies ont une probabilité de 0,8 de rester dans cet état et une
probabilité de 0,2 de retourner à l’état de forêt. Aucun des états n’est donc absorbant ou fermé,
mais chacun représente une transition de la forêt à la prairie, et vice-versa. En l’absence d’états
absorbants, le processus de Markov prend le nom de chaîne ergodique et l’on peut étudier toutes les
conséquences de la matrice des probabilités de transition en exploitant les propriétés fondamentales
du modèle markovien.
- 215 -
Cas particuliers
Les valeurs du Tableau 6.22 montrent les probabilités de transition d’un état quelconque à un autre
après un intervalle de temps (5ans). Les probabilités de transition après deux intervalles de temps
peuvent être dérivées directement en multipliant la matrice de transition en une étape par elle-même,
de manière à ce que, dans le cas plus simple où il est existe deux états, les probabilités
correspondantes soient données par la matrice suivante:
(2 ) (2 )
p11 p12 p11 p12 p11 p12
= ×
(2 ) (2 )
p21 p22 p21 p22 p21 p22
= ×
(3) (3) (2 ) (2 )
p21 p22 p21 p22 p21 p22
ou P(2) = P(2)P
Pour la matrice du Tableau 6.22, les probabilités de transition à l’issue de deux intervalles de temps
sont:
0.5500 0.4500
0.3000 0.7000
Si une matrice de probabilités de transition est élevée à des puissances successives jusqu’à atteindre
un état où toutes les lignes de la matrice sont identiques, formant un vecteur de probabilité fixe, la
matrice est appelée matrice de transition régulière. La matrice donne la limite à laquelle les
probabilités de passer d’un état à un autre sont indépendantes de l’état initial, et le vecteur fixe de
probabilité t exprime les proportions d’équilibre des différents états. Par exemple, le vecteur des
probabilités d’équilibre est
0.40 0.60
Donc, si les probabilités de transition ont été correctement estimées et restent stationnaires - ce qui
implique qu’il ne se produit aucun changement majeur dans les conditions environnementales ou dans
le modèle d’aménagement de la région considérée - le paysage finira par atteindre un état d’équilibre
formé d’environ 40% de forêt et environ 60 % de prairie.
- 216 -
Cas particuliers
Lorsque, comme dans cet exemple, il n’existe pas d’états absorbants, on peut aussi estimer, au
moyen de calculs complexes, l’intervalle de temps moyen nécessaire pour qu’une surface de prairie
se transforme en forêt, (et vice-versa) compte tenu des conditions qui prévalent dans la région, c’est
à dire les temps moyens de premier passage. En d’autres termes, si l’on choisit une surface au
hasard, pendant combien de temps devrons nous attendre, en moyenne, pour que cette surface
devienne une forêt ou une prairie, c’est-à-dire les temps moyens de premier passage à l’équilibre.
r
x
θ L
Quatre hypothèses cruciales doivent être posées pour obtenir des estimations fiables de l’abondance
de la population à partir d’une enquête par lignes interceptées, à savoir: i) Les points situés
directement sur la ligne ne sont jamais omis ii) Les points sont fixes à leur emplacement
d’observation initial, dont ils ne bougent pas avant d’être détectés et ils ne sont jamais comptés deux
fois iii) Les distances et les angles sont mesurés avec exactitude iv) Les observations sont des
événements indépendants.
- 217 -
Cas particuliers
Pour estimer la quantité f(0) on part du principe qu’une distribution théorique, comme la distribution
semi-normale ou la distribution exponentielle négative, est un bon ajustement de la distribution de
fréquences observée des valeurs des distances. Dans le contexte de l’échantillonnage par lignes
interceptées, ces distributions prennent le nom de modèles de fonction de détection. L’ajustement de
ces distributions peut aussi être testé en calculant les fréquences théoriques et en effectuant un test de
validité de l’ajustement du χ2. Une autre variante permet d’estimer la distribution de fréquence
observée par des fonctions non-paramétriques comme la série de Fourier, et d’estimer f(0). L’idéal
est d’effectuer au moins 40 observations indépendantes pour obtenir une estimation précise de la
densité. On trouvera dans Buckland et al. (1993) une description détaillée des différents modèles de
fonction de détection qui entrent en jeu dans les échantillonnages par lignes interceptées.
Prenons par exemple l’échantillon suivant de 40 observations sur la distance perpendiculaire (x), en
mètres séparant des troupeaux d’éléphants de 10 transects de 2 km de long chacun, disposés au
hasard dans un sanctuaire de faune
32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15
32,56,85,12,56,58,59,45,75,58,56,89,54,85,75,25,15,45,78,15
nf (0)
n x2
= 2 πL ∑ 3
2
$
D= i
2L n
i =1
−0 .5
- 218 -
Cas particuliers
animaux. En général, le domaine vital ne comprend pas les zones de migration ou de dispersion. Les
données géographiques concernant un ou plusieurs animaux servent de base pour calculer le
domaine vital, et toutes les statistiques sur ce sujet sont obtenues grâce à la manipulation de ces
données pendant une certaine unité de temps. Il existe plusieurs méthodes d’évaluation du domaine
vital, mais elles rentrent généralement dans 3 catégories, suivant qu’elles sont basées sur i) un
polygone ii) un centre d’activités ou iii) des fonctions non paramétriques (Worton,1987), chacune
ayant ses avantages et ses inconvénients. Nous allons illustrer ce qui précède à l’aide d’une méthode
basée sur un centre d’activité.
∑ xi ∑y i
i =1 i =1
x= ,y = (6.57)
n n
Le calcul d’un centre d’activité simplifie les données géographiques en les réduisant à un point
unique. Cette mesure peut être utile pour séparer les domaines des individus dont les points relatifs
aux données géographiques empiètent largement les uns sur les autres.
L’une des principales méthodes proposées pour mesurer le domaine vital est basée sur un modèle
elliptique à deux variables. Pour estimer le domaine vital par cette approche, on commence par
calculer certaines mesures de dispersion élémentaires concernant le centre d’activité, comme la
variance et la covariance,
n n n
∑ ( xi − x ) ∑ ( yi − y ) ∑ (x − x )( yi − y )
2 2
i
s =
2 i =1
, s = 2 i =1
, sxy = i =1
(6.58)
x
( n − 1) y
(n − 1) ( n − 1)
( )
1 1
1 2
1
(
λ y = s y + s 2x − s 2y + s 2x ) ( )
2
2
−4 s s −s
2 2 2
(6.60)
2 y x xy
Ces valeurs mesurent la variabilité intrinsèque de la dispersion des positions selon deux axes
orthogonaux (perpendiculaires et indépendants) passant par le centre d’activité.
Bien que l’orientation de ces nouveaux axes ne puisse pas se déduire directement des valeurs
propres, leurs pentes peuvent être déterminées par les relations,
- 219 -
Cas particuliers
s xy
( )
b1 (pente de l’axe principal [le plus long]) = (6.61)
λ x − s 2y
−1
b2 (pente de l’axe secondaire [le plus court]) = (6.62)
b1
Les ordonnées y à l’origine (a 1 = y 1 − b1 x and a 2 = y 2 − b2 x ) ainsi que les pentes des axes
complètent les calculs nécessaires pour tracer les axes de variabilité. Les équations
y1 = a1 + b1 x and y 2 = a 2 + b2 x (6.63)
décrivent respectivement l’axe de variabilité principal et l’axe de variabilité secondaire.
L’un des inconvénients évidents de cette mesure est que les axes calculés de données géographiques
naturelles sont rarement parfaitement alignés avec les axes d’une grille déterminés arbitrairement. Il
s’ensuit que les valeurs sx et sy dont dépend l’aire de l’ellipse, peuvent être affectées par l’orientation
et la forme de l’ellipse. Ce problème n’existe pas dans les modèles circulaires de domaine vital. Il
existe deux méthodes qui permettent de calculer des valeurs de sx et sy, corrigées pour l’orientation
(covariance). Dans la première, chaque ensemble de coordonnées est transformé comme suit, avant
de calculer l’aire de l’ellipse
x t = ( x − x ) cos θ − ( y − y ) sin θ (6.64)
La deuxième méthode, beaucoup plus simple, qui permet de déterminer sx et sy corrigés pour
l’orientation de l’ellipse, fait appel aux valeurs propres de la matrice des variances-covariances
dérivées des coordonnées des observations. Puisque ces valeurs propres sont analogues à des
variances, leurs racines carrées fournissent aussi des valeurs équivalentes aux écarts-types des
( )
1
(λ )
1
Le fait de prendre l’ellipse type comme mesure du domaine vital pose un autre problème car les
variances et covariances utilisées dans les calculs sont des estimations de valeurs paramétriques. En
tant que telles, elles sont influencées par la taille de l’échantillon. A partir du moment où les données
suivent une loi de distribution normale à deux variables, l’incorporation du critère de test statistique F
dans le calcul de l’ellipse permet de compenser en partie la taille de l’échantillon. La formule,
- 220 -
Cas particuliers
π sx t sy t 2 (n − 1)
Ap = Fα ( 2, n − 2) (6.66)
n−2
peut être utilisée pour éliminer l’incidence de la taille de l’échantillon qui a servi à déterminer ce qui
est maintenant devenu une ellipse d’un pourcentage de confiance de [(1-α)100]. Cette mesure est
supposée fournir une estimation fiable de la taille du domaine vital, lorsque les données
géographiques suivent une loi de distribution normale à deux variables. Avant l’introduction du test
F, les calculs présentés pourraient s’appliquer à tous les cas où l’éparpillement des données
géographiques est symétrique, unimodal. White et Garrott (1990) ont indiqué les calculs
supplémentaires qui doivent être faits pour tracer sur papier l’ellipse de confiance [(1-α)100].
L’application d’un modèle général du domaine vital permet de tirer des conclusions sur la familiarité
relative d’un animal avec un point quelconque situé à l’intérieur de son domaine vital. Ces
informations peuvent être déterminées avec plus de précision par une simple observation, mais elles
sont extrêmement coûteuses, en temps, et il est difficile de faire des comparaisons quantitatives entre
des individus ou entre des enquêtes. A propos du concept de centre d’activité, Hayne (1949) estime
que, bien qu’il soit tentant d’identifier le centre d’activité avec l’emplacement du domaine vital d’un
animal, cela ne doit pas être fait car ce point est une moyenne des points de capture et n’a pas
nécessairement d’autre signification biologique. Mis à part le problème que nous venons de
mentionner, les écarts inhérents à la normalité des données géographiques peuvent être une source
de difficultés. Du fait de l’étalement (asymétrie du domaine vital), le centre d’activité se trouve en
réalité plus près d’un arc de l’ellipse de confiance que ne le prévoyait le modèle, de sorte que la taille
du domaine vital (l’ellipse de confiance [1-α]100 ) est surestimée. La kurtose (aplatissement) peut
augmenter ou diminuer les estimations de la taille du domaine vital. Si les données sont platikurtiques,
la taille du domaine vital est sous-évaluée, et inversement dans le cas de données leptokurtiques. La
transformation trigonométrique de données à deux variables aide à résoudre ce problème en
fournissant des distributions non-corrélées des coordonnées x et y. Quoiqu’il en soit, pour vérifier le
bien-fondé de l’hypothèse de la distribution normale à deux variables, on peut se référer aux
méthodes décrites par White et Garrott (1990), que nous ne développerons pas ici pour ne pas
compliquer notre exposé.
La taille de l’échantillon peut avoir une influence importante sur la fiabilité des statistiques présentées
ici. Il est assez évident que les petites tailles d’échantillons (ex : n <20), peuvent fausser sérieusement
les mesures considérées. Une multitude de facteurs qui n’ont pas été pris en considération dans cette
étude, peuvent également influencer les résultats sans que l’on sache encore comment. C’est
notamment le cas des différences entre les espèces et les individus, du comportement social, des
sources de nourriture et de l’hétérogénéité de l’habitat, pour n’en citer que quelques-uns.
Les étapes du calcul du domaine vital sont décrites ci-après, à partir de données simulées obéissant
à une loi de distribution normale à deux variables avec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0
(White and Garrott (1990)). Ces données sont reportées dans le Tableau 6.23.
- 221 -
Cas particuliers
Tableau 6.23. Données simulées obéissants à une loi de distribution normale à deux variables
avec µx = µy = 10, σx = σy = 3, et cov (x,y) = 0.
N° x y N° x y
Observation (m) (m) Observation (m) (m)
1 10.6284 8.7061 26 16.9375 11.0807
2 11.5821 10.2494 27 9.8753 10.9715
3 15.9756 10.0359 28 13.2040 11.0077
4 10.0038 10.8169 29 6.1340 7.6522
5 11.3874 10.1993 30 7.1120 12.0681
6 11.2546 12.7176 31 8.8229 13.2519
7 16.2976 9.1149 32 4.7925 12.6987
8 18.3951 9.3318 33 15.0032 10.2604
9 12.3938 8.8212 34 11.9726 10.5340
10 8.6500 8.4404 35 9.8157 10.1214
11 12.0992 6.1831 36 6.7730 10.8152
12 5.7292 10.9079 37 11.0163 11.3384
13 5.4973 15.1300 38 9.2915 8.6962
14 7.8972 10.4456 39 4.4533 10.1955
15 12.4883 11.8111 40 14.1811 8.4525
16 10.0896 11.4690 41 8.5240 9.9342
17 8.4350 10.4925 42 9.3765 6.7882
18 13.2552 8.7246 43 10.8769 9.0810
19 13.8514 9.9629 44 12.4894 11.4518
20 10.8396 10.6994 45 8.6165 10.2106
21 7.8637 9.4293 46 7.1520 9.8179
22 6.8118 12.4956 47 5.5695 11.5134
23 11.6917 11.5600 48 12.8300 9.6083
24 3.5964 9.0637 49 4.4900 10.5646
25 10.7846 10.5355 50 10.0929 11.8786
8.71 + 10.25+...1188
.
y=
50
=10.35
(10.63 − 1014
. ) 2 + (1158
. − 1014) 2 +...(10.09 − 10.14) 2
s2x =
( 50 − 1)
=11.78
- 222 -
Cas particuliers
(10.63 − 1014
. )(8.71 − 10.35) + (1158
. − 1014. )(10.25 − 10.35) +...+
1
sxy =
( 50 − 1) (10.09 − 1014 . − 10.35)
. )(1188
= -1.22
1
sx = ( 11.78) 2
= 3.43
1
sy = ( 2.57) 2
= 1.60
2
= 11.6434
1
[ ]
1
2
= 2.7076
( )
1 1
sy t = λ y 2
= ( 2.7076) 2 = 1.6455
- 223 -
7. CONCLUSION
Le présent manuel couvre quelques-uns des concepts fondamentaux qui entrent en jeu dans les
statistiques appliquées à la recherche forestière, tant au niveau théorique que pratique. Tout
chercheur digne de ce nom doit comprendre ces concepts pour appliquer avec succès la méthode
scientifique dans ses enquêtes. Cependant, les situations que l’on rencontre dans la réalité sont
souvent beaucoup trop complexes pour pouvoir être appréhendées par les techniques et les modèles
de base auxquels se réfère le présent manuel. Ainsi, le recours à une analyse multivariable est
souvent nécessaire, lorsque les observations faites dans les unités expérimentales portent sur de
multiples caractères. Très souvent, les hypothèses relatives aux distributions ne sont pas respectées,
ce qui impose le recours à des statistiques non paramétriques. De nombreux problèmes
d’optimisation imposent l’adoption de techniques de recherche opérationnelle ou d’une approche
conforme à la théorie de la décision. Etant donné que beaucoup d’enquêtes sur les forêts se
prolongent sur une longue période, des études de simulation seraient plus appropriées qu’une
approche expérimentale. Les processus écologiques sont souvent trop complexes pour pouvoir être
manipulés à travers les modèles simples étudiés dans ce manuel. Malgré ces limites, cet ouvrage a
une fonction bien précise, qui est d’inculquer aux chercheurs les principes statistiques les plus
élémentaires, dans le domaine de la recherche, et de leur donner la possibilité de communiquer et de
collaborer en connaissance de cause avec un expert, pour s’attaquer à des problèmes plus
complexes.
224
8. BIBLIOGRAPHIE
Anderson, R. L. et Bancroft, T. A. 1952. Statistical Theory in Research. Mc. Graw Hill Book Co.,
New York.
Borders, B. E. et Bailey, R. L. 1986. A compatible system of growth and yield equations for slash
pine fitted with restricted three-stage least squares. Forest Science, 32: 185-201.
Brender, E.V. et Clutter, J. L. 1970. Yield of even-aged natural stands of loblolly pine. Report 23,
Georgia Forest Research Council.
Chacko, V. J. 1965. A Manual on Sampling Techniques for Forest Surveys. The Manager of
Publications, Delhi.172 p.
Chakravarty, G. N. et Bagchi, S. K. 1994. Short note: enhancement of the computer program of the
permutated neighbourhood seed orchard design. Silvae-Genetica., 43: 2-3, 177-179.
Crowder M. J. et Hand, D. J. 1990. Analysis of Repeated Measures. Chapman and Hall, New
York. 257 p.
Das, M. N. et Giri, N. C. 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. New
Delhi. 295 p.
Dixon, W. J. et Massey, F. J. 1951. Introduction to Statistical Analysis. Mc. Graw Hill Book Co.,
New York.
Draper, N. R. et Smith, H. 1966. Applied Regression Analysis. John Wiley and Sons, New York.
407 p.
Gomez, K. A. rt Gomez, A. A. 1984. Statistical Procedures for Agricultural Research. John Wiley
and Sons. New York. 680 p.
225
Bibliographie
Faulkner, R. 1975. Seed Orchards. Forestry Commission Bulletin No.54. Her Majesty’s Stationary
Office, London. 149 p.
Fisher, R. A. et Yates, F. 1963. Statistical Tables for Biological, Agricultural and Medical Research.
Longman Group Limited, London. 146 p.
Hayne, D. W. 1949. Calculation of size of home range. Journal of Mammology, 30: 1-18.
La Bastide, J. G. A. 1967. A computer programme for the layouts of seed orchards. Euphytica, 16,
321-323.
Lahiri, D. B. 1951. A method of sample selection providing unbiased ratio estimates. Bull. Inst. Stat.
Inst., 33, (2) 133-140.
Magurran, A. E. 1988. Ecological Diversity and its Measurement. Croom Helm Limited, London.
179 p.
Mood, A. 1950. Introduction to the Theory of Statistics. Mc. Graw Hill Book Co., New York.
Montogomery, D.C. 1991. Design and analysis of Experiments. John Wiley and Sons. New York.
649 p.
Namkoong, G., Snyder, E. B. et Stonecypher, R. W. 1966. Heretability and gain concepts for
evaluating breeding systems such as seedling orchards. Silvae Genetica, 15, 76-84.
- 226 -
Bibliographie
Searle, S. R. 1966. Matrix Algebra for the Biological Sciences (Including Applications in Statistics).
John Wiley and Sons, Inc., New York. 296 p.
Seigel, S. 1956. Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill International
Book Company. Tokyo. 312 p.
Snedecor G. W. et Cochran. W. G. Statistical Methods. USA: The Iowa State University Press,
1980. pp. 232-237.
Sokal, R. R. et Rolhf, F. J. 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.
Steel, R. G. D. et Torrie, J. A. 1980. Principles and Procedures of Statistics, 2nd ed., USA:
McGraw-Hill, pp. 183-193.
Sukhatme, P. V., Sukhatme, B. V., Sukhatme, S. et Asok, C. 1984. Sampling theory of Surveys
and Applications. Iowa State University Press, U.S.A. and ISAS, New Delhi. 526 p.
Sullivan, A. D. et Clutter, J. L. 1972. A simultaneous growth and yield model for loblolly pine.
Forest Science, 18: 76-86.
Vanclay, J. K. 1991. Seed orchard designs by computer. Silvae-Genetica, 40: 3-4, 89-91.
Worton, B. J. 1987. A review of models of home range for animal movement. Ecological modelling,
38, 277-298.
- 227 -
Bibliographie
Box. G.E.P., Hunter W.G., Hunter J.S. – Statistics for experimenters. John wiley & sons, New
York, 1978.
CEA – Ouvrage collectif. – Statistique appliquée à l’exploitation des mesures. Masson, Paris, 1978.
Cochran W.G. et Cox G.M. – Experimental designs, John Wiley & sons, New York, 1957
Cox D.R. – Planning of experiments. John Wiley & sons, New York, 1958.
Das M.N., Giri N.C. – Design and analysis of experiments. Wiley Eastern limited, 1979.
Dodge Y. – Analysis of experiments with missing data. John wiley & sons, New York, 1985.
Finney D.J. – An introduction to the theory of experimental design. Midway reprint, 1960
Finney D.J. – Statistical method in biological assay. Charles Griffin and Cy, 1978.
Fisher R.A. – The design of experiments. Oliver & Boyd Edinburgh (7ème édition), 1960.
Gomez K.A. et Gomez A.A. – Statistical procedures for agricultural research. John Wiley & sons,
New York (2e édition), 1984.
Kempthorne O. – Design and analysis of experiments. John Wiley & sons, New York, 1952.
Ogawa J. – Statistical theory of the analysis of experimental designs. Marcel Dekker, New York,
1974.
Pearce S.C. – The agricultural field experiment. John Wiley & sons, New York, 1983.
- 228 -
Bibliographie
Snedecor G.M. et Cochran W.G. – Statistical methods. Iowa State University Press (6ème
édition), 1967.
Sokal R.R. abd Rohlf F.J. – Biometry. W.H. Freeman and Cy (2èmeédition), 1969.
Vajda S. – The mathematics of experimental design. Griffin’s statistical monographs & courses,
1967.
Winer B.J. – Statistical principles in experimental design. McGraw-Hill (2ème édition), 1971.
- 229 -
Annexe 1. Points de pourcentage de la distribution normale
Cette table donne les points de pourcentage de la distribution normale standard. Ce sont les valeurs
de z pour lesquelles un pourcentage donné, P, de la distribution normale standard est situé en dehors
de la fourchette allant de -z à +z.
P (%) z
90 0.1257
80 0.2533
70 0.3853
60 0.5244
50 0.6745
40 0.8416
30 1.0364
20 1.2816
15 1.4395
10 1.6449
5 1.9600
2 2.3263
1 2.5758
0.50 2.8070
0.25 3.0233
0.10 3.2905
0.01 3.8906
230
Annexes
Cette table donne les points de pourcentage de la distribution de t avec ν degrés de liberté. Ce sont
les valeurs de t pour lesquelles un pourcentage donné, P, de la distribution de t est situé en dehors
de la fourchette allant de -t à +t. Au fur et à mesure que le nombre de degrés de liberté augmente, la
distribution se rapproche de la distribution normale standard.
- 231 -
Annexes
- 232 -
Annexes
Cette table donne les valeurs pour lesquelles le pourcentage de la distribution de F dans le titre est
supérieur à la valeur tabulaire de F pour v 1 (degrés de liberté du numérateur) et v 2 (degrés de liberté
du dénominateur) associés au rapport F.
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.06 4.00 3.84
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.64 3.57 3.41
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.35 3.28 3.12
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.14 3.07 2.90
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 2.98 2.91 2.74
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.85 2.79 2.61
12 4.75 3.88 3.49 3.26 3.11 3.00 2.91 2.85 2.75 2.69 2.51
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.67 2.60 2.42
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.60 2.53 2.35
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.54 2.48 2.29
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.49 2.42 2.24
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.45 2.38 2.19
18 4.41 3.55 3.16 2.93 2.77 3.66 2.58 2.51 2.41 2.34 2.15
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.38 2.31 2.11
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.35 2.28 2.08
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.30 2.23 2.03
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.25 2.18 1.98
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.22 2.15 1.95
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.19 2.12 1.91
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.16 2.09 1.89
35 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.11 2.04 1.83
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.08 2.00 1.79
45 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.05 1.97 1.76
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.03 1.95 1.74
55 4.02 3.16 2.77 2.54 2.38 2.27 2.18 2.11 2.01 1.93 1.72
- 233 -
Annexes
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 1.99 1.92 1.70
- 234 -
Annexes
Annexe 4. Distribution de χ2
Cette table présente les points de pourcentage de la distribution chi-carré avec ν degrés de liberté.
Ce sont les valeurs de χ2 pour lesquelles un pourcentage donné, P, de la distribution chi-carré est
supérieur à χ2.
Pourcentage (P)
Degré de
liberté 97.5 95 50 10 5 2.5 1 0.1
(ν)
1 .000982 .00393 0.45 2.71 3.841 5.02 6.64 10.8
2 0.0506 0.103 1.39 4.61 5.99 7.38 9.21 13.8
3 0.216 0.352 2.37 6.25 7.81 9.35 11.3 16.3
4 0.484 0.711 3.36 7.78 9.49 11.1 13.3 18.5
5 0.831 1.15 4.35 9.24 11.1 12.8 15.1 20.5
- 235 -
Annexes
Cette table présente les valeurs au-delà desquelles le coefficient de corrélation est déclaré
significatif, pour un seuil de signification déterminé et un nombre donné de paires
d’observations de x et y
- 236 -
Annexes
1
Tous les chiffres figurant dans la table ci-dessous sont indépendants et ont une probabilité de . La
10
table a été calculée à partir d’une population dans laquelle les chiffres de 0 à 9 étaient également
vraisemblables.
77 21 24 33 39 07 83 00 02 77 28 11 37 33
78 02 65 38 92 90 07 13 11 95 58 88 64 55
77 10 41 31 90 76 35 00 25 78 80 18 77 32
85 21 57 89 27 08 70 32 14 58 81 83 41 55
75 05 14 19 00 64 53 01 50 80 01 88 74 21
57 19 77 98 74 82 07 22 42 89 12 37 16 56
59 59 47 98 07 41 38 12 06 09 19 80 44 13
76 96 73 88 44 25 72 27 21 90 22 76 69 67
96 90 76 82 74 19 81 28 61 91 95 02 47 31
63 61 36 80 48 50 26 71 16 08 25 65 91 75
65 02 65 25 45 97 17 84 12 19 59 27 79 18
37 16 64 00 80 06 62 11 62 88 59 54 12 53
58 29 55 59 57 73 78 43 28 99 91 77 93 89
79 68 43 00 06 63 26 10 26 83 94 48 25 31
87 92 56 91 74 30 83 39 85 99 11 73 34 98
96 86 39 03 67 35 64 09 62 36 46 86 54 13
72 20 60 14 48 08 36 92 58 99 15 30 47 87
67 61 97 37 73 55 47 97 25 65 67 67 41 35
25 09 03 43 83 82 60 26 81 96 51 05 77 72
72 14 78 75 39 54 75 77 55 59 71 73 15 56
59 93 34 37 34 27 07 66 15 63 14 50 74 29
21 48 85 56 91 43 50 71 58 96 14 31 55 61
96 32 49 79 42 71 79 69 52 39 45 04 49 91
16 85 53 65 11 36 08 14 86 60 40 18 51 15
64 28 96 90 23 12 98 92 28 94 57 41 99 11
60 54 36 51 15 63 83 42 63 08 01 89 18 53
42 86 68 06 36 25 82 26 85 49 76 15 90 13
00 49 62 15 53 32 31 28 38 88 14 97 80 33
26 64 87 61 67 53 23 68 51 98 60 59 02 33
02 95 21 53 34 23 10 82 82 82 48 71 02 39
65 47 77 14 75 30 32 81 10 83 03 97 24 37
28 55 15 36 46 33 06 22 29 23 81 14 20 91
59 75 78 49 51 02 20 17 02 30 32 78 44 79
87 54 57 69 63 31 61 25 92 31 16 44 02 10
94 53 87 97 15 23 08 71 26 06 25 87 48 97
79 43 75 93 39 10 18 51 28 17 65 43 22 06
48 38 71 77 53 37 80 13 60 63 59 75 89 73
98 30 59 32 90 05 86 12 83 70 50 30 25 65
85 80 16 77 35 74 09 32 06 30 91 55 92 33
87 03 96 27 05 59 64 25 33 07 03 08 55 58
- 237 -
Annexes
Logarithme: Le logarithme d’un nombre N à base a est le nombre x auquel la base doit être élevée
pour égaler le nombre de départ. En symboles, si loga N = x, on a ax = N. Le nombre N est appelé
antilogarithme (ou logarithme inverse) de x. Le logarithme à base 10 est appelé logarithme ordinaire
(ou logarithme décimal) et est noté log. Le logarithme à base e, une constante mathématique, est
appelé logarithme naturel (noté ln).
Factoriel n : n factoriel, noté n!, est défini par n! = n(n-1)(n-2)…1. Par exemple, 5! = 5.4.3.2.1 =
120. Par convention, on pose 0! = 1.
Combinaisons : Une combinaison de n objets différents pris r à r est une sélection de r objets
parmi les n objets, sans tenir compte de l’ordre dans lequel ils sont rangés. Le nombre de
n
combinaisons de n objets pris r à r est noté et est donné par
r
n n( n − 1)( n − 2) . . .( n − r + 1) n!
= =
r r! r !( n − r )!
3 3.2
Par exemple, le nombre de combinaisons de deux des lettres a, b, c est = = 3. Ces
2 2 !
combinaisons sont ab, ac, bc. Remarquons que ab est la même combinaison que ba mais avec une
permutation différente.
Espérance mathématique : Si X est une variable aléatoire discrète pouvant prendre les valeurs X1,
X2, …, Xk avec les probabilités respectives p1, p2, …, pk où p1+ p2+ …+ pk = 1, l’espérance
mathématique de X (ou, simplement, espérance de X), notée E(X), est définie par
k
E(X) = p1X1 + p2X2 + …+ pkXk = ∑ pjX j = ∑ pX .
j =1
Dans le cas de variables continues, la définition de l’espérance est modifiée comme suit. Soient g(X)
une fonction d’une variable aléatoire continue X, et f(x) la fonction de densité de probabilité de X.
L’espérance mathématique de g(x) est alors donnée par
E{g ( X )} = ∫
R
g ( x ) f ( x )dx
où R représente l’amplitude des valeurs de X (espace-échantillon), à condition que l’intégrale
converge absolument.
- 238 -
Annexes
Matrice : Une matrice est un tableau rectangulaire de nombres disposés en lignes et colonnes. Les
lignes ont la même longueur que les colonnes. Si aij dénote l’élément situé sur la i-éme ligne et la j-
ème colonne d’une matrice A constituée de r lignes et c colonnes, A peut s’écrire
Une matrice constituée d’une seule colonne est appelée vecteur-colonne. De même, une matrice
4
constituée d’une seule ligne est appelée vecteur-ligne. Par exemple, x = est un vecteur-
- 7
colonne et y’ = [ 4 2 ] un vecteur-ligne. Un nombre unique, comme 2, 4 ou –6, est un
“ scalaire ”.
La somme de deux matrices A = {aij} et B = {bij} est définie par C ={cij} = {aij+ bij}. Par
exemple, si,
4 0 - 3 2 1 - 3 6 1 - 6
A= et B = , on a C = - 6 3 3
- 7 2 1 1 1 2
Le produit de deux matrices est défini par Cr x s = Ar x c Bc x s où le ij-ème élément de C est donné
c
par cij = ∑a b ik kj . Par exemple, si
k=1
2 1
4 0 - 3 2 1
A= et B = 1 1 , alors C =
- 7 2 1 - 10 - 4
2 1
Pour avoir de plus amples détails et des exemples tirés de la biologie, le lecteur peut se référer à
Searle (1966).
- 239 -