Vous êtes sur la page 1sur 36

BIOMETRIE FORESTIERE

Dr Bobo Kadiri Serge


Département de Foresterie
Faculté d’Agronomie et des Sciences Agricoles
Université de Dschang

Tel : 75085663
Email : bobokadiris@yahoo.com

I. INTRODUCTION
I.1. Définitions de base
En statistique, il faudra aussi étudier les caractéristiques associées à un groupe d’objets
communément appelés Unités ou Sujets.

Les unités pourront être des travailleurs migrants dont les niveaux d’éducation sont d’un intérêt.
Les éléments à étudier ne doivent toujours pas être des personnes.

Le groupe entier d’objets d’intérêt est appelé une population.

Une Population est une collection de tous les objets qui sont d’un intérêt pour le statisticien.

Les éléments dans la population sont appelés Unités ou Sujets.

Dans la plupart des cas, la population est extrêmement large, et il serait très difficile sinon
impossible d’investiguer les caractéristiques d’intérêt de chaque unité de la population.

Ainsi, nous investiguerons une proportion de la population appelée un échantillon.

Un échantillon est une portion finie de la population qu’on utilise pour étudier les
caractéristiques d’intérêt dans une population.

La caractéristique étudiée et qui associée à chaque unité de la population est appelée une
Variable.
Les valeurs correspondantes collectées de l’échantillon sont appelée Données.

Une Variable est toute caractéristique qui peut être mesurées sur chaque unité de la population.

Une Observation est une valeur qu’une variable assume pour une unité individuelle dans
l’échantillon.

La collecte des observations est appelée Donnée.

Généralement, l’étude de statistiques peut être classée en deux domaines : l’échantillonnage et


l’expérimentation.

L’expérimentation étant une tentative pour déterminer une relation de cause à effet entre deux ou
plusieurs variables.

La collecte des données peut sembler facile, mais peut être la plus difficile.

Chacun peut interviewer une proportion du public et avoir des réponses, mais est ce que les
réponses obtenues représentent vraiment les attitudes de la population entière d’où les données
proviennent ?

Il est judicieux de passer beaucoup de temps pour déterminer la meilleure procédure de collecte
des données à telle enseigne qu’elles puissent être représentatives de la population.

I.2. Echantillonnage
Définitions
Un échantillon est une portion présentée comme évidence de la qualité d’une population à partir
de laquelle il a été tiré.

C’est l’ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit
représentatif de cette population, au moins pour l'objet de l'étude.

En d’autres mots, un échantillon représente ce que peut être une population.


La majorité des décisions humaines est basée sur des connaissances partielles provenant d’un
échantillon.

Dans la vie de tous les jours, un médecin peut diagnostiquer une maladie seulement à partir
d’une goutte de sang ou d’une section microscopique de tissus, avec l’espoir que ceci va donner
une figure réaliste de tout le sang ou de tous les tissus d'un organisme.

Dans la plupart des travaux en foresterie, nous avons à faire à l’estimation de la hauteur de
l’arbre, du volume, de la valeur du bois, des coûts et des risques.

Ainsi, l’échantillonnage est une technique nécessaire, utilisée pour des raisons économiques et
techniques lors de la préparation de la plupart des inventaires forestiers.

Les populations à inventorier en forêt, quelle que soit la raison, sont généralement très larges
pour être totalement énumérées.

Plusieurs raisons qui militent en faveur de la réalisation d’un échantillonnage dont :

- Les mesures ou comptages complets peuvent être impossibles ;


- Les mesures ou comptages totales ne sont pas faisables, par exemple, quand les
diamètres et hauteur de tous les arbres commercialisables sont à mesurer dans une forêt
de 10.000 ha ;
- L’échantillonnage fournira des informations essentielles à un coût plus bas que le
comptage total ;
- Le fait que les informations obtenues par échantillonnage peuvent souvent être plus
réalistes que celles obtenues d’un inventaire à 100% ;
- Aussi, l’économie réalisée à partir d’un échantillonnage pourrait être utilisée pour acheter
des instruments modernes ou pour employer ou former un personnel qualifié. C’est
évident que des mesures précises et correctes sur des unités représentant entre 5 et 10%
de la population vont fournir des informations plus réalistes que des mesures
incorrectes et imprécises sur 100% de la population.
- Puisse que les données d’échantillons peuvent être compilées et analysées en une fraction
de temps requis pour un inventaire total, les informations obtenues vont aussi être plus
récentes.
Différentes méthodes d’échantillonnage peuvent être utilisées dans un même inventaire forestier
mais à différentes étapes de l’opération.

Elles sont généralement utilisées pour l’estimation des surfaces forestières et la mesure des
paramètres comme le diamètre, la hauteur et le volume.

L’échantillonnage doit être objectif afin d’éviter es biais (erreur systématique) dans les
estimations.

Objectivité n’est pas synonyme à Aléatoire.

Beaucoup de méthodes systématiques sont objectives et peuvent toujours donner des estimations
non biaisées.

Le seul danger des échantillons systématiques est que leur caractère non-aléatoire empêche
l’utilisateur d’appliquer des théories d’échantillonnage statistique et d’obtenir des estimations
non-biaisées de l’erreur d’échantillonnage.

Si nous pensons aux arbres individuels comme des unités, à la fois la sélection de l’échantillon et
la projection de l’échantillon à la population peuvent s’avérer être très difficiles.

I.3. Paramètres de la population


Pour caractériser une population, on utilise certaines constantes appelées paramètres de la
population.

Ce sont :

- La population totale (  = x1 + x2 + ….+ xN) ;


x1  x 2  ...  x N
- La valeur moyenne (   );
N
- Le nombre total d’unités (N) ;
- La variabilité entre les unités de valeur, variance (  2 ) et l’écart-type (  ) ;
- La proportion des propriétés données (attributs) et classe de fréquence (p).
L’objectif d’un échantillonnage est généralement d’estimer un paramètre d’une population
donnée.

La valeur du paramètre telle que estimée à partir d’un échantillon, sera appelée simplement
estimation.

Les annotations suivantes sont utilisées pour représenter les paramètres estimés de la population :

- La valeur moyenne estimée ( x ) ;


- La variance estimée ( S x2 ) de la population ;

- L’écart-type estimé ( S x ) ;

- Le coefficient de variation estimé ( S x %) ;

- L’écart-type estimé de la valeur moyenne estimée ( S x ) ou Erreur standard.

I.4. Biais, précision et exactitude


Quand seulement une proportion de la population est mesurée, comme dans un échantillonnage,
certaines estimations peuvent être élevées, d’autres basses, d’autres très proches et d’autres très
éloignées de la vraie valeur.

Biais : c’est une erreur systématique d’une valeur qui peut être positive ou négative. Le biais
peut exister dans des estimations basées sur des échantillons aléatoires.

Biais = E (estimation) – la vraie valeur d’un paramètre de la population ;


Biais = x  

Une estimation sans biais ou qui a très peu de biais est dite exacte.

Le biais peut être dû à :


- une petite erreur dans les mesures (ex : si la longueur du fût est mesurée avec un
mettre ruban dont les premiers 50 cm sont enlevés, toutes les mesures vont être affectés
d’un demi mettre. Ainsi, toutes les mesures et l’estimation de la longueur moyenne du fût
seront biaisées) ;

- la méthode de sélection de l’échantillon (ex : si une certaine classe de diamètre reçoit


une représentation inégale dans l’échantillon que dans la population) ;

- la technique d’estimation d’un paramètre (ex : si la valeur moyenne par hectare est
estimée en prenant la valeur arithmétique simple de l’estimation de la moyenne du
volume de deux surfaces, la moyenne résultante va être sérieusement biaisée si une
surface est 100 ha et l’autre seulement 10 ha).

x1  x 2
x 12 
2

Une estimation améliorée du volume moyen des deux surfaces devrait être obtenue en
faisant des compensations suivant les superficies des deux surfaces comme ci-après :

10 . x 1  100 . x 2
x 12 
10  100

Le biais n’est pas désiré. Si possible, on doit l’éliminer. Souvent, une élimination complète des
biais peut être coûteux en terme de temps, argent et de précision. On peut être forcé à le garder. Il
est donc important de :

- reconnaître les sources possibles de biais ;


- peser les effets vis-à-vis du coût de réduction ou d’élimination du biais.

Précision et exactitude : Beaucoup de personnes confondent précision et exactitude.

- L’exactitude fait référence au succès de l’estimation de la valeur vraie d’une quantité


(i.e. une population) ;

- La précision fait référence au regroupement des valeurs échantillons par rapport à leur
propre moyenne (valeur moyenne de l’échantillon).
Si la valeur moyenne d’un échantillon est biaisée ou contient une erreur systématique, ça ne peut
pas être la vraie valeur.

Ainsi, l’exactitude ou la proximité de la vraie valeur peut être absent à cause du biais, ou du
manque de précision, ou des deux.

I.5. Variables
La variation naturelle est un fait de la vie. Sans variation, il n’y aurait pas de problèmes
d’échantillonnage, pas de statisticiens, et ainsi pas d’inventaire forestier.

Une variable est une caractéristique qui peut varier d’une unité à une autre d’une population
donnée.

Dans une population d’arbres, la hauteur de l’arbre est une variable. Les autres variables sont le
diamètre, la surface terrière, le volume, la classe de forme, l’espèce, la classe de dégât, …

Dans une population de parcelles, les variables peuvent être le volume, la surface terrière, la
hauteur moyenne des arbres dans les parcelles, la composition en espèces des parcelles…

On distingue deux types de variables dont les variables continues et les variables discrètes.

Variables continues : Elles sont caractérisées par leur relation avec une échelle numérique de
mesure, où chaque intervalle peut être subdivisé en un nombre infini de valeurs. La longueur, la
hauteur, la surface et le volume sont des exemples de variables continues.

Variables discrètes : Ce sont des variables qualitatives qui sont représentées par des valeurs
intégrales ou des ratios de valeurs intégrales. Les classes de dégâts, l’espèce, le nombre de plants
par hectare sont des exemples de variables discrètes.

La distinction est faite entre ces deux types de variables parce que les deux types de données
peuvent requérir différentes procédures d’analyses statistiques, les procédures recommandées
pour les variables discrètes étant généralement plus complexes.
Variable quantitative

Variable qualitative
II. FONCTIONS DE DISTRIBUTION

Une fonction de distribution montre la fréquence avec laquelle les différentes valeurs d’une
variable apparaissent dans une population donnée. Si nous connaissons la fonction de
distribution, nous pouvons déterminer quelle proportion d’individus est confinée dans une
certaine limite de grandeur. Chaque population a sa propre fonction de distribution. Il y a
cependant certaines fonctions de distribution qui apparaissent fréquemment. Les plus communes
sont :
- la distribution normale ;
- la distribution de Student (t) ;
- la distribution binomiale ;
- la distribution de Poisson.

II.1. La distribution normale

La plus importante des distributions de probabilité est sans aucun doute la distribution normale,
tellement importante que beaucoup l'appellent « loi normale ». La distribution normale est une
distribution symétrique en forme de cloche qui est modélisée mathématiquement (figure II.1.).
Elle est intéressante parce que la très grande majorité des phénomènes naturels tendent vers cette
distribution quand on prend un grand nombre de mesures. On observe la distribution normale
partout dans la nature. On l'observe généralement presque partout lorsque l'on prend des
mesures. L'évasement de la courbe correspond à l'écart-type.

Figure II.1. : Courbe de distribution normale


En étudiant une courbe de distribution normale, on voit que les mesures près de la moyenne sont
plus probables que les mesures éloignées.

La surface sous une courbe de distribution normale représente la probabilité qu'un phénomène se
produise dans cet intervalle. La surface totale sous la courbe vaut toujours 1. Dans le monde des
probabilités, 1 signifie la certitude qu'un phénomène se produise et 0 l'impossibilité. Entre 0 et 1,
c'est la probabilité qu'un évènement se produise.

Ex : Les distributions du diamètre, la hauteur ou le volume des arbres dans une forêt naturelle
respectent toutes cette distribution.

Un graphique de la distribution normale ressemble un peu à une cloche. Dans une distribution
normale, la moyenne arithmétique, la médiane et le mode sont égaux.

Écart type et probabilité : Il est plus commode de calculer la probabilité en fonction de l'écart-
type autour de la moyenne qu'en fonction du phénomène mesuré parce que la relation entre la
probabilité et l'écart-type est fixe. Quitte, par la suite, à convertir dans les unités du phénomène
mesuré en multipliant par l'écart-type.

Relation entre écart-type et probabilité : Par exemple, 68 % des cas observés ont des valeurs
comprises entre la moyenne arithmétique moins 1 écart-type et la moyenne arithmétique plus 1
écart-type. Cela se vérifie pour tout phénomène ayant la distribution normale (figure II.2.).

Figure II.2. : Relation entre écart-type et probabilité pour 68% des cas.

Pour 2 écarts types autour de la moyenne la probabilité est 95 % (figure II.3.).


Figure II.3. : Relation entre écart-type et probabilité pour 95% des cas.

Pour rassembler 99 % des cas, on doit sélectionner 2.6 écarts types autour de la moyenne (figure
II.4.).

Figure II.4. : Relation entre écart-type et probabilité pour 99% des cas.

Pour tout phénomène respectant la distribution normale, le tableau suivant vous donne la
probabilité selon l'écart-type.
Tableau II.1. : Probabilité selon l’écart-type pour toute distribution normale

Écart Probabilité
-1 a 1 68 %
-2 à 2 95 %
-2,6 à 2,6 99 %
-3 à 3 99,7%

Tester la distribution normale : La distribution normale revient souvent en statistique et


beaucoup de formules supposent que la distribution est normale. L'évaluation de l'écart-type
suppose que les données respectent la distribution normale. Il est rare que l'on obtienne une
distribution ressemblant parfaitement à la distribution normale. Les fluctuations statistiques
donnent des variations produisant de légères différences. Comme beaucoup de calculs
statistiques demandent la conformité avec la distribution normale, iI faut établir des critères nous
assurant qu'une distribution est de type « Normale ». Cela revient entre autre à tester le degré
d’asymétrie (symétrie entre les valeurs) et le degré d’aplatissement (déficit d’observations).

II.2. La distribution-t de Student

La distribution-t est étroitement liée à la distribution normale standard. Elle est importante dans
le calcul de l’intervalle de confiance de moyennes estimées et pour tester certaines hypothèses.
Sa formule est définie par :

x  x
t
Sx

La valeur t est la déviation de la variable normale x (moyenne arithmétique de l’échantillon) de


sa moyenne  , mesurée en unité d’écart-type. La distribution-t est définie par le nombre de
degrés de liberté (ddl ou df). En augmentant le nombre d’échantillons, la variance estimée de
l’échantillon converge vers la vraie variance de la population et la distribution-t tend vers la
distribution normale standard.
II.3. Distribution binômiale
La distribution binômiale décrit la distribution de probabilités lorsqu'il n'y a que deux résultats
possibles à chaque essai et que le résultat d'un essai est indépendant du résultat de tout autre
essai. Ex : Lorsqu'on tire une pièce de monnaie, il n'y a que deux résultats: pile ou face.

On appelle les deux résultats possibles: «succès» et «échec» : Le succès est le résultat pour
lequel on désire déterminer la distribution de probabilité, alors que l'échec est l'autre résultat.

En foresterie, la distribution binômiale est associée aux données où un nombre fixe d’individus
sont observés pour chaque unité et où l’unité est caractérisée par le nombre d’individus
possédant ou ne possédant pas un certain attribut. Cette distribution est souvent rencontrée
lorsqu’on travaille avec des variables discrètes comme la proportion des dégâts ou l’état sanitaire
des arbres.

II.4. Distribution de Poisson


La Distribution de Poisson est une distribution discrète qui est souvent reliée à la Distribution
Binomiale B (n, p) lorsque * n (taille de l’échantillon) est grand et tend vers l'infini, et * p
(proportion des unités présentant un certain attribut) est petit et tend vers 0, d'une façon telle
que le produit np tende vers une limite positive l.
La distribution de Poisson est donc une alternative à la distribution normale pour approximer
une distribution binomiale pour de grandes valeurs de n et des petites valeurs de p.
La Distribution de Poisson peut survenir quand les unités individuelles sont caractérisées par un
comptage sans limite supérieure fixée, particulièrement quand et 0 et de très petites valeurs
prédominent. Elle est donc appelée Distribution des évènements rares. Les comptage des
insectes, des espèces de d’arbres ou de plantes rares dans les parcelles peuvent fournir des
données qui suivent une Distribution de Poisson.

II.5. Termes statistiques


Dans la description des différentes méthodes d’échantillonnage, plusieurs termes statistiques
vont fréquemment être utilisés pour présenter, résumer et caractériser les données.

II.5.1. Variance et écart-type


Dans une population d’arbres, la hauteur, le diamètre ou le volume montreront généralement des
variations. Certaines données seront grandes alors que d’autres seront très proche et d’autres
encore inférieures à la moyenne. La moyenne arithmétique, exprimée ici comme la moyenne des
valeurs individuelles de la population, ne contient aucune information sur ces variations. Les
populations qui ont la même moyenne arithmétique peuvent être complètement différentes. Pour
la distribution statistique d’une population, nous avons besoin d’au moins un paramètre qui
donne des informations sur la variabilités des valeurs unitaires.

Ex : On a besoin de beaucoup de données de hauteurs pour avoir une estimation exacte de la


hauteur moyenne dans une parcelle de forêt où les hauteurs varient entre 5 et 35 m que où elles
varient entre 15 et 20 m.

La mesure de variation communément utilisée en Statistique est la variance : c’est la dispersion


des valeurs unitaires individuelles par rapport à leur valeur moyenne. Une large variance indique
une grande dispersion des données alors qu’une petite variance indique une dispersion réduite.

Pour la plupart des données en foresterie, la variance est donnée par la formule :
N

 (x i  x )2
2  i 1
avec : xi = la valeur de l’unité i de la population ;
N
N

x i
 x = la valeur moyenne de la population :   1
;
N
N= La taille de la population.
Malgré le fait qu’on a besoin d’une mesure complète de la population, on ne connaît
généralement pas la valeur exacte de la variance de la population. Ceci doit être estimé à partir
d’un échantillon de la population. L’estimation de la variance d’un échantillonnage aléatoire
simple est donnée par la formule :

n n
( xi ) 2
 ( xi  x ) 2 x 2
i  1

n
S x2  i 1
 i 1
avec : x = Moyenne arithmétique de l’échantillon ;
n 1 n 1
n = Taille de l’échantillon.

Exemple II.1.:
Un block forestier va être inventorié pour estimer le volume total de bois et la variance de la
population. L’unité d’échantillonnage est une parcelle carrée de 0,1 ha (1000 m2), où le volume
de bois (en m3) sera observé. Les valeurs unitaires des volumes sont données pour la population
entière de N = 600 parcelles. Les valeurs des paramètres de la population (valeurs vraies) ont été
calculées à l’ordinateur (voir tableau II.2.).

Tableau II.2. : Vraies valeurs des paramètres de la population entière


Taille de la population (N) 600
Moyenne (  ) 37,42 m3/0,1 ha

Variance (  x2 ) 325,342 (m3/0,1 ha)2

Ecart-type (  x )  18,04 m3/0,1 ha

Valeur minimale (xmin) 10 m3/0,1 ha


Valeur maximale (xmax) 77 m3/0,1 ha
Intervalle (xmin - xmax) 67 m3/0,1 ha

Question : Estimons les paramètres de la population entière à partir d’un échantillon de volume
de 25 parcelles (tableau II.3.) pris au hasard et comparons avec les vrais paramètres de la
population.

Tableau II.3. : Données des 25 parcelles échantillonnées de manière aléatoire simple


No. Echantillon No. dans la population de 600 parcelles Volume unitaire (m3/0,1 ha)
1 52 16
2 563 57
3 155 36
4 85 12
5 532 68
6 191 38
7 417 12
8 553 60
9 432 75
10 222 35
11 439 16
12 232 15
13 355 11
14 258 17
15 385 15
16 195 16
17 192 41
18 285 15
19 60 33
20 281 47
21 573 66
22 241 34
23 219 35
24 343 48
25 338 62

Solution II.1. :
n

n n
( xi ) 2
 ( xi  x ) 2 x 2
i  1

n
Calcul de la variance S x2  i 1
 i 1

n 1 n 1
25
880
 xi = 16 + 57 + 36 +…..+ 62 = 880 m3 ;
1
x
25
 35,2 m3/0,1 ha ;

25

x
1
2
i  16 2  57 2  ...  62 2  41068 (m3/0,1 ha)2

(800) 2
41068 
S x2  25  420,5 (m3/0,1 ha)2
25  1

L’écart-type est la racine carrée de la variance.

S x   S x2   420,5  20,51 m3/0,1 ha

Tableau II.4. : Comparaison entre les paramètres de la population entière à partir de


l’échantillon et les vrais paramètres de la population
Paramètres Population entière Echantillon
Taille de la population (N) ou de 600 25
l’échantillon (n)

Moyenne (  x ) ou ( x ) 37,42 m3/0,1 ha 35,2 m3/0,1 ha

Variance (  x2 ) ou ( S x2 ) 325,342 (m3/0,1 ha)2 420,5 (m3/0,1 ha)2

Ecart-type (  x ) ou ( S x )  18,04 m3/0,1 ha  20,51 m3/0,1 ha

Erreur-type ( S x )  4,1 m3/0,1 ha

Valeur minimale (xmin) 10 m3/0,1 ha 11 m3/0,1 ha


Valeur maximale (xmax) 77 m3/0,1 ha 75 m3/0,1 ha
Intervalle (xmin - xmax) 67 m3/0,1 ha 64 m3/0,1 ha
II.5.2. Erreur-type
La variation de la moyenne est plus grande dans les petits échantillons que dans les échantillons
larges. Il serait désirable d’avoir une indication de comment varie les moyennes d’échantillons
(estimations). Une estimation de la hauteur moyenne de l’arbre, qui varie entre 20 et 21 m
inspire plus de confiance que celle dont la hauteur moyenne varie entre 15 et 26 m. La variance
et l’écart-type sont des paramètres de variation entre les valeurs unitaires de la population. Des
mesures similaires sont utilisées pour la variation des séries de valeurs moyennes estimées. On
parle de la variance de l’estimation et de l’écart-type de l’estimation ou de l’erreur-type de
l’estimation ou tout simplement de l’erreur-type.
L’erreur-type est l’écart-type de la moyenne estimée, ainsi c’est un paramètre des limites de
confiance de la moyenne de l’échantillon. L’erreur-type détermine l’intervalle de la moyenne de
l’échantillon ( x ) à l’intérieur de laquelle la moyenne de la population  x , avec une certaine
probabilité (68%), peut se situer. Les symboles de la variance et de l’écart-type de la moyenne
estimée sont : S x2 et S x . Ils sont obtenus de la variance et de l’écart-type de la population. Ils

S x2 S
sont donnés par la formule : S  2
x
et S x  x avec :
n n
S x2 = la variance de l’échantillon ;

S x = l’écart-type de l’échantillon ;
et n = la taille de l’échantillon.

L’erreur-type dans l’exemple II.1. pourrait être estimée comme :


20,51
Sx    4,1 m3/0,1 ha
25
Le calcul de l’erreur standard n’est pas souvent jugé nécessaire par beaucoup de forestiers,
malgré le fait qu’elle mesure la fiabilité d’une moyenne estimée. L’estimation d’un échantillon
est presque vide de sens si aucune indication de sa précision n’est donnée. L’erreur rend possible
l’établissement des limites qui suggèrent le rapprochement de nos paramètres par rapport aux
vraies valeurs de la population.

Dans l’exemple II.1., nous avions obtenu :


x = 35,2 m3/0,1 ha et S x =  4,1 m3/0,1 ha ;
Pour un échantillon large (n=30 ou n>30), on peut rapidement dire que la vraie valeur de la
moyenne (moyenne de la population population =  x ) va être, pour un niveau de probabilité de

68% (68% de chance), compris entre  1 écart-type de la moyenne estimée ( S x ).

Dans l’exemple II.1., les limites supérieures et inférieures de la moyenne de l’échantillon sont
alors de :
35,2 m3/0,1 - 4,1 m3/0,1 ha = 31,1 m3/0,1 ha ;
35,2 m3/0,1 + 4,1 m3/0,1 ha = 39,5 m3/0,1 ha ;
La vraie valeur de la moyenne  x = 37,72 m3/0,1 ha se situe bien à l’intérieur de ces limites.

II.5.3. Intervalle de confiance


Les valeurs limites de la moyenne estimée, plus ou moins un écart-type, sont appelées intervalle
de confiance à 68% i.e. dans un sur trois cas, la vraie valeur de la population va tomber en dehors
de ces limites.
Par extension des limites, nous pouvons être plus confiant que ces limites vont inclure les vrais
paramètres de la population. Pour obtenir un intervalle de confiance exacte à un certain niveau de
probabilité, l’erreur-type doit être multipliée par une valeur-t. La valeur-t est :
x  x
t et ainsi,   x  t.S x
Sx

La valeur-t peut être obtenue de la table de Student. C’est un tableau à deux entrée dont les
colonnes correspondent aux niveaux de probabilité (  ) et les lignes, les degrés de liberté (ddl ou
df). Dans un échantillonnage aléatoire simple, et dans beaucoup de méthodes d’échantillonnage
classiques, le ddl = n-1.

Dans l’exemple II.1. n = 25 ; ddl = 24


t0,05;24 = 2,064
t0,01;24 = 2,797
- L’intervalle de confiance à 0,95 (95%) :
35,2 m3/0,1 ha  2,064 x 4,1 m3/0,1 ha = 35,2 m3/0,1 ha  8,5 m3/0,1 ha ;
Donc entre 26,7 m3/0,1 ha et 43,7 m3/0,1 ha
- L’intervalle de confiance à 0,99 (99%) :
35,2 m3/0,1 ha  2,797 x 4,1 m3/0,1 ha = 35,2 m3/0,1 ha  11,5 m3/0,1 ha ;
Donc entre 23,7 m3/0,1 ha et 46,7 m3/0,1 ha.
La valeur moyenne de t correspondant aux différents niveaux de probabilité pour des
échantillons de taille >30 est donnée dans le tableau II.5..

Tableau II.5. : Valeur-t pour les plus importants niveaux de probabilité (n>30)
Niveau de probabilité Risque d’erreur t
0,68 0,32 i.e. 1 sur 3 cas 1,00
0,90 0,10 i.e. 1 sur 10 cas 1,64
0,95 0,05 i.e. 1 sur 20 cas 2,00
0,99 0,01 i.e. 1 sur 100 2,68

Le choix du niveau de probabilité à appliquer dépend de certaines circonstances. La probabilité


d’un risque  = 0,05 est satisfaisant pour les inventaires forestiers.

II.5.4. Coefficient de variation (de variabilité)


Le coefficient de variation ( S x %) est le ratio de l’écart-type sur la moyenne.
Le vrai coefficient de variation peut être calculé par :
x
x% = .100 si  x  0
x
ou il peut être estimé par :
Sx
Sx % = .100 si x  0
x
Dans l’exemple II.1., S x =  20,51 m3/0,1 ha et

x = 35,2 m3/0,1 ha.


Le coefficient de variation est donc :
Sx  20,51m 3
Sx % = .100 i.e. .100%
x 35,2m 3
S x % =  58,3%
L’écart-type dépend souvent de la taille moyenne de l’unité. Des unités larges tendent à avoir
une large dispersion et un grand écart-type. Ex : la variance de la hauteur des arbres dans une
vieille parcelle forestière serait plus grande que celle de la hauteur des arbres dans une parcelle
jeune.
Le coefficient de variation est une mesure relative de la variation, contrairement à l’écart-type,
qui apparaît dans la même unité que l’observation. Comme c’est un rapport entre deux
moyennes, il est indépendant de la taille moyenne de l’unité. Le coefficient de variation exprime
la variabilité sur une base relative.

II.5.5. Covariance (Covariabilité)


Dans certaines méthodes d’échantillonnage, les observations sont en paires. Les mesures sont
prises à la fois sur deux caractéristiques par unité d’échantillonnage.
Ex : La mesure du diamètre et de la hauteur des mêmes arbres ;
La mesure du volume et de la biomasse des mêmes arbres ;etc..

La Covariance est une mesure de comment les deux variables (ex : x et y) varient l’un par
rapport à l’autre. Le degré d’association linéaire entre les deux variables est appelé Covariance.
Elle peu être positive ou négative. Elle sera négative si les grandes valeurs de x sont couplées
aux petites valeurs de y. Comme la variance, la covariance est un paramètre de la population.

La Covariance de la population (vraie covariance) est calculée par :


N

 (x i   x ).( y i   x )
 xy  1

N
Pour des échantillons aléatoires simples, basés sur un échantillons de ’’n’’ paires d’observations
de x et y, la Covariance est estimée comme suit :
n n

n n  x . yi i

 (x i  x).( y i  y )  x .y i i  i 1 i 1

n
S xy  i 1
= i 1

n 1 n 1

Exemple II.2.
Les volumes d’un échantillon de 10 arbres, en 0,1 m3 comme unité, étaient estimés à l’œil et
étaient aussi mesurés :
Volume dans 0,1 m3
x (à l’œil) 30 25 15 10 35 25 40 20 25 10
y (mesuré) 27 21 18 17 33 26 42 15 23 9

La Covariance entre les estimations faites à l’œil et les mesures exactes de volumes est donc
estimée comme suit :
10 10 10

 xi = 235 ;
1
 yi = 231 ;
1
x y1
i i = 6225 ;

n n

n n  xi . yi
 ( xi  x).( yi  y)  x .y i i  i 1 i 1

n
6225 
235.231
10 =88,50
S xy  i 1
= i 1
=
n 1 n 1 10  1
La valeur positive de la covariance indique que les grandes valeurs de x tendent d’être
linéairement associées aux grande valeurs de y.

II.5.6. Coefficient de corrélation


L’ampleur de la covariance est souvent en relation avec la taille des valeurs unitaires. Les unités
avec de grandes valeurs de x et y tendent d’avoir une covariance plus large que de petites valeurs
de x et y. Ainsi, l’ampleur de la covariance a peu de sens en rapport avec le niveau d’association
linéaire entre les deux variables.
Le paramètre de degré de relation linéaire entre deux variables est appelé le coefficient de
corrélation, qui n’est pas affecté par la valeur de la taille de l’unité.
Le coefficient de corrélation de la population (vrai)  (rho) est défini par :

Co var iance( x, y )  xy
 =
(var iancedex)(var iancedey)  x2 . y2

Une estimation ’’r’’ du coefficient de corrélation basée un échantillon est :

r=
S xy
=
 ( x  x)( y  y)
i i

S .S 2
x
2
y  ( x  x) . ( y  y)
2 2

Le coefficient de corrélation estimé ’’r’’ est une estimation non biaisée du coefficient de
corrélation de la population correspondante (  ).
Le coefficient de corrélation peut varier entre -1 et +1, dépendant du degré de relation linéaire
entre les deux variables. Une valeur négative indique que les grandes valeurs de x sont couplées
aux petites valeurs de y. Une valeur positive indique que les grandes valeurs de x sont couplées
aux grandes valeurs de y. Si x et y sont des variables indépendantes, i.e. la valeur de x ne dépend
pas de la valeur de y, alors le coefficient de corrélation est nulle. Donc, des coefficients de
corrélations qui sont proche de zéro (0) suggèrent peu ou pas de relation linéaire entre les deux
variables. Des coefficients de corrélation proches de -1 ou de +1 indiquent une relation linéaire
forte entre les deux variables.
Dans l’exemple II.2. :
10 10

 xi = 235 ;
1
y
1
i = 231 ;

10 10

 x x2 = 6425
1
y
1
2
i = 6147 ;

235 2 2312
6425  6147 
S x2  10  100,28 S y2  10  90,10
9 9
S xy  88,50 (voir plus haut)

S xy 88,50
r= =  0,931
2 2
S .S
x y
100,28.90,1

Le fait que le coefficient de corrélation est proche de 1 indique que la relation linéaire entre les
deux variables est très forte. Le fait qu’il soit positif indique que la corrélation entre les deux
variables est positive.
Le coefficient de corrélation simple est une mesure de la relation linéaire entre deux variables.
Une valeur ’’r’’ proche de zéro ne veut pas nécessairement dire qu’il n’y a pas de relation entre
des variables, mais plutôt elle montre une relation linéaire faible. Il peut normalement exister une
relation non-linéaire.
La fiabilité d’un coefficient de corrélation augmente avec la taille de l’échantillon. Le coefficient
de corrélation peut être testé pour sa significance. Le test peut être utilisé pour tester l’hypothèse
 = k  0, i.e.  est égal à une constante k différente de zéro.
La valeur significative ’’r’’ peut être prise de la table des valeurs de ’’r’’ à certains niveaux de
probabilité (généralement à 95%, 99% et 99,1%). C’est une table à deux entrées, avec une entrée
(colonne) correspondant au niveau de probabilité et l’autre (ligne), au degré de liberté qui dans
ce cas est ddl = n-2 (voir table des valeurs de ’’r’’).
Le coefficient de corrélation estimé ’’r’’ est significatif (   0) à une certaine probabilité, si la
valeur estimée est plus grande que ou égale à la valeur significative de la table des valeurs de
’’r’’.

Dans l’exemple II.2. :


r = 0,931 (coefficient de corrélation estimé) ;
n = 10 ;
df = 8 (n-2) ;
Valeurs significatives du coefficient de corrélation
^r0,05;8 = 0,632 ;
^r0,01;8 = 0,765 ;
^r0,001;8 = 0,872.
Le coefficient de corrélation estimé est très significatif (au moins à un niveau de probabilité de
99,9%).
Lorsqu’on teste la signifiance, la taille de l’échantillon doit être prise en compte. Les petits
échantillons généralement sous-estiment le vrai coefficient de corrélation de la population  et
de ce fait, le coefficient de corrélation r doit être ajusté par la formule :
 1 r2 
r  r 1 
0 0
 où r est la valeur ajustée du coefficient de corrélation.
 2(n  3) 

Dans l’exemple II.2. :


r = 0,931 (coefficient de corrélation estimé) ;
n = 10
 1 r2   1  0,9312 
r 0  r 1   = 0,9311    0,940
 2 ( n  3)   2 (10  3) 

II.6. Transformation des variables


Dans beaucoup de méthodes que nous allons décrire dans ce cours, certaines exigences dans la
nature des variables et de leurs variances doivent être remplies. Si une variable manque une
certaine condition nécessaire pour une procédure particulière, la variable doit être changée. La
nouvelle variable est appelée variable transformée et la procédure de ce changement est
appelée la transformation.

Ex : si une certaine méthode requiert une relation linéaire entre deux variables, c’est souvent
nécessaire de transformer soit l’une ou l’autre variable, ou soit les deux pour satisfaire cette
condition. Par ex. la relation entre le diamètre à hauteur de poitrine et la hauteur de l’arbre est
non linéaire. Par une transformation logarithmique de la valeur des diamètres, on peut établir une
relation linéaire entre deux variables afin de construire la droite (linéaire) de la hauteur sur le
diamètre (voir exemple 2.7.). Une droite de la hauteur sur le diamètre est facile à construire
qu’une courbe de la hauteur sur le diamètre. La droite de la hauteur sur le diamètre pourrait être
utilisée pour déterminer la hauteur moyenne d’une parcelle de forêt.
Une condition de base commune est que la variabilité doit être indépendante de la moyenne.
Nous savons que certaines variables tendent d’avoir une variance qui est reliée à la moyenne. La
transformation met les données originales sur une échelle où la variabilité est indépendante de la
moyenne.
Une application valide du test statistique de significance dans l’analyse de la variance requiert
que les erreurs expérimentales doivent être indépendantes ou normalement distribuées, avec la
variance normale.
Transformer les données implique que les erreurs expérimentales sont normalement distribuées
sur l’échelle transformée.
Une variable peut aussi être transformée pour convertir sa distribution en une distribution
normale. Ceci est important vu que beaucoup de méthodes ou tests statistiques sont basées sur
une distribution normale.

Quelques transformations usuelles sont :


- Transformation Raciné carrée : y x
- Transformation logarithmique : y  log x
1
- Transformation angulaire ou inverse sinus : y  arcsin x ou sin 1 x 
sin x
La distribution des surfaces, volumes et variables avec de faibles nombres peuvent être
converties en une distribution normale en utilisant la transformation en Raciné carrée.
L’analyse de pareilles données d’échantillon est souvent bien accomplie en prenant d’abord la
racine carrée de chaque observation avant de procéder à l’analyse de la variance.
Les données en pourcentage basées sur les comptages et un dénominateur commun, où
l’intervalle de pourcentage réside entre 0 et 20% ou 80 et 100% peuvent être analysées en
utilisant la transformation Racine carrée. Les pourcentages entre 80 et 100% doivent être
soustraits de 100 avant que la transformation ne commence.
La transformation logarithmique est utilisée avec les intégrations positives qui couvrent une
large fourchette/plage de données. Elle ne peut pas être utilisée directement pour des valeurs
égales à zéro (0). La transformation logarithmique peut aussi être utilisée pour établir la
linéarité entre deux variables.
Transformation angulaire ou inverse sinus (arcsin(x) or sin(x)) est applicable pour des
données binômiales exprimées en fractions décimales ou en pourcentages. C’est essentiellement
recommandé quand les pourcentages couvrent une large plage de valeurs.

Exemple II.3. :
Le nombre de plantes, compté dans des parcelles circulaires de 10 m2, et dont les valeurs
transformées sont données dans le tableau ci-après :

Tableau II.6. : Nombres de plants et valeurs transformées correspondantes


Valeurs originales Valeurs transformées
(x) Y= x
3 1,73
5 2,24
11 3,32
2 1,41

Le pourcentage d’arbres détruits, pris dans un échantillon de 100 arbres, et les données
transformées sont données dans le tableau suivant :

Tableau II.7. : Pourcentage d’arbres détruits et valeurs transformées


Pourcentage Valeurs transformées
(x) y= x y = arcsin (x) y = 1/sin x
21 4,58 27,3 125,05
15 3,87 22,8 147,9
19 4,35 25,8 131,4
12 3,46 20,3 165,4

Si les pourcentages sont compris entre 30 et 70%, la transformation peut ne pas être nécessaire.
Quand une transformation est opérée, toutes les estimations d’intervalles de confiance sont faites
suivant l’échelle transformée.
III. TEST DES HYPOTHESES

III.1. Définitions

Depending on the formulation of alternative hypothesis Ha, there exists one tail and two tail tests
as follows:
-Usually, one tail tests are found when Ha refers to > or <
-Usually, two tails tests are found when Ha refers to 
III.2. Steps in testing statistical hypothesis
Sample consistency:
-When our hypothesis is accepted, then we say that the sample which we use in testing
hypothesis is consistent with hypothesis.
-When our hypothesis is rejected, then this implies that the sample which we use is nonconsistent
with hypothesis.

II.3-Examples of testing hypothesis using Z normal distribution


Further examples in other words:
1-You have two groups of pigs: one group feed with concentrate and another group feed with
just the kitchen wastes. Does your feeding has any effect on the two groups of pigs?
Formulate the hypotheses.
2-Among a population a divagated pigs, we take out a sample which we feed with the
concentrate. Is there any weight effect while feeding the pigs with the concentrate? Formulate
the hypotheses.

III.4-Examples of testing hypothesis using Student’s t-distribution: Special Cases


III.5-Examples of testing hypothesis using Chi-Square2 distribution
III.6-Homework-Exercises

Vous aimerez peut-être aussi