Académique Documents
Professionnel Documents
Culture Documents
Statistique Théorique Et Appliquée
Statistique Théorique Et Appliquée
STATISTIQUE
•DAGNELIE•
THÉORIQUE
ET APPLIQUÉE 1
1. Statistique descriptive
et bases de l’inférence statistique
THÉORIQUE
ET APPLIQUÉE
•pierre Dagnelie•
La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
1. Statistique descriptive
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
et bases de l’inférence statistique
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).
Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.
} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.
www.deboeck.com
STTHAP1
ISBN 978-2-8041-7560-3
Extrait du catalogue
Mathématiques
Aslangul C., Des mathématiques pour les sciences.
Concepts, méthodes et techniques pour la modélisation
Bogaert P., Probabilités pour scientifiques et ingénieurs.
Introduction au calcul des probabilités
Cottet-Emard F., Analyse
Cottet-Emard F., Analyse 2. Calcul différentiel, intégrales multiples,
séries de Fourier
Cottet-Emard F., Calcul différentiel et intégral. Exercices et problèmes corrigés
Cottet-Emard F., Algèbre linéaire et bilinéaire
Dagnelie P., Statistique théorique et appliquée. Tome 2.
Inférence statistique à une et à deux dimensions
Dupont P., Exercices corrigés de mathématiques.
Tome 1 Algèbre et géométrie. 3e éd.
Dupont P., Exercices corrigés de mathématiques. Tome 2. Analyse. 3e éd.
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 1
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 2
Marchand M., Outils mathématiques pour l’informaticien.
Mathématiques discrètes. 2e éd.
Stewart J., Analyse, concepts et contextes. Volume 1.
Fonctions d’une variable. 3e éd.
Stewart J., Analyse, concepts et contextes. Volume 2.
Fonctions de plusieurs variables. 3e éd.
3e édition
•pierre Dagnelie•
Pour toute information sur notre fonds et les nouveautés dans votre domaine de
spécialisation, consultez notre site web : www.deboeck.com
Imprimé en Belgique
Dépôt légal :
Bibliothèque nationale, Paris : janvier 2013
Bibliothèque royale de Belgique, Bruxelles : 2013/0074/047 ISBN 978-2-8041-7560-3
La statistique peut être définie comme étant l’ensemble des méthodes qui ont
pour but de recueillir et d’analyser des données, souvent numériques, relatives à
des groupes d’individus ou d’objets. Elle joue un rôle essentiel dans de très nom-
breuses disciplines. Tel est le cas, entre autres, pour les sciences du vivant : biologie,
agronomie (au sens le plus large), écologie, etc.
Les deux tomes de Statistique théorique et appliquée ont précisément pour
objectif de permettre aux scientifiques de disciplines très variées, en particulier les
sciences du vivant, d’utiliser au mieux les méthodes statistiques classiques, sans
en négliger ni les fondements ni les limites.
*
* *
*
* *
*
* *
*
* *
Septembre 2012.
1 Les principales modifications concernent notamment les paragraphes 1.4, 2.4, 3.8, 4.9, 6.10
et 10.3.
Table des matières
Mode d’emploi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Première partie
INTRODUCTION GÉNÉRALE
ET COLLECTE DES DONNÉES
Chapitre 1
Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Documentation complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Chapitre 2
La collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 L’étude par enquête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 L’expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 La nature, l’enregistrement et le traitement des données . . . . . . . . . . . . 44
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Deuxième partie
LA STATISTIQUE DESCRIPTIVE
Chapitre 3
La statistique descriptive à une dimension . . . . . . . . . . . . . . . . 53
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 TABLE DES MATIÈRES
Troisième partie
LA PROBABILITÉ MATHÉMATIQUE
ET LES DISTRIBUTIONS THÉORIQUES
Chapitre 5
La probabilité mathématique et les distributions
théoriques : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.2 La notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.3 Quelques propriétés de la probabilité mathématique . . . . . . . . . . . . . . . 183
5.4 La probabilité conditionnelle et l’indépendance stochastique . . . . . . . 188
5.5 Les notions de variable aléatoire et de distribution théorique . . . . . . . 194
TABLE DES MATIÈRES 9
Quatrième partie
LES PRINCIPES DE L’INFÉRENCE STATISTIQUE
Chapitre 8
Les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . 345
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
8.2 L’échantillonnage : quelques notions complémentaires . . . . . . . . . . . . . . 346
10 TABLE DES MATIÈRES
ANNEXES
Pour la facilité du lecteur, le symbole apparaı̂t aussi dans les sommaires des
di↵érents chapitres, en regard des paragraphes qui doivent être pris en considéra-
tion entièrement ou partiellement au premier niveau.
Toujours comme manuel, ce tome 1 comprend de nombreux exemples, qui illus-
trent les notions théoriques, des listes de mots-clés, présentées à la fin des différents
chapitres, et des exercices, dont les énoncés figurent également à la fin des cha-
pitres et dont les solutions sont données immédiatement après l’ensemble du texte
(page 461). L’emploi des symboles , , d et b s’applique comme ci-dessus à ces
exercices.
Pour permettre au lecteur de traiter aisément les exemples et les exercices,
leurs données numériques éventuelles sont disponibles sur internet à l’adresse
<www.dagnelie.be/stdonn.html>.
Enfin, les dernières pages de ce volume sont consacrées à un index des princi-
paux symboles utilisés (page 515).
Notations
En ce qui concerne les notations, nous respectons autant que possible les re-
commandations de Halperin et al. [1965]. Les lettres minuscules, notamment,
désignent le plus souvent des valeurs observées ou des fonctions non cumulatives
de probabilité (fonctions de densité de probabilité), tandis que les lettres majus-
cules désignent des variables aléatoires ou des fonctions cumulatives de probabilité
(fonctions de répartition). De même, les lettres grecques sont utilisées en général
pour représenter les paramètres des populations.
Quant aux caractères gras, ils sont employés occasionnellement pour désigner
soit des vecteurs, à l’aide de lettres minuscules, soit des matrices, à l’aide de lettres
majuscules.
1 Les adresses web qui figurent dans le texte et dans l’index bibliographique ont été contrôlées
en août 2012.
Première partie
Introduction générale
et collecte des données
Introduction générale
Sommaire 1
1.1 Définition
1.2 Historique
1.3 Cadre général
1.4 Documentation complémentaire
Principaux mots-clés
1 Nous rappelons que, dans les sommaires des di↵érents chapitres, le signe indique les
paragraphes qui sont entièrement ou partiellement de première importance, au sens du (( mode
d’emploi )) qui suit la table des matières. Ainsi, les signes qui apparaissent en marge dans la
suite de ce chapitre montrent que le paragraphe 1.1 doit être entièrement pris en considération
au premier niveau d’étude, que seuls les paragraphes 1.2.3 et 1.2.4 doivent être considérés à ce
stade, et que le paragraphe 1.3 doit aussi être entièrement pris en considération, le paragraphe 1.4
pouvant être négligé (les alinéas marqués par les symboles d et b devant toujours être négligés
au cours d’une première lecture).
18 INTRODUCTION GÉNÉRALE 1.2.1
1.1 Définition
Dérivé du substantif latin status (État), le mot statistique possède, en français
comme dans d’autres langues, plusieurs significations distinctes.
D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne tout
ensemble cohérent de données, généralement numériques, relatives à un groupe
d’individus ou d’objets. On parle par exemple de la ou des statistiques de la
production agricole ou industrielle (quantités produites, prix de vente, coûts de
production, etc.), des statistiques démographiques (natalité, mortalité, etc.), des
statistiques du chômage, des statistiques des accidents de la circulation routière,
etc. Il convient toutefois de remarquer que, contrairement à une opinion commu-
nément admise, cette acception du terme statistique ne concerne pas seulement
des volumes importants de données.
D’autre part, le mot statistique désigne l’ensemble des méthodes qui permettent
de recueillir et d’analyser les données dont il vient d’être question. C’est à cette
signification que nous nous référons dans le présent ouvrage.
Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autre
paramètre, tel qu’une moyenne, calculé à partir d’un ensemble de données 2 .
Dans la première définition que nous avons présentée, le qualificatif (( numé-
riques )) doit être considéré dans un sens très large. Il peut en e↵et concerner
aussi bien des données quantitatives (résultats de comptages ou de mesures), que
des données qualitatives (couleurs, appréciations gustatives, etc.), voire même des
textes, codés sous forme numérique en vue d’un traitement informatique.
Informations complémentaires : Bartholomew [1995], Dodge [2004], Dumas [1955],
Willcox [1935].
1.2 Historique
1.2.1 Les origines de la statistique
1 Bien que des dénombrements de populations humaines et de terres aient été
réalisés depuis la plus haute antiquité, notamment pour les besoins de la guerre
et de l’impôt, la statistique n’est pas une discipline fort ancienne. C’est en e↵et
au cours du dix-huitième siècle seulement que l’emploi du terme statistique s’est
imposé en Allemagne, dans le sens alors limité de connaissance d’un État, à la
suite des travaux de Gottfried Achenwall (1719-1772).
Parallèlement à cette tendance, dite aussi d’arithmétique politique, s’est dé-
veloppé, en France tout d’abord, le calcul des probabilités, dont l’objectif était
au départ la résolution de problèmes relatifs aux jeux de hasard. Les noms de
2 Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de données
et pour l’ensemble des méthodes, et d’autre part statistic, pour des paramètres.
1.2.2 HISTORIQUE 19
Les années 1920 sont ensuite dominées par la forte personnalité du statisti-
cien britannique Ronald Aylmer Fisher (1890-1962), auquel on doit notamment
le développement des plans d’expérience 6 et l’analyse de la variance et de la co-
variance 7 , qui occupent une place prépondérante dans le domaine agronomique
d’abord, et dans de nombreux autres secteurs ensuite.
Les années 1930 sont marquées par de nouvelles applications de la statistique
en économie, donnant naissance à l’économétrie 8 , et par l’utilisation de l’outil
statistique dans le domaine industriel, en matière de maı̂trise ou de contrôle de la
qualité 9 des produits manufacturés.
Enfin, à partir de 1940, la statistique intervient de façon de plus en plus fré-
quente dans certains problèmes de gestion, en relation avec le développement de
la recherche opérationnelle 10 .
Informations complémentaires : Droesbeke et Tassi [1997], Kendall [1972].
22 En anglais : database.
23 En anglais : datawarehouse.
24 En anglais : data mining.
25 En anglais : neural network, artificial neural network.
26 En anglais : genomics.
27 En anglais : bioinformatics.
28 Cet ouvrage (Statistics in the 21st century) réunit un ensemble de courtes notes qui ont été
publiées dans les quatre fascicules du Journal of the American Statistical Association de l’année
2000.
1.3.2 CADRE GÉNÉRAL 23
2 Ces di↵érentes étapes de toute étude statistique ne sont cependant pas in-
dépendantes les unes des autres. Les méthodes de l’inférence statistique ne sont
applicables en e↵et que dans des conditions particulières, parfois fort restrictives.
Il en résulte notamment que l’observation et l’expérimentation doivent être orga-
nisées de manière à répondre autant que possible à ces conditions.
2 Des recueils de tables peuvent aussi être utiles. Les plus courants sont ceux
de Fisher et Yates [1982] (Statistical tables for biological, agricultural and med-
ical research), et de Pearson et Hartley [1966-1972] (Biometrika tables for
statisticians).
29 Ou les documents antérieurs de Kotz et al., à savoir : Kotz et Johnson [1982-1988, 1989],
3 Quant aux revues, et dans l’optique de ces deux tomes de Statistique théo-
rique et appliquée, on peut citer en priorité les titres The American Statistician,
Biometrical Journal, Computational Statistics and Data Analysis, Journal of Ap-
plied Statistics, et Journal of Statistical Planning and Inference.
Peuvent éventuellement être ajoutés : Biometrics, Communications in Statis-
tics Theory and Methods, Journal de la Société Française de Statistique, Statistical
Science, et Statistics in Medicine, voire encore bien d’autres.
2 En ce qui concerne les revues, les tables des matières et les résumés des
articles de la plupart d’entre elles sont intégralement disponibles sur internet. Les
adresses des sites web de plusieurs dizaines de revues, essentiellement consacrées
à la statistique, sont données notamment par <www.stata.com/links/journals4.
html>.
En outre, pour certaines revues, les textes complets des articles sont également
accessibles. Tel est le cas, entre autres, pour les titres suivants : Electronic Journal
of Statistics (<imstat.org/ejs>), Journal de la Société Française de Statistique
(<smf4.emath.fr/Publications/JSFdS>), Journal of Statistical Education (<www.
amstat.org/publications/jse>), et Revue Modulad (<www.modulad.fr>).
4 Enfin, et d’une manière tout à fait générale, des recherches peuvent être
e↵ectuées à l’aide des moteurs de recherche classiques, tels que Google (<www.
google.com>), Yahoo (<search.yahoo.com>), etc., et plus particulièrement les ver-
sions Books et Scholar de Google, respectivement pour les livres et pour les articles
de revues (<books.google.com/advanced book search> et <scholar.google.com/
advanced scholar search>).
On sera cependant toujours très circonspect lors de la consultation de sites
particuliers dont les auteurs ne seraient pas bien connus ou bien identifiés.
Principaux mots-clés
Statistique, statistiques.
Collecte des données, observation, expérimentation.
Analyse statistique, statistique descriptive, inférence statistique.
Chapitre 2
Sommaire
2.1 Introduction
2.2 L’étude par enquête
2.3 L’expérimentation
2.4 La nature, l’enregistrement et le traitement des données
Principaux mots-clés
28 COLLECTE DES DONNÉES 2.2.1
2.1 Introduction
1 Comme nous l’avons signalé antérieurement (§ 1.3.2), nous consacrons ce
chapitre 2 à la présentation, en termes très simples, de notions de base relatives
à la collecte des données, c’est-à-dire à ce qui constitue normalement la première
phase de toute étude statistique.
Nous envisagerons successivement les questions qui concernent les études par
enquête (§ 2.2), les problèmes d’expérimentation (§ 2.3), et les questions relatives à
la nature, à l’enregistrement et au traitement des données (§ 2.4). Nous reviendrons
ultérieurement de façon plus détaillée sur certains de ces sujets, lorsque nous aurons
présenté diverses notions de calcul des probabilités et de statistique théorique.
maux, des plantes, des groupes de personnes (familles, ménages, etc.), des groupes
d’animaux, des groupes de plantes, ou des éléments de toute autre nature (entre-
prises industrielles ou commerciales, exploitations agricoles, machines d’un type
donné, etc.). L’ensemble des unités auxquelles on s’intéresse est appelé population
ou univers ou ensemble statistique 4 .
destinée uniquement à contrôler sur un petit nombre d’unités la qualité des ques-
tionnaires et, le cas échéant, des enquêteurs.
Au moment du dépouillement des résultats de l’enquête, on doit également être
attentif au problème des absences de réponses, aussi appelées non-réponses 11 , qui
peuvent constituer un danger particulièrement grand dans le cas des enquêtes
réalisées par voie postale, par téléphone et par internet.
2 Une autre procédure consiste à choisir comme ci-dessus une première unité,
et ensuite, à partir de celle-ci, de façon systématique ou régulière, les autres unités
qui doivent constituer l’échantillon.
Tel peut être le cas, dans une liste de personnes, en choisissant par exemple un
nom au hasard parmi les 20 premiers noms de la liste, et ensuite régulièrement, à
partir de celui-ci, un nom sur 20 (par exemple le 7ème nom pour commencer, puis
le 27ème nom, le 47ème nom, le 67ème nom, etc.).
Tel peut être le cas également, à deux dimensions, en agissant de la même façon
dans les deux directions. Par exemple, dans un champ de betteraves, on pourrait
choisir de façon systématique des lignes de betteraves et, dans ces lignes, de façon
systématique ou à intervalle régulier, des betteraves (par exemple la 3ème ligne, la
13ème ligne, la 23ème ligne, etc., et dans chacune de ces lignes, la 4ème betterave,
la 24ème betterave, la 44ème betterave, etc., ou la première betterave se trouvant
au-delà du point situé à 2 mètres du début de la ligne, au-delà du point situé à
12 mètres du début de la ligne, au-delà du point situé à 22 mètres du début de la
ligne, etc.).
Un tel échantillonnage est dit systématique 13 . En pratique, il est souvent plus
facile à réaliser qu’un échantillonnage complètement aléatoire, surtout pour des
observations qui doivent être e↵ectuées en champ, en verger, en forêt, etc.
11 En anglais : non-response.
12 En anglais : simple random sampling, unrestricted random sampling.
13 En anglais : systematic sampling.
2.2.4 ÉTUDE PAR ENQUÊTE 33
5 La méthode des quotas 18 , enfin, est une méthode largement utilisée dans les
sondages d’opinion. Elle consiste à donner à l’échantillon une composition aussi
semblable que possible à celle de la population, en fonction de quelques critè-
res de classification considérés a priori comme particulièrement importants, mais
sans définir de façon précise la manière dont les individus devront être choisis à
l’intérieur de chacune des classes ou catégories de la population.
On tient souvent compte du sexe, de l’âge et des catégories socio-profession-
nelles, ou de la répartition géographique des di↵érentes personnes constituant la
population. Mais s’il faut choisir, par exemple, 15 ouvrières âgées de 20 à 30 ans,
pour assurer proportionnellement une bonne représentation de cette catégorie de
la population, on n’e↵ectue pas ce choix de façon complètement aléatoire ou de
façon systématique, parmi toutes les personnes qui appartiennent à cette catégo-
rie, mais on laisse en général la liberté de ce choix aux enquêteurs, moyennant
éventuellement certaines directives.
Comme l’échantillonnage stratifié, auquel elle est directement comparable, la
méthode des quotas donne, pour un même nombre d’observations, des résultats
plus précis que l’échantillonnage complètement aléatoire. En outre, son utilisation
est souvent plus facile ou plus rapide que celle de l’échantillonnage complètement
aléatoire. Mais l’absence de méthode précise de choix des individus à l’intérieur des
classes peut conduire à des erreurs importantes, liées notamment au comportement
des enquêteurs.
uniquement pour les communes choisies au premier degré, d’une liste de toutes les
exploitations agricoles.
2.3 L’expérimentation
2.3.1 Principes généraux
1 Contrairement au cas de l’observation par enquête (§ 2.2.1), l’expérimenta-
tion 25 , c’est-à-dire la réalisation d’une ou plusieurs expériences ou d’un ou plu-
sieurs essais 26 , suppose que l’apparition des faits qu’on désire étudier est volon-
tairement provoquée, dans des conditions qu’on maı̂trise au moins partiellement.
L’expérimentation étant souvent plus efficace que la simple observation par
enquête, le chercheur ou l’homme de science doit toujours envisager la possibilité
d’y recourir, quand cela s’avère réalisable, ce qui est fréquemment le cas dans le
domaine biologique notamment.
2 Dans le cas d’un facteur qualitatif, les di↵érentes variantes sont généra-
lement définies a priori, en même temps que le but de l’expérience (par exemple
quelques variétés données de blé). Il peut arriver cependant que les variantes prises
en considération dans l’expérience doivent être choisies au sein d’un ensemble plus
vaste (par exemple quelques lignées de betterave sucrière, choisies parmi les descen-
dances résultant d’un grand nombre de croisements). Le choix d’un nombre limité
de variantes à mettre en expérience peut alors être réalisé de façon complètement
aléatoire.
28 En anglais : factor.
29 En anglais : level.
40 COLLECTE DES DONNÉES 2.3.4
Dans le cas d’un facteur quantitatif, les di↵érents niveaux sont généralement
choisis de manière à constituer une progression arithmétique (par exemple 100 ,
150 et 200 kg d’azote par hectare), ou une progression géométrique (par exemple
1 , 2 , 4 et 8 mg d’une matière active ou d’une substance de croissance donnée par
plante).
Quand deux ou plusieurs facteurs sont étudiés simultanément au cours d’une
même expérience, on s’e↵orce souvent d’associer chacune des variantes ou chacun
des niveaux d’un facteur, à chacune des variantes ou chacun des niveaux du ou
des autres facteurs (chacune des variétés associée à chacune des doses d’engrais,
par exemple). Une expérience organisée de cette manière est dite factorielle 30 .
Chacun des éléments individuels considérés, c’est-à-dire aussi bien chacun des
niveaux ou des variantes d’une expérience à un facteur, que chacune des combi-
naisons de niveaux ou de variantes d’une expérience à deux ou plusieurs facteurs
(une variété associée à une dose d’engrais, par exemple), peut être appelé objet.
Enfin, un problème connexe, qui doit toujours être envisagé, est celui de l’in-
clusion ou la non-inclusion dans l’expérience d’un ou plusieurs témoins ou objets
de référence 31 , qui ne subissent aucun traitement particulier (parcelles sans en-
grais, par exemple), ou qui servent de base de comparaison pour les autres objets
(variété bien connue servant de base de comparaison pour un ensemble de variétés
nouvelles, par exemple).
A0 , A1 , A2 , B0 , B1 , B2 .
Les objets A0 et B0 sont des témoins (non traités).
Les unités expérimentales peuvent être des parcelles rectangulaires, de 6 m sur
20 m par exemple, et nous supposerons qu’en fonction des moyens disponibles,
le nombre de répétitions a été fixé à cinq, pour chacun des six objets. L’étendue
totale des 30 parcelles considérées est donc de 36 ares, compte non tenu des chemins
d’accès, sentiers et autres dégagements éventuels.
Les observations concerneront essentiellement les rendements en grains par
parcelle, exprimés en poids de matière sèche et ramenés conventionnellement à un
même niveau d’humidité (souvent 16 %).
Comme le montre la figure 2.3.1, dessinée à l’échelle 1/1.000 , l’expérience peut
être complètement aléatoire ou, au contraire, réalisée en blocs aléatoires com-
plets. Dans le premier cas, les cinq répétitions de chacun des six objets sont ré-
parties de façon tout à fait aléatoire dans l’ensemble des 30 parcelles. Dans le
deuxième cas, par contre, le champ est tout d’abord divisé en cinq blocs de six
parcelles, correspondant aux cinq bandes verticales de la figure 2.3.1, et les six
objets sont ensuite répartis de façon complètement aléatoire à l’intérieur de chacun
des cinq blocs, et cela de manière indépendante d’un bloc à l’autre. En pratique,
ce deuxième dispositif est généralement préférable au premier.
par exploitation agricole, etc.). De telles données, et les variables sous-jacentes qui
y correspondent, sont fondamentalement de nature discontinue ou discrète 43 .
Les mesures ou mensurations 44 , par contre, soulèvent des problèmes de pré-
cision et de choix d’unités, auxquels des solutions claires doivent toujours être
apportées. On notera à ce sujet qu’il est souvent inutile, et même parfois dangereux,
de considérer au niveau de la mesure un nombre trop important de chi↵res. Dans
le domaine biologique par exemple, il est généralement illusoire d’utiliser plus de
deux ou trois chi↵res pour exprimer des résultats individuels (hauteurs totales
d’arbres exprimées en mètres, avec au maximum une décimale, poids de vaches
laitières exprimés en kilogrammes, sans décimales, etc.).
On notera également que, dans le cas des mesures, on e↵ectue en réalité des
observations discontinues, en raison de la nécessité d’arrondir les données à deux,
trois ou quelques chi↵res (discontinuités de 1 dm , 1 m , 1 kg , etc.), alors que les
variables considérées sont fondamentalement de nature continue 45 .
verses couleurs de pelage, on peut aussi utiliser une codification basée sur une série
de valeurs numériques (1 pour un pelage brun, 2 pour un pelage gris, 3 pour un
pelage noir, etc.), mais on doit se souvenir du fait que toute opération arithmétique
basée sur de telles données, dites nominales 50 , doit être proscrite.
d Une autre solution applicable à ce dernier cas serait, au contraire, de considé-
rer qu’il y a autant de variables di↵érentes que de modalités ou de variantes, en
associant une variable binaire à chacune des modalités ou variantes (une première
variable pouvant prendre les valeurs 0 et 1 respectivement pour (( non brun )) et
brun, une deuxième variable pouvant prendre les valeurs 0 et 1 respectivement
b pour (( non gris )) et gris, etc.).
4 Indépendamment des cas les plus classiques, présentés ci-dessus, il faut si-
gnaler aussi l’existence de types plus particuliers de données, telles que les rangs
et les données directionnelles ou circulaires.
Les rangs 51 sont en fait les numéros d’ordre des di↵érents individus ou des
di↵érents éléments observés, classés selon l’ordre croissant de la caractéristique
considérée. De telles observations apparaissent notamment dans certains tests sen-
soriels, ou lors d’autres examens au cours desquels on ne demande pas aux experts
ou aux examinateurs d’attribuer une note à chacun des individus ou des éléments
observés, mais bien de procéder à un classement de ceux-ci.
On remarquera que les observations sont alors également, comme pour les dé-
nombrements ou les comptages, des nombres entiers non négatifs, mais les valeurs
obtenues ne sont pas indépendantes les unes des autres. En particulier, pour un
ensemble de n éléments auxquels sont attribués des rangs allant de 1 à n , la somme
des valeurs observées est égale à n (n + 1)/2 , et leur moyenne est toujours égale à
(n + 1)/2 .
2 Quelle que soit la méthode utilisée, l’enregistrement doit toujours être l’objet
d’une très grande attention, et cela autant que possible dès la planification de
l’enquête ou de l’expérience.
Le cas échéant, la conception des formulaires ou des écrans de saisie doit être
réalisée avec le plus grand soin, en vue de réduire au maximum les risques d’er-
reur. Dans le cas d’un enregistrement sous forme manuscrite, toute transcription
éventuelle des observations, y compris leur possible encodage sur ordinateur, doit
être l’objet d’une vérification très stricte.
D’une façon générale, un examen critique des données, relatif notamment à leur
plausibilité, doit être associé à toute procédure d’enregistrement. Il peut s’agir d’un
simple examen visuel, au cours ou à l’issue d’un enregistrement manuel. Mais il
peut s’agir aussi, dans le cas d’un enregistrement direct sur support informatique,
de la comparaison avec des valeurs minimales et maximales admissibles ou avec
une série de normes ou de codes admissibles, ou de tout autre processus permettant
de détecter des erreurs ou des discordances éventuelles.
À cet égard, il faut être conscient du fait que les procédures automatiques
de collecte des données ne sont pas à l’abri de toute défaillance. De plus, ces
procédures peuvent soulever dans certains cas des problèmes particuliers, liés au
volume considérable des données enregistrées.
Dès la fin de la collecte, voire même progressivement au cours de la collecte
elle-même, il est opportun d’assurer une sauvegarde des données, sous forme de
copies mises en sécurité.
53 En anglais : data acquisition, data capture.
48 COLLECTE DES DONNÉES 2.4.2
Principaux mots-clés
Enquête, expérimentation.
Population, échantillon, recensement, sondage.
Échantillonnage complètement aléatoire, systématique, stratifié, à deux ou plu-
sieurs degrés, par quotas.
Taille ou e↵ectif de l’échantillon, intensité d’échantillonnage ou de sondage.
Facteur, modalité, variante, niveau, objet, témoin.
Expérience factorielle.
Expérience complètement aléatoire, en blocs aléatoires complets.
Répétition.
Données quantitatives, discontinues, continues.
Données qualitatives, binaires, nominales, ordinales.
Rangs.
Deuxième partie
La statistique descriptive
La statistique descriptive
à une dimension
Sommaire
3.1 Introduction
3.2 Les distributions de fréquences
3.3 Les représentations graphiques
3.4 La réduction des données : généralités
3.5 Les paramètres de position
3.6 Les paramètres de dispersion
3.7 Les moments et les paramètres de dissymétrie et d’aplatisse-
ment
3.8 Le calcul de la moyenne, de la variance et des moments d’ordre
3 et 4
3.9 Quelques informations relatives à l’exécution des calculs
3.10 Les nombres-indices
Principaux mots-clés
Exercices
54 STATISTIQUE DESCRIPTIVE À UNE DIMENSION 3.2.1
3.1 Introduction
1 La statistique descriptive 1 a essentiellement pour but de présenter les don-
nées observées sous une forme telle qu’on puisse en prendre connaissance faci-
lement. Elle peut concerner une variable ou une caractéristique à la fois, deux
variables ou deux caractéristiques à la fois, ou encore plus de deux variables ou
plus de deux caractéristiques simultanément. Selon les cas, on parle de statistique
descriptive à une variable ou à une dimension 2 , de statistique descriptive à deux
variables ou à deux dimensions 3 , et de statistique descriptive à plusieurs variables
ou à plusieurs dimensions 4 .
Les principaux symboles utilisés dans le texte sont énumérés ici par ordre
alphabétique, d’abord pour l’alphabet latin, puis pour l’alphabet grec.
ET APPLIQUÉE
•pierre Dagnelie•
La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
1. Statistique descriptive
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
et bases de l’inférence statistique
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).
Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.
} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.
www.deboeck.com
STTHAP1
ISBN 978-2-8041-7560-3