Statistique Théorique Et Appliquée

STATISTIQUE
STATISTIQUE
•DAGNELIE•
THÉORIQUE
ET APPLIQUÉE 1
1. Statistique descriptive
et bases de l’inférence statistique
THÉORIQUE
STATISTIQUE THéORIQUE ET APPLIQUéE

3e édition
ET APPLIQUÉE
•pierre Dagnelie•
La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).
Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.
} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.
www.deboeck.com
STTHAP1
ISBN 978-2-8041-7560-3
STTHAP1-cov.indd 1-3 6/12/12 13:38

STATISTIQUE
THÉORIQUE
ET APPLIQUÉE
Tome 1
STTHAP1-PgeLim.indd 1 6/12/12 13:36

Chez le même éditeur
Extrait du catalogue
Mathématiques
Aslangul C., Des mathématiques pour les sciences.
Concepts, méthodes et techniques pour la modélisation
Bogaert P., Probabilités pour scientifiques et ingénieurs.
Introduction au calcul des probabilités
Cottet-Emard F., Analyse
Cottet-Emard F., Analyse 2. Calcul différentiel, intégrales multiples,
séries de Fourier
Cottet-Emard F., Calcul différentiel et intégral. Exercices et problèmes corrigés
Cottet-Emard F., Algèbre linéaire et bilinéaire
Dagnelie P., Statistique théorique et appliquée. Tome 2.
Inférence statistique à une et à deux dimensions
Dupont P., Exercices corrigés de mathématiques.
Tome 1 Algèbre et géométrie. 3e éd.
Dupont P., Exercices corrigés de mathématiques. Tome 2. Analyse. 3e éd.
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 1
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 2
Marchand M., Outils mathématiques pour l’informaticien.
Mathématiques discrètes. 2e éd.
Stewart J., Analyse, concepts et contextes. Volume 1.
Fonctions d’une variable. 3e éd.
Stewart J., Analyse, concepts et contextes. Volume 2.
Fonctions de plusieurs variables. 3e éd.

STATISTIQUE
THÉORIQUE
ET APPLIQUÉE
1. STATISTIQUE DESCRIPTIVE
ET BASES DE L’INFÉRENCE STATISTIQUE
3e édition

Illustration de couverture :
© Eric Marechal - Fotolia.com
Pour toute information sur notre fonds et les nouveautés dans votre domaine de
spécialisation, consultez notre site web : www.deboeck.com
© De Boeck Supérieur s.a., 2013 3e édition

Rue des Minimes 39, B-1000 Bruxelles
Pour la traduction et l’adaptation française
Tous droits réservés pour tous pays.

Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photo-
copie) partiellement ou totalement le présent ouvrage, de le stocker dans une banque de don-
nées ou de le communiquer au public, sous quelque forme et de quelque manière que ce soit.
Imprimé en Belgique
Dépôt légal :
Bibliothèque nationale, Paris : janvier 2013
Bibliothèque royale de Belgique, Bruxelles : 2013/0074/047 ISBN 978-2-8041-7560-3

Avant-propos
La statistique peut être définie comme étant l’ensemble des méthodes qui ont
pour but de recueillir et d’analyser des données, souvent numériques, relatives à
des groupes d’individus ou d’objets. Elle joue un rôle essentiel dans de très nom-
breuses disciplines. Tel est le cas, entre autres, pour les sciences du vivant : biologie,
agronomie (au sens le plus large), écologie, etc.
Les deux tomes de Statistique théorique et appliquée ont précisément pour
objectif de permettre aux scientifiques de disciplines très variées, en particulier les
sciences du vivant, d’utiliser au mieux les méthodes statistiques classiques, sans
en négliger ni les fondements ni les limites.
*
* *
Le tome 1 constitue un exposé général, relativement élémentaire, de la théorie

statistique. Seules les démonstrations les plus simples y sont données, de nom-
breuses propriétés étant introduites intuitivement. Quant au tome 2, il présente
un vaste ensemble de méthodes statistiques, toujours illustrées par des exemples
numériques concrets, issus de situations réelles.
Les deux volumes se terminent par une série de tables et par divers index (index
bibliographique, index des traductions anglaises, index des matières et index des
symboles). Ils sont complétés par des exercices, accompagnés de leurs solutions, et
par diverses autres informations qui sont disponibles par l’intermédiaire d’un site
web (<www.dagnelie.be>).
Le tome 1 peut ainsi servir en particulier dans le premier cycle de l’enseigne-
ment supérieur, et le tome 2 dans le deuxième cycle. Mais par leur ampleur, leur
abondante bibliographie et leurs index, les deux volumes sont également des ou-
vrages de référence, destinés non seulement aux universités et aux grandes écoles,
mais aussi aux centres de recherche publics et privés.
L’utilisation des deux volumes tantôt comme manuels tantôt comme ouvrages
de référence est précisée dans un (( mode d’emploi )), qui est présenté immédiate-
ment après la table des matières (page 11). Ce (( mode d’emploi )) définit notamment
di↵érents plans de lecture ou niveaux d’étude.
6 AVANT-PROPOS
*
* *
Ce tome 1 commence par deux chapitres introductifs, relatifs à diverses notions

générales et à la collecte des données (chapitres 1 et 2). Il part ensuite de la statis-
tique descriptive, à une et à deux dimensions (chapitres 3 et 4), pour introduire les
notions de probabilité mathématique et de distributions théoriques, à une et à deux
dimensions également (chapitres 5 à 7). Il se termine par l’exposé des principes de
l’inférence statistique : distributions d’échantillonnage, problèmes d’estimation et
tests d’hypothèses (chapitres 8 à 10).
*
* *
Les deux tomes de Statistique théorique et appliquée ont remplacé en 1998

les deux volumes de Théorie et méthodes statistiques : applications agronomiques
(souvent désignés par (( TMS1 )) et (( TMS2 ))), qui avaient été très largement dif-
fusés antérieurement [Dagnelie, 1969, 1970]. Le recours à un nouveau titre ré-
sultait à ce moment de l’importance des modifications apportées, tant au texte
proprement dit qu’à la structure générale de l’ensemble et à la documentation
annexe (plus de 350 références bibliographiques pour ce seul tome 1).
De nouveaux remaniements ont été réalisés lors de la publication de la deuxième
édition en 2006-2007. Il en est de même pour cette troisième édition. Il s’agit essen-
tiellement d’une actualisation du texte et de la documentation, et de l’introduction
de quelques nouveaux développements 1 .
*
* *
Nous avons déjà eu l’occasion de témoigner précédemment notre gratitude aux

nombreuses personnes (enseignants, chercheurs, techniciens et étudiants) qui nous
ont aidé dans la préparation des deux volumes de Théorie et méthodes statis-
tiques, puis de Statistique théorique et appliquée. Nous voudrions mettre encore en
évidence les facilités qui nous ont été accordées au cours des dernières années par
les autorités de la Faculté des Sciences agronomiques de Gembloux (Belgique) et
par le Professeur Jean-Jacques Claustriaux, en matière d’accès à la documen-
tation bibliographique.
Septembre 2012.
1 Les principales modifications concernent notamment les paragraphes 1.4, 2.4, 3.8, 4.9, 6.10
et 10.3.
Table des matières
Mode d’emploi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Première partie
INTRODUCTION GÉNÉRALE
ET COLLECTE DES DONNÉES
Chapitre 1
Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Documentation complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Chapitre 2
La collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 L’étude par enquête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 L’expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 La nature, l’enregistrement et le traitement des données . . . . . . . . . . . . 44
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Deuxième partie
LA STATISTIQUE DESCRIPTIVE
Chapitre 3
La statistique descriptive à une dimension . . . . . . . . . . . . . . . . 53
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 TABLE DES MATIÈRES
3.3 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.4 La réduction des données : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5 Les paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6 Les paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7 Les moments et les paramètres de dissymétrie et d’aplatissement . . . 94
3.8 Le calcul de la moyenne, de la variance et des moments d’ordre
3 et 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.9 Quelques informations relatives à l’exécution des calculs . . . . . . . . . . . 101
3.10 Les nombres-indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Chapitre 4
La statistique descriptive à deux dimensions . . . . . . . . . . . . 115
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.4 La réduction des données : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.5 Les moments et la covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 Le coefficient de corrélation et le coefficient de détermination . . . . . . 128
4.7 La régression linéaire au sens des moindres carrés . . . . . . . . . . . . . . . . . . 136
4.8 La régression linéaire au sens des moindres rectangles . . . . . . . . . . . . . . 150
4.9 Le calcul de la covariance et des paramètres dérivés . . . . . . . . . . . . . . . 155
4.10 La régression curvilinéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.11 Quelques notions de statistique descriptive à plusieurs dimensions . 169
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Troisième partie
LA PROBABILITÉ MATHÉMATIQUE
ET LES DISTRIBUTIONS THÉORIQUES
Chapitre 5
La probabilité mathématique et les distributions
théoriques : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.2 La notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.3 Quelques propriétés de la probabilité mathématique . . . . . . . . . . . . . . . 183
5.4 La probabilité conditionnelle et l’indépendance stochastique . . . . . . . 188
5.5 Les notions de variable aléatoire et de distribution théorique . . . . . . . 194
TABLE DES MATIÈRES 9
5.6 Quelques propriétés des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 206

5.7 L’espérance mathématique et ses propriétés . . . . . . . . . . . . . . . . . . . . . . . 215
5.8 Les paramètres des distributions théoriques à une dimension . . . . . . . 220
5.9 Les fonctions génératrices et la fonction caractéristique . . . . . . . . . . . . 235
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Chapitre 6
Les principales distributions théoriques
à une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
6.2 Les distributions binomiales et polynomiales . . . . . . . . . . . . . . . . . . . . . . . 244
6.3 Les distributions hypergéométriques et hypergéométriques
généralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
6.4 Les distributions de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
6.5 Quelques autres distributions discontinues . . . . . . . . . . . . . . . . . . . . . . . . . 261
6.6 Les distributions normales et log-normales . . . . . . . . . . . . . . . . . . . . . . . . . 267
6.7 Les distributions t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
6.8 Les distributions 2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
6.9 Les distributions F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.10 Schéma récapitulatif et notions complémentaires . . . . . . . . . . . . . . . . . . . 300
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Chapitre 7
Les distributions théoriques à deux dimensions . . . . . . . . . 311
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
7.2 Quelques définitions et quelques propriétés relatives aux distribu-
tions théoriques à deux dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
7.3 Les paramètres des distributions théoriques à deux dimensions . . . . . 318
7.4 Les distributions normales à deux dimensions . . . . . . . . . . . . . . . . . . . . . . 330
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
Quatrième partie
LES PRINCIPES DE L’INFÉRENCE STATISTIQUE
Chapitre 8
Les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . 345
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
8.2 L’échantillonnage : quelques notions complémentaires . . . . . . . . . . . . . . 346
10 TABLE DES MATIÈRES
8.3 Quelques distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

8.4 Principes généraux relatifs aux distributions d’échantillonnage . . . . . 370
8.5 Deux théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Chapitre 9
Les problèmes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
9.2 L’estimation de la moyenne et de la variance . . . . . . . . . . . . . . . . . . . . . . 386
9.3 Principes généraux de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
9.4 Les intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
Chapitre 10
Les tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
10.2 Les di↵érents buts poursuivis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
10.3 Les principes et la réalisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
10.4 La fonction de puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
ANNEXES
Solutions des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461

Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
Index bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
Index des traductions anglaises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
Index des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
Index des symboles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
Mode d’emploi
Les deux tomes de Statistique théorique et appliquée sont conçus de manière à

pouvoir être utilisés à la fois comme manuels, selon di↵érents plans de lecture ou
niveaux d’étude, et comme ouvrages de référence.
À court terme, cette solution hybride ne facilite évidemment pas la tâche du
jeune chercheur ou de l’étudiant qui souhaiterait disposer d’un texte le plus simple
possible. À plus long terme toutefois, cette formule permet d’éviter un obstacle
généralement difficile à surmonter, à savoir : passer d’un manuel auquel on s’est
progressivement habitué à un ouvrage de référence, souvent fort di↵érent par sa
présentation, son vocabulaire et ses notations.
Utilisation comme manuel

En vue de l’utilisation de ce tome 1 comme manuel, trois niveaux d’étude sont
définis à l’aide des symboles , , d et b .
Le premier niveau, relativement élémentaire, est constitué des seuls paragra-
phes dont le numéro est précédé du signe , à l’exclusion, dans ces paragraphes,
des alinéas et des exemples marqués en marge des symboles d et b . Ce niveau
d’étude couvre environ 170 pages du texte proprement dit (compte non tenu des
pages de titre, des exercices, etc.).
Le deuxième niveau, intermédiaire, correspond à l’ensemble du texte, à l’exclu-
sion des paragraphes dont le numéro est précédé du signe et aussi des alinéas et
des exemples marqués des symboles d et b . Ce niveau ajoute ainsi, par comparaison
avec le premier niveau, près de 100 pages de texte.
Enfin, le troisième niveau, plus avancé, est constitué de l’ensemble du texte.
Il peut éventuellement être étendu à d’autres documents, auxquels nous faisons
allusion ci-dessous.
Le symbole indique donc toujours les paragraphes les plus importants (ou les
plus faciles), l’absence de symbole particulier caractérise les paragraphes d’impor-
tance (ou de difficulté) intermédiaire, tandis que les symboles , d et b signalent
les matières les moins importantes (ou les plus délicates).
12 MODE D’EMPLOI
Pour la facilité du lecteur, le symbole apparaı̂t aussi dans les sommaires des
di↵érents chapitres, en regard des paragraphes qui doivent être pris en considéra-
tion entièrement ou partiellement au premier niveau.
Toujours comme manuel, ce tome 1 comprend de nombreux exemples, qui illus-
trent les notions théoriques, des listes de mots-clés, présentées à la fin des différents
chapitres, et des exercices, dont les énoncés figurent également à la fin des cha-
pitres et dont les solutions sont données immédiatement après l’ensemble du texte
(page 461). L’emploi des symboles , , d et b s’applique comme ci-dessus à ces
exercices.
Pour permettre au lecteur de traiter aisément les exemples et les exercices,
leurs données numériques éventuelles sont disponibles sur internet à l’adresse
<www.dagnelie.be/stdonn.html>.
Enfin, les dernières pages de ce volume sont consacrées à un index des princi-
paux symboles utilisés (page 515).
Utilisation comme ouvrage de référence
d Comme ouvrage de référence, ce tome 1 de Statistique théorique et appliquée

peut tout naturellement être abordé par l’intermédiaire de son index des matières
(page 503). Les renvois aux di↵érents éléments du texte y sont indiqués par les
numéros des paragraphes et des exemples concernés, ce qui permet une localisation
souvent plus précise que les numéros des pages.
Toujours comme document de référence, l’emploi de cet ouvrage peut être com-
plété par le recours à d’autres travaux, notamment parmi ceux qui sont cités dans
l’index bibliographique (page 479). Cet index, qui comporte plus de 350 mentions,
comprend à la fois des références tout à fait générales présentées au paragraphe
1.4.1, des références plus particulières citées au début des di↵érents chapitres,
et des références ponctuelles figurant dans le texte, le plus souvent à la fin des
di↵érents paragraphes, immédiatement avant les exemples. Diverses indications
relatives à la documentation disponible sur internet sont également données au
paragraphe 1.4.2.
Très souvent, le lecteur aura intérêt à consulter autant que possible les ouvrages
de base mentionnés au paragraphe 1.4.1 et au début des di↵érents chapitres, voire
même certains autres documents, avant de rechercher les travaux particuliers in-
diqués dans le texte.
Enfin, la consultation de la littérature de langue anglaise, qui est de loin la
plus abondante dans le domaine statistique, est facilitée par la présentation dans
le texte des traductions des principaux termes employés et par l’utilisation de
b l’index des traductions anglaises (page 495).
MODE D’EMPLOI 13
Notations
En ce qui concerne les notations, nous respectons autant que possible les re-
commandations de Halperin et al. [1965]. Les lettres minuscules, notamment,
désignent le plus souvent des valeurs observées ou des fonctions non cumulatives
de probabilité (fonctions de densité de probabilité), tandis que les lettres majus-
cules désignent des variables aléatoires ou des fonctions cumulatives de probabilité
(fonctions de répartition). De même, les lettres grecques sont utilisées en général
pour représenter les paramètres des populations.
Quant aux caractères gras, ils sont employés occasionnellement pour désigner
soit des vecteurs, à l’aide de lettres minuscules, soit des matrices, à l’aide de lettres
majuscules.
Exécution des calculs, logiciels et tables
L’étude de ce tome 1 ne nécessite le plus souvent que des calculs numériques

relativement élémentaires, qui peuvent être réalisés à l’aide d’une simple calculette,
sans aucun recours à l’une ou l’autre procédure de traitement automatique des
données. L’emploi de moyens de calcul plus importants peut néanmoins s’avérer
utile dans certains cas.
d On peut penser notamment à certains logiciels spécifiquement statistiques, tels
que Minitab (<www.minitab.com>) ou SAS (<www.sas.com>), et aussi le logiciel
libre R (<www.r-project.org>) 1 [Cornillon et al., 2008 ; Lafaye de Micheaux
et al., 2011].
Une autre possibilité consiste en l’utilisation de l’un ou l’autre tableur, tel
qu’Excel (<www.microsoft.com>) [Georgin et Gouet, 2005 ; Morineau et
Chatelin, 2005 ; Vidal, 2004], éventuellement accompagné par exemple de Stat-
Box (<www.grimmersoft.com>), UniStat (<unistat.com>), ou XLStat (<www.
xlstat.com>). On notera toutefois que la qualité de certains des résultats fournis
par les outils statistiques d’Excel est fréquemment mise en cause [Keeling et
b Pavur, 2011 ; McCullough et Heiser, 2008 ; Yalta, 2008].
Nous donnons aussi quelques tables numériques en fin de volume (page 473),
tout en sachant parfaitement bien que la consultation de tels documents peut en
général être remplacée par l’utilisation d’algorithmes et de logiciels particuliers.
D’autres tables figurent également à la fin du tome 2 de cette série.
1 Les adresses web qui figurent dans le texte et dans l’index bibliographique ont été contrôlées
en août 2012.
Première partie
Introduction générale
et collecte des données
Chapitre 1 Introduction générale

Chapitre 2 La collecte des données
Chapitre 1
Introduction générale
Sommaire 1
1.1 Définition
1.2 Historique
1.3 Cadre général
1.4 Documentation complémentaire
Principaux mots-clés
1 Nous rappelons que, dans les sommaires des di↵érents chapitres, le signe indique les
paragraphes qui sont entièrement ou partiellement de première importance, au sens du (( mode
d’emploi )) qui suit la table des matières. Ainsi, les signes qui apparaissent en marge dans la
suite de ce chapitre montrent que le paragraphe 1.1 doit être entièrement pris en considération
au premier niveau d’étude, que seuls les paragraphes 1.2.3 et 1.2.4 doivent être considérés à ce
stade, et que le paragraphe 1.3 doit aussi être entièrement pris en considération, le paragraphe 1.4
pouvant être négligé (les alinéas marqués par les symboles d et b devant toujours être négligés
au cours d’une première lecture).
18 INTRODUCTION GÉNÉRALE 1.2.1
1.1 Définition
Dérivé du substantif latin status (État), le mot statistique possède, en français
comme dans d’autres langues, plusieurs significations distinctes.
D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne tout
ensemble cohérent de données, généralement numériques, relatives à un groupe
d’individus ou d’objets. On parle par exemple de la ou des statistiques de la
production agricole ou industrielle (quantités produites, prix de vente, coûts de
production, etc.), des statistiques démographiques (natalité, mortalité, etc.), des
statistiques du chômage, des statistiques des accidents de la circulation routière,
etc. Il convient toutefois de remarquer que, contrairement à une opinion commu-
nément admise, cette acception du terme statistique ne concerne pas seulement
des volumes importants de données.
D’autre part, le mot statistique désigne l’ensemble des méthodes qui permettent
de recueillir et d’analyser les données dont il vient d’être question. C’est à cette
signification que nous nous référons dans le présent ouvrage.
Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autre
paramètre, tel qu’une moyenne, calculé à partir d’un ensemble de données 2 .
Dans la première définition que nous avons présentée, le qualificatif (( numé-
riques )) doit être considéré dans un sens très large. Il peut en e↵et concerner
aussi bien des données quantitatives (résultats de comptages ou de mesures), que
des données qualitatives (couleurs, appréciations gustatives, etc.), voire même des
textes, codés sous forme numérique en vue d’un traitement informatique.
Informations complémentaires : Bartholomew [1995], Dodge [2004], Dumas [1955],
Willcox [1935].
1.2 Historique
1.2.1 Les origines de la statistique
1 Bien que des dénombrements de populations humaines et de terres aient été
réalisés depuis la plus haute antiquité, notamment pour les besoins de la guerre
et de l’impôt, la statistique n’est pas une discipline fort ancienne. C’est en e↵et
au cours du dix-huitième siècle seulement que l’emploi du terme statistique s’est
imposé en Allemagne, dans le sens alors limité de connaissance d’un État, à la
suite des travaux de Gottfried Achenwall (1719-1772).
Parallèlement à cette tendance, dite aussi d’arithmétique politique, s’est dé-
veloppé, en France tout d’abord, le calcul des probabilités, dont l’objectif était
au départ la résolution de problèmes relatifs aux jeux de hasard. Les noms de
2 Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de données
et pour l’ensemble des méthodes, et d’autre part statistic, pour des paramètres.
1.2.2 HISTORIQUE 19
Blaise Pascal (1623-1662), Abraham de Moivre (1667-1754), Daniel Bernoulli

(1700-1782), Pierre Simon de Laplace (1749-1827), Carl Friedrich Gauss (1777-
1855), et Siméon Denis Poisson (1781-1840) peuvent être associés à cette deuxiè-
me tendance.
2 La statistique mathématique moderne peut être considérée comme née, au

dix-neuvième siècle, de la conjonction de ces deux orientations : arithmétique po-
litique d’une part et calcul des probabilités de l’autre. Un des principaux artisans
de cette union est incontestablement le mathématicien et physicien belge Lambert
Adolphe Quetelet (1796-1874). Il est notamment l’auteur de nombreux livres et
mémoires, le fondateur de plusieurs sociétés et organismes nationaux et internatio-
naux, l’initiateur des recensements décennaux de la population, et l’organisateur
du premier Congrès international de Statistique, qui s’est tenu à Bruxelles en 1853.
Parmi les statisticiens de cette époque, on peut citer également, en Grande-
Bretagne, Charles Babbage (1792-1871), à qui on doit entre autres choses une
première machine à calculer automatique et la fondation en 1834 de la première
société de statistique, la Statistical Society of London, ainsi que Francis Gal-
ton (1822-1911), auteur de travaux de base relatifs notamment aux notions de
corrélation et de régression.
Informations complémentaires : Droesbeke et Tassi [1997], Kendall [1972], Lewin
[2010], Stigler [1986], Westergaard [1932].
1.2.2 La première moitié du vingtième siècle

1 La première moitié du vingtième siècle est essentiellement marquée, dans le
domaine statistique, par le développement de méthodes de plus en plus nombreuses
et par l’utilisation de ces méthodes dans des secteurs d’application de plus en plus
diversifiés.
Sans essayer d’être exhaustif, nous voudrions citer ici quelques tendances qui
nous paraissent prépondérantes, en en donnant une certaine chronologie.
2 Après les premières applications aux sciences politiques et sociales, réalisées

durant le dix-neuvième siècle, les années 1900 voient l’introduction de la statis-
tique dans les sciences biologiques et psychologiques, donnant naissance respecti-
vement à la biométrie 3 et la psychométrie 4 . Les noms de Karl Pearson (1857-
1936), Charles Edward Spearman (1863-1945), George Udny Yule (1871-1951),
et William Sealy Gosset (1876-1937), qui publia ses travaux sous le pseudonyme
de Student, peuvent être associés à ces deux tendances 5 .
3 En anglais : biometry, biometrics.
4 En anglais : psychometry, psychometrics.
5 Durant tout le vingtième siècle, le mot (( biométrie )) a été utilisé presque exclusivement pour
désigner l’utilisation des méthodes statistiques et mathématiques dans le domaine de la biologie,

au sens large. Plus récemment, la signification du mot (( biométrie )) a été étendue aux méthodes
d’identification des personnes en fonction de caractères biologiques, tels que les empreintes digi-
tales, les traits du visage, les caractéristiques de l’iris ou de la rétine, etc.
Les années 1920 sont ensuite dominées par la forte personnalité du statisti-
cien britannique Ronald Aylmer Fisher (1890-1962), auquel on doit notamment
le développement des plans d’expérience 6 et l’analyse de la variance et de la co-
variance 7 , qui occupent une place prépondérante dans le domaine agronomique
d’abord, et dans de nombreux autres secteurs ensuite.
Les années 1930 sont marquées par de nouvelles applications de la statistique
en économie, donnant naissance à l’économétrie 8 , et par l’utilisation de l’outil
statistique dans le domaine industriel, en matière de maı̂trise ou de contrôle de la
qualité 9 des produits manufacturés.
Enfin, à partir de 1940, la statistique intervient de façon de plus en plus fré-
quente dans certains problèmes de gestion, en relation avec le développement de
la recherche opérationnelle 10 .
Informations complémentaires : Droesbeke et Tassi [1997], Kendall [1972].
1.2.3 La deuxième moitié du vingtième siècle

1 Durant la deuxième moitié du vingtième siècle, l’histoire de la statistique
est étroitement liée au développement de l’informatique.
C’est en e↵et vers 1955 que les premiers ordinateurs sont commercialisés et
introduits dans les services administratifs et universitaires de statistique. Très
rapidement, ces nouveaux outils y prennent une place considérable, non seulement
sur le plan pratique, en ce qui concerne l’emploi des méthodes statistiques, mais
aussi sur le plan théorique, en matière de recherche dans le domaine statistique.
2 Schématiquement, on peut considérer que l’ordinateur a presque toujours été

utilisé, dans un premier temps, pour e↵ectuer plus rapidement ou plus facilement
que par le passé les travaux qui étaient réalisés antérieurement à l’aide de machines
à calculer de bureau. Dans un deuxième stade, l’ordinateur a permis l’emploi de
méthodes statistiques déjà anciennes, qui n’avaient pas été utilisées en pratique ou
qui étaient restées sous-employées, en raison précisément de l’importance des cal-
culs qu’elles nécessitaient. Puis, le développement de l’informatique a provoqué la
naissance de nouvelles méthodes statistiques et de nouvelles procédures de calcul.
Parallèlement, l’ordinateur a aussi largement influencé l’enseignement de la sta-
tistique, notamment par les facilités qu’il o↵re en matière de résolution d’exercices.
Le mouvement ainsi observé d’une manière générale depuis 1955 s’est considé-
rablement accéléré à partir de 1975 environ, du fait de l’introduction des micro-
ordinateurs ou ordinateurs personnels, de l’augmentation très rapide de leurs per-
formances, et de la mise sur le marché de logiciels de plus en plus conviviaux.
6
En anglais : experimental design.
7
En anglais : analysis of variance, analysis of covariance.
8 En anglais : econometry, econometrics.
9 En anglais : quality control.
10 En anglais : operational research, operations research.
1.2.3 HISTORIQUE 21
3 L’analyse multidimensionnelle ou analyse statistique à plusieurs variables 11 ,

c’est-à-dire l’étude simultanée de plus de deux caractéristiques des di↵érents indi-
vidus considérés, constitue un exemple typique de méthodes très largement anté-
rieures à la venue de l’ordinateur, mais ayant connu une expansion considérable à
partir des années 1960, du fait des nouveaux moyens de calcul disponibles.
Les méthodes du (( jackknife )) et du (( bootstrap )) ou, d’une manière plus géné-
rale, de rééchantillonnage 12 se sont par contre entièrement développées en raison
même de l’existence de l’ordinateur. Ces méthodes sont d’ailleurs parfois qualifiées
de méthodes faisant un usage intensif de l’ordinateur 13 .
On peut citer aussi les multiples possibilités o↵ertes en matière de conception de
graphiques, la tendance française de l’analyse des données, comparable à l’analyse
multidimensionnelle, les méthodes de simulation 14 , les méthodes dites robustes 15 ,
les méthodes bayesiennes ou néo-bayesiennes 16 , la modélisation 17 , et l’utilisation
de divers modèles statistiques nouveaux, tels que le modèle linéaire ou linéaire
général 18 , le modèle linéaire mixte 19 et le modèle linéaire généralisé 20 .
4 Parallèlement à ce développement important des méthodes statistiques, on

a assisté, au cours de la deuxième moitié du vingtième siècle, à une très large
expansion du champ d’application de ces méthodes.
Le secteur de la recherche pharmaceutique ou médicale est progressivement
devenu un des plus grands utilisateurs des méthodes statistiques, donnant nais-
sance à ce qui est souvent appelé biostatistique 21 . Mais à ce secteur et à ceux que
nous avons déjà mentionnés au paragraphe 1.2.2 (agronomie, biologie, économie,
psychologie et contrôle de la qualité), on peut ajouter la physique et les sciences de
l’ingénieur, la météorologie et la climatologie, la géologie et la géographie, l’écologie
et l’environnement, la chimie, la génétique et la biologie moléculaire, la sociologie,
les sciences de l’éducation, et aussi les assurances, l’archéologie, la linguistique, le
droit, etc.
Informations complémentaires : en ce qui concerne l’influence de l’informatique sur la

statistique, Jeffers [1995], Murphy [1985], Nelder [1984], Victor [1984a, 1984b] ; en
ce qui concerne l’évolution de la statistique, Armitage et David [1996], Good [1990],
Heyde [1981].
11 En anglais : multivariate analysis.

12 En anglais : resampling.
13 En anglais : computer-intensive method.
14 En anglais : simulation.
15 En anglais : robust method.
16 En anglais : Bayesian method, neo-Bayesian method.
17 En anglais : modelling.
18 En anglais : linear model, general linear model.
19 En anglais : linear mixed model.
20 En anglais : generalized linear model.
21 En anglais : biostatistics.
1.2.4 Quelques tendances récentes et perspectives
1 L’informatique, qui a été un des principaux moteurs du développement de

la statistique durant la deuxième moitié du vingtième siècle, semble devoir garder
cette fonction pendant de nombreuses années encore. L’importance de l’ordina-
teur s’est d’ailleurs progressivement accentuée au fil du temps, la simple évolution
initiale des capacités de mémoire et de vitesse de traitement de l’information se
doublant de possibilités d’acquisition automatique de données et de liaison entre
ordinateurs, sous forme de réseaux.
Une conséquence de cette évolution est la constitution et la nécessité de traiter
de grandes bases de données 22 , dont l’interconnexion permet de former de vastes
ensembles parfois qualifiés d’entrepôts de données 23 . Ces bases et ces entrepôts de
données sont souvent caractérisés, non seulement par leur volume, mais également
par des structures relativement complexes et par le caractère très incomplet des
données enregistrées.
2 Quelques tendances récentes, qui se sont développées aux frontières de la
statistique traditionnelle et qui sont aussi des perspectives d’avenir, peuvent être
pointées dans ce contexte.
La fouille ou l’extraction des données 24 , par exemple, a pour but d’identifier
autant que possible certaines informations particulières au sein de vastes ensembles
de données. De même, la méthode des réseaux de neurones ou réseaux de neurones
artificiels 25 a pour objet d’établir ou de modéliser des relations complexes liant
de nombreuses variables.
Dans le domaine biologique, on peut citer également l’étude du génome ou
génomique 26 , ou encore bioinformatique 27 , dans un sens plus large pouvant inclure
en outre l’étude des structures moléculaires.
Enfin, un autre exemple d’évolution récente est donné par la tendance dite (( six
sigma )), dont l’objectif est une gestion optimale de la qualité, par la recherche et
l’élimination des défauts, dans des entreprises de toute nature.
Informations complémentaires : d’une manière générale, Hand [2009], Lindsay et al.

[2004], Raftery et al. [2002] 28 ; d’une façon plus spécifique, Besse et al. [2001], Mont-
gomery et Woodall [2008], Sebastiani et al. [2003].
22 En anglais : database.
23 En anglais : datawarehouse.
24 En anglais : data mining.
25 En anglais : neural network, artificial neural network.
26 En anglais : genomics.
27 En anglais : bioinformatics.
28 Cet ouvrage (Statistics in the 21st century) réunit un ensemble de courtes notes qui ont été
publiées dans les quatre fascicules du Journal of the American Statistical Association de l’année
2000.
1.3.2 CADRE GÉNÉRAL 23
1.3 Cadre général
1.3.1 Les di↵érentes étapes de toute étude statistique
1 Toute étude statistique peut être décomposée en deux phases au moins :

le rassemblement ou la collecte des données d’une part, et leur analyse ou leur
interprétation d’autre part.
La collecte des données peut être réalisée soit par la simple observation des
phénomènes auxquels on s’intéresse, tels qu’ils se produisent naturellement, soit
par l’expérimentation, c’est-à-dire en provoquant volontairement l’apparition de
certains phénomènes contrôlés.
Quant à l’analyse statistique, elle peut elle-même être décomposée en deux
étapes, l’une déductive ou descriptive, l’autre inductive.
La statistique descriptive a pour but de résumer et de présenter les données
observées d’une manière telle qu’on puisse en prendre connaissance aisément, par
exemple sous la forme de tableaux ou de graphiques.
L’inférence statistique permet d’étendre ou de généraliser dans certaines condi-
tions les conclusions ainsi obtenues. Très souvent en e↵et, l’observation ou l’ex-
périmentation ne concerne qu’une fraction des individus auxquels on s’intéresse
réellement. Les conclusions relatives à cette fraction, appelée échantillon, doivent
alors être étendues autant que possible à l’ensemble des individus, formant la po-
pulation. Cette phase inductive comporte évidemment certains risques d’erreur,
qui peuvent être mesurés en faisant appel à la théorie des probabilités.
2 Ces di↵érentes étapes de toute étude statistique ne sont cependant pas in-
dépendantes les unes des autres. Les méthodes de l’inférence statistique ne sont
applicables en e↵et que dans des conditions particulières, parfois fort restrictives.
Il en résulte notamment que l’observation et l’expérimentation doivent être orga-
nisées de manière à répondre autant que possible à ces conditions.
1.3.2 Plan du tome 1
Au-delà de la présente introduction générale, la première partie de ce tome 1

est consacrée à l’exposé, en termes très simples, de notions de base relatives à la
collecte des données (chapitre 2).
Une deuxième partie traite ensuite de la statistique descriptive, tant à une
dimension (chapitre 3) qu’à deux dimensions (chapitre 4).
Après quoi, une troisième partie réunit diverses notions relatives au calcul des
probabilités et aux distributions théoriques, d’une part de façon générale (chapi-
tre 5), et d’autre part en ce qui concerne plus particulièrement les distributions
à une dimension (chapitre 6) et à deux dimensions (chapitre 7). La connaissance
préalable de notions de statistique descriptive permet, à ce stade, une présentation

aussi intuitive que possible des fondements théoriques de la statistique.
Enfin, une quatrième partie est consacrée aux principes de base de l’inférence
statistique : distributions d’échantillonnage (chapitre 8), problèmes d’estimation
(chapitre 9) et tests d’hypothèses (chapitre 10).
Comme nous l’avons déjà signalé, cet ensemble de chapitres est suivi, sous
forme d’annexes, des solutions des exercices, d’un recueil de tables et d’une série
d’index.
1.4 Documentation complémentaire

1.4.1 Livres et revues
1 Avant d’entrer dans le vif du sujet, nous voudrions donner quelques indi-
cations relatives au choix éventuel d’autres ouvrages à consulter et aux diverses
sources d’informations auxquelles on peut avantageusement avoir recours dans le
domaine statistique.
Les livres relatifs à la statistique et à ses applications sont extrêmement nom-
breux, tout particulièrement en langue anglaise, ce qui rend souvent difficile le
choix éventuel de l’un ou l’autre d’entre eux. Le cas échéant, un tel choix doit être
basé notamment sur l’objectif poursuivi (étude de la théorie et/ou des applications
à telle ou telle discipline), et aussi sur le niveau mathématique souhaité.
Nous ne mentionnons ici que les principaux dictionnaires et encyclopédies, ainsi
que quelques livres généraux rédigés en français, à savoir :
les dictionnaires explicatifs et encyclopédiques de Dodge [2004] (Statistique : dic-
tionnaire encyclopédique), d’Everitt et Skrondal [2010] (The Cambridge
dictionary of statistics), de Rasch et al. [1994] (Elsevier’s dictionary of bio-
metry in English, French, Spanish, Dutch, German, Italian and Russian), et
d’Upton et Cook [2008] (A dictionary of statistics) ;
les encyclopédies en plusieurs volumes d’Armitage et Colton [2005] (Ency-
clopedia of biostatistics) et de Kotz et al. [2006] (Encyclopedia of statistical
sciences) 29 ;
les livres de Dehon et al. [2008] (Éléments de statistique), de Saporta [2006]
(Probabilités, analyse des données et statistique), et de Tassi [2004] (Méthodes
statistiques).
2 Des recueils de tables peuvent aussi être utiles. Les plus courants sont ceux
de Fisher et Yates [1982] (Statistical tables for biological, agricultural and med-
ical research), et de Pearson et Hartley [1966-1972] (Biometrika tables for
statisticians).
29 Ou les documents antérieurs de Kotz et al., à savoir : Kotz et Johnson [1982-1988, 1989],
et Kotz et al. [1997-1999].

1.4.2 DOCUMENTATION BIBLIOGRAPHIQUE 25
D’autres recueils sont dus notamment à Hald [1952], Lindley et Scott

[1995], Owen [1962], Zwillinger [2003], et Zwillinger et Kokoska [1999].
3 Quant aux revues, et dans l’optique de ces deux tomes de Statistique théo-
rique et appliquée, on peut citer en priorité les titres The American Statistician,
Biometrical Journal, Computational Statistics and Data Analysis, Journal of Ap-
plied Statistics, et Journal of Statistical Planning and Inference.
Peuvent éventuellement être ajoutés : Biometrics, Communications in Statis-
tics Theory and Methods, Journal de la Société Française de Statistique, Statistical
Science, et Statistics in Medicine, voire encore bien d’autres.
4 On remarquera ainsi, de façon flagrante, que la littérature de langue anglaise

est largement prépondérante dans le domaine statistique. Mais la présentation
dans tout le texte des traductions des principaux termes utilisés et l’index des
traductions anglaises qui figure en fin de volume devraient faciliter la consultation
des divers documents.
Informations complémentaires : Murphy [1997], Theoharakis et Skordia [2003].
1.4.2 Documentation par internet

1 Le réseau internet o↵re également de très larges possibilités en matière de
documentation. Les quelques indications que nous donnons ici sont toutes relatives
uniquement à des sites ou des documents qui peuvent être consultés ou obtenus
gratuitement.
On notera cependant que les informations qui concernent les di↵érents sites
web sont fournies à titre purement indicatif, ces informations pouvant en e↵et
devenir caduques à tout moment, et d’autres sites tout aussi intéressants pouvant
également être développés à tout moment.
2 En ce qui concerne les revues, les tables des matières et les résumés des
articles de la plupart d’entre elles sont intégralement disponibles sur internet. Les
adresses des sites web de plusieurs dizaines de revues, essentiellement consacrées
à la statistique, sont données notamment par <www.stata.com/links/journals4.
html>.
En outre, pour certaines revues, les textes complets des articles sont également
accessibles. Tel est le cas, entre autres, pour les titres suivants : Electronic Journal
of Statistics (<imstat.org/ejs>), Journal de la Société Française de Statistique
(<smf4.emath.fr/Publications/JSFdS>), Journal of Statistical Education (<www.
amstat.org/publications/jse>), et Revue Modulad (<www.modulad.fr>).
3 D’autre part, de nombreux portails donnent accès à des informations très

diversifiées (cours, lexiques, logiciels, etc). Tel est la cas, par exemple, pour SMEL
(<mistis.inrialpes.fr/software/SMEL/index.html>), StatSci (<www.statsci.org>)
et SurfStat (<surfstat.anu.edu.au/surfstat-home/surfstat-main.html>).
26 INTRODUCTION GÉNÉRALE
Mais on pourrait citer en outre <www.agro-montpellier.fr/cnam-lr/statnet>,

<www.sfds.asso.fr/190-Polys denseignement>, <www.statsoft.com/textbook>,
<www.stata.com/links>, etc.
4 Enfin, et d’une manière tout à fait générale, des recherches peuvent être
e↵ectuées à l’aide des moteurs de recherche classiques, tels que Google (<www.
google.com>), Yahoo (<search.yahoo.com>), etc., et plus particulièrement les ver-
sions Books et Scholar de Google, respectivement pour les livres et pour les articles
de revues (<books.google.com/advanced book search> et <scholar.google.com/
advanced scholar search>).
On sera cependant toujours très circonspect lors de la consultation de sites
particuliers dont les auteurs ne seraient pas bien connus ou bien identifiés.
5 Nous tenons à souligner le fait que la bibliographie classique et la documen-

tation par internet doivent être considérées comme complémentaires, et non pas
comme exclusives l’une de l’autre.
D’une part, les références qui sont citées dans l’index bibliographique du présent
ouvrage ou éventuellement dans d’autres documents peuvent servir de point de
départ pour des recherches sur internet, notamment à l’aide de la version Scholar
de Google. Et d’autre part, comme nous l’avons signalé, le réseau internet permet
d’avoir largement accès aux revues imprimées traditionnelles.
Informations complémentaires : Bringé et Le Guen [2002], Larreamendy-Joers et al.

[2005], Shackman [2010].
Statistique, statistiques.
Collecte des données, observation, expérimentation.
Analyse statistique, statistique descriptive, inférence statistique.
Chapitre 2
La collecte des données
Sommaire
2.1 Introduction
2.2 L’étude par enquête
2.3 L’expérimentation
2.4 La nature, l’enregistrement et le traitement des données
28 COLLECTE DES DONNÉES 2.2.1
2.1 Introduction
1 Comme nous l’avons signalé antérieurement (§ 1.3.2), nous consacrons ce
chapitre 2 à la présentation, en termes très simples, de notions de base relatives
à la collecte des données, c’est-à-dire à ce qui constitue normalement la première
phase de toute étude statistique.
Nous envisagerons successivement les questions qui concernent les études par
enquête (§ 2.2), les problèmes d’expérimentation (§ 2.3), et les questions relatives à
la nature, à l’enregistrement et au traitement des données (§ 2.4). Nous reviendrons
ultérieurement de façon plus détaillée sur certains de ces sujets, lorsque nous aurons
présenté diverses notions de calcul des probabilités et de statistique théorique.
2 L’étude par enquête et l’expérimentation doivent normalement être organi-

sées, l’une et l’autre, dans des conditions telles que de nombreux éléments (choix
des unités ou des individus observés, a↵ectation aux di↵érentes unités expérimen-
tales des di↵érents traitements qui sont comparés, etc.) soient parfaitement maı̂-
trisés. Dans certains cas, et notamment dans certaines enquêtes rétrospectives, les
circonstances ne permettent pas de maı̂triser de tels éléments. L’étude est alors
basée sur une simple accumulation d’observations, sans qu’une structure ou un
ordre précis puisse être préétabli.
On parle dans ce cas d’étude par observation 1 . Nous ne traitons pas ce sujet
dans le présent ouvrage.
Informations complémentaires : en ce qui concerne l’observation par enquête, Ardilly

[2006], Barnett [2002], Dussaix et Grosbras [1993], Thompson [2002], Tillé [2001] ;
en ce qui concerne l’expérimentation, Dagnelie [2012], Fleiss [1999], Goupy et Creigh-
ton [2006], Kuehl [2000], Montgomery [2005] ; en ce qui concerne l’étude par obser-
vation : Kish [2004], Rosenbaum [2002, 2010], Smith et Sugden [1988].
2.2 L’étude par enquête

2.2.1 Principes généraux
1 Dans le domaine statistique, on appelle enquête ou, parfois, inventaire 2
l’ensemble des opérations qui ont pour but de collecter de façon organisée des
informations relatives à un groupe d’individus ou d’éléments, observés dans leur
milieu ou dans leur cadre habituel.
Les individus ou les éléments en question, également appelés unités de base ou
unités statistiques 3 , peuvent être aussi bien des personnes humaines que des ani-
1 En anglais : observational study, uncontrolled observational study.
2 En anglais : survey.
3 En anglais : unit.
2.2.2 ÉTUDE PAR ENQUÊTE 29
maux, des plantes, des groupes de personnes (familles, ménages, etc.), des groupes
d’animaux, des groupes de plantes, ou des éléments de toute autre nature (entre-
prises industrielles ou commerciales, exploitations agricoles, machines d’un type
donné, etc.). L’ensemble des unités auxquelles on s’intéresse est appelé population
ou univers ou ensemble statistique 4 .
2 Quand toutes les unités de la population considérée sont e↵ectivement ob-

servées individuellement, l’enquête est dite complète ou exhaustive. Elle est alors
appelée aussi recensement 5 .
Quand au contraire, pour réduire l’importance du travail de collecte des don-
nées, une partie seulement des individus ou des éléments de la population sont
réellement observés, l’enquête est dite partielle ou par échantillonnage. Elle est
également appelée parfois sondage 6 .
La partie de la population qui est réellement observée constitue l’échantillon 7 ,
et l’opération de choix de cette fraction de la population est précisément l’opération
d’échantillonnage ou de sondage 8 . En outre, lorsqu’il est question d’échantillon-
nage, la population de départ est souvent qualifiée aussi de population-parent.
3 Les principaux problèmes qui se posent dans la préparation ou la planifi-

cation 9 de toute enquête, complète ou partielle, sont la définition de l’unité de
base et de la population, la définition des observations à réaliser, et le choix d’une
méthode de collecte des données.
Dans le cas des enquêtes partielles, à ces di↵érentes questions, s’ajoutent quel-
ques problèmes supplémentaires, tels le choix d’une méthode d’échantillonnage et
la détermination de la taille de l’échantillon.
2.2.2 La définition de l’unité de base et de la population

1 La définition de l’unité de base et de la population, qui constitue ce qu’on
appelle aussi la délimitation de l’enquête, est en réalité un problème beaucoup plus
complexe qu’il n’y paraı̂t à première vue. Nous illustrons ce fait par deux exemples,
choisis parmi les plus simples, et à propos de ces exemples, par diverses questions.
2 Le premier exemple concerne la réalisation d’un recensement de population

humaine, normalement basé sur l’étude individuelle de chacun des groupes de
personnes qui vivent en commun, dans un même logement ou (( sous un même
toit )).
4 En anglais : population.
5 En anglais : census.
6 En anglais : sample survey.
7 En anglais : sample.
8 En anglais : sampling.
9 En anglais : planning.
Faut-il, dans ce cas, partir de la notion de famille ou de la notion de ménage ?

Et comment définir exactement ces deux notions ? Qu’est-ce que vivre en commun
ou (( sous un même toit )), et qu’est-ce qu’un logement ? Comment faut-il considérer
les communautés, militaires ou religieuses notamment ?
Si le recensement s’étend à un certain territoire administratif, tel qu’un pays,
comment faut-il traiter le cas des personnes qui, venues de l’extérieur, se trouvent
dans le territoire considéré au moment de l’enquête, pour une période plus ou
moins longue (travailleurs immigrés, agents diplomatiques, membres du personnel
des institutions internationales, familles de ces di↵érentes catégories de personnes,
hommes d’a↵aires, touristes, etc.) ? Inversement, comment faut-il considérer les
personnes qui, issues du territoire étudié, se trouvent pour une période plus ou
moins longue à l’extérieur de celui-ci ?
Et, à l’intérieur du territoire en question, où faut-il comptabiliser (dans quelle
province, dans quelle commune) les personnes qui ne vivent pas constamment au
même endroit (travailleurs saisonniers, étudiants, personnes hospitalisées, occu-
pants de (( logements mobiles )), tels que bateaux et caravanes, etc.) ? Comment
éviter aussi les doubles comptages ou, inversement, les oublis, qui peuvent être liés
notamment aux résidences secondaires (de fin de semaine, d’été ou d’hiver) ?
3 D’autre part, au cours d’un recensement agricole, comment définir de façon

précise la notion même d’exploitation agricole ? En particulier, à partir de quelle
dimension (en superficie ou en nombre de têtes de bétail), faut-il considérer qu’il
s’agit réellement d’une (( exploitation )) ? Comment traiter les jardins, les vergers
et les petits élevages familiaux, les jardins, les vergers et les élevages des com-
munautés (communautés religieuses et pensionnats, par exemple), les terres et les
installations expérimentales des centres de recherche, etc. ?
4 Nous ne souhaitons nullement tenter de répondre ici à ces di↵érentes inter-

rogations, et à toutes les autres questions qui pourraient être soulevées dans ces
deux cas, ou dans d’autres situations semblables. Nous tenons seulement à insister
dès le départ sur l’absolue nécessité de se poser de telles questions et d’y répondre
de façon précise avant toute enquête statistique, et aussi sur la nécessité de donner
des indications détaillées à ce sujet dans tout rapport, mémoire ou publication.
De même, le lecteur de tout rapport, mémoire ou publication doit toujours exa-
miner avec circonspection les résultats dont il serait amené à prendre connaissance,
si des réponses circonstanciées à de telles questions ne sont pas données.
Pour illustrer ce fait, nous ajoutons simplement, à titre d’indication, que sans
aucune anomalie d’aucune sorte, la superficie moyenne des exploitations agricoles
recensées en Belgique était, en 1987, de 14,6 hectares en considérant toutes les
(( exploitations )), quelle que soit leur étendue, et de 17,2 hectares (soit une diffé-
rence de plus de 15 %) en limitant conventionnellement l’observation aux seules
exploitations de 1 hectare au moins (tableau 3.2.3).
2.2.3 La définition des observations et le choix

d’une méthode de collecte des données
1 Les observations à réaliser au cours d’une enquête doivent aussi être parfai-
tement définies dans tous les cas, en fonction notamment du but poursuivi.
S’il s’agit d’observations qualitatives, telles que l’état civil ou la profession dans
un recensement de population ou le type d’exploitation dans un recensement agri-
cole, la signification exacte de tous les termes utilisés doit être précisée de manière
non ambiguë. De même, s’il s’agit d’observations quantitatives, telles que le nombre
de pièces d’habitation d’un logement ou la superficie sous labour d’une exploita-
tion agricole, non seulement les termes utilisés doivent être définis de façon très
précise, mais en outre, le mode de détermination des valeurs numériques (comp-
tage, mesure, estimation visuelle) et les unités de mesure doivent être clairement
spécifiés.
Pour illustrer les problèmes auxquels on peut être confronté dans ces quelques
cas, il suffit de penser, d’une part, en matière de professions, aux difficultés de
comptabilisation des travailleurs à temps partiel, des travailleurs aidant un membre
de leur famille et des personnes travaillant pour plusieurs employeurs, et d’autre
part, en ce qui concerne les nombres de pièces d’habitation, à la façon de compter
par exemple les cuisines, salles de bain, buanderies, offices, débarras, etc.
2 Un autre point important, en matière de définition des observations, est la

fixation de la date à laquelle les observations doivent être faites, s’il est possible
de les réaliser toutes simultanément, ou de la date à laquelle les observations sont
sensées avoir été faites, si la réalisation de l’enquête n’est pas instantanée, ou en-
core la définition de la période couverte par l’enquête, si celle-ci concerne, non pas
un instant donné, mais bien un certain intervalle de temps.
Il ne faut pas confondre par exemple le nombre de foyers de fièvre aphteuse ou
de peste porcine observés à un moment donné, et le nombre de nouveaux foyers
de fièvre aphteuse ou de peste porcine observés au cours d’une période donnée.
3 Quant aux méthodes de collecte des observations, les principales possibilités

classiques sont, d’une part, l’envoi de questionnaires par la poste et leur retour
par la même filière, et d’autre part, l’envoi d’enquêteurs, ainsi que des méthodes
mixtes, telles qu’un envoi de questionnaires préalable au passage d’enquêteurs. On
doit y ajouter les enquêtes, de plus en plus nombreuses, qui sont réalisées sous
différentes formes par téléphone et par internet.
Dans tous les cas, une attention particulière doit être accordée à la formation
éventuelle des enquêteurs, et à la préparation des questionnaires et de tous les
documents de travail, que sont par exemple les instructions écrites données aux
enquêteurs. Pour éviter des déboires au cours de l’enquête proprement dite, on a
d’ailleurs souvent intérêt à mettre sur pied une pré-enquête ou enquête-pilote 10 ,
10 En anglais : pilot survey, exploratory survey.
destinée uniquement à contrôler sur un petit nombre d’unités la qualité des ques-
tionnaires et, le cas échéant, des enquêteurs.
Au moment du dépouillement des résultats de l’enquête, on doit également être
attentif au problème des absences de réponses, aussi appelées non-réponses 11 , qui
peuvent constituer un danger particulièrement grand dans le cas des enquêtes
réalisées par voie postale, par téléphone et par internet.
2.2.4 Quelques méthodes d’échantillonnage

1 Pour les enquêtes par échantillonnage, une première façon de constituer
l’échantillon consiste à choisir une à une, et indépendamment les unes des autres,
chacune des unités qui seront observées, en donnant à toutes les unités de la po-
pulation des chances égales d’être choisies. Un tel échantillonnage est dit aléatoire
et simple ou complètement aléatoire 12 .
Dans de nombreuses situations, la constitution d’échantillons de ce type peut
être réalisée en numérotant de façon continue toutes les unités de la population
et en choisissant (( au hasard )) le nombre voulu de numéros, par l’une ou l’autre
méthode de tirage au sort. Nous reviendrons ultérieurement, de façon plus précise,
sur ce point (§ 8.2).
2 Une autre procédure consiste à choisir comme ci-dessus une première unité,
et ensuite, à partir de celle-ci, de façon systématique ou régulière, les autres unités
qui doivent constituer l’échantillon.
Tel peut être le cas, dans une liste de personnes, en choisissant par exemple un
nom au hasard parmi les 20 premiers noms de la liste, et ensuite régulièrement, à
partir de celui-ci, un nom sur 20 (par exemple le 7ème nom pour commencer, puis
le 27ème nom, le 47ème nom, le 67ème nom, etc.).
Tel peut être le cas également, à deux dimensions, en agissant de la même façon
dans les deux directions. Par exemple, dans un champ de betteraves, on pourrait
choisir de façon systématique des lignes de betteraves et, dans ces lignes, de façon
systématique ou à intervalle régulier, des betteraves (par exemple la 3ème ligne, la
13ème ligne, la 23ème ligne, etc., et dans chacune de ces lignes, la 4ème betterave,
la 24ème betterave, la 44ème betterave, etc., ou la première betterave se trouvant
au-delà du point situé à 2 mètres du début de la ligne, au-delà du point situé à
12 mètres du début de la ligne, au-delà du point situé à 22 mètres du début de la
ligne, etc.).
Un tel échantillonnage est dit systématique 13 . En pratique, il est souvent plus
facile à réaliser qu’un échantillonnage complètement aléatoire, surtout pour des
observations qui doivent être e↵ectuées en champ, en verger, en forêt, etc.
11 En anglais : non-response.
12 En anglais : simple random sampling, unrestricted random sampling.
13 En anglais : systematic sampling.
Pour un même nombre d’observations, l’échantillonnage systématique possède

aussi l’avantage de donner fréquemment des résultats plus précis que l’échantillon-
nage complètement aléatoire, mais il peut cependant soulever certains problèmes
particuliers, que nous évoquerons ultérieurement (§ 8.3.1.3 ).
3 Dans certains cas, il peut être utile de subdiviser la population en plusieurs

parties, appelées strates 14 , avant de procéder au choix des unités qui constitueront
l’échantillon. Le choix de ces unités est alors réalisé indépendamment dans chacune
des strates, soit de façon complètement aléatoire, soit de façon systématique.
Un tel échantillonnage est dit stratifié 15 . Son emploi se justifie surtout quand
la population-parent est très hétérogène et qu’on souhaite s’assurer que ses dif-
férentes composantes (di↵érentes catégories socio-professionnelles, di↵érents types
d’exploitations agricoles, di↵érents types de sols ou de végétations, par exemple) se-
ront toutes bien représentées dans l’échantillon. La stratification peut alors appor-
ter un gain de précision important, par rapport à l’échantillonnage complètement
aléatoire, sans modifier le nombre total d’observations à réaliser. Pour que ce gain
de précision soit maximum, on doit veiller à définir les strates de manière à ce
qu’elles soient toutes aussi homogènes que possible [STAT2, § 9.3.4] 16 .
4 L’échantillonnage à deux ou plusieurs degrés ou niveaux 17 , aussi appelé

échantillonnage en grappes, est une autre méthode couramment utilisée en pra-
tique. Son principe est de considérer deux ou plusieurs types d’unités statistiques,
correspondant aux deux ou aux di↵érents degrés ou niveaux de l’échantillonnage,
et de procéder de façon complètement aléatoire ou de façon systématique à chacun
de ces degrés ou niveaux.
Dans une enquête agricole par exemple, on peut choisir de façon complètement
aléatoire, au premier degré, un certain nombre de communes, puis au second degré,
dans les communes ainsi retenues et de façon complètement aléatoire également, un
certain nombre d’exploitations agricoles. Les communes sont les unités du premier
degré, et les exploitations, dans les communes, les unités du deuxième degré.
Dans une telle situation, cette façon de procéder permet notamment de limiter
les déplacements à un nombre restreint de communes, mais il faut savoir que cette
facilité de réalisation ne s’obtient en général qu’au prix d’une certaine perte de
précision. On peut en e↵et montrer que, pour un même nombre total d’observa-
tions, la précision des résultats obtenus par un échantillonnage à deux ou plusieurs
degrés est en général inférieure à celle d’un échantillonnage complètement aléatoire
[STAT2, § 9.3.4].
On notera aussi que le principe de l’échantillonnage à deux ou plusieurs degrés
est utilisé très fréquemment dans les processus d’analyse chimique, tels que par
14 En anglais : stratum.
15 En anglais : stratified sampling.
16 Nous rappelons que les mentions (( [STAT2, . . .] )) renvoient au deuxième tome de cette série
Statistique théorique et appliquée.

17 En anglais : two-stage sampling, multi-stage sampling.
exemple, en matière d’étude de sols ou de fourrages, le prélèvement (( au hasard ))

de deux ou plusieurs échantillons de terre ou de fourrage dans une même parcelle
ou un même champ, et la réalisation au laboratoire de deux ou plusieurs analyses
pour chacun des échantillons prélevés. Les échantillons de terre ou de fourrage sont
ici les unités du premier degré, et les analyses les unités du deuxième degré.
5 La méthode des quotas 18 , enfin, est une méthode largement utilisée dans les
sondages d’opinion. Elle consiste à donner à l’échantillon une composition aussi
semblable que possible à celle de la population, en fonction de quelques critè-
res de classification considérés a priori comme particulièrement importants, mais
sans définir de façon précise la manière dont les individus devront être choisis à
l’intérieur de chacune des classes ou catégories de la population.
On tient souvent compte du sexe, de l’âge et des catégories socio-profession-
nelles, ou de la répartition géographique des di↵érentes personnes constituant la
population. Mais s’il faut choisir, par exemple, 15 ouvrières âgées de 20 à 30 ans,
pour assurer proportionnellement une bonne représentation de cette catégorie de
la population, on n’e↵ectue pas ce choix de façon complètement aléatoire ou de
façon systématique, parmi toutes les personnes qui appartiennent à cette catégo-
rie, mais on laisse en général la liberté de ce choix aux enquêteurs, moyennant
éventuellement certaines directives.
Comme l’échantillonnage stratifié, auquel elle est directement comparable, la
méthode des quotas donne, pour un même nombre d’observations, des résultats
plus précis que l’échantillonnage complètement aléatoire. En outre, son utilisation
est souvent plus facile ou plus rapide que celle de l’échantillonnage complètement
aléatoire. Mais l’absence de méthode précise de choix des individus à l’intérieur des
classes peut conduire à des erreurs importantes, liées notamment au comportement
des enquêteurs.
6 La réalisation de tout échantillonnage, quel qu’il soit, ne peut se faire va-

lablement que si on possède au départ, pour l’ensemble de la population, un mi-
nimum d’informations constituant la base d’échantillonnage ou de sondage 19 . Il
peut s’agir notamment de listes ou de répertoires, de documents cartographiques
ou de photographies aériennes, etc.
Les qualités essentielles de ces documents sont d’être complets, bien mis à jour,
et sans répétitions (c’est-à-dire sans mentions doubles ou multiples des mêmes uni-
tés). Il est évident, en e↵et, que la qualité d’un échantillon, et donc des résultats
qu’on en déduit, est toujours conditionnée dans une large mesure par la qualité
des documents qui ont servi de fondements à l’échantillonnage.
On remarquera aussi que, dans certains cas, la base d’échantillonnage ne doit
pas s’étendre en détail à l’ensemble de la population. Par exemple, dans le cas
de l’enquête agricole dont il a été question pour illustrer le principe de l’échan-
tillonnage à deux degrés, il pourrait s’agir d’une liste de toutes les communes et,
18 En anglais : quota.
19 En anglais : sampling frame.
uniquement pour les communes choisies au premier degré, d’une liste de toutes les
exploitations agricoles.
7 Une caractéristique essentielle de tout échantillonnage est le fait que les

résultats qu’on en déduit sont le plus souvent entachés d’erreurs non négligeables.
Il peut s’agir à la fois d’erreurs systématiques 20 et d’erreurs ou de fluctuations
aléatoires 21 .
Les premières conduisent à une surestimation ou une sous-estimation plus ou
moins importante des valeurs qu’on souhaite connaı̂tre (moyennes, pourcentages,
etc.), mais elles peuvent être totalement éliminées dans certaines conditions. Les
secondes, par contre, peuvent se compenser dans une certaine mesure, mais elles
ne sont jamais complètement éliminées. Nous reviendrons ultérieurement sur ce
point (§ 9.3.1).
Les non-réponses, de même que les enquêtes téléphoniques et par internet,
peuvent être des sources importantes d’erreurs systématiques. Diverses méthodes
d’ajustement ou de redressement 22 permettent toutefois de remédier dans cer-
taines limites à ces inconvénients [Bethlehem, 2010].
Exemple 2.2.1. Di↵érentes méthodes d’échantillonnage.

Les di↵érents croquis de la figure 2.2.1 illustrent quelques-unes des méthodes
d’échantillonnage qui viennent d’être citées, dans le cas d’un espace à deux dimen-
sions, tel qu’un champ, un verger, une forêt, etc. Il s’agit successivement :
1. d’un échantillonnage complètement aléatoire (ou aléatoire et simple) de points
d’observation dans le domaine considéré ;
2. d’un échantillonnage aléatoire stratifié, avec une densité de points deux fois plus
importante dans la première strate (A), par comparaison avec la deuxième
strate (B) ;
3. d’un échantillonnage systématique simple ;
4. d’un échantillonnage systématique stratifié, avec également une densité de points
deux fois plus importante dans la première strate (A), par comparaison avec
la deuxième strate (B).
2.2.5 La taille de l’échantillon

1 La dernière question à laquelle nous consacrons quelques lignes, au cours
de ce bref exposé relatif aux problèmes d’enquête, est celle de la taille ou de la
dimension des échantillons. Cette taille peut être fixée en valeur absolue, c’est-à-
dire en nombre d’unités observées, ou en valeur relative, c’est-à-dire en proportion
20 En anglais : systematic error.
21 En anglais : random error.
22 En anglais : adjustment, imputation.
Figure 2.2.1. Exemples d’échantillonnages aléatoires et systématiques,

non stratifiés et stratifiés.
du nombre d’unités observées, par rapport au nombre total d’unités constituant

la population.
En valeur absolue, on parle de la taille ou de l’e↵ectif de l’échantillon 23 , et
en valeur relative, de l’intensité d’échantillonnage ou de sondage, ou encore de la
fraction échantillonnée ou sondée 24 .
2 Sans faire intervenir aucune formule mathématique, on peut affirmer, par

simple bon sens, que la précision des résultats obtenus à l’issue d’une enquête par
échantillonnage dépend à la fois de l’importance de l’échantillon et du caractè-
re plus ou moins homogène ou hétérogène de la population-parent, la précision
étant d’autant meilleure que l’échantillon est de taille plus importante et que la
population est plus homogène.
Il en résulte aussi, inversement, qu’il ne peut être question de fixer objective-
ment la taille d’un échantillon sans avoir au préalable une idée suffisante, d’une
part, de la précision souhaitée, et d’autre part, du degré d’homogénéité de la po-
pulation étudiée.
23 En anglais : sample size.
24 En anglais : sampling fraction.
On notera également que, dans le cas d’un échantillonnage stratifié ou à deux

ou plusieurs degrés ou niveaux, les tailles des échantillons ou les fractions échantil-
lonnées peuvent évidemment être di↵érentes d’une strate à l’autre ou d’un niveau
à l’autre.
Exemple 2.2.2. Inventaire forestier : principes de base.

Pour illustrer les di↵érents éléments évoqués ci-dessus, nous présentons rapide-
ment la méthode de travail qui a été adoptée dans le cadre d’un inventaire forestier
relatif à la partie méridionale de la Belgique [Rondeux et al., 1996].
Le but de cet inventaire est de chi↵rer l’importance de la forêt et de la carac-
tériser, notament en nombres d’arbres, en dimensions moyennes des arbres et en
volumes, pour di↵érents types de peuplements, di↵érentes essences forestières, etc.
Le territoire considéré est l’ensemble de la Région wallonne, soit une superficie de
16.000 km2 environ, dont près de 5.000 km2 de forêts.
La collecte des données se fait à l’aide de photographies aériennes et de cartes
topographiques, en ce qui concerne la localisation des points d’observation, et sur
le terrain, en ce qui concerne les observations elles-mêmes.
Les points d’observation sont répartis de façon systématique à raison de deux
points par kilomètre carré, selon un maillage rectangulaire de 500 m sur 1.000 m
(distance entre les points d’observation de 500 m dans la direction nord-sud et de
1.000 m dans la direction ouest-est). Le nombre total de points considérés est donc
de l’ordre de 10.000 , pour les 5.000 km2 de forêts qui sont étudiés.
En chacun des points en question, on définit une série de parcelles circulaires
concentriques. Les arbres de 20 à 69 cm de circonférence sont mesurés dans une
parcelle de 4,5 m de rayon (soit sur une surface d’environ 64 m2 ), les arbres de
70 à 119 cm de circonférence dans un rayon de 9 m (soit environ 2,5 ares), et les
arbres de plus de 119 cm de circonférence dans un rayon de 18 m (soit environ
10 ares). Des observations complémentaires sont également réalisées pour les semis
et les arbres de moins de 20 cm de circonférence.
L’intensité d’échantillonnage est en conséquence, respectivement pour les trois
catégories de grosseur, égale à environ 0,01 %, 0,05 % et 0,2 %. Et au total, pour
l’ensemble de l’étendue envisagée, l’observation porte sur près de 64 ha pour les
bois les plus petits, 2,5 km2 pour la catégorie intermédiaire, et 10 km2 pour les
bois les plus gros.
Quant aux observations, elles concernent essentiellement, en chaque point, la
localisation exacte et le type de propriétaire, les caractéristiques du milieu (to-
pographie, sol, végétation, etc.), la description du peuplement (forêt constituée
d’une seule ou de plusieurs essences, d’arbres de même âge ou d’âges di↵érents,
etc.), et les caractéristiques des arbres (circonférences de tous les arbres mesurées
à une hauteur de référence de 1,50 m, hauteurs de tous les arbres ou d’un certain
nombre d’entre eux seulement, état sanitaire, etc.).
2.3 L’expérimentation
2.3.1 Principes généraux
1 Contrairement au cas de l’observation par enquête (§ 2.2.1), l’expérimenta-
tion 25 , c’est-à-dire la réalisation d’une ou plusieurs expériences ou d’un ou plu-
sieurs essais 26 , suppose que l’apparition des faits qu’on désire étudier est volon-
tairement provoquée, dans des conditions qu’on maı̂trise au moins partiellement.
L’expérimentation étant souvent plus efficace que la simple observation par
enquête, le chercheur ou l’homme de science doit toujours envisager la possibilité
d’y recourir, quand cela s’avère réalisable, ce qui est fréquemment le cas dans le
domaine biologique notamment.
2 Comme toute enquête, par échantillonnage ou non, toute expérience doit

être l’objet d’une préparation ou d’une planification 27 minutieuse.
D’une façon générale, les questions qu’il faut examiner en élaborant un plan
d’expérience ou un protocole expérimental sont la définition du but et des condi-
tions de l’expérience, la définition des facteurs qu’on désire étudier, la définition
des unités expérimentales, la définition des observations à réaliser, et la définition
du dispositif expérimental. Nous examinerons successivement ces di↵érents points,
à l’exclusion toutefois de la question des observations, pour laquelle il n’y a guère
de choses à ajouter ici, par rapport à ce qui a été dit en matière d’enquête (§ 2.2.3).
À ces principaux éléments, on peut éventuellement associer quelques indica-
tions préliminaires relatives à l’analyse des résultats.
2.3.2 La définition du but et des conditions de l’expérience

1 La définition du but et des conditions de réalisation d’une expérience cons-
titue une opération comparable à la définition de la population-parent dans le
cas d’une enquête par échantillonnage (§ 2.2.2). Les conclusions d’une expérience
n’auraient en e↵et guère de valeur en général si elles ne s’appliquaient qu’aux
quelques individus considérés au cours de l’expérience (aux quelques plantes ou
aux quelques animaux observés, par exemple). Ces conclusions n’acquièrent en fait
une réelle valeur que dans la mesure où elles peuvent s’appliquer à un ensemble
plus vaste, tel que, par exemple, l’ensemble des cultures de blé ou l’ensemble des
vaches laitières d’une région donnée.
Il importe donc que cet ensemble plus vaste, ou cette population, soit par-
faitement défini, et que les individus choisis pour l’expérience en constituent un
échantillon bien représentatif. On doit notamment être attentif à ne pas organiser
l’expérience dans des conditions trop particulières, sauf si les conclusions qu’on
25 En anglais : experimentation.
26 En anglais : experiment, trial, assay.
27 En anglais : planning of experiment, experimental planning.
2.3.3 EXPÉRIMENTATION 39
souhaite en déduire doivent être appliquées précisément dans de telles conditions

(expériences en serres ou en chambres de culture, par exemple).
2 Un point important, qui mérite d’être souligné tout particulièrement en ce

qui concerne la planification des expériences, est leur répétition éventuelle dans
l’espace et dans le temps. Dans de nombreux domaines, et notamment en matière
agronomique, le matériel expérimental (plantes et animaux, par exemple) présente
en e↵et une variabilité non négligeable d’un endroit à l’autre et d’une année à
l’autre, ou d’une saison de culture à l’autre, en relation notamment avec des dif-
férences de milieu et de climat.
En vue d’aboutir à des conclusions suffisamment sûres pour qu’elles puissent
être transposées dans la pratique, il importe donc que l’expérimentation ait été réa-
lisée dans des conditions assez diversifiées, les mêmes expériences étant répétées en
un certain nombre d’endroits, représentatifs de l’ensemble du territoire considéré,
et au cours de plusieurs années ou de plusieurs saisons de culture.
2.3.3 La définition des facteurs

1 La définition des facteurs 28 , dans un plan d’expérience, est un élément
nouveau par rapport au cas des enquêtes. Il s’agit en e↵et, précisément, des ca-
ractéristiques propres à l’expérience, qui sont sous l’entière dépendance de l’expé-
rimentateur.
Ces facteurs peuvent être soit qualitatifs, lorsqu’ils réunissent une série d’élé-
ments qui ne peuvent pas être classés a priori dans un ordre donné, tels que
des variétés ou des produits phytosanitaires, soit quantitatifs, quand il s’agit au
contraire d’éléments qui constituent a priori une suite logique, tels que di↵érentes
doses d’un même engrais, di↵érentes températures, ou di↵érentes pressions.
Les éléments individuels qui constituent un facteur (di↵érentes variétés, dif-
férents produits phytosanitaires, di↵érentes doses d’engrais, di↵érentes tempéra-
tures, di↵érentes pressions, etc.) sont généralement appelés modalités, ou encore
variantes ou niveaux 29 , le terme variante correspondant plus particulièrement aux
facteurs qualitatifs et le terme niveau aux facteurs quantitatifs.
2 Dans le cas d’un facteur qualitatif, les di↵érentes variantes sont généra-
lement définies a priori, en même temps que le but de l’expérience (par exemple
quelques variétés données de blé). Il peut arriver cependant que les variantes prises
en considération dans l’expérience doivent être choisies au sein d’un ensemble plus
vaste (par exemple quelques lignées de betterave sucrière, choisies parmi les descen-
dances résultant d’un grand nombre de croisements). Le choix d’un nombre limité
de variantes à mettre en expérience peut alors être réalisé de façon complètement
aléatoire.
28 En anglais : factor.
29 En anglais : level.
Dans le cas d’un facteur quantitatif, les di↵érents niveaux sont généralement
choisis de manière à constituer une progression arithmétique (par exemple 100 ,
150 et 200 kg d’azote par hectare), ou une progression géométrique (par exemple
1 , 2 , 4 et 8 mg d’une matière active ou d’une substance de croissance donnée par
plante).
Quand deux ou plusieurs facteurs sont étudiés simultanément au cours d’une
même expérience, on s’e↵orce souvent d’associer chacune des variantes ou chacun
des niveaux d’un facteur, à chacune des variantes ou chacun des niveaux du ou
des autres facteurs (chacune des variétés associée à chacune des doses d’engrais,
par exemple). Une expérience organisée de cette manière est dite factorielle 30 .
Chacun des éléments individuels considérés, c’est-à-dire aussi bien chacun des
niveaux ou des variantes d’une expérience à un facteur, que chacune des combi-
naisons de niveaux ou de variantes d’une expérience à deux ou plusieurs facteurs
(une variété associée à une dose d’engrais, par exemple), peut être appelé objet.
Enfin, un problème connexe, qui doit toujours être envisagé, est celui de l’in-
clusion ou la non-inclusion dans l’expérience d’un ou plusieurs témoins ou objets
de référence 31 , qui ne subissent aucun traitement particulier (parcelles sans en-
grais, par exemple), ou qui servent de base de comparaison pour les autres objets
(variété bien connue servant de base de comparaison pour un ensemble de variétés
nouvelles, par exemple).
2.3.4 La définition des unités expérimentales

1 Un autre point important du plan d’expérience est la définition de l’unité
expérimentale 32 , qui joue un rôle analogue à celui de l’unité de base en matière
d’enquête (§ 2.2.2). Cette unité peut être soit tout à fait naturelle, tel un arbre ou
un animal, soit relativement artificielle, telle une parcelle de terrain plus ou moins
étendue ou un groupe de plantes ou d’animaux. Il y a lieu, dans ce dernier cas, de
déterminer de façon judicieuse la dimension (étendue de la parcelle ou nombre de
plantes ou d’animaux, par exemple) et, éventuellement, la forme de l’unité prise
en considération (forme carrée ou rectangulaire de la parcelle, par exemple).
2 Le nombre de répétitions 33 , c’est-à-dire le nombre d’unités expérimentales

qui se voient appliquer un traitement identique ou, d’une façon plus générale, qui
correspondent à un même objet, doit également être fixé lors de la planification
de l’expérience.
Très souvent, le nombre de répétitions et la dimension des unités expérimentales
sont deux éléments étroitement liés l’un à l’autre, en raison du fait que le matériel
expérimental total disponible est limité (étendue limitée du terrain disponible,
30 En anglais : factorial experiment.
31 En anglais : control.
32 En anglais : experimental unit.
33 En anglais : replication.
nombre limité de plantes ou d’animaux, etc.), ce qui contraint l’expérimentateur

à réduire un de ces deux éléments quand il veut augmenter l’autre. Dans un tel
cas, pour obtenir un maximum de précision, il y a généralement intérêt à augmen-
ter le nombre de répétitions, en diminuant autant que possible, dans des limites
raisonnables, la dimension des unités expérimentales.
2.3.5 La définition du dispositif expérimental

1 Ayant déterminé de façon précise les di↵érents objets qu’il souhaite étudier,
et disposant d’un certain nombre d’unités de base, l’expérimentateur doit encore
définir la manière dont les objets seront associés aux unités de base, le mode d’as-
sociation adopté constituant le dispositif expérimental 34 .
Une première procédure consiste à répartir les objets tout à fait au hasard,
parmi les unités expérimentales, de telle sorte que chaque unité ait des chances
égales de se voir a↵ecter l’un ou l’autre des di↵érents objets, et de telle sorte
aussi que l’a↵ectation d’un objet à une unité expérimentale soit indépendante
de l’a↵ectation de l’un ou l’autre objet aux autres unités expérimentales. Un tel
dispositif est dit complètement aléatoire 35 .
2 Une deuxième solution consiste à réunir les unités expérimentales en groupes

aussi homogènes que possible et à répartir les objets au hasard à l’intérieur des
di↵érents groupes. Ces groupes d’unités expérimentales sont généralement appelés
blocs 36 et, dans le cas le plus simple, où chaque bloc contient autant d’unités ex-
périmentales qu’il y a d’objets, l’expérience est dite en blocs aléatoires complets 37 .
Les blocs constituent alors chacun une répétition complète.
Dans une expérience en champ, en verger, en forêt, etc., chacun des blocs est
généralement constitué de parcelles voisines, de plantes voisines ou d’arbres voisins
les uns des autres, en couvrant ainsi une certaine étendue de terrain. Au moment
où on détermine la dimension et la forme des unités expérimentales, on doit alors
définir aussi la dimension et la forme des blocs.
On notera que la notion de bloc, utilisée en expérimentation, est très semblable
à celle de strate, introduite en matière d’échantillonnage (§ 2.2.4.3 ). Dans les
deux cas en e↵et, l’objectif est de constituer des groupes d’unités de base aussi
homogènes que possible, en vue d’obtenir un maximum de précision, en procédant
au tirage au hasard à l’intérieur de ces groupes, et non dans l’ensemble de toute
la population ou dans tout le domaine considéré.
d 3 Comme en matière d’échantillonnage, de nombreux autres dispositifs exis-

tent également en matière d’expérimentation. Ils portent notamment les noms de
34 En anglais : design of experiment.
35 En anglais : completely randomized design.
36 En anglais : block.
37 En anglais : randomized complete block.
carré latin 38 , de dispositif en blocs incomplets 39 , de dispositif en parcelles divi-

b sées , etc., mais nous n’en parlerons pas plus longuement ici.
40
Exemple 2.3.1. Expérience à deux facteurs sur céréales.

À titre d’illustration, nous présentons de façon relativement sommaire deux
exemples de ce que peuvent être des expériences agronomiques courantes, d’une
part sur végétaux et d’autre part sur animaux.
Le premier exemple concerne l’étude de l’influence d’un herbicide, appliqué à
di↵érentes doses, sur les rendements de deux variétés de blé. Nous désignerons les
deux variétés considérées respectivement par A et B , et nous supposerons que les
doses d’herbicides sont la dose normale conseillée par le producteur (dose 1), une
dose double de la normale (dose 2), et l’absence d’herbicide (dose 0).
Les variétés de blé et les doses d’herbicides sont les deux facteurs pris en con-
sidération. Le premier est de type qualitatif, et le second de type quantitatif.
Si chacun des trois niveaux du facteur doses est associé à chacune des deux
variétés, l’expérience est de type factoriel et comporte six objets. Ceux-ci peuvent
être numérotés de 1 à 6 ou désignés par exemple par les symboles :
A0 , A1 , A2 , B0 , B1 , B2 .
Les objets A0 et B0 sont des témoins (non traités).
Les unités expérimentales peuvent être des parcelles rectangulaires, de 6 m sur
20 m par exemple, et nous supposerons qu’en fonction des moyens disponibles,
le nombre de répétitions a été fixé à cinq, pour chacun des six objets. L’étendue
totale des 30 parcelles considérées est donc de 36 ares, compte non tenu des chemins
d’accès, sentiers et autres dégagements éventuels.
Les observations concerneront essentiellement les rendements en grains par
parcelle, exprimés en poids de matière sèche et ramenés conventionnellement à un
même niveau d’humidité (souvent 16 %).
Comme le montre la figure 2.3.1, dessinée à l’échelle 1/1.000 , l’expérience peut
être complètement aléatoire ou, au contraire, réalisée en blocs aléatoires com-
plets. Dans le premier cas, les cinq répétitions de chacun des six objets sont ré-
parties de façon tout à fait aléatoire dans l’ensemble des 30 parcelles. Dans le
deuxième cas, par contre, le champ est tout d’abord divisé en cinq blocs de six
parcelles, correspondant aux cinq bandes verticales de la figure 2.3.1, et les six
objets sont ensuite répartis de façon complètement aléatoire à l’intérieur de chacun
des cinq blocs, et cela de manière indépendante d’un bloc à l’autre. En pratique,
ce deuxième dispositif est généralement préférable au premier.
38 En anglais : Latin square.

39 En anglais : incomplete block.
40 En anglais : split-plot.
Figure 2.3.1. Exemples d’expériences complètement aléatoire

et en blocs aléatoires complets.
Exemple 2.3.2. Expérience à un facteur sur bovins.

Notre deuxième exemple concerne la comparaison de cinq alimentations dif-
férentes, données à de jeunes taurillons. Les cinq alimentations correspondent à
l’adjonction de cinq compléments di↵érents à un même fourrage, et constituent un
facteur qualitatif.
Le matériel expérimental est formé de 60 taurillons d’une même race et d’une
même catégorie d’âge. Au cours de l’expérience, ceux-ci seront réunis en 20 groupes
de trois animaux, a↵ectés à 20 stalles ou loges indépendantes les unes des autres,
les groupes de trois animaux ou les stalles constituant les unités expérimentales.
Les observations consisteront essentiellement en des pesées régulières des ali-
ments consommés et des di↵érents animaux. Ces données fourniront subsidiaire-
ment des caractéristiques dérivées, telles que les consommations moyennes jour-
nalières en aliments, les gains moyens journaliers en poids, etc.
Au début de l’expérience, la constitution des 20 groupes de trois animaux peut
être réalisée de manière complètement aléatoire, et la répartition des cinq alimen-
tations au sein des 20 groupes (quatre groupes de trois animaux pour chacune des
cinq alimentations) peut également être entièrement aléatoire.
Mais, si on a prévu une période initiale d’adaptation et d’observation des ani-

maux et, au cours de celle-ci, une ou plusieurs pesées préalables des animaux,
on peut également constituer les groupes en tenant compte de ces données pré-
liminaires. On peut par exemple former tout d’abord quatre lots de 15 animaux
de poids semblables (le premier lot réunissant les 15 taurillons les plus légers, le
deuxième lot les 15 taurillons de la tranche de poids suivante, le troisième lot à
nouveau les 15 taurillons de la tranche de poids suivante, et le quatrième lot les
15 taurillons les plus lourds), puis constituer au hasard cinq groupes de trois tau-
rillons au sein de chacun de ces quatre lots, et enfin répartir les cinq alimentations
au hasard et indépendamment parmi les cinq groupes relatifs à chacun des quatre
lots. On assurerait ainsi une meilleure répartition des alimentations, puisque cha-
cune d’entre elles serait donnée à trois taurillons de chacune des quatre catégories
de poids.
Les groupes de trois taurillons qui occupent une même stalle constituant les
unités expérimentales, on se trouve, d’une façon comme de l’autre, en présence
d’une expérience comportant quatre répétitions. Dans le premier cas, l’expérience
est complètement aléatoire, et dans le deuxième cas, elle est organisée en blocs
aléatoires complets, les blocs correspondant aux quatre lots d’animaux de poids
semblables. Le facteur subsidiaire (( poids initial des animaux )) remplace le facteur
(( proximité des parcelles )) de l’exemple 2.3.1.
2.4 La nature, l’enregistrement et le traitement

des données
2.4.1 Di↵érents types de données
1 Avant d’entreprendre quelque étude statistique que ce soit, il importe d’être
bien conscient de l’existence de di↵érents types de données. Le choix de l’une
ou l’autre méthode d’analyse statistique dépend en e↵et de cet élément [STAT2,
§ 1.2.4].
Nous avons déjà signalé antérieurement la distinction qui doit être faite entre
les observations qualitatives et les observations quantitatives (§ 2.2.3.1 ). Mais il
y a lieu d’aller plus loin.
2 En ce qui concerne tout d’abord les données quantitatives 41 , une nouvelle

distinction doit être introduite entre, d’une part, les dénombrements ou comptages,
et d’autre part, les mesures ou mensurations.
Les dénombrements ou comptages 42 ne soulèvent guère de problèmes parti-
culiers, en ce sens que leurs résultats s’expriment tout simplement en nombres
entiers, non négatifs (nombres de fruits par rameau, nombres de têtes de bétail
41 En anglais : quantitative data.
42 En anglais : enumeration, count.
2.4.1 NATURE, ENREGISTREMENT ET TRAITEMENT DES DONNÉES 45
par exploitation agricole, etc.). De telles données, et les variables sous-jacentes qui
y correspondent, sont fondamentalement de nature discontinue ou discrète 43 .
Les mesures ou mensurations 44 , par contre, soulèvent des problèmes de pré-
cision et de choix d’unités, auxquels des solutions claires doivent toujours être
apportées. On notera à ce sujet qu’il est souvent inutile, et même parfois dangereux,
de considérer au niveau de la mesure un nombre trop important de chi↵res. Dans
le domaine biologique par exemple, il est généralement illusoire d’utiliser plus de
deux ou trois chi↵res pour exprimer des résultats individuels (hauteurs totales
d’arbres exprimées en mètres, avec au maximum une décimale, poids de vaches
laitières exprimés en kilogrammes, sans décimales, etc.).
On notera également que, dans le cas des mesures, on e↵ectue en réalité des
observations discontinues, en raison de la nécessité d’arrondir les données à deux,
trois ou quelques chi↵res (discontinuités de 1 dm , 1 m , 1 kg , etc.), alors que les
variables considérées sont fondamentalement de nature continue 45 .
3 Quant aux données qualitatives 46 , elles concernent des caractères ou des

attributs 47 , que chacun des individus peut posséder ou ne pas posséder. Souvent,
ces données sont codées sous forme numérique, comme des variables quantitatives
discontinues, bien qu’il ne s’agisse pas de telles variables.
Dans les cas les plus simples, qui ne présentent que deux possibilités, telles que
la présence ou l’absence d’un caractère donné (pilosité, symptôme d’une certaine
maladie, etc.), on utilise couramment les valeurs 0 et 1 , en associant la valeur 0 à
l’absence et la valeur 1 à la présence du caractère considéré. Les mêmes valeurs, ou
éventuellement les valeurs 1 et 2 , sont aussi employées pour d’autres alternatives
simples, telles que vivant ou mort, mâle ou femelle, etc. De telles variables et
de telles données, ne pouvant prendre que deux valeurs, sont dites binaires ou
alternatives ou indicatrices 48 .
Quand le caractère considéré peut présenter plusieurs niveaux di↵érents, ordon-
nés les uns par rapport aux autres (individus sains, individus malades ou faiblement
atteints, individus fortement atteints, et individus morts, par exemple), on peut
également utiliser comme codification une suite de valeurs entières, telles que les
chi↵res de 0 à 3 ou de 1 à 4 , pour l’exemple qui vient d’être cité. On doit cependant
être extrêmement prudent dans l’utilisation de telles échelles de valeurs, notam-
ment en vue du calcul éventuel de moyennes ou d’autres paramètres. Les variables
et les données résultant d’une telle codification sont qualifiées d’ordinales 49 .
Enfin, quand le caractère considéré consiste en une série de modalités ou de
variantes qui ne peuvent pas être ordonnées d’une manière logique, telles que di-
43 En anglais : discontinuous data, discrete data.
44 En anglais : measurement.
45 En anglais : continuous data.
46 En anglais : qualitative data.
47 En anglais : character, attribute.
48 En anglais : binary data, indicatory data.
49 En anglais : ordinal data.
verses couleurs de pelage, on peut aussi utiliser une codification basée sur une série
de valeurs numériques (1 pour un pelage brun, 2 pour un pelage gris, 3 pour un
pelage noir, etc.), mais on doit se souvenir du fait que toute opération arithmétique
basée sur de telles données, dites nominales 50 , doit être proscrite.
d Une autre solution applicable à ce dernier cas serait, au contraire, de considé-
rer qu’il y a autant de variables di↵érentes que de modalités ou de variantes, en
associant une variable binaire à chacune des modalités ou variantes (une première
variable pouvant prendre les valeurs 0 et 1 respectivement pour (( non brun )) et
brun, une deuxième variable pouvant prendre les valeurs 0 et 1 respectivement
b pour (( non gris )) et gris, etc.).
4 Indépendamment des cas les plus classiques, présentés ci-dessus, il faut si-
gnaler aussi l’existence de types plus particuliers de données, telles que les rangs
et les données directionnelles ou circulaires.
Les rangs 51 sont en fait les numéros d’ordre des di↵érents individus ou des
di↵érents éléments observés, classés selon l’ordre croissant de la caractéristique
considérée. De telles observations apparaissent notamment dans certains tests sen-
soriels, ou lors d’autres examens au cours desquels on ne demande pas aux experts
ou aux examinateurs d’attribuer une note à chacun des individus ou des éléments
observés, mais bien de procéder à un classement de ceux-ci.
On remarquera que les observations sont alors également, comme pour les dé-
nombrements ou les comptages, des nombres entiers non négatifs, mais les valeurs
obtenues ne sont pas indépendantes les unes des autres. En particulier, pour un
ensemble de n éléments auxquels sont attribués des rangs allant de 1 à n , la somme
des valeurs observées est égale à n (n + 1)/2 , et leur moyenne est toujours égale à
(n + 1)/2 .
d 5 Comme leur nom l’indique, les données directionnelles ou circulaires 52

concernent principalement des directions, le plus souvent dans un plan ou sur
une circonférence (direction du vent, direction des vols d’oiseaux migrateurs, d’in-
sectes, etc.), mais éventuellement aussi sur une sphère ou dans un espace à plus de
deux dimensions. Ces données sont généralement de nature continue, mais avec des
particularités telles que, par exemple, pour des observations exprimées en degrés,
les valeurs 0 et 360 se confondent, la di↵érence entre 350 et 15 est équivalente à la
di↵érence entre 15 et 40 , etc.
De telles données peuvent également être considérées dans le temps, en ce qui
concerne par exemple les di↵érentes heures de la journée, les valeurs 0 et 24 étant
b alors confondues.
Informations complémentaires : Fisher [1995], Fisher et al. [1993], Mardia et Jupp

[2000].
50 En anglais : nominal data.
51 En anglais : rank.
52 En anglais : directional data, circular data.
2.4.2 L’enregistrement et le traitement des données

1 L’enregistrement ou la saisie des données 53 peut tout d’abord être réalisé
sous forme manuscrite, dans des carnets de notes, sur des feuilles volantes, etc.
Quand le volume des données le justifie, on peut utilement avoir recours dans ce
cas à des feuilles de pointage ou des formulaires particuliers, prévoyant la place des
di↵érentes observations qui doivent être faites, et éventuellement leur codification.
En fonction des besoins ultérieurs, de telles données peuvent ensuite être enregis-
trées sur ordinateur.
Une deuxième solution consiste à e↵ectuer également un enregistrement ma-
nuel des données, non plus sur papier, mais directement sur un support infor-
matique. Tel est le cas notamment par l’utilisation d’ordinateurs portables ou
d’autres matériels équivalents. L’emploi éventuel de formulaires cède alors la place
à l’utilisation de cadres ou d’écrans de saisie des données.
Enfin, l’enregistrement des données peut être réalisé automatiquement, les ap-
pareils de mesure qui sont utilisés englobant l’un ou l’autre système informatique
ou étant connectés à de tels systèmes. Ces dispositifs peuvent servir à la fois à
l’enregistrement de données quantitatives et à l’enregistrement de données quali-
tatives, par des processus de reconnaissance de couleurs, de formes, etc.
2 Quelle que soit la méthode utilisée, l’enregistrement doit toujours être l’objet
d’une très grande attention, et cela autant que possible dès la planification de
l’enquête ou de l’expérience.
Le cas échéant, la conception des formulaires ou des écrans de saisie doit être
réalisée avec le plus grand soin, en vue de réduire au maximum les risques d’er-
reur. Dans le cas d’un enregistrement sous forme manuscrite, toute transcription
éventuelle des observations, y compris leur possible encodage sur ordinateur, doit
être l’objet d’une vérification très stricte.
D’une façon générale, un examen critique des données, relatif notamment à leur
plausibilité, doit être associé à toute procédure d’enregistrement. Il peut s’agir d’un
simple examen visuel, au cours ou à l’issue d’un enregistrement manuel. Mais il
peut s’agir aussi, dans le cas d’un enregistrement direct sur support informatique,
de la comparaison avec des valeurs minimales et maximales admissibles ou avec
une série de normes ou de codes admissibles, ou de tout autre processus permettant
de détecter des erreurs ou des discordances éventuelles.
À cet égard, il faut être conscient du fait que les procédures automatiques
de collecte des données ne sont pas à l’abri de toute défaillance. De plus, ces
procédures peuvent soulever dans certains cas des problèmes particuliers, liés au
volume considérable des données enregistrées.
Dès la fin de la collecte, voire même progressivement au cours de la collecte
elle-même, il est opportun d’assurer une sauvegarde des données, sous forme de
copies mises en sécurité.
53 En anglais : data acquisition, data capture.
3 Le traitement des données doit normalement commencer par un examen

préliminaire, destiné notamment à identifier les éventuelles anomalies qui pour-
raient encore exister. Cet examen peut être basé sur l’étude de distributions de
fréquences, la préparation de graphiques, la détermination de paramètres (moyen-
nes, valeurs extrêmes, etc.), l’application de méthodes de détection des valeurs
anormales, etc. [STAT2, § 2.3 et 3.5].
Le traitement ultérieur des données peut alors être réalisé soit à l’aide de petites
machines à calculer, soit par ordinateur.
Le traitement à l’aide de petites machines à calculer (ou calculatrices ou cal-
culettes), même programmables ou dotées de fonctions statistiques (calcul de
moyennes, d’écarts-types, de coefficients de corrélation, etc.), ne se justifie que
pour de petits ensembles de données, relatifs à la fois à un nombre réduit d’indi-
vidus (quelques dizaines d’individus par exemple) et à un nombre très réduit de
variables ou de caractéristiques (généralement une ou deux variables ou caracté-
ristiques au maximum).
L’emploi de l’ordinateur s’impose pratiquement dans tous les autres cas. Se
posent alors des problèmes de choix, non seulement de matériels, mais aussi, et de
façon souvent plus aiguë, de logiciels. Nous avons déjà donné quelques indications
à ce sujet dans le (( mode d’emploi )) qui suit la table des matières.
Informations complémentaires : Finney [1988], Riley et Ryder [1979].
Exemple 2.4.1. Inventaire forestier : enregistrement des données.

Nous pouvons illustrer les questions d’enregistrement des données en revenant
à l’inventaire forestier dont les principes de base ont été exposés dans le cadre de
l’exemple 2.2.2.
La figure 2.4.1 présente le principal formulaire dont l’utilisation avait été dé-
cidée au départ, en vue de l’enregistrement, en chacun des points d’observation,
de diverses caractéristiques du peuplement forestier (cadre (( Structure ))) et des
arbres (Ess = essence, C150 = circonférence à 1,50 m de hauteur, Htot = hauteur
totale, etc.) [Rondeux et al., 1996].
Dans un deuxième temps, l’enregistrement manuel sur des documents papier a
cédé la place à un enregistrement toujours manuel, mais sur des ordinateurs por-
tables suffisamment robustes pour pouvoir être utilisés en toutes circonstances en
forêt. Des cadres ou des écrans de saisie, correspondant par exemple aux di↵érents
sous-tableaux de la figure 2.4.1 et pouvant faire intervenir des menus déroulants,
pour en faciliter l’utilisation, ont alors remplacé les formulaires initiaux [Rondeux
et Cavelier, 2001].
Cette façon de faire a aussi l’avantage de rendre possible la réalisation sur le
terrain, de manière automatique, d’un certain nombre de contrôles, de plausibilité
notamment, qui ne pouvaient intervenir antérieurement qu’a posteriori, au bureau.
Figure 2.4.1. Formulaire utilisé dans le cadre d’un inventaire forestier.

50 COLLECTE DES DONNÉES
Mais l’enregistrement de certaines données peut également être entièrement

automatisé. Ainsi, la localisation et l’altitude des points d’observation peuvent
être relevées à l’aide de certains GPS (global positioning system), et la grosseur
des arbres peut être mesurée à l’aide de compas enregistreurs. On entend par là des
sortes de grands pieds à coulisse, qui sont utilisés depuis longtemps pour la mesure
des diamètres des arbres, et qui sont complétés par des dispositifs d’enregistrement
automatique des mesures [Rotheudt et Verrue, 2002].
Enquête, expérimentation.
Population, échantillon, recensement, sondage.
Échantillonnage complètement aléatoire, systématique, stratifié, à deux ou plu-
sieurs degrés, par quotas.
Taille ou e↵ectif de l’échantillon, intensité d’échantillonnage ou de sondage.
Facteur, modalité, variante, niveau, objet, témoin.
Expérience factorielle.
Expérience complètement aléatoire, en blocs aléatoires complets.
Répétition.
Données quantitatives, discontinues, continues.
Données qualitatives, binaires, nominales, ordinales.
Rangs.
Deuxième partie
La statistique descriptive
Chapitre 3 La statistique descriptive à une dimension

Chapitre 4 La statistique descriptive à deux dimensions
Chapitre 3
La statistique descriptive
à une dimension
Sommaire
3.1 Introduction
3.2 Les distributions de fréquences
3.3 Les représentations graphiques
3.4 La réduction des données : généralités
3.5 Les paramètres de position
3.6 Les paramètres de dispersion
3.7 Les moments et les paramètres de dissymétrie et d’aplatisse-
ment
3.8 Le calcul de la moyenne, de la variance et des moments d’ordre
3 et 4
3.9 Quelques informations relatives à l’exécution des calculs
3.10 Les nombres-indices
Exercices
54 STATISTIQUE DESCRIPTIVE À UNE DIMENSION 3.2.1
3.1 Introduction
1 La statistique descriptive 1 a essentiellement pour but de présenter les don-
nées observées sous une forme telle qu’on puisse en prendre connaissance faci-
lement. Elle peut concerner une variable ou une caractéristique à la fois, deux
variables ou deux caractéristiques à la fois, ou encore plus de deux variables ou
plus de deux caractéristiques simultanément. Selon les cas, on parle de statistique
descriptive à une variable ou à une dimension 2 , de statistique descriptive à deux
variables ou à deux dimensions 3 , et de statistique descriptive à plusieurs variables
ou à plusieurs dimensions 4 .
2 À une dimension, le but de simplification de la statistique descriptive peut

être atteint en condensant les observations sous trois formes distinctes.
Des tableaux statistiques permettent de présenter les données sous la forme
numérique de distributions de fréquences (§ 3.2). Di↵érents types de diagrammes
permettent de présenter graphiquement ces distributions, ou les données initiales
elles-mêmes (§ 3.3). Et enfin, les données peuvent également être condensées sous
la forme de quelques paramètres ou valeurs typiques : le calcul de ces paramètres
constitue la réduction des données 5 (§ 3.4 et suivants) 6 .
La présentation des données sous forme de tableaux et de graphiques concerne
plus particulièrement les cas où les observations sont assez nombreuses, tandis que
la réduction des données s’applique indi↵éremment à tous les cas.
Informations complémentaires : Alonzo [2006], Hamon et Jégou [2008], Mazerolle

[2005].
3.2 Les distributions de fréquences

3.2.1 Les séries statistiques
La forme la plus élémentaire de présentation des données statistiques relatives
à une seule variable consiste en une simple énumération des observations :
x1 , x2 , . . . , xi , . . . , xn ,
celles-ci étant éventuellement rangées par ordre croissant, c’est-à-dire de telle sorte
que :
x1  x2  . . .  xi  . . .  xn .
1
En anglais : descriptive statistics.
2
En anglais : univariate, one-dimensional.
3 En anglais : bivariate, two-dimensional.
4 En anglais : multivariate, multidimensional.
5 En anglais : data reduction.
6 L’expression (( réduction des données )) est parfois utilisée pour désigner l’ensemble de la
statistique descriptive, y compris la préparation de tableaux et de graphiques.

Index des traductions
anglaises
Les numéros renvoient aux paragraphes et aux exemples (ex.).
A Asymptotically normal distribution :

A posteriori power : 10.4.3.7 6.6.5.1
A posteriori probability : 5.4.3 Attribute : 2.4.1.3
A priori power : 10.4.3.7 Autocatalytic function : 4.10.2.3
A priori probability : 5.4.3 Autoregressive model : 4.10.2.6
Absolute frequency : 3.2.2.1 Average : 3.5.1.1
Acceptance region : 10.3.1.2
B
Addition theorem : 5.3.1.3
Bahadur’s efficiency : 10.4.3.4
Adjustment : 2.2.4.7
Allometry : 4.10.2.4 Bar diagram : 3.3.1.1
Almost certain event : 5.3.1.2 Bartlett’s adjustment : 10.3.4.1
Almost impossible event : 5.3.2.3 Bartlett’s correction : 10.3.4.1
Alternative hypothesis : 10.3.1.1 Base : 3.10.1.2
Analysis of covariance : 1.2.2.2 Base switching : 3.10.3.2
Analysis of variance : 1.2.2.2 Bayes’s theorem : 5.4.3
Arithmetic mean : 3.5.1.1 Bayesian method : 1.2.3.3
Artificial neural network : 1.2.4.2 Bell-shaped distribution : 3.3.3
Assay : 2.3.1.1 Bernoulli’s distribution : 6.2.1.2
Association coefficient : 4.6.3.6
Bernoulli’s theorem : 8.5.2
Assumption : 9.4.3.2
Beta distribution : 6.10.5.5
Asymmetrical distribution : 3.3.3
Bias : 9.3.1.2
Asymptotic efficiency : 10.4.3.3
Asymptotic normality : 6.6.5.1 Bienaymé-Tchebychev’s inequality :
5.8.4.1
Asymptotically efficient estimator :
9.3.1.5 Bin width : 3.2.3.1
Asymptotically minimum variance estima- Binary data : 2.4.1.3
tor : 9.3.1.5 Binomial distribution : 6.2.1.2
496 INDEX DES TRADUCTIONS ANGLAISES
Bioinformatics : 1.2.4.2 Coefficient of concentration : 3.6.6.2

Biometrics : 1.2.2.2 Coefficient of variation : 3.6.1.2
Biometry : 1.2.2.2 Compartment model : 4.10.2.6
Biostatistics : 1.2.3.4 Compartmental model : 4.10.2.6
Biserial correlation coefficient : 4.6.3.2 Complementary events : 5.3.2.2
Bivariate continuous distribution : 5.5.4.1 Completely randomized design : 2.3.5.1
Bivariate continuous uniform distribu- Component analysis : 4.11.2
tion : ex. 5.5.7 Composite index : 3.10.1.2
Bivariate discrete distribution : 5.5.3.2 Compound distribution : 6.5.3.3
Bivariate discrete uniform distribution : Computer-intensive method : 1.2.3.3
ex. 5.5.6 Concentration curve : 3.6.6.3
Bivariate frequency distribution : 4.2.2.1 Concentration diagram : 3.6.6.3
Bivariate frequency table : 4.2.2.1 Conditional distribution : 4.2.3.2
Bivariate normal distribution : 7.4.3.1 Conditional frequency : 4.2.3.2
Bivariate statistics : 3.1.1 Conditional mean : 4.4.2
Block : 2.3.5.2 Conditional probability : 5.4.1.2
Bonferroni’s method : 10.3.5.2 Conditional variance : 4.4.2
Bootstrap : 8.4.2.2 Confidence coefficient : 9.4.1.2
Box-and-whisker plot : 3.3.4.2 Confidence interval : 9.4.1.2
Boxplot : 3.3.4.2 Confidence level : 9.4.1.2
Bravais’s correlation coefficient : 4.6.1.1 Confidence limit : 9.4.1.2
C Confidence region : 9.4.1.2
Conservative test : 10.3.3.8
Calibration : 4.7.6.2
Consistent estimator : 9.3.1.7
Censored distribution : 6.10.4.2
Contagious distribution : 6.5.3.1
Census : 2.2.1.2
Contingency table : 4.6.3.6
Centile : 3.6.4.5
Continuity correction : 6.6.4.3
Central limit theorem : 6.6.5.3
Continuous data : 2.4.1.2
Central moment : 3.7.1.1
Continuous distribution : 5.5.2.3
Certain event : 5.3.1.2
Continuous triangular distribution :
Chain index : 3.10.3.3 ex. 5.6.5
Character : 2.4.1.3 Continuous uniform distribution : ex. 5.5.4
Characteristic function : 5.9.2.2 Control : 2.3.3.2
Chi-square distribution : 6.8.1.1 Convergence in probability : 8.5.1
Circular data : 2.4.1.5 Corrected sum of squares : 3.8.1.3
Circularity : 3.10.3.1 Correction for grouping : 3.6.1.6
Class : 3.2.3.1 Correlation coefficient : 4.6.1.1
Class boundary : 3.2.3.1 Correlation matrix : 4.11.1.3
Class frequency : 3.2.3.1 Correlation ratio : 4.6.3.5
Class interval : 3.2.3.1 Correspondence analysis : 4.11.2
Class limit : 3.2.3.1 Count : 2.4.1.2
Class mark : 3.2.3.1 Covariance : 4.5.1.2
Class mid-point : 3.2.3.1 Covariance matrix : 4.11.1.2
INDEX DES TRADUCTIONS ANGLAISES 497
Critical region : 10.3.1.2 E

Critical value : 10.3.1.2 Eccentricity : 6.10.3.1
Cubic mean : 3.5.3.3 Econometrics : 1.2.2.2
Cumulant : 5.9.2.1 Econometry : 1.2.2.2
Cumulant generating function : 5.9.2.1 Efficiency : 9.3.1.4
Cumulative frequency : 3.2.2.4 Efficient estimator : 9.3.1.4
Cumulative frequency distribution : Elasticity : 4.10.2.4
3.3.2.3
Ellipse of concentration : 7.4.1.3
Cumulative function : 5.5.1.2
Enumeration : 2.4.1.2
Cumulative probability distribution :
Estimation : 9.3.1.1
5.5.1.2
Estimator : 9.3.1.1
Curvilinear regression : 4.10.1
Exclusive events : 5.3.1.3
D
Expectation : 5.7.1.1
Data acquisition : 2.4.2.1 Expected value : 4.7.3.1
Data capture : 2.4.2.1 Experiment : 2.3.1.1
Data matrix : 4.11.1.1 Experimental design : 1.2.2.2
Data mining : 1.2.4.2 Experimental planning : 2.3.1.2
Data reduction : 3.1.2
Experimental unit : 2.3.4.1
Database : 1.2.4.1
Experimentation : 2.3.1.1
Datawarehouse : 1.2.4.1
Explanatory variable : 4.7.1
Decile : 3.6.4.5
Exploratory survey : 2.2.3.3
Decision theory : 10.3.4.3
Exponential distribution : ex. 5.5.5
Degree of freedom : 6.7.1
Exponential family : 6.10.5.6
Dependent variable : 4.7.1
Exponential regression : 4.10.2.2
Descriptive statistics : 3.1.1
Extreme value : 3.2.3.1
Design of experiment : 2.3.5.1
Determination coefficient : 4.6.1.5 F
Diagonal regression line : 4.8.1.4 Factor : 2.3.3.1
Directional data : 2.4.1.5 Factor analysis : 4.11.2
Discontinuous data : 2.4.1.2 Factorial experiment : 2.3.3.2
Discrete data : 2.4.1.2 False discovery rate : 10.3.5.5
Discrete probability distribution : 5.5.1.2 False positive : 10.3.5.5
Discrete triangular distribution : ex. 5.6.4 False positive rate : 10.3.5.5
Discrete uniform distribution : ex. 5.5.3 F-distribution : 6.9.1.1
Discriminant analysis : 4.11.2 Fiducial limit : 9.4.4.1
Dispersion matrix : 4.11.1.2 Finite population : 8.2.1.1
Distribution function : 5.5.1.2 First kind error : 10.3.1.3
Distribution-free method : 9.3.4.1 First kind risk : 10.3.1.3
Dotplot : 3.3.4.1 Fisher’s coefficient : 3.7.2
Double-tailed test : 10.3.3.6 Fisher’s logarithmic series : 6.5.1.1
Doubly non-central F -distribution : Fisher-Snedecor’s distribution : 6.9.1.1
6.10.3.2 Fitting : 4.10.1
Fourfold point correlation coefficient : Infinite population : 8.2.1.2

4.6.3.3 Influence curve : 9.3.1.6
Fractile : 3.6.4.5 Interdependent variables : 4.8.1.1
Frequency : 3.2.2.1 Interquartile range : 3.6.4.3
Frequency distribution : 3.2.2.1 Interval estimation : 9.4.1.1
Frequency function : 5.5.2.1 Intraclass correlation coefficient : 4.6.3.7
Frequency polygon : 3.3.1.1 I-shaped distribution : 3.3.3
Frequentist approach : 9.3.5.3 J
G Jackknife : 8.4.2.2
Gamma distribution : 6.10.5.5 J-shaped distribution : 3.3.3
Gamma function : 6.10.2.1 K
General linear model : 1.2.3.3 Kurtosis : 6.6.1.3
Generalized hypergeometric distribution :
L
6.3.2.1
Generalized linear model : 1.2.3.3 Laplace’s theorem : 6.6.4.1
Genomics : 1.2.4.2 Laspeyres’s index : 3.10.2.2
Geometric mean : 3.5.2.1 Latin square : 2.3.5.3
Law of large numbers : 8.5.1
Geometric series : 6.5.2.5
Least squares method : 4.7.2.1
Gini’s coefficient : 3.6.6.2
Leptokurtic distribution : 6.6.1.3
Gross error : 3.9.1.2
Level : 2.3.3.1
Gross error sensitivity : 9.3.1.6
Likelihood function : 9.3.2.2
Gumbel’s distribution : 8.3.4.3
Likelihood ratio : 10.3.4.1
H Likelihood ratio test : 10.3.4.1
Harmonic mean : 3.5.3.1 Lindeberg-Lévy’s theorem : 6.6.5.2
Highly significant : 10.3.1.4 Linear correlation coefficient : 4.6.1.1
Histogram : 3.3.1.1 Linear mixed model : 1.2.3.3
Hochberg’s method : 10.3.5.3 Linear model : 1.2.3.3
Holm-Bonferroni’s method : 10.3.5.3 Linear regression : 4.7.2.1
Holm’s method : 10.3.5.3 Locally most powerful test : 10.4.3.5
Homoscedasticity : 10.3.3.2 Logarithmic-normal distribution : 6.6.6.1
Hypergeometric distribution : 6.3.1.1 Logistic function : 4.10.2.3
I Logistic regression : 4.10.2.6
Identification : 4.10.1 Logit : 4.10.2.6
Impossible event : 5.3.2.3 Lognormal distribution : 6.6.6.1
Lorenz’s curve : 3.6.6.3
Imputation : 2.2.4.7
Lorenz’s diagram : 3.6.6.3
Incomplete block : 2.3.5.3
Lower critical value : 9.4.3.1
Independent variable : 4.7.1
Independently and identically distributed M
variables : 5.6.1.3 Mann-Whitney’s test : 10.3.3.2
Index number : 3.10.1.2 Marginal distribution : 4.2.3.1
Indicatory data : 2.4.1.3 Marginal frequency : 4.2.3.1
Marginal mean : 4.4.2 N

Marginal variance : 4.4.2 Negative binomial distribution : 6.5.2.6
Maximum likelihood : 9.3.2.1 Neo-Bayesian method : 1.2.3.3
Mean : 3.5.1.1 Neural network : 1.2.4.2
Mean deviation : 3.6.2.1 Neyman’s type A distribution : 6.5.3.2
Mean di↵erence : 3.6.6.1 Nominal data : 2.4.1.3
Mean vector : 4.11.1.2 Non-central chi-square distribution :
Measure of dispersion : 3.4.1 6.10.3.1
Measure of kurtosis : 3.4.1 Non-central distribution : 6.10.3.1
Measure of location : 3.4.1 Non-central F -distribution : 6.10.3.2
Measure of skewness : 3.4.1 Non-central moment : 3.7.1.1
Measurement : 2.4.1.2 Non-central t-distribution : 6.10.3.3
Median : 3.5.4.1 Non-centrality : 6.10.3.1
Meta-analysis : 10.3.5.5 Non-linear correlation coefficient : 4.6.3.5
Method of moments : 9.3.3.2 Non-linear regression : 4.10.1
Mid-range : 9.2.1.4 Non-null hypothesis : 10.3.1.1
Minimum chi-square method : 9.3.3.2 Non-parametric method : 9.3.4.1
Minimum variance estimator : 9.3.1.4 Non-response : 2.2.3.3
Mitscherlich’s law : 4.10.2.3 Normal distribution : 6.6.2.1
Mixture : 6.10.4.3 Normal equation : 4.7.2.2
Mode : 3.5.6 Null hypothesis : 10.3.1.1
Numerical classification : 4.11.2
Modelling : 1.2.3.3
Moment : 3.7.1.1 O
Moment generating function : 5.9.1.1 Observational study : 2.1.2
Monte-Carlo method : 8.4.2.1 One-dimensional statistics : 3.1.1
Moving average : 4.10.2.6 One-sided confidence interval : 9.4.3.6
Multidimensional statistics : 3.1.1 One-sided test : 10.3.3.6
Multimodal distribution : 3.5.6 Open-ended class : 3.2.3.2
Multinomial distribution : 6.2.3 Operational research : 1.2.2.2
Multiple comparisons : 10.3.5.5 Operations research : 1.2.2.2
Multiple correlation coefficient : 4.11.2 Ordinal data : 2.4.1.3
Multiple endpoints : 10.3.4.5 Organic correlation line : 4.8.1.4
Multiple regression : 4.11.2 Orthogonal regression line : 4.8.1.4
Multiplication theorem : 5.4.1.2 Overdispersed distribution : 6.5.3.4
Multiplicative congruential method : Overdispersion : 6.5.3.4
8.2.3.1 P
Multiplicative method : 8.2.3.1
Paasche’s index : 3.10.2.2
Multi-stage sampling : 2.2.4.4
Paired samples t-test : 10.3.3.2
Multivariate analysis : 1.2.3.3
Parabolic regression : 4.10.2.5
Multivariate analysis of variance : 4.11.2
Pareto’s distribution : 8.3.4.3
Multivariate statistics : 3.1.1
Partial correlation coefficient : 4.11.2
Mutually exclusive events : 5.3.1.3
Pascal’s distribution : 6.5.2.1
Pearson’s coefficient : 3.7.2 Product-moment correlation coefficient :

Pearson’s correlation coefficient : 4.6.1.1
4.6.1.1 Proportional frequency : 3.2.2.3
Pearson’s distribution : 6.8.1.1 Prospective power : 10.4.3.7
Pearson’s system : 6.10.5.2 Pseudo-random number : 8.2.3.1
Percentage point : 5.8.1.4 Pseudo-value : 9.3.4.3
Percentage standard deviation : 3.6.1.2 Psychometrics : 1.2.2.2
Percentile : 3.6.4.5 Psychometry : 1.2.2.2
Permutation test : 10.3.4.2 P -value : 10.3.2.2
Phi-coefficient : 4.6.3.3 Q
Piecewise regression : 4.10.2.6 Quadratic mean : 3.5.3.2
Pie-chart : 3.3.4.3 Quadratic regression : 4.10.3.2
Pilot survey : 2.2.3.3 Qualitative data : 2.4.1.3
Pitman’s efficiency : 10.4.3.4 Quality control : 1.2.2.2
Planning : 2.2.1.3 Quantile : 3.6.4.5
Planning of experiment : 2.3.1.2 Quantitative data : 2.4.1.2
Platykurtic distribution : 6.6.1.3 Quantity index : 3.10.2.3
Point biserial correlation coefficient : Quartile : 3.6.4.1
4.6.3.2 Quartile deviation : 3.6.4.3
Point estimation : 9.4.1.1 Quota : 2.2.4.5
Poisson-Pascal’s distribution : 6.5.3.3 R
Poisson-Poisson’s distribution : 6.5.3.2
Random error : 2.2.4.7
Poisson’s binomial distribution : 6.5.3.3
Random event : 5.2.1.1
Poisson’s distribution : 6.4.1.1
Random experiment : 5.2.1.1
Poisson’s process : 6.4.1.5 Random number : 8.2.2.2
Polynomial regression : 4.10.2.5 Random trial : 5.2.1.1
Population : 2.2.1.1 Random variable : 5.5.1.1
Posterior probability : 5.4.3 Randomization test : 10.3.4.2
Power : 10.4.1 Randomized complete block : 2.3.5.2
Power function : 10.4.1 Range : 3.6.5.1
Price index : 3.10.2.1 Rank : 2.4.1.4
Principal axis : 4.8.1.4 Rectangular distribution : ex. 5.5.4
Principal component analysis : 4.11.2 Reduced residual : 4.7.4.5
Prior probability : 5.4.3 Reduced variable : 5.8.3.1
Probability : 5.2.1.1 Regression coefficient : 4.7.2.3
Probability density function : 5.5.2.1 Regression curve : 4.10.1
Probability distribution : 5.5.1.2 Regression (straight) line : 4.7.2.1
Probability element : 5.5.2.2 Rejection region : 10.3.1.2
Probability law : 5.5.1.2 Relative efficiency : 9.3.1.4
Probability surface : 7.4.1.2 Relative frequency : 3.2.2.3
Probable error : 3.6.3 Replication : 2.3.4.2
Probit : 4.10.2.6 Rerandomization test : 10.3.4.2
Resampling : 1.2.3.3 Single-tailed test : 10.3.3.6

Residual : 4.7.3.1 Skew distribution : 3.3.3
Residual standard deviation : 4.7.4.4 Snedecor’s distribution : 6.9.1.1
Residual sum of squares of deviates : Spearman’s rank correlation coefficient :
4.9.1.4 4.6.3.4
Residual variance : 4.7.4.1 Spearman’s ⇢ : 4.6.3.4
Restricted maximum likelihood : 9.3.3.3 Split-plot : 2.3.5.3
Retrospective power : 10.4.3.7 Standard deviation : 3.6.1.2
Reversibility : 3.10.3.1 Standard error : 8.3.1.2
Robust estimator : 9.3.1.6 Standard error method : 9.4.3.1
Robust method : 1.2.3.3 Standardized residual : 4.7.4.5
Robustness : 9.3.1.6 Standardized variable : 5.8.3.1
Rounding error : 3.9.1.3 Statistic : 1.1
S Statistical regularity : 5.2.2.1
Statistics : 1.1
Sample : 2.2.1.2
Stem-and-leaf diagram : 3.3.4.1
Sample size : 2.2.5.1
Stereogram : 4.3.2.1
Sample survey : 2.2.1.2
Stochastic convergence : 8.5.1
Sampling : 2.2.1.2
Stochastically dependent : 5.4.2.3
Sampling distribution : 8.3.1.2
Stochastically independent : 5.4.2.1
Sampling fraction : 2.2.5.1
Stratified sampling : 2.2.4.3
Sampling frame : 2.2.4.6
Stratum : 2.2.4.3
Scatter diagram : 4.3.1.1
Student’s distribution : 6.7.1
Scatter plot : 4.3.1.1
Student’s t-test : 10.3.2.4
Second kind error : 10.3.1.3
Sufficient estimator : 9.3.1.7
Second kind risk : 10.3.1.3
Sum of products of deviates : 4.9.1.2
Semi-interquartile range : 3.6.4.3
Sum of squares of deviates : 3.8.1.3
Sequential Bonferroni’s method :
10.3.5.3 Survey : 2.2.1.1
Sequential estimation : 9.4.4.4 Symmetrical distribution : 3.3.3
Sequential test : 10.3.4.4 System of distributions : 6.10.5.6
Sheppard’s correction : 3.6.1.6 System of frequency curves : 6.10.5.6
Shortest confidence interval : 9.4.3.6 Systematic error : 2.2.4.7
Sigmoid curve : 6.6.1.2 Systematic sampling : 2.2.4.2
Significance level : 10.3.1.1 T
Significance test : 10.2 t-distribution : 6.7.1
Significant : 10.3.1.4 Test of bioequivalence : 10.3.3.7
Significant point : 10.3.1.2 Test of conformity : 10.2
Simple index : 3.10.1.2 Test of equality : 10.2
Simple random sampling : 2.2.4.1 Test of equivalence : 10.3.3.7
Simulation : 1.2.3.3 Test of goodness of fit : 10.2
Simulation method : 8.4.2.1 Test of homogeneity : 10.2
Simultaneous tests : 10.3.5.2 Test of hypothesis : 10.2
Test of independence : 10.2 Unit bivariate normal distribution :

Test of non-inferiority : 10.3.3.7 7.4.1.1
Test of superiority : 10.3.3.7 Unit normal distribution : 6.6.1.1
Tetrachoric correlation coefficient : Univariate statistics : 3.1.1
ex. 7.4.4 Unrestricted random sampling : 2.2.4.1
Three sigma rule : 5.8.4.3 Upper critical value : 9.4.3.1
Time-series : 4.9.1.5 U-shaped distribution : 3.3.3
Trial : 2.3.1.1 V
Trimmed mean : 9.2.1.4 Validation : 4.10.1
Truncated distribution : 6.10.4.2 Value index : 3.10.2.4
t-test : 10.3.2.4 Variance : 3.6.1.1
Two-dimensional statistics : 3.1.1 Variance-covariance matrix : 4.11.1.2
Two-sided test : 10.3.3.6 Variance-ratio distribution : 6.9.1.1
Two-stage sampling : 2.2.4.4 Variate : 5.5.1.1
Two-way table : 4.2.2.1 Very highly significant : 10.3.1.4
U W
Unbiased estimator : 9.3.1.2 Weak law of large numbers : 8.5.1
Unbiased minimum variance estimator : Weibull’s distribution : 8.3.4.3
9.3.1.4 Weight : 3.5.1.3
Uncontrolled observational study : 2.1.2 Weighted average : 3.5.1.3
Underdispersed distribution : 6.5.3.4 Weighted mean : 3.5.1.3
Underdispersion : 6.5.3.4 Weighted regression : 4.7.6.1
Uniformly most powerful test : 10.4.3.5 Welch’s test : 10.3.3.2
Unimodal distribution : 3.5.6 Wilcoxon’s test : 10.3.3.2
Unit : 2.2.1.1 Without replacement : 8.2.2.3
Index des matières
Les numéros renvoient aux paragraphes et aux exemples (ex.).
A Aléatoire (nombre —) : 8.2.2.2

A posteriori (probabilité —) : 5.4.3 Aléatoire (variable —) : 5.5.1.1 , 5.5.2.1 ,
A posteriori (puissance —) : 10.4.3.7 5.5.3.1
A priori (probabilité —) : 5.4.3 Allométrie (coefficient d’— et relation
d’—) : 4.10.2.4 , ex. 4.10.1
A priori (puissance —) : 10.4.3.7
Alternative (hypothèse —) : 10.3.1.1
Absolue (fréquence —) : 3.2.2.1
Alternative (variable — et variable aléa-
Acceptation (domaine d’— ou région
toire —) : voir binaire (variable — et
d’—) : 10.3.1.2
variable aléatoire —)
Achenwall (Gottfried —) : 1.2.1.1
Alternative répétée (loi d’—) : voir bino-
Addition de variables aléatoires : voir som- miale (distribution —, loi — et variable
me de variables aléatoires —)
Additivité (axiome d’— et propriété Amplitude : 3.6.5, 3.6.7.1 , 5.8.1.2 , 8.3.5
d’—) : 5.3.1.3 , 5.3.2.1 Amplitude (d’une classe) : voir intervalle
Adéquation (test d’—) : 10.2 (d’une classe)
Agrégative (distribution —) : 6.5.3 Analyse à plusieurs variables : 1.2.3.3 ,
Ajustement (d’une courbe de régression) : 4.11.2
4.10.1, 4.10.3 Aplatissement (coefficient d’— ou paramè-
Ajustement (test d’—) : 10.2 tre d’—) : 3.4.1 , 5.8.5, 6.6.1.3
Aléatoire (bloc — complet) : 2.3.5.2 Approchée (valeur —) : 3.2.4, 3.9.1.4
Aléatoire (échantillonnage —) : 2.2.4.1 , Approximation (erreur d’—) : 3.9.1.3
8.2.2.1 Arithmétique (moyenne —) : voir moyen-
Aléatoire (échantillonnage complètement ne arithmétique
—) : 2.2.4.1 , 8.2.2.1 Arithmétique (politique) : 1.2.1.1
Aléatoire (erreur —) : 2.2.4.7 , 9.3.1.3 Arrondissage (erreur d’—) : 3.9.1.3
Aléatoire (événement —) : 5.2.1.1 Arrêt (points d’— multiples) : 10.3.4.5
Aléatoire (expérience —) : 5.2.1.1 Association (coefficient d’—) : 4.6.3.6
Aléatoire (expérience complètement —) : Association (tableau d’—) : 4.6.3.6
2.3.5.1 Asymétrie : voir dissymétrie
Aléatoire (fluctuation —) : voir aléatoire Asymptotique (efficacité —) : 9.3.1,
(erreur —) 10.4.3.3
504 INDEX DES MATIÈRES
Asymptotiquement efficace : 9.3.1, Binomiale généralisée (distribution —) :

10.4.3.3 voir polynomiale (distribution — et loi
Asymptotiquement normal : 6.6.5 —)
Attendue (valeur —) : voir espérance ma- Binomiale négative (distribution —) :
thématique 6.5.2.6 , 6.5.3.3 , 6.10.2.2
Attribut : voir qualitative (donnée — ou Bioéquivalence (test de —) : 10.3.3.7
observation —) Bioinformatique : 1.2.4.2
Autocatalytique (fonction —) : voir logis-
Biométrie : 1.2.2.2
tique (fonction —)
Biostatistique : 1.2.3.4
Autocomparaison (test d’—) : 10.3.4.2
Autorégressif (modèle —) : 4.10.2.6 Bisérial (coefficient de corrélation —) :
Axe majeur : voir moindres rectangles 4.6.3.2
(droite des —) Bloc (aléatoire complet) : 2.3.5.2
Axe principal : 4.8.2.3 , 4.11.2 Bloc (incomplet) : 2.3.5.3
Axe principal réduit : voir moindres rec- Boı̂te (de dispersion ou — à moustaches) :
tangles (droite des —) voir boxplot
B Bonferroni (méthode de —) : 10.3.5.2
Babbage (Charles —) : 1.2.1.2 Bootstrap : 8.4.2.2 , 9.4.4.2 , 10.3.4.2
Bahadur (efficacité de —) : 10.4.3.4 Boxplot : 3.3.4.2 , 3.6.4.4 , 4.3.1.2
Bartlett (correction de —) : 10.3.4.1 Bravais-Pearson (coefficient de corréla-
Base (changement de —) : 3.10.3.2 tion de —) : voir corrélation (coeffi-
Base (d’échantillonnage) : 2.2.4.6 cient de —)
Base (de données) : 1.2.4.1 C
Base (période de —) : 3.10.1.2
Calcul (numérique) : 3.4.2 , 3.9.1, 3.9.2,
Base (unité de —) : 2.2.1.1 , 2.2.2
3.9.3
Bâtons (diagramme en —) : 3.3.1, 4.3.2.1
Calibrage : 4.7.6.2
Bayes (théorème de —) : 5.4.3
Bayesienne (méthode —) : 1.2.3.3 , 9.3.5, Camembert (diagramme en —) : 3.3.4.3
9.4.4.3 , 10.3.4.3 Caractéristique (fonction —) : 5.9.2.2
Bernoulli (Daniel —) : 1.2.1.1 Carré latin : 2.3.5.3
Bernoulli (schéma de —) : 6.2.1.1 Catégorie (d’une distribution de fréquen-
Bernoulli (théorème de —) : 8.5.2 ces) : voir classe (d’une distribution de
Bêta (distribution —) : 6.10.5.5 fréquences)
Biais : 9.3.1.2 Censurée (distribution —) : 6.10.4.2
Biaisé : 9.3.1.2 Centile : 3.6.4.5 , 5.8.1.2
Biaisé (test non —) : 10.4.3.6 Central (théorème — limite) : 6.6.5,
Bibliographie : 1.4.1 6.6.6.4
Bienaymé-Tchebychev (inégalité de Centrale (distribution non —) : 6.10.3
—) : 5.8.4
Centrale (valeur —) : 3.4.1
Bilatéral (test —) : 10.3.3.6
Centré (moment — et non —) : voir mo-
Binaire (variable —) : 2.4.1.3
ment
Binaire (variable aléatoire —) : ex. 5.5.2,
ex. 5.8.1, 6.10.1.2 Certain (événement —) : 5.3.1.2
Binomiale (distribution —, loi — et va- Chaı̂ne (de rapports et indice en —) :
riable —) : 6.2.1, 6.2.2, 6.3.1.2 , 6.4.1, 3.10.3.3
6.6.4 Chronique : voir chronologique (série —)
INDEX DES MATIÈRES 505
Chronologique (série —) : 4.9.1.5 , Consistant (estimateur — et test —) :

4.10.2.6 9.3.1.7 , 10.4.3.6
Circulaire (diagramme —) : 3.3.4.3 Contagieuse (distribution —) : 6.5.3
Circulaire (donnée —) : 2.4.1.5 Contingence (tableau de —) : 4.6.3.6
Circularité (d’un nombre-indice) : Continue (distribution théorique — et va-
3.10.3.1 riable aléatoire —) : 5.5.2, 5.5.4
Classe (d’une distribution de fréquences) : Continue (donnée — et variable observée
3.2.3.1 , 4.2.2.3 —) : 2.4.1.2
Classification (numérique) : 4.11.2 Continuité (correction de —) : 6.6.4.3
Cloche (distribution en —) : 3.3.3 Contradictoire (événement —) : 5.3.2.2
Collecte (des données) : 1.3.1.1 , 2.2.3.3 , Contraire (événement —) : 5.3.2.2
2.4.2 Convergence (stochastique) : 8.5.1
Combinaison de tests : 10.3.5.4 Convergent (estimateur —) : voir consis-
Compartiments (modèle à —) : 4.10.2.6 tant (estimateur — et test —)
Complémentaire (événement —) : 5.3.2.2 Correct (estimateur absolument —) : voir
biais
Complète (enquête —) : 2.2.1.2
Correctif (terme —) : 3.8.1.3
Composantes (analyse des — ou analyse
en — principales) : 4.11.2 Corrélation (coefficient de —) : 4.6.1,
4.6.2, 4.6.3, 4.9.1.3 , 7.3.2
Composé (indice —) : 3.10.1.2
Corrélation (matrice de —) : 4.11.1.3
Composée (distribution —) : 6.5.3.3
Corrélation (rapport de —) : 4.6.3.5
Comptage : 2.4.1.2
Corrélation non linéaire (coefficient de
Concentration (coefficient de —) : 3.6.6,
—) : 4.6.3.5
3.6.7.2 , 5.8.1.2
Corrélation totale (coefficient de —) : voir
Concentration (courbe de — et diagramme corrélation (coefficient de —)
de —) : 3.6.6.3
Correspondances (analyse des — ou ana-
Concentration (ellipse de —) : 7.4.1.3 lyse factorielle des —) : 4.11.2
Condition d’application : 9.4.3.2 , Covariance : 4.5.1.2 , 4.5.2, 4.9.1.3 , 7.3.2
10.3.3.2
Covariance (analyse de la —) : 1.2.2.2
Conditionnelle (densité de probabilité
Covariance (matrice de —) : 4.11.1.2
—) : 7.2.1.3
Critique (région — et valeur —) : 10.3.1.2
Conditionnelle (distribution —) : 4.2.3.2 ,
Croissance (courbe de —) : 4.10.2
7.2.1
Cubique (moyenne —) : 3.5.3, 3.5.7.2 ,
Conditionnelle (fréquence —) : 4.2.3.2 ,
5.8.1.1
5.4.1.1
Cumulant : 5.9.2.1
Conditionnelle (moyenne —) : 4.4.2 , 7.3.1
Cumulative (fonction — de fréquences) :
Conditionnelle (probabilité —) : 5.4.1.2 ,
3.3.2.3 , 4.2.2.4
7.2.1.2
Cumulée (fréquence —) : 3.2.2.4 , 4.2.2.4
Conditionnelle (variance —) : 4.4.2 , 7.3.1
Curtosis : 6.6.1.3
Confiance (coefficient de —, intervalle de
Curvilinéaire (régression —) : 4.10.1
— et limite de —) : 9.4.1, 9.4.3,
10.3.3.5 D
Conformité (test de —) : 10.2 Date (d’observation) : 2.2.3.2
Congruentielle (méthode multiplicative Décentrage (coefficient de —) : 6.10.3.1
—) : 8.2.3.1 Décile : 3.6.4.5 , 5.8.1.2
Conservateur (test —) : 10.3.3.8 Décision (théorie de la —) : 10.3.4.3
Degrés (échantillonnage à deux ou plu- Dissymétrie (paramètre de —) : 3.4.1 ,

sieurs —) : 2.2.4.4 3.7.1.3 , 3.7.2, 5.8.1.3 , 5.8.5
Degrés de liberté (nombre de —) : 6.7.1 , Dissymétrique (distribution —) : 3.3.3,
6.8.1.1 , 6.9.1.1 3.7.1.3 , 5.8.5.1
Délimitation (d’une enquête) : 2.2.2 Distribution (fonction de —) : voir répar-
Dénombrement : 2.4.1.2 tition (fonction de —)
Densité de fréquence : voir unitaire (fré- Distribution (observée) : voir fréquences
quence —) (distribution de —)
Densité de probabilité (fonction de —) : Distribution (théorique) : 5.5.1, 5.5.2,
5.5.2.1 , 5.5.4.1 5.5.3, 5.5.4, 6.1, 7.1
Divisée (parcelle —) : 2.3.5.3
Dépendant en probabilité : voir indépen-
dance (stochastique) Documentation (complémentaire) : 1.4.1,
1.4.2
Dépendante (variable —) : 4.7.1
Dominante (valeur —) : voir mode
Dépenses (indice de —) : 3.10.2.4
Données (analyse des —) : 1.2.3.3
Descriptive (statistique —) : 1.3.1.1 , 3.1,
Données (matrice des —) : 4.11.1.1
4.1, 4.11
Dotplot : 3.3.4.1
Détermination (coefficient de —) :
Droite (dissymétrie —) : voir dissymétrie
4.6.1.5 , 4.7.4.3
(d’une distribution)
Déviation standard : voir écart-type
E
Diagonale (droite de régression —) : voir
moindres rectangles (droite des —) Écarts (somme des carrés des —) : 3.8.1.3
Diagramme : 3.3.1, 3.3.2, 3.3.4, 4.3.1, 4.3.2 Écarts (somme des produits des —) :
Dictionnaires (de statistique) : 1.4.1.1 4.9.1.2
Écart-type (définition, propriétés, calcul) :
Di↵érence de variables aléatoires : 5.7.2.2 ,
3.6.1, 3.6.7.1 , 3.8.1, 5.8.1.2
5.8.2.1 , 5.8.3.3 , 7.3.5.3
Écart-type (distribution d’échantillonna-
Di↵érence moyenne : 3.6.6, 3.6.7.2 ,
ge) : ex. 8.4.1, 8.4.3.2
5.8.1.2
Écart-type (estimation) : 9.2.2
Dimension(s) (statistique à une —, à deux
Échantillon : 2.2.1.2 , 8.2.1
— et à plusieurs —) : 3.1.1
Échantillonnage : 2.2.1.2 , 2.2.4, 8.2.2,
Directionnelle (donnée —) : 2.4.1.5
8.2.3
Discontinue (distribution théorique — et
Échantillonnage (distribution d’—) : 8.4.1,
variable aléatoire —) : 5.5.1, 5.5.3
8.4.2, 8.4.3
Discontinue (donnée — et variable obser- Échantillonnage (enquête par —) :
vée —) : 2.4.1.2 2.2.1.2 , 2.2.4
Discrète : voir discontinue Échantillonnée (distribution —) : voir
Discriminante (analyse —) : 4.11.2 échantillonnage (distribution d’—)
Dispersion (boı̂te de —) : voir boxplot Échantillonnée (fraction —) : 2.2.5.1
Dispersion (diagramme de —) : 4.3.1.1 , Échelle (d’un diagramme) : 3.3.1.2 ,
4.3.2.2 3.3.2.2 , 3.3.4.4
Dispersion (matrice de —) : 4.11.1.2 Économétrie : 1.2.2.2
Dispersion (paramètre de —) : 3.4.1 , E↵ectif : 2.2.5, 3.2.1
3.7.1.3 , 5.8.1.2 Efficace (estimateur —) : 9.3.1.4
Dispositif (expérimental) : 2.3.5 Efficacité : 9.3.1, 10.4.3.3
Dissymétrie (d’une distribution) : 3.3.3, Égalité (test d’—) : 10.2
3.7.1.3 , 5.8.5.1 Élaguée (moyenne —) : 9.2.1.4 , 9.3.4.2
Élasticité : 4.10.2.4 Exponentielle (distribution — tronquée) :

Élément de probabilité : 5.5.2.2 , 5.5.4.1 6.10.4.2
Élémentaire (indice —) : 3.10.1.2 Exponentielle (famille —) : 6.10.5.6
Empirique (distribution —) : voir fréquen- Exponentielle (régression —) : 4.10.2.2 ,
ces (distribution de —) 4.10.3.1
Encyclopédies (de statistique) : 1.4.1.1 Extraction (des données) : 1.2.4.2
Enquête : 2.2.1 Extrême (valeur — d’une classe) : 3.2.3.1
Enquêteur : 2.2.3.3 Extrêmes (distribution d’échantillonnage
Enregistrement (des données) : 2.4.2 des valeurs —) : 8.3.4
Ensemble (statistique) : voir population
F
Entrepôt (de données) : 1.2.4.1
F (distribution —) : 6.9.1, 6.9.2, 6.10.1.3 ,
Équiprobable (écart —) : voir médian
6.10.2.2 , 6.10.5
(écart —)
Équivalence (test d’—) : 10.3.3.7 F (distribution — non centrale) : 6.10.3.2
Erreur (maximum ou marge d’—) : Facteur (d’une expérience) : 2.3.3
9.4.5.2 Factorielle (analyse —) : 4.11.2
Erreur de deuxième espèce : 10.3.1.3 , Factorielle (expérience —) : 2.3.3.2 ,
10.4.1 ex. 2.3.1
Erreur de première espèce : 10.3.1.3 Faux positif : 10.3.5.5
Erreur standard : 8.3.1.2 , 8.4.1.1 Fiduciaire (limite —) : 9.4.4.1
Erreur standard (méthode de l’—) : Fisher (coefficient de —) : 3.7.2, 5.8.1.3 ,
9.4.3.1 , 10.3.3.1 5.8.5
Erreur-type : voir erreur standard Fisher (Ronald Aylmer —) : 1.2.2.2
Espérance mathématique : 5.7.1, 5.7.2 Fisher (série logarithmique de —) : 6.5.1,
Essai : 2.3.1.1 6.5.3.3
Estimateur : 9.3.1.1 Fisher-Snedecor (distribution F de —) :
Estimation : 9.1, 9.3.1.1 voir F (distribution —)
Estimée (valeur — par régression) : Fonction caractéristique : 5.9.2.2
4.7.3.1 Fonction de densité de probabilité :
Étendue : voir amplitude 5.5.2.1 , 5.5.4.1
Événement (aléatoire) : 5.2.1.1 Fonction de distribution : voir fonction de
Exacte (décimale —) : 3.9.1.4 répartition
Exacte (valeur —) : 3.2.4, 3.9.1.4 Fonction de répartition : 5.5.1.2 , 5.5.3.2
Exactitude : voir biais Fonction de variable aléatoire : voir trans-
Excentricité (coefficient d’—) : 6.10.3.1 formation (de variable aléatoire)
Exclusifs (événements —) : 5.3.1.3 Fonction génératrice des cumulants :
Exhaustif (estimateur —) : 9.3.1.7 5.9.2.1
Exhaustive (enquête —) : 2.2.1.2 Fonction génératrice des moments : 5.9.1,
Expérience : 2.3.1 6.6.2.4
Expérience aléatoire : 5.2.1.1 Fouille (des données) : 1.2.4.2
Expérimentale (unité —) : 2.3.4.1 Fractile : voir quantile
Expérimentation : 2.3.1 Fraction (échantillonnée) : 2.2.5.1
Explicative (variable —) : 4.7.1
Fréquences (distribution de —) : 3.2.2,
Exponentielle (distribution —) : ex. 5.5.5, 3.2.3, 3.2.4, 4.2.2, 4.2.3
ex. 5.6.6, ex. 5.8.4, ex. 5.9.4, 6.4.1.5 ,
Fréquentiste (approche —) : 9.3.5.3
6.8.2.5 , 6.10.5.4
G Hypergéométrique généralisée (distribu-

Galton (Francis —) : 1.2.1.2 tion — et loi —) : 6.3.2
Gamma (distribution —) : 6.10.5.5 Hypernormale (distribution —) : 6.6.1.3
Gamma (fonction —) : 6.10.2 Hyponormale (distribution —) : 6.6.1.3
Gauche (dissymétrie —) : voir dissymétrie Hypothèse (test d’—) : 10.2
(d’une distribution) I
Gauss (distribution de —) : voir normale
i (distribution en —) : 3.3.3
(distribution — à une dimension)
Identification : 4.10.1, 4.10.2
Gauss (Karl Friedrich —) : 1.2.1.1
i.i.d. (variables —) : 5.6.1.3
Génératrice (fonction — des cumulants) :
5.9.2.1 Impartial : voir biais
Génératrice (fonction — des moments) : Impossible (événement —) : 5.3.2.3
5.9.1, 6.6.2.4 Incomplet (bloc —) : 2.3.5.3
Génomique : 1.2.4.2 Indépendance (stochastique) : 5.4.2, 5.6.1,
Géométrique (moyenne —) : 3.5.2, 3.5.3, 7.3.2.2
3.5.7.2 , 4.10.3.1 , 5.8.1.1 Indépendance (test d’—) : 10.2
Géométrique (série —) : 6.5.2.5 Indépendante (variable —) : 4.7.1
Gini (coefficient de —) : voir concentra- Indicatrice (ellipse —) : 7.4.1.3
tion (coefficient de —) Indicatrice (variable — et variable aléatoi-
Glissante (moyenne —) : 4.10.2.6 re —) : voir binaire (variable — et va-
Gosset (William Sealy —) : 1.2.2.2 riable aléatoire —)
Grands nombres (loi des —) : 8.5.1 Indice (nombre —) : 3.10.1, 3.10.2, 3.10.3
Graphique : voir diagramme Inexactitude : voir biais
Grappes (échantillonnage en —) : 2.2.4.4 Inférence (statistique) : 1.3.1.1 , 9.1, 10.1
Grossière (erreur —) : 3.9.1.2 Influence (fonction d’— et courbe d’—) :
Groupée (distribution —) : 3.2.3, 3.2.4, 9.3.1.6
4.2.2.3 Informatique : 1.2.3, 1.2.4
Groupée (distribution non —) : 3.2.2, Initiale (période —) : 3.10.1.2
3.2.4, 4.2.2 Intensité (d’échantillonnage) : 2.2.5.1
Gumbel (distribution de —) : 8.3.4.3 Interdépendantes (variables —) : 4.8.1.1
H Internet (documentation par —) : 1.4.2
Harmonique (moyenne —) : 3.5.3, 5.8.1.1 Interquartile (écart —) : 3.6.4.3 , 3.6.7.2 ,
Hasard (échantillonnage au —) : 2.2.4.1 5.8.1.2
Histogramme : 3.3.1 Intervalle (d’une classe) : 3.2.3.1 , 4.2.2.3
Histogramme (de fréquences cumulées) : Intervalle (estimation par —) : 9.4.1.1
3.3.2 Intervalle de confiance : 9.4.1, 9.4.3,
Historique : 1.2.1, 1.2.2, 1.2.3, 1.2.4 10.3.3.5
Hochberg (méthode de —) : 10.3.5.5 Intraclasse (coefficient de corrélation —) :
Holm (méthode de —) : 10.3.5.3 4.6.3.7
Holm-Bonferroni (méthode de —) : Inventaire : 2.2.1.1 , ex. 2.2.2
10.3.5.3 Isométrie : ex. 4.10.1
Homogénéité (test d’—) : 10.2 J
Homoscédasticité : 10.3.3.2
j (distribution en —) : 3.3.3
Hypergéométrique (distribution — et loi
Jackknife : 8.4.2.2 , 9.4.4.2 , 10.3.4.2
—) : 6.3.1, 6.10.1.2
K Longueur minimum (intervalle de confian-

Khi-carré (distribution —) : 6.8.1, 6.8.2, ce de —) : 9.4.3.6
6.9.2, 6.10.1, 6.10.2.2 , 6.10.5 Lorenz (courbe de — et diagramme de
Khi-carré (distribution — non centrale) : —) : 3.6.6.3
6.10.3.1 M
Khi-carré minimum (méthode du —) : Mann et Whitney (test de —) : 10.3.3.2
9.3.3.3 Marge d’erreur : 9.4.5.2
L Marginale (distribution —) : 4.2.3.1 ,
5.5.3.3 , 5.5.4.2 , 7.2.1
Laplace (Pierre Simon de —) : 1.2.1.1
Marginale (fréquence —) : 4.2.3.1
Laplace (théorème de —) : voir Moivre
Marginale (moyenne —) : 4.4.2 , 7.3.1
(théorème de —)
Marginale (variance —) : 4.4.2 , 7.3.1
Laplace-Gauss (distribution de —) : voir
Médiale : 3.5.5, 5.8.1.1
normale (distribution — à une dimen-
Médian (écart —) : 3.6.3, 5.8.1.2
sion)
Médian (point — d’une classe) : voir point
Laplace-Liapounov (théorème de —) :
central (d’une classe)
voir central (théorème — limite)
Médiane : 3.5.4, 3.5.7.1 , 5.8.1.1 , 8.3.3
Laspeyres (indice de —) : 3.10.2
Médiane (classe —) : 3.5.4.3
Latin (carré —) : 2.3.5.3
Mélange (de distributions) : 6.10.4.3
Leptocurtique (distribution —) : 6.6.1.3 Mensuration : 2.4.1.2
Liée : voir conditionnelle Mesure : 2.4.1.2
Limite (d’une classe) : 3.2.3.1 Méta-analyse : 10.3.5.5
Limite (théorème central —) : 6.6.5, Mid-range : 9.2.1.4
6.6.6.4 Mitscherlich (loi de —) : 4.10.2.3 ,
Lindeberg-Lévy (théorème de —) : 6.6.5 4.10.3.3
Linéaire (modèle — général) : 1.2.3.3 Mobile (moyenne —) : 4.10.2.6
Linéaire (modèle — généralisé) : 1.2.3.3 Modale (classe —) : 3.5.6
Linéaire (modèle — mixte) : 1.2.3.3 Modalité (d’un facteur) : 2.3.3.1
Linéaires (diagramme à échelles non —) : Mode : 3.5.6, 3.5.7.1 , 5.8.1.1
3.3.4.4 Modélisation : 1.2.3.3
Livres (de statistique) : 1.4.1.1 Module (d’une classe) : voir intervalle
(d’une classe)
Localement le plus puissant (test —) :
10.4.3.5 Moindres carrés (droite des —) : voir ré-
gression (coefficient de — et droite de
Logarithmico-normale (distribution —) :
—)
6.6.6
Moindres carrés (méthode des —) : 4.7.2,
Logarithmique (série — de Fisher) : 6.5.1, 9.3.3.3
6.5.3.3
Moindres rectangles (droite des —) : 4.8.1,
Logiciels (statistiques) : (( Mode d’emploi )) 4.8.2, 4.9.1.3
Logistique (fonction —) : 4.10.2.3 , Moivre (Abraham de —) : 1.2.1.1
4.10.3.3 Moivre (théorème de —) : 6.6.4, 6.6.5
Logistique (régression —) : 4.10.2.6 Moment : 3.7.1, 3.8.1.6 , 4.5.1.1 , 5.8.1.3 ,
Logit : 4.10.2.6 5.9.1, 7.3.2.1 , 8.4.1.3
Log-normale (distribution —) : 6.6.6 Moments (méthode des —) : 9.3.3.2
Loi (de probabilité) : voir distribution Monte-Carlo (méthode de —) : 8.4.2.1
(théorique) Moustaches (boı̂te à —) : voir boxplot
Moyen (écart — absolu) : 3.6.2, 3.6.7.1 , Non-infériorité (test de —) : 10.3.3.7

5.8.1.2 Non-réponse : 2.2.3.3 , 2.2.5.7
Moyenne : voir moyenne arithmétique Normale (distribution — à deux dimen-
Moyenne arithmétique (définition, pro- sions) : 7.4.1, 7.4.2, 7.4.3
priétés, calcul) : 3.5.1, 3.5.3, 3.5.7.1 , Normale (distribution — à une dimen-
3.8.1, 5.8.1.1 , 5.8.2, 7.3.5 sion) : 6.6.1, 6.6.2, 6.6.3, 6.6.4, 6.6.5,
Moyenne arithmétique (distribution 6.8.2, 6.9.2.3 , 6.10.1, 6.10.5
d’échantillonnage) : 8.3.1, 8.3.2, Normale (équation —) : 4.7.2.2 , 4.10.3
8.4.3.2 Normalité asymptotique : 6.6.5
Moyenne arithmétique (estimation) :
Normé (histogramme —) : 3.3.1.2
9.2.1, 9.3.1.2 , ex. 9.3.1, ex. 9.3.5,
Normé (stéréogramme —) : 4.3.2.1
ex. 9.3.7
Moyenne arithmétique (intervalle de con- Nuage (de points) : voir dispersion (dia-
fiance) : 9.4.2 gramme de —)
Moyenne arithmétique (test d’égalité) : Nulle (hypothèse —) : 10.3.1.1
10.3.2, 10.4.2 O
Moyenne (valeur —) : 3.4.1 , 5.7.1.1 Objet (d’une expérience) : 2.3.3.2
Moyennes (vecteur de —) : 4.11.1.2 Obliquité (d’une distribution) : voir dissy-
Multidimensionnelle (analyse —) : métrie (d’une distribution)
1.2.3.3 , 4.11.2 Observation : 2.2.3
Multiple (coefficient de corrélation —) : Observation (étude par —) : 2.1.2
4.11.2
Observée (distribution —) : voir fréquen-
Multiple (régression —) : 4.11.2 ces (distribution de —)
Multiples (comparaisons —) : 10.3.5.5 Opérationnelle (recherche —) : 1.2.2.2
Multiples (tests —) : 10.3.5
Opposé (événement —) : 5.3.2.2
Multiplicative (méthode — congruen-
Opposée (hypothèse —) : 10.3.1.1
tielle) : 8.2.3.1
Ordinale (variable —) : 2.4.1.3
Multiplicativité (propriété de —) : 5.4.1.2
Ordinateur : 1.2.3, 1.2.4, 2.4.2.3
Mutuellement exclusifs (événements —) :
5.3.1.3 Organique (droite de corrélation —) : voir
moindres rectangles (droite des —)
N
Origine (régression par l’—) : 4.7.6
Néo-bayesienne (méthode —) : voir Orthogonale (droite de régression —) :
bayesienne (méthode —) voir moindres rectangles (droite des
Neurones (réseau de —) : 1.2.4.2 —)
Neyman type A (distribution de —) : Ouverte (classe —) : 3.2.3.2
6.5.3
Niveau (d’un facteur) : 2.3.3 P
Niveau de signification : 10.3.1.1 Paasche (indice de —) : 3.10.2
Niveaux (échantillonnage à deux ou plu- Paires (test t par —) : 10.3.3.2
sieurs —) : 2.2.4.4 Parabolique (régression —) : 4.10.2.5 ,
Nombre d’observations : 9.4.5, 10.4.4 4.10.3.2
Nombre-indice : 3.10.1, 3.10.2, 3.10.3 Paramètre : 3.1.2 , 3.4, 4.4, 5.8.1
Nominale (variable —) : 2.4.1.3 Paramétrique (méthode non — et test non
Non-centrale (distribution —) : 6.10.3 —) : 9.3.4.1 , 10.3.3.2
Non-centralité (coefficient de —) : Parcelle divisée : 2.3.5.3
6.10.3.1 Pareto (distribution de —) : 8.3.4.3
Partielle (coefficient de corrélation —) : Pondérée (moyenne —) : 3.5.1.3

4.11.2 Pondérée (régression —) : 4.7.6
Partielle (enquête —) : voir échantillonna- Population : 2.2.1.1 , 2.2.2, 2.3.2.1 , 8.2.1
ge (enquête par —) Population-parent : voir population
Pascal (Blaise —) : 1.2.1.1 Position (paramètre de —) : 3.4.1
Pascal (distribution de —) : 6.5.2, Précision : 9.3.1.3
6.5.3.3 Pré-enquête : 2.2.3.3
Pearson (coefficient de —) : 3.7.2,
Presque certain (événement —) : 5.3.1.2
5.8.1.3 , 5.8.5
Presque impossible (événement —) :
Pearson (distribution 2 de —) : voir
5.3.2.3
khi-carré (distribution —)
Prix (indice de —) : 3.10.2
Pearson (Karl —) : 1.2.2.2
Probabilité : 5.2.1, 5.2.2
Pearson (système de —) : 6.10.5
Probabilité (convergence en —) : 8.5.1
Percentile : voir centile
Probabilité (distribution de — et loi de
Période (d’observation) : 2.2.3.2
—) : voir distribution (théorique)
Permutation (test de —) : 10.3.4.2
Probabilité composée (propriété de la —) :
Pilote (enquête —) : 2.2.3.3
5.4.1.2
Pitman (efficacité de —) : 10.4.3.4
Probabilité totale (axiome de la — et pro-
Plan (d’expérience) : 2.3.1.2 priété de la —) : voir additivité (axio-
Planification (d’une enquête) : 2.2.1.3 me d’— et propriété d’—)
Platycurtique (distribution —) : 6.6.1.3 Probabilités (calcul des —) : 1.2.1.1
Plurimodale (distribution —) : 3.5.6 Probable (écart —) : voir médian (écart
Poids : 3.5.1.3 , 4.7.6.1 —)
Point (coefficient de corrélation de —) : Probit : 4.10.2.6
4.6.3.3 Produit de variables aléatoires : 5.7.2.3 ,
Point (estimation de —) : 9.4.1.1 5.8.2.1 , 5.8.3.4 , 7.3.5.1
Point central (d’une classe) : 3.2.3.1 , Progressif (test —) : 10.3.4.4
4.2.2.3 Progressive (estimation —) : 9.4.4.4
Poisson (distribution de — et théorème Proportion (distribution d’échantillonnage
de —) : 6.4.1, 6.4.2, 6.5.2.3 , ex. 6.6.7, d’une —) : ex. 8.3.4, ex 8.4.7
6.10.1.2
Proportion (estimation d’une —) :
Poisson (processus de —) : 6.4.1.5 ex. 9.3.4
Poisson (Siméon Denis —) : 1.2.1.1 Prospective (puissance —) : 10.4.3.7
Poisson-binomiale (distribution —) : Protocole (expérimental) : 2.3.1.2
6.5.3.3
Pseudo-aléatoire (nombre —) : 8.2.3
Poisson-Pascal (distribution —) :
Pseudo-valeur : 9.3.4.3
6.5.3.3
Psychométrie : 1.2.2.2
Polygone (de fréquences) : 3.3.1
Puissance (d’un test) : 10.4.1, 10.4.3
Polygone (de fréquences cumulées) : 3.3.2
Puissance (fonction —) : 4.10.2.4 ,
Polynomiale (distribution — et loi —) :
4.10.3.1
6.2.3, 6.3.2.2 , ex. 7.3.3
Puissance (fonction de —) : 10.4.1, 10.4.3
Polynomiale (régression —) : 4.10.2.5 ,
4.10.3.2 Q
Ponctuelle (estimation —) : 9.4.1.1 Quadratique (droite de régression en
Pondération (coefficient de —) : 3.5.1.3 , moyenne —) : voir régression (coeffi-
4.7.6.1 cient de — et droite de —)
Quadratique (écart — moyen) : voir écart- Référence (période de —) : 3.10.1.2

type Régression (coefficient de — et droite de
Quadratique (moyenne —) : 3.5.3, —) : 4.7.2, 4.7.5, 4.9.1.3 , 7.3.4.1
3.5.7.2 , 5.8.1.1 Régression (courbe de —) : 4.10.1
Quadratique (régression —) : 4.10.3.2 Régression (diagramme de —) : 4.7.1, 7.3.3
Qualitatif (facteur —) : 2.3.3.1 Régression (ligne de —) : 7.3.3.1
Qualitative (donnée — ou observation Régularité statistique : 5.2.2.1 , 8.5.2
—) : 2.2.3.1 , 2.4.1.3 Rejet (condition de —) : 10.3.1.4
Qualité (contrôle de la —) : 1.2.2.2 Rejet (domaine de — ou région de —) :
Quantile : 3.6.4.5 , 5.8.1.4 10.3.1.2
Quantitatif (facteur —) : 2.3.3.1 Relative (efficacité —) : 9.3.1.4 , 10.4.3.3
Quantitative (donnée — ou observation Relative (fréquence —) : 3.2.2.3 , 3.2.3.1 ,
—) : 2.2.3.1 , 2.4.1.2 4.2.2.4
Quantités (indice de —) : 3.10.2.3 Répartition (fonction de —) : 3.3.2.3 ,
Quartiers de tarte (diagramme en —) : 5.5.1.2 , 5.5.3.2
3.3.4.3 Répétition : 2.3.4.2
Quartile : 3.6.4, 5.8.1.2 Rerandomisation (test de —) : 10.3.4.2
Questionnaire : 2.2.3.3 Résidu (de la régression) : 4.7.3, 4.7.4.5 ,
Quetelet (Lambert Adolphe —) : 4.10.4, 7.3.4.2
1.2.1.2 Résiduel (écart-type —) : 4.7.4.4
Quotas (méthode des —) : 2.2.4.5 Résiduelle (somme des carrés des écarts
Quotient de variables aléatoires : 5.7.2.4 , —) : 4.9.1.4
5.8.2.3 , 5.8.3.5 , 7.3.5.2 Résiduelle (variance —) : 4.7.4, 4.9.1.3 ,
R 7.3.4
Rabotée (moyenne —) : 9.2.1.4 , 9.3.4.2 Rétrocumulée (fréquence —) : 3.2.2.4
Randomisation (test de —) : 10.3.4.2 Rétrospective (puissance —) : 10.4.3.7
Rang : 2.4.1.4 Réversibilité (d’un nombre-indice) :
3.10.3.1
Rang (coefficient de corrélation de —) :
4.6.3.4 Revues (de statistique) : 1.4.1.3 , 1.4.2.2
Rapports (de moyennes et moyennes de Risque de deuxième espèce : 10.3.1.3 ,
—) : 3.10.1.4 10.4.1
Recensement : 2.2.1.2 Risque de première espèce : 10.3.1.3
Rectangulaire (distribution —) : voir uni- Robuste (estimateur — et méthode
forme (distribution — continue à une —) : 1.2.3.3 , 9.3.1.6 , 9.3.4, 9.4.4.2 ,
dimension) 10.3.4.2
Redressement : 2.2.4.7 Robustesse : 9.3.1.6
Réduction (des données) : 3.1.2 , 3.4, 4.4 Rognée (moyenne —) : 9.2.1.4 , 9.3.4.2
Réduit (résidu —) : 4.7.4.5 S
Réduite (distribution normale — à deux Saisie (des données) : 2.4.2.1
dimensions) : 7.4.1, 7.4.2 Sécurité (coefficient de —, intervalle de —
Réduite (distribution normale — à une di- et limite de —) : voir confiance (coef-
mension) : voir normale (distribution ficient de —, intervalle de — et limite
— à une dimension) de —)
Réduite (variable —) : 4.8.2.3 , 5.8.3.1 Segmentée (régression —) : 4.10.2.6
Rééchantillonnage : 1.2.3.3 , 8.4.2.2 Semi-interquartile : 3.6.4.3 , 5.8.1.2
Sensibilité (aux erreurs importantes) : Stochastiquement certain (événement —) :

9.3.1.6 5.3.1.2
Séquentiel (test —) : 10.3.4.4 Stochastiquement dépendant : voir indé-
Séquentielle (estimation —) : 9.4.4.4 pendance (stochastique)
Série (statistique) : 3.2.1, 4.2.1 Stochastiquement impossible (événement
Sheppard (correction de —) : 3.6.1.6 , —) : 5.3.2.3
3.7.1.4 , 4.5.2.4 Stochastiquement indépendant : voir indé-
Sigmoı̈de (courbe —) : 6.6.1.2 pendance (stochastique)
Significatif : 10.3.1.4 Strate : 2.2.4.3
Significatif (chi↵re —) : 3.9.2 Stratifié (échantillonnage —) : 2.2.4.3
Significatif (hautement — et très haute- Student : 1.2.2.2
ment —) : 10.3.1.4 Student (distribution t de —) : voir t
Signification (niveau de —) : 10.3.1.1 (distribution —)
Signification (seuil de —) : 10.3.1.2 Student (test t de —) : 10.3.2.4
Signification (test de —) : 10.2 Suffisant (estimateur —) : 9.3.1.7
Simple (échantillonnage —) : 2.2.4.1 , Supériorité (test de —) : 10.3.3.7
8.2.2.1 Surdispersée (distribution —) : 6.5.3.4
Simple (indice —) : 3.10.1.2 Surdispersion : 6.5.3.4
Simulation : 1.2.3.3 , 8.4.2.1 Symétrie : voir dissymétrie
Simultanés (tests —) : 10.3.5 Symétrique (distribution —) : voir dissy-
Six sigma : 1.2.4.2 métrique (distribution —)
Snedecor (distribution F de —) : voir F Synthétique (indice —) : 3.10.1.2
(distribution —) Systématique (échantillonnage —) :
Somme de variables aléatoires : 5.6.3, 2.2.4.2
5.7.2.2 , 5.8.2.1 , 5.8.3.3 , 7.2.2.2 , Systématique (erreur —) : 2.2.4.7 ,
7.3.5.3 9.3.1.2
Sondage : voir échantillonnage Système (de distributions et — de Pear-
Sondée (fraction —) : 2.2.5.1 son) : 6.10.5
Sous-dispersée (distribution —) : 6.5.3.4 T
Sous-dispersion : 6.5.3.4 t (distribution —) : 6.7, 6.8.2.3 , 6.9.2.2 ,
Spearman (Charles Edward —) : 1.2.2.2 6.10.1, 6.10.2.2 , 6.10.5
Spearman (coefficient de corrélation de t (distribution — non centrale) : 6.10.3.3
—) : 4.6.3.4 t (test — de Student) : 10.3.2.4
Stabilité des fréquences : voir régularité t (test — par paires) : 10.3.3.2
statistique Tableau (à double entrée) : 4.2.2.1
Statistique (analyse —) : 1.3.1.1 Tables : 1.4.1.2 , 6.1.2
Statistique (définition) : 1.1 Taille : voir e↵ectif
Statistique (distribution —) : voir fré- Témoin : 2.3.3.2
quences (distribution de —) Test (d’hypothèse ou de signification) :
Statistique (unité —) : voir unité (de base) 10.2
Stem-and-leaf (diagramme —) : 3.3.4.1 Tétrachorique (coefficient de corrélation
Stéréogramme : 4.3.2.1 —) : ex. 7.4.4
Stochastique (convergence —) : 8.5.1 Tige et feuilles (diagramme en —) :
Stochastique (indépendance —) : 5.4.2, 3.3.4.1
5.6.1, 7.3.2.2 Totale : voir marginale
Totalement exclusifs (événements —) : V

5.3.2.2 Valeur P : 10.3.2.2 , 10.3.3.4
Traitement (des données) : 2.4.2.3 Valeurs (indice de —) : 3.10.2.4
Transférabilité (d’un nombre-indice) :
Validation : 4.10.1, 4.10.4
3.10.3.1
Variabilité (coefficient de —) : voir varia-
Transformation (de variable aléatoire) :
tion (coefficient de —)
5.6.2, 5.7.2.1 , 5.8.2, 5.8.3, 7.2.2.1
Transformation logarithmique : ex. 5.8.6, Variable (aléatoire) : 5.5.1.1 , 5.5.2.1 ,
ex. 5.8.9 5.5.3.1
Triangulaire (distribution —) : ex. 5.6.5, Variable (intervalle de classe —) : 3.2.3.2
ex. 5.9.3 Variable(s) (statistique à une, à deux et à
Trois sigma (règle des —) : 5.8.4.3 plusieurs —) : 3.1.1
Tronquée (distribution —) : 6.10.4.2 Variance (analyse de la —) : 1.2.2.2
Type (de distribution) : 3.3.3, 6.10.5 Variance (analyse de la — à plusieurs va-
Typique (valeur —) : voir paramètre riables) : 4.11.2
U Variance (définition, propriétés, calcul) :
3.6.1, 3.6.7.1 , 3.8.1, 5.8.1.2 , 5.8.3,
u (distribution en —) : 3.3.3
5.8.4, 7.3.5.3
Uniforme (carré d’une variable aléatoire —
Variance (distribution d’échantillonnage) :
continue à une dimension) : ex. 5.6.2,
8.3.2, 8.4.3.2
ex. 5.7.3, ex. 5.8.8
Variance (estimation) : 9.2.2, 9.3.1.2 ,
Uniforme (distribution — continue à deux
ex. 9.3.2, ex. 9.3.5, ex. 9.3.7
dimensions) : ex. 5.5.7
Uniforme (distribution — continue à Variance minimum (estimateur de —) :
une dimension) : ex. 5.5.4, ex. 5.6.5, 9.3.1.4
ex. 5.7.2, ex. 5.8.3, 6.10.1, 6.10.5.3 Variances (matrice de — et covariances) :
Uniforme (distribution — discontinue à 4.11.1.2
deux dimensions) : ex. 5.5.6 Variante (d’un facteur) : 2.3.3
Uniforme (distribution — discontinue à Variation (coefficient de —) : 3.6.1,
une dimension) : ex. 5.5.3, 6.8.2.4 , 3.6.7.1 , 5.8.1.2 , ex. 8.4.2
6.10.1.2 Vraisemblance (fonction de —) : 9.3.2.2 ,
Uniformément le plus puissant (test —) : 10.3.4.1
10.4.3.5 Vraisemblance (méthode du maximum de
Unilatéral (intervalle de confiance —) : —) : 9.3.2
9.4.3.6 Vraisemblance (méthode du maximum de
Unilatéral (test —) : 10.3.3.6 — restreint) : 9.3.3.3
Unimodale (distribution —) : 3.5.6 Vraisemblance (rapport de —) : 10.3.4.1
Unitaire (fréquence —) : 3.2.3.3 , 4.2.2.4
W
Unité (de base) : 2.2.1.1 , 2.2.2
Unité (de mesure) : 2.2.3.1 Weibull (distribution de —) : 8.3.4.3
Unité (expérimentale) : 2.3.4.1 Welch (test de —) : 10.3.3.2
Unité (statistique) : voir unité (de base) Wilcoxon (test de —) : 10.3.3.2
Univers : voir population Y
Usage intensif (de l’ordinateur) : 1.2.3.3
Yule (George Udny —) : 1.2.2.2
Index des symboles
Les principaux symboles utilisés dans le texte sont énumérés ici par ordre
alphabétique, d’abord pour l’alphabet latin, puis pour l’alphabet grec.
a : ordonnée à l’origine d’une droite de ré- e : base des logarithmes népériens

gression (valeur observée) em : écart moyen absolu (valeur observée)
ak : moment par rapport à l’origine (valeur E(X) : espérance mathématique
observée)
exp : exponentielle
AH0 : acceptation d’une hypothèse nulle
F : variable de Fisher-Snedecor
b , byx : coefficient de régression (valeur ob-
F↵/2 , F1 ↵ , F1 ↵/2 : valeur théorique
servée)
(quantile) d’une variable de Fisher-
b1 , b2 : coefficient de Pearson (valeur ob- Snedecor
servée)
f (x), f1 (x), f (x, y) : fonction de densité de
probabilité
c : coefficient d’une droite des moindres F (x), F1 (x), F (x, y) : fonction de réparti-
rectangles (valeur observée) tion
x
Cn : nombre de combinaisons f (x | y) : fonction de densité de probabilité
cov , cov(x, y), cov(X, Y ) : covariance (va- conditionnelle
leur observée ou théorique)
cv , cvx : coefficient de variation (valeur g : paramètre quelconque (valeur obser-
observée) vée)
Cv , CvX : variable aléatoire correspon- G : variable aléatoire correspondant au pa-
dant au coefficient de variation d’un ramètre g d’un échantillon
échantillon
g1 , g2 : coefficient de Fisher (valeur ob-
CV , CVX : coefficient de variation (valeur servée)
théorique)
H : hypothèse alternative
d : marge d’erreur
H0 : hypothèse nulle
di : résidu
d0i : résidu réduit k , k1 , k2 : paramètre, nombre de degrés
dr : marge d’erreur relative de liberté
516 INDEX DES SYMBOLES
log : logarithme s , sx : écart-type (valeur observée)

loge : logarithme népérien s2 , s2x : variance (valeur observée)
log10 : logarithme décimal S 2 : variable aléatoire correspondant à la
variance d’un échantillon
m , mX : moyenne arithmétique (valeur sy.x : écart-type résiduel (valeur observée)
théorique) s2y.x : variance résiduelle (valeur observée)
b ,m
m b X : moyenne arithmétique (valeur es- sy|i , sy|x : écart-type conditionnel (valeur
timée) observée)
m̃ , m̃X : médiane (valeur théorique) s2y|i , s2y|x : variance conditionnelle (valeur
mk , mkl : moment centré (valeur obser- observée)
vée) SCE , SCEx : somme des carrés des écarts
mX|y : moyenne conditionnelle (valeur SCEy.x : somme des carrés des écarts rési-
théorique) duelle
m11 : covariance (valeur observée) SPE , SPExy : somme des produits des
écarts
n , ni , nij : e↵ectif, fréquence absolue
N : e↵ectif d’une population finie t : variable de Student
n0i , n0ij : fréquence relative t1 ↵ , t1 ↵/2 : valeur théorique (quantile)
d’une variable de Student
n00i , n00ij : fréquence unitaire
ni. , n.j : fréquence marginale absolue
U , Ui : variable aléatoire réduite, variable
n0i. , n0.j : fréquence marginale relative normale réduite
n0i|j , n0j|i : fréquence conditionnelle rela- uobs : valeur observée de la variable nor-
tive male réduite
N 0 (x) : fonction cumulative de fréquences u1 ↵ , u1 ↵/2 : valeur théorique (quantile)
de la variable normale réduite
p : nombre de classes, proportion, paramè-
tre d’une distribution binomiale (va- var , var(x), var(X) : variance (valeur ob-
leur théorique) servée ou théorique)
pb : proportion, paramètre d’une distribu-
tion binomiale (valeur estimée) w : amplitude (valeur observée)
P(A), P(X = x), P(x), Px , P(x, y) : pro- W : variable aléatoire correspondant à
babilité l’amplitude d’un échantillon
P(A | B), P(x | y) : probabilité condition- wi : coefficient de pondération, poids
nelle
x , xi : valeur observée
q : nombre de classes (ou 1 p) X, Xi : variable aléatoire
q1 , q3 : quartile (valeur observée) x̄ : moyenne arithmétique (valeur ob-
servée)
r , rxy : coefficient de corrélation (valeur X̄ : variable aléatoire correspondant à la
observée) moyenne arithmétique d’un échantillon
r2 , rxy
2
: coefficient de détermination (va- x̃ : médiane (valeur observée)
leur observée) X̃ : variable aléatoire correspondant à la
rS : coefficient de corrélation de rang de médiane d’un échantillon
Spearman (valeur observée) x̄j , x̄y : moyenne conditionnelle (valeur
RH0 : rejet d’une hypothèse nulle observée)
INDEX DES SYMBOLES 517
y : voir x , X : écart-type, erreur standard (valeur

théorique)
↵ : ordonnée à l’origine d’une droite de ré- b : écart-type (valeur estimée)
gression (valeur théorique), niveau de 2 2
signification, risque de première espèce , X : variance (valeur théorique)
2
↵k : moment par rapport à l’origine (va- b : variance (valeur estimée)
leur théorique) Y.x : écart-type résiduel (valeur théori-
1 ↵ : degré de confiance que)
2
Y.x : variance résiduelle (valeur théori-
: risque de deuxième espèce que)
yx : coefficient de régression (valeur théo-
rique) Y |x : écart-type conditionnel (valeur
théorique)
1, 2 : coefficient de Pearson (valeur
2
théorique) Y |x : variance conditionnelle (valeur théo-
1 : puissance rique)
b
X
: paramètre quelconque (valeur théori- : symbole de sommation
que) i=a
b : paramètre quelconque (valeur estimée)

1 , 2 : coefficient de Fisher (valeur théo- : coefficient de corrélation de point (va-
rique) leur observée)
(u), (u, v) : fonction de densité de pro-
: di↵érence de moyennes babilité d’une distribution normale ré-
r : di↵érence relative de moyennes duite
x, xi : accroissement, intervalle de (u) : fonction de répartition de la distri-
classe bution normale réduite à une dimen-
sion
"m : écart moyen absolu (valeur théorique)
2
: variable de Pearson
µk , µkl : moment centré (valeur théorique)
2
µ11 : covariance (valeur théorique) obs : valeur observée d’une variable de
Pearson
2
⇢ , ⇢XY : coefficient de corrélation (valeur ↵/2 , 21 ↵ , 21 ↵/2 : valeur théorique
théorique) (quantile) d’une variable de Pearson
STATISTIQUE
STATISTIQUE
•DAGNELIE•
THÉORIQUE
ET APPLIQUÉE 1
THÉORIQUE
STATISTIQUE THéORIQUE ET APPLIQUéE

3e édition
ET APPLIQUÉE
La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).
Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.
} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.
www.deboeck.com
STTHAP1
ISBN 978-2-8041-7560-3
STTHAP1-cov.indd 1-3 6/12/12 13:38

Statistique Théorique Et Appliquée

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Théorique Et Appliquée

Transféré par

Droits d'auteur :

Formats disponibles

STATISTIQUE

STATISTIQUE THéORIQUE ET APPLIQUéE

STTHAP1-cov.indd 1-3 6/12/12 13:38

STTHAP1-PgeLim.indd 1 6/12/12 13:36

STTHAP1-PgeLim.indd 2 6/12/12 13:36

STTHAP1-PgeLim.indd 3 6/12/12 13:36

© De Boeck Supérieur s.a., 2013 3e édition

Tous droits réservés pour tous pays.

STTHAP1-PgeLim.indd 4 6/12/12 13:36

Le tome 1 constitue un exposé général, relativement élémentaire, de la théorie

Ce tome 1 commence par deux chapitres introductifs, relatifs à diverses notions

Les deux tomes de Statistique théorique et appliquée ont remplacé en 1998

Nous avons déjà eu l’occasion de témoigner précédemment notre gratitude aux

3.3 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.6 Quelques propriétés des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 206

8.3 Quelques distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

Solutions des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461

Les deux tomes de Statistique théorique et appliquée sont conçus de manière à

Utilisation comme manuel

Utilisation comme ouvrage de référence

d Comme ouvrage de référence, ce tome 1 de Statistique théorique et appliquée

Exécution des calculs, logiciels et tables

L’étude de ce tome 1 ne nécessite le plus souvent que des calculs numériques

Chapitre 1 Introduction générale

Blaise Pascal (1623-1662), Abraham de Moivre (1667-1754), Daniel Bernoulli

2 La statistique mathématique moderne peut être considérée comme née, au

1.2.2 La première moitié du vingtième siècle

2 Après les premières applications aux sciences politiques et sociales, réalisées

désigner l’utilisation des méthodes statistiques et mathématiques dans le domaine de la biologie,

1.2.3 La deuxième moitié du vingtième siècle

2 Schématiquement, on peut considérer que l’ordinateur a presque toujours été

3 L’analyse multidimensionnelle ou analyse statistique à plusieurs variables 11 ,

4 Parallèlement à ce développement important des méthodes statistiques, on

Informations complémentaires : en ce qui concerne l’influence de l’informatique sur la

11 En anglais : multivariate analysis.

1.2.4 Quelques tendances récentes et perspectives

1 L’informatique, qui a été un des principaux moteurs du développement de

Informations complémentaires : d’une manière générale, Hand [2009], Lindsay et al.

1.3 Cadre général

1.3.1 Les di↵érentes étapes de toute étude statistique

1 Toute étude statistique peut être décomposée en deux phases au moins :

1.3.2 Plan du tome 1

Au-delà de la présente introduction générale, la première partie de ce tome 1

préalable de notions de statistique descriptive permet, à ce stade, une présentation

1.4 Documentation complémentaire

et Kotz et al. [1997-1999].

D’autres recueils sont dus notamment à Hald [1952], Lindley et Scott

4 On remarquera ainsi, de façon flagrante, que la littérature de langue anglaise

Informations complémentaires : Murphy [1997], Theoharakis et Skordia [2003].

1.4.2 Documentation par internet

3 D’autre part, de nombreux portails donnent accès à des informations très

Mais on pourrait citer en outre <www.agro-montpellier.fr/cnam-lr/statnet>,

5 Nous tenons à souligner le fait que la bibliographie classique et la documen-

Informations complémentaires : Bringé et Le Guen [2002], Larreamendy-Joers et al.

La collecte des données

2 L’étude par enquête et l’expérimentation doivent normalement être organi-

Informations complémentaires : en ce qui concerne l’observation par enquête, Ardilly

2.2 L’étude par enquête

2 Quand toutes les unités de la population considérée sont e↵ectivement ob-

3 Les principaux problèmes qui se posent dans la préparation ou la planifi-

2.2.2 La définition de l’unité de base et de la population

2 Le premier exemple concerne la réalisation d’un recensement de population

Faut-il, dans ce cas, partir de la notion de famille ou de la notion de ménage ?

© De Boeck Supérieur s.a., 2013 3e édition