Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 82

STATISTIQUE

STATISTIQUE
•DAGNELIE•
THÉORIQUE
ET APPLIQUÉE 1
1. Statistique descriptive
et bases de l’inférence statistique
THÉORIQUE

STATISTIQUE THéORIQUE ET APPLIQUéE


3e édition

ET APPLIQUÉE
•pierre Dagnelie•

La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
1. Statistique descriptive
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
et bases de l’inférence statistique
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).

Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.

} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.

www.deboeck.com

STTHAP1
ISBN 978-2-8041-7560-3

STTHAP1-cov.indd 1-3 6/12/12 13:38


STATISTIQUE
THÉORIQUE
ET APPLIQUÉE
Tome 1

STTHAP1-PgeLim.indd 1 6/12/12 13:36


Chez le même éditeur

Extrait du catalogue

Mathématiques
Aslangul C., Des mathématiques pour les sciences.
Concepts, méthodes et techniques pour la modélisation
Bogaert P., Probabilités pour scientifiques et ingénieurs.
Introduction au calcul des probabilités
Cottet-Emard F., Analyse
Cottet-Emard F., Analyse 2. Calcul différentiel, intégrales multiples,
séries de Fourier
Cottet-Emard F., Calcul différentiel et intégral. Exercices et problèmes corrigés
Cottet-Emard F., Algèbre linéaire et bilinéaire
Dagnelie P., Statistique théorique et appliquée. Tome 2.
Inférence statistique à une et à deux dimensions
Dupont P., Exercices corrigés de mathématiques.
Tome 1 Algèbre et géométrie. 3e éd.
Dupont P., Exercices corrigés de mathématiques. Tome 2. Analyse. 3e éd.
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 1
Etienne D., Exercices corrigés d’algèbre linéaire. Tome 2
Marchand M., Outils mathématiques pour l’informaticien.
Mathématiques discrètes. 2e éd.
Stewart J., Analyse, concepts et contextes. Volume 1.
Fonctions d’une variable. 3e éd.
Stewart J., Analyse, concepts et contextes. Volume 2.
Fonctions de plusieurs variables. 3e éd.

STTHAP1-PgeLim.indd 2 6/12/12 13:36


STATISTIQUE
THÉORIQUE
ET APPLIQUÉE
1. STATISTIQUE DESCRIPTIVE
ET BASES DE L’INFÉRENCE STATISTIQUE

3e édition
•pierre Dagnelie•

STTHAP1-PgeLim.indd 3 6/12/12 13:36


Illustration de couverture :
© Eric Marechal - Fotolia.com

Pour toute information sur notre fonds et les nouveautés dans votre domaine de
spécialisation, consultez notre site web : www.deboeck.com

© De Boeck Supérieur s.a., 2013 3e édition


Rue des Minimes 39, B-1000 Bruxelles
Pour la traduction et l’adaptation française

Tous droits réservés pour tous pays.


Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photo-
copie) partiellement ou totalement le présent ouvrage, de le stocker dans une banque de don-
nées ou de le communiquer au public, sous quelque forme et de quelque manière que ce soit.

Imprimé en Belgique

Dépôt légal :
Bibliothèque nationale, Paris : janvier 2013
Bibliothèque royale de Belgique, Bruxelles : 2013/0074/047 ISBN 978-2-8041-7560-3

STTHAP1-PgeLim.indd 4 6/12/12 13:36


Avant-propos

La statistique peut être définie comme étant l’ensemble des méthodes qui ont
pour but de recueillir et d’analyser des données, souvent numériques, relatives à
des groupes d’individus ou d’objets. Elle joue un rôle essentiel dans de très nom-
breuses disciplines. Tel est le cas, entre autres, pour les sciences du vivant : biologie,
agronomie (au sens le plus large), écologie, etc.
Les deux tomes de Statistique théorique et appliquée ont précisément pour
objectif de permettre aux scientifiques de disciplines très variées, en particulier les
sciences du vivant, d’utiliser au mieux les méthodes statistiques classiques, sans
en négliger ni les fondements ni les limites.

*
* *

Le tome 1 constitue un exposé général, relativement élémentaire, de la théorie


statistique. Seules les démonstrations les plus simples y sont données, de nom-
breuses propriétés étant introduites intuitivement. Quant au tome 2, il présente
un vaste ensemble de méthodes statistiques, toujours illustrées par des exemples
numériques concrets, issus de situations réelles.
Les deux volumes se terminent par une série de tables et par divers index (index
bibliographique, index des traductions anglaises, index des matières et index des
symboles). Ils sont complétés par des exercices, accompagnés de leurs solutions, et
par diverses autres informations qui sont disponibles par l’intermédiaire d’un site
web (<www.dagnelie.be>).
Le tome 1 peut ainsi servir en particulier dans le premier cycle de l’enseigne-
ment supérieur, et le tome 2 dans le deuxième cycle. Mais par leur ampleur, leur
abondante bibliographie et leurs index, les deux volumes sont également des ou-
vrages de référence, destinés non seulement aux universités et aux grandes écoles,
mais aussi aux centres de recherche publics et privés.
L’utilisation des deux volumes tantôt comme manuels tantôt comme ouvrages
de référence est précisée dans un (( mode d’emploi )), qui est présenté immédiate-
ment après la table des matières (page 11). Ce (( mode d’emploi )) définit notamment
di↵érents plans de lecture ou niveaux d’étude.
6 AVANT-PROPOS

*
* *

Ce tome 1 commence par deux chapitres introductifs, relatifs à diverses notions


générales et à la collecte des données (chapitres 1 et 2). Il part ensuite de la statis-
tique descriptive, à une et à deux dimensions (chapitres 3 et 4), pour introduire les
notions de probabilité mathématique et de distributions théoriques, à une et à deux
dimensions également (chapitres 5 à 7). Il se termine par l’exposé des principes de
l’inférence statistique : distributions d’échantillonnage, problèmes d’estimation et
tests d’hypothèses (chapitres 8 à 10).

*
* *

Les deux tomes de Statistique théorique et appliquée ont remplacé en 1998


les deux volumes de Théorie et méthodes statistiques : applications agronomiques
(souvent désignés par (( TMS1 )) et (( TMS2 ))), qui avaient été très largement dif-
fusés antérieurement [Dagnelie, 1969, 1970]. Le recours à un nouveau titre ré-
sultait à ce moment de l’importance des modifications apportées, tant au texte
proprement dit qu’à la structure générale de l’ensemble et à la documentation
annexe (plus de 350 références bibliographiques pour ce seul tome 1).
De nouveaux remaniements ont été réalisés lors de la publication de la deuxième
édition en 2006-2007. Il en est de même pour cette troisième édition. Il s’agit essen-
tiellement d’une actualisation du texte et de la documentation, et de l’introduction
de quelques nouveaux développements 1 .

*
* *

Nous avons déjà eu l’occasion de témoigner précédemment notre gratitude aux


nombreuses personnes (enseignants, chercheurs, techniciens et étudiants) qui nous
ont aidé dans la préparation des deux volumes de Théorie et méthodes statis-
tiques, puis de Statistique théorique et appliquée. Nous voudrions mettre encore en
évidence les facilités qui nous ont été accordées au cours des dernières années par
les autorités de la Faculté des Sciences agronomiques de Gembloux (Belgique) et
par le Professeur Jean-Jacques Claustriaux, en matière d’accès à la documen-
tation bibliographique.

Septembre 2012.

1 Les principales modifications concernent notamment les paragraphes 1.4, 2.4, 3.8, 4.9, 6.10

et 10.3.
Table des matières

Mode d’emploi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Première partie
INTRODUCTION GÉNÉRALE
ET COLLECTE DES DONNÉES
Chapitre 1
Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Documentation complémentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Chapitre 2
La collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 L’étude par enquête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 L’expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 La nature, l’enregistrement et le traitement des données . . . . . . . . . . . . 44
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Deuxième partie
LA STATISTIQUE DESCRIPTIVE
Chapitre 3
La statistique descriptive à une dimension . . . . . . . . . . . . . . . . 53
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8 TABLE DES MATIÈRES

3.3 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62


3.4 La réduction des données : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5 Les paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6 Les paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7 Les moments et les paramètres de dissymétrie et d’aplatissement . . . 94
3.8 Le calcul de la moyenne, de la variance et des moments d’ordre
3 et 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.9 Quelques informations relatives à l’exécution des calculs . . . . . . . . . . . 101
3.10 Les nombres-indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Chapitre 4
La statistique descriptive à deux dimensions . . . . . . . . . . . . 115
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.4 La réduction des données : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.5 Les moments et la covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 Le coefficient de corrélation et le coefficient de détermination . . . . . . 128
4.7 La régression linéaire au sens des moindres carrés . . . . . . . . . . . . . . . . . . 136
4.8 La régression linéaire au sens des moindres rectangles . . . . . . . . . . . . . . 150
4.9 Le calcul de la covariance et des paramètres dérivés . . . . . . . . . . . . . . . 155
4.10 La régression curvilinéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.11 Quelques notions de statistique descriptive à plusieurs dimensions . 169
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

Troisième partie
LA PROBABILITÉ MATHÉMATIQUE
ET LES DISTRIBUTIONS THÉORIQUES
Chapitre 5
La probabilité mathématique et les distributions
théoriques : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.2 La notion de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.3 Quelques propriétés de la probabilité mathématique . . . . . . . . . . . . . . . 183
5.4 La probabilité conditionnelle et l’indépendance stochastique . . . . . . . 188
5.5 Les notions de variable aléatoire et de distribution théorique . . . . . . . 194
TABLE DES MATIÈRES 9

5.6 Quelques propriétés des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 206


5.7 L’espérance mathématique et ses propriétés . . . . . . . . . . . . . . . . . . . . . . . 215
5.8 Les paramètres des distributions théoriques à une dimension . . . . . . . 220
5.9 Les fonctions génératrices et la fonction caractéristique . . . . . . . . . . . . 235
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Chapitre 6
Les principales distributions théoriques
à une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
6.2 Les distributions binomiales et polynomiales . . . . . . . . . . . . . . . . . . . . . . . 244
6.3 Les distributions hypergéométriques et hypergéométriques
généralisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
6.4 Les distributions de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
6.5 Quelques autres distributions discontinues . . . . . . . . . . . . . . . . . . . . . . . . . 261
6.6 Les distributions normales et log-normales . . . . . . . . . . . . . . . . . . . . . . . . . 267
6.7 Les distributions t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
6.8 Les distributions 2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
6.9 Les distributions F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.10 Schéma récapitulatif et notions complémentaires . . . . . . . . . . . . . . . . . . . 300
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Chapitre 7
Les distributions théoriques à deux dimensions . . . . . . . . . 311
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
7.2 Quelques définitions et quelques propriétés relatives aux distribu-
tions théoriques à deux dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
7.3 Les paramètres des distributions théoriques à deux dimensions . . . . . 318
7.4 Les distributions normales à deux dimensions . . . . . . . . . . . . . . . . . . . . . . 330
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340

Quatrième partie
LES PRINCIPES DE L’INFÉRENCE STATISTIQUE
Chapitre 8
Les distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . 345
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
8.2 L’échantillonnage : quelques notions complémentaires . . . . . . . . . . . . . . 346
10 TABLE DES MATIÈRES

8.3 Quelques distributions d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . 352


8.4 Principes généraux relatifs aux distributions d’échantillonnage . . . . . 370
8.5 Deux théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
Chapitre 9
Les problèmes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
9.2 L’estimation de la moyenne et de la variance . . . . . . . . . . . . . . . . . . . . . . 386
9.3 Principes généraux de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
9.4 Les intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
Chapitre 10
Les tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
10.2 Les di↵érents buts poursuivis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
10.3 Les principes et la réalisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
10.4 La fonction de puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
Principaux mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

ANNEXES

Solutions des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461


Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
Index bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
Index des traductions anglaises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
Index des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
Index des symboles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
Mode d’emploi

Les deux tomes de Statistique théorique et appliquée sont conçus de manière à


pouvoir être utilisés à la fois comme manuels, selon di↵érents plans de lecture ou
niveaux d’étude, et comme ouvrages de référence.
À court terme, cette solution hybride ne facilite évidemment pas la tâche du
jeune chercheur ou de l’étudiant qui souhaiterait disposer d’un texte le plus simple
possible. À plus long terme toutefois, cette formule permet d’éviter un obstacle
généralement difficile à surmonter, à savoir : passer d’un manuel auquel on s’est
progressivement habitué à un ouvrage de référence, souvent fort di↵érent par sa
présentation, son vocabulaire et ses notations.

Utilisation comme manuel


En vue de l’utilisation de ce tome 1 comme manuel, trois niveaux d’étude sont
définis à l’aide des symboles , , d et b .
Le premier niveau, relativement élémentaire, est constitué des seuls paragra-
phes dont le numéro est précédé du signe , à l’exclusion, dans ces paragraphes,
des alinéas et des exemples marqués en marge des symboles d et b . Ce niveau
d’étude couvre environ 170 pages du texte proprement dit (compte non tenu des
pages de titre, des exercices, etc.).
Le deuxième niveau, intermédiaire, correspond à l’ensemble du texte, à l’exclu-
sion des paragraphes dont le numéro est précédé du signe et aussi des alinéas et
des exemples marqués des symboles d et b . Ce niveau ajoute ainsi, par comparaison
avec le premier niveau, près de 100 pages de texte.
Enfin, le troisième niveau, plus avancé, est constitué de l’ensemble du texte.
Il peut éventuellement être étendu à d’autres documents, auxquels nous faisons
allusion ci-dessous.
Le symbole indique donc toujours les paragraphes les plus importants (ou les
plus faciles), l’absence de symbole particulier caractérise les paragraphes d’impor-
tance (ou de difficulté) intermédiaire, tandis que les symboles , d et b signalent
les matières les moins importantes (ou les plus délicates).
12 MODE D’EMPLOI

Pour la facilité du lecteur, le symbole apparaı̂t aussi dans les sommaires des
di↵érents chapitres, en regard des paragraphes qui doivent être pris en considéra-
tion entièrement ou partiellement au premier niveau.
Toujours comme manuel, ce tome 1 comprend de nombreux exemples, qui illus-
trent les notions théoriques, des listes de mots-clés, présentées à la fin des différents
chapitres, et des exercices, dont les énoncés figurent également à la fin des cha-
pitres et dont les solutions sont données immédiatement après l’ensemble du texte
(page 461). L’emploi des symboles , , d et b s’applique comme ci-dessus à ces
exercices.
Pour permettre au lecteur de traiter aisément les exemples et les exercices,
leurs données numériques éventuelles sont disponibles sur internet à l’adresse
<www.dagnelie.be/stdonn.html>.
Enfin, les dernières pages de ce volume sont consacrées à un index des princi-
paux symboles utilisés (page 515).

Utilisation comme ouvrage de référence

d Comme ouvrage de référence, ce tome 1 de Statistique théorique et appliquée


peut tout naturellement être abordé par l’intermédiaire de son index des matières
(page 503). Les renvois aux di↵érents éléments du texte y sont indiqués par les
numéros des paragraphes et des exemples concernés, ce qui permet une localisation
souvent plus précise que les numéros des pages.
Toujours comme document de référence, l’emploi de cet ouvrage peut être com-
plété par le recours à d’autres travaux, notamment parmi ceux qui sont cités dans
l’index bibliographique (page 479). Cet index, qui comporte plus de 350 mentions,
comprend à la fois des références tout à fait générales présentées au paragraphe
1.4.1, des références plus particulières citées au début des di↵érents chapitres,
et des références ponctuelles figurant dans le texte, le plus souvent à la fin des
di↵érents paragraphes, immédiatement avant les exemples. Diverses indications
relatives à la documentation disponible sur internet sont également données au
paragraphe 1.4.2.
Très souvent, le lecteur aura intérêt à consulter autant que possible les ouvrages
de base mentionnés au paragraphe 1.4.1 et au début des di↵érents chapitres, voire
même certains autres documents, avant de rechercher les travaux particuliers in-
diqués dans le texte.
Enfin, la consultation de la littérature de langue anglaise, qui est de loin la
plus abondante dans le domaine statistique, est facilitée par la présentation dans
le texte des traductions des principaux termes employés et par l’utilisation de
b l’index des traductions anglaises (page 495).
MODE D’EMPLOI 13

Notations
En ce qui concerne les notations, nous respectons autant que possible les re-
commandations de Halperin et al. [1965]. Les lettres minuscules, notamment,
désignent le plus souvent des valeurs observées ou des fonctions non cumulatives
de probabilité (fonctions de densité de probabilité), tandis que les lettres majus-
cules désignent des variables aléatoires ou des fonctions cumulatives de probabilité
(fonctions de répartition). De même, les lettres grecques sont utilisées en général
pour représenter les paramètres des populations.
Quant aux caractères gras, ils sont employés occasionnellement pour désigner
soit des vecteurs, à l’aide de lettres minuscules, soit des matrices, à l’aide de lettres
majuscules.

Exécution des calculs, logiciels et tables

L’étude de ce tome 1 ne nécessite le plus souvent que des calculs numériques


relativement élémentaires, qui peuvent être réalisés à l’aide d’une simple calculette,
sans aucun recours à l’une ou l’autre procédure de traitement automatique des
données. L’emploi de moyens de calcul plus importants peut néanmoins s’avérer
utile dans certains cas.
d On peut penser notamment à certains logiciels spécifiquement statistiques, tels
que Minitab (<www.minitab.com>) ou SAS (<www.sas.com>), et aussi le logiciel
libre R (<www.r-project.org>) 1 [Cornillon et al., 2008 ; Lafaye de Micheaux
et al., 2011].
Une autre possibilité consiste en l’utilisation de l’un ou l’autre tableur, tel
qu’Excel (<www.microsoft.com>) [Georgin et Gouet, 2005 ; Morineau et
Chatelin, 2005 ; Vidal, 2004], éventuellement accompagné par exemple de Stat-
Box (<www.grimmersoft.com>), UniStat (<unistat.com>), ou XLStat (<www.
xlstat.com>). On notera toutefois que la qualité de certains des résultats fournis
par les outils statistiques d’Excel est fréquemment mise en cause [Keeling et
b Pavur, 2011 ; McCullough et Heiser, 2008 ; Yalta, 2008].
Nous donnons aussi quelques tables numériques en fin de volume (page 473),
tout en sachant parfaitement bien que la consultation de tels documents peut en
général être remplacée par l’utilisation d’algorithmes et de logiciels particuliers.
D’autres tables figurent également à la fin du tome 2 de cette série.

1 Les adresses web qui figurent dans le texte et dans l’index bibliographique ont été contrôlées

en août 2012.
Première partie

Introduction générale
et collecte des données

Chapitre 1 Introduction générale


Chapitre 2 La collecte des données
Chapitre 1

Introduction générale

Sommaire 1
1.1 Définition
1.2 Historique
1.3 Cadre général
1.4 Documentation complémentaire
Principaux mots-clés

1 Nous rappelons que, dans les sommaires des di↵érents chapitres, le signe indique les
paragraphes qui sont entièrement ou partiellement de première importance, au sens du (( mode
d’emploi )) qui suit la table des matières. Ainsi, les signes qui apparaissent en marge dans la
suite de ce chapitre montrent que le paragraphe 1.1 doit être entièrement pris en considération
au premier niveau d’étude, que seuls les paragraphes 1.2.3 et 1.2.4 doivent être considérés à ce
stade, et que le paragraphe 1.3 doit aussi être entièrement pris en considération, le paragraphe 1.4
pouvant être négligé (les alinéas marqués par les symboles d et b devant toujours être négligés
au cours d’une première lecture).
18 INTRODUCTION GÉNÉRALE 1.2.1

1.1 Définition
Dérivé du substantif latin status (État), le mot statistique possède, en français
comme dans d’autres langues, plusieurs significations distinctes.
D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne tout
ensemble cohérent de données, généralement numériques, relatives à un groupe
d’individus ou d’objets. On parle par exemple de la ou des statistiques de la
production agricole ou industrielle (quantités produites, prix de vente, coûts de
production, etc.), des statistiques démographiques (natalité, mortalité, etc.), des
statistiques du chômage, des statistiques des accidents de la circulation routière,
etc. Il convient toutefois de remarquer que, contrairement à une opinion commu-
nément admise, cette acception du terme statistique ne concerne pas seulement
des volumes importants de données.
D’autre part, le mot statistique désigne l’ensemble des méthodes qui permettent
de recueillir et d’analyser les données dont il vient d’être question. C’est à cette
signification que nous nous référons dans le présent ouvrage.
Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autre
paramètre, tel qu’une moyenne, calculé à partir d’un ensemble de données 2 .
Dans la première définition que nous avons présentée, le qualificatif (( numé-
riques )) doit être considéré dans un sens très large. Il peut en e↵et concerner
aussi bien des données quantitatives (résultats de comptages ou de mesures), que
des données qualitatives (couleurs, appréciations gustatives, etc.), voire même des
textes, codés sous forme numérique en vue d’un traitement informatique.
Informations complémentaires : Bartholomew [1995], Dodge [2004], Dumas [1955],
Willcox [1935].

1.2 Historique
1.2.1 Les origines de la statistique
1 Bien que des dénombrements de populations humaines et de terres aient été
réalisés depuis la plus haute antiquité, notamment pour les besoins de la guerre
et de l’impôt, la statistique n’est pas une discipline fort ancienne. C’est en e↵et
au cours du dix-huitième siècle seulement que l’emploi du terme statistique s’est
imposé en Allemagne, dans le sens alors limité de connaissance d’un État, à la
suite des travaux de Gottfried Achenwall (1719-1772).
Parallèlement à cette tendance, dite aussi d’arithmétique politique, s’est dé-
veloppé, en France tout d’abord, le calcul des probabilités, dont l’objectif était
au départ la résolution de problèmes relatifs aux jeux de hasard. Les noms de
2 Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de données

et pour l’ensemble des méthodes, et d’autre part statistic, pour des paramètres.
1.2.2 HISTORIQUE 19

Blaise Pascal (1623-1662), Abraham de Moivre (1667-1754), Daniel Bernoulli


(1700-1782), Pierre Simon de Laplace (1749-1827), Carl Friedrich Gauss (1777-
1855), et Siméon Denis Poisson (1781-1840) peuvent être associés à cette deuxiè-
me tendance.

2 La statistique mathématique moderne peut être considérée comme née, au


dix-neuvième siècle, de la conjonction de ces deux orientations : arithmétique po-
litique d’une part et calcul des probabilités de l’autre. Un des principaux artisans
de cette union est incontestablement le mathématicien et physicien belge Lambert
Adolphe Quetelet (1796-1874). Il est notamment l’auteur de nombreux livres et
mémoires, le fondateur de plusieurs sociétés et organismes nationaux et internatio-
naux, l’initiateur des recensements décennaux de la population, et l’organisateur
du premier Congrès international de Statistique, qui s’est tenu à Bruxelles en 1853.
Parmi les statisticiens de cette époque, on peut citer également, en Grande-
Bretagne, Charles Babbage (1792-1871), à qui on doit entre autres choses une
première machine à calculer automatique et la fondation en 1834 de la première
société de statistique, la Statistical Society of London, ainsi que Francis Gal-
ton (1822-1911), auteur de travaux de base relatifs notamment aux notions de
corrélation et de régression.
Informations complémentaires : Droesbeke et Tassi [1997], Kendall [1972], Lewin
[2010], Stigler [1986], Westergaard [1932].

1.2.2 La première moitié du vingtième siècle


1 La première moitié du vingtième siècle est essentiellement marquée, dans le
domaine statistique, par le développement de méthodes de plus en plus nombreuses
et par l’utilisation de ces méthodes dans des secteurs d’application de plus en plus
diversifiés.
Sans essayer d’être exhaustif, nous voudrions citer ici quelques tendances qui
nous paraissent prépondérantes, en en donnant une certaine chronologie.

2 Après les premières applications aux sciences politiques et sociales, réalisées


durant le dix-neuvième siècle, les années 1900 voient l’introduction de la statis-
tique dans les sciences biologiques et psychologiques, donnant naissance respecti-
vement à la biométrie 3 et la psychométrie 4 . Les noms de Karl Pearson (1857-
1936), Charles Edward Spearman (1863-1945), George Udny Yule (1871-1951),
et William Sealy Gosset (1876-1937), qui publia ses travaux sous le pseudonyme
de Student, peuvent être associés à ces deux tendances 5 .
3 En anglais : biometry, biometrics.
4 En anglais : psychometry, psychometrics.
5 Durant tout le vingtième siècle, le mot (( biométrie )) a été utilisé presque exclusivement pour

désigner l’utilisation des méthodes statistiques et mathématiques dans le domaine de la biologie,


au sens large. Plus récemment, la signification du mot (( biométrie )) a été étendue aux méthodes
d’identification des personnes en fonction de caractères biologiques, tels que les empreintes digi-
tales, les traits du visage, les caractéristiques de l’iris ou de la rétine, etc.
20 INTRODUCTION GÉNÉRALE 1.2.3

Les années 1920 sont ensuite dominées par la forte personnalité du statisti-
cien britannique Ronald Aylmer Fisher (1890-1962), auquel on doit notamment
le développement des plans d’expérience 6 et l’analyse de la variance et de la co-
variance 7 , qui occupent une place prépondérante dans le domaine agronomique
d’abord, et dans de nombreux autres secteurs ensuite.
Les années 1930 sont marquées par de nouvelles applications de la statistique
en économie, donnant naissance à l’économétrie 8 , et par l’utilisation de l’outil
statistique dans le domaine industriel, en matière de maı̂trise ou de contrôle de la
qualité 9 des produits manufacturés.
Enfin, à partir de 1940, la statistique intervient de façon de plus en plus fré-
quente dans certains problèmes de gestion, en relation avec le développement de
la recherche opérationnelle 10 .
Informations complémentaires : Droesbeke et Tassi [1997], Kendall [1972].

1.2.3 La deuxième moitié du vingtième siècle


1 Durant la deuxième moitié du vingtième siècle, l’histoire de la statistique
est étroitement liée au développement de l’informatique.
C’est en e↵et vers 1955 que les premiers ordinateurs sont commercialisés et
introduits dans les services administratifs et universitaires de statistique. Très
rapidement, ces nouveaux outils y prennent une place considérable, non seulement
sur le plan pratique, en ce qui concerne l’emploi des méthodes statistiques, mais
aussi sur le plan théorique, en matière de recherche dans le domaine statistique.

2 Schématiquement, on peut considérer que l’ordinateur a presque toujours été


utilisé, dans un premier temps, pour e↵ectuer plus rapidement ou plus facilement
que par le passé les travaux qui étaient réalisés antérieurement à l’aide de machines
à calculer de bureau. Dans un deuxième stade, l’ordinateur a permis l’emploi de
méthodes statistiques déjà anciennes, qui n’avaient pas été utilisées en pratique ou
qui étaient restées sous-employées, en raison précisément de l’importance des cal-
culs qu’elles nécessitaient. Puis, le développement de l’informatique a provoqué la
naissance de nouvelles méthodes statistiques et de nouvelles procédures de calcul.
Parallèlement, l’ordinateur a aussi largement influencé l’enseignement de la sta-
tistique, notamment par les facilités qu’il o↵re en matière de résolution d’exercices.
Le mouvement ainsi observé d’une manière générale depuis 1955 s’est considé-
rablement accéléré à partir de 1975 environ, du fait de l’introduction des micro-
ordinateurs ou ordinateurs personnels, de l’augmentation très rapide de leurs per-
formances, et de la mise sur le marché de logiciels de plus en plus conviviaux.
6
En anglais : experimental design.
7
En anglais : analysis of variance, analysis of covariance.
8 En anglais : econometry, econometrics.
9 En anglais : quality control.
10 En anglais : operational research, operations research.
1.2.3 HISTORIQUE 21

3 L’analyse multidimensionnelle ou analyse statistique à plusieurs variables 11 ,


c’est-à-dire l’étude simultanée de plus de deux caractéristiques des di↵érents indi-
vidus considérés, constitue un exemple typique de méthodes très largement anté-
rieures à la venue de l’ordinateur, mais ayant connu une expansion considérable à
partir des années 1960, du fait des nouveaux moyens de calcul disponibles.
Les méthodes du (( jackknife )) et du (( bootstrap )) ou, d’une manière plus géné-
rale, de rééchantillonnage 12 se sont par contre entièrement développées en raison
même de l’existence de l’ordinateur. Ces méthodes sont d’ailleurs parfois qualifiées
de méthodes faisant un usage intensif de l’ordinateur 13 .
On peut citer aussi les multiples possibilités o↵ertes en matière de conception de
graphiques, la tendance française de l’analyse des données, comparable à l’analyse
multidimensionnelle, les méthodes de simulation 14 , les méthodes dites robustes 15 ,
les méthodes bayesiennes ou néo-bayesiennes 16 , la modélisation 17 , et l’utilisation
de divers modèles statistiques nouveaux, tels que le modèle linéaire ou linéaire
général 18 , le modèle linéaire mixte 19 et le modèle linéaire généralisé 20 .

4 Parallèlement à ce développement important des méthodes statistiques, on


a assisté, au cours de la deuxième moitié du vingtième siècle, à une très large
expansion du champ d’application de ces méthodes.
Le secteur de la recherche pharmaceutique ou médicale est progressivement
devenu un des plus grands utilisateurs des méthodes statistiques, donnant nais-
sance à ce qui est souvent appelé biostatistique 21 . Mais à ce secteur et à ceux que
nous avons déjà mentionnés au paragraphe 1.2.2 (agronomie, biologie, économie,
psychologie et contrôle de la qualité), on peut ajouter la physique et les sciences de
l’ingénieur, la météorologie et la climatologie, la géologie et la géographie, l’écologie
et l’environnement, la chimie, la génétique et la biologie moléculaire, la sociologie,
les sciences de l’éducation, et aussi les assurances, l’archéologie, la linguistique, le
droit, etc.

Informations complémentaires : en ce qui concerne l’influence de l’informatique sur la


statistique, Jeffers [1995], Murphy [1985], Nelder [1984], Victor [1984a, 1984b] ; en
ce qui concerne l’évolution de la statistique, Armitage et David [1996], Good [1990],
Heyde [1981].

11 En anglais : multivariate analysis.


12 En anglais : resampling.
13 En anglais : computer-intensive method.
14 En anglais : simulation.
15 En anglais : robust method.
16 En anglais : Bayesian method, neo-Bayesian method.
17 En anglais : modelling.
18 En anglais : linear model, general linear model.
19 En anglais : linear mixed model.
20 En anglais : generalized linear model.
21 En anglais : biostatistics.
22 INTRODUCTION GÉNÉRALE 1.2.4

1.2.4 Quelques tendances récentes et perspectives

1 L’informatique, qui a été un des principaux moteurs du développement de


la statistique durant la deuxième moitié du vingtième siècle, semble devoir garder
cette fonction pendant de nombreuses années encore. L’importance de l’ordina-
teur s’est d’ailleurs progressivement accentuée au fil du temps, la simple évolution
initiale des capacités de mémoire et de vitesse de traitement de l’information se
doublant de possibilités d’acquisition automatique de données et de liaison entre
ordinateurs, sous forme de réseaux.
Une conséquence de cette évolution est la constitution et la nécessité de traiter
de grandes bases de données 22 , dont l’interconnexion permet de former de vastes
ensembles parfois qualifiés d’entrepôts de données 23 . Ces bases et ces entrepôts de
données sont souvent caractérisés, non seulement par leur volume, mais également
par des structures relativement complexes et par le caractère très incomplet des
données enregistrées.
2 Quelques tendances récentes, qui se sont développées aux frontières de la
statistique traditionnelle et qui sont aussi des perspectives d’avenir, peuvent être
pointées dans ce contexte.
La fouille ou l’extraction des données 24 , par exemple, a pour but d’identifier
autant que possible certaines informations particulières au sein de vastes ensembles
de données. De même, la méthode des réseaux de neurones ou réseaux de neurones
artificiels 25 a pour objet d’établir ou de modéliser des relations complexes liant
de nombreuses variables.
Dans le domaine biologique, on peut citer également l’étude du génome ou
génomique 26 , ou encore bioinformatique 27 , dans un sens plus large pouvant inclure
en outre l’étude des structures moléculaires.
Enfin, un autre exemple d’évolution récente est donné par la tendance dite (( six
sigma )), dont l’objectif est une gestion optimale de la qualité, par la recherche et
l’élimination des défauts, dans des entreprises de toute nature.

Informations complémentaires : d’une manière générale, Hand [2009], Lindsay et al.


[2004], Raftery et al. [2002] 28 ; d’une façon plus spécifique, Besse et al. [2001], Mont-
gomery et Woodall [2008], Sebastiani et al. [2003].

22 En anglais : database.
23 En anglais : datawarehouse.
24 En anglais : data mining.
25 En anglais : neural network, artificial neural network.
26 En anglais : genomics.
27 En anglais : bioinformatics.
28 Cet ouvrage (Statistics in the 21st century) réunit un ensemble de courtes notes qui ont été

publiées dans les quatre fascicules du Journal of the American Statistical Association de l’année
2000.
1.3.2 CADRE GÉNÉRAL 23

1.3 Cadre général

1.3.1 Les di↵érentes étapes de toute étude statistique

1 Toute étude statistique peut être décomposée en deux phases au moins :


le rassemblement ou la collecte des données d’une part, et leur analyse ou leur
interprétation d’autre part.
La collecte des données peut être réalisée soit par la simple observation des
phénomènes auxquels on s’intéresse, tels qu’ils se produisent naturellement, soit
par l’expérimentation, c’est-à-dire en provoquant volontairement l’apparition de
certains phénomènes contrôlés.
Quant à l’analyse statistique, elle peut elle-même être décomposée en deux
étapes, l’une déductive ou descriptive, l’autre inductive.
La statistique descriptive a pour but de résumer et de présenter les données
observées d’une manière telle qu’on puisse en prendre connaissance aisément, par
exemple sous la forme de tableaux ou de graphiques.
L’inférence statistique permet d’étendre ou de généraliser dans certaines condi-
tions les conclusions ainsi obtenues. Très souvent en e↵et, l’observation ou l’ex-
périmentation ne concerne qu’une fraction des individus auxquels on s’intéresse
réellement. Les conclusions relatives à cette fraction, appelée échantillon, doivent
alors être étendues autant que possible à l’ensemble des individus, formant la po-
pulation. Cette phase inductive comporte évidemment certains risques d’erreur,
qui peuvent être mesurés en faisant appel à la théorie des probabilités.

2 Ces di↵érentes étapes de toute étude statistique ne sont cependant pas in-
dépendantes les unes des autres. Les méthodes de l’inférence statistique ne sont
applicables en e↵et que dans des conditions particulières, parfois fort restrictives.
Il en résulte notamment que l’observation et l’expérimentation doivent être orga-
nisées de manière à répondre autant que possible à ces conditions.

1.3.2 Plan du tome 1

Au-delà de la présente introduction générale, la première partie de ce tome 1


est consacrée à l’exposé, en termes très simples, de notions de base relatives à la
collecte des données (chapitre 2).
Une deuxième partie traite ensuite de la statistique descriptive, tant à une
dimension (chapitre 3) qu’à deux dimensions (chapitre 4).
Après quoi, une troisième partie réunit diverses notions relatives au calcul des
probabilités et aux distributions théoriques, d’une part de façon générale (chapi-
tre 5), et d’autre part en ce qui concerne plus particulièrement les distributions
à une dimension (chapitre 6) et à deux dimensions (chapitre 7). La connaissance
24 INTRODUCTION GÉNÉRALE 1.4.1

préalable de notions de statistique descriptive permet, à ce stade, une présentation


aussi intuitive que possible des fondements théoriques de la statistique.
Enfin, une quatrième partie est consacrée aux principes de base de l’inférence
statistique : distributions d’échantillonnage (chapitre 8), problèmes d’estimation
(chapitre 9) et tests d’hypothèses (chapitre 10).
Comme nous l’avons déjà signalé, cet ensemble de chapitres est suivi, sous
forme d’annexes, des solutions des exercices, d’un recueil de tables et d’une série
d’index.

1.4 Documentation complémentaire


1.4.1 Livres et revues
1 Avant d’entrer dans le vif du sujet, nous voudrions donner quelques indi-
cations relatives au choix éventuel d’autres ouvrages à consulter et aux diverses
sources d’informations auxquelles on peut avantageusement avoir recours dans le
domaine statistique.
Les livres relatifs à la statistique et à ses applications sont extrêmement nom-
breux, tout particulièrement en langue anglaise, ce qui rend souvent difficile le
choix éventuel de l’un ou l’autre d’entre eux. Le cas échéant, un tel choix doit être
basé notamment sur l’objectif poursuivi (étude de la théorie et/ou des applications
à telle ou telle discipline), et aussi sur le niveau mathématique souhaité.
Nous ne mentionnons ici que les principaux dictionnaires et encyclopédies, ainsi
que quelques livres généraux rédigés en français, à savoir :
les dictionnaires explicatifs et encyclopédiques de Dodge [2004] (Statistique : dic-
tionnaire encyclopédique), d’Everitt et Skrondal [2010] (The Cambridge
dictionary of statistics), de Rasch et al. [1994] (Elsevier’s dictionary of bio-
metry in English, French, Spanish, Dutch, German, Italian and Russian), et
d’Upton et Cook [2008] (A dictionary of statistics) ;
les encyclopédies en plusieurs volumes d’Armitage et Colton [2005] (Ency-
clopedia of biostatistics) et de Kotz et al. [2006] (Encyclopedia of statistical
sciences) 29 ;
les livres de Dehon et al. [2008] (Éléments de statistique), de Saporta [2006]
(Probabilités, analyse des données et statistique), et de Tassi [2004] (Méthodes
statistiques).

2 Des recueils de tables peuvent aussi être utiles. Les plus courants sont ceux
de Fisher et Yates [1982] (Statistical tables for biological, agricultural and med-
ical research), et de Pearson et Hartley [1966-1972] (Biometrika tables for
statisticians).
29 Ou les documents antérieurs de Kotz et al., à savoir : Kotz et Johnson [1982-1988, 1989],

et Kotz et al. [1997-1999].


1.4.2 DOCUMENTATION BIBLIOGRAPHIQUE 25

D’autres recueils sont dus notamment à Hald [1952], Lindley et Scott


[1995], Owen [1962], Zwillinger [2003], et Zwillinger et Kokoska [1999].

3 Quant aux revues, et dans l’optique de ces deux tomes de Statistique théo-
rique et appliquée, on peut citer en priorité les titres The American Statistician,
Biometrical Journal, Computational Statistics and Data Analysis, Journal of Ap-
plied Statistics, et Journal of Statistical Planning and Inference.
Peuvent éventuellement être ajoutés : Biometrics, Communications in Statis-
tics Theory and Methods, Journal de la Société Française de Statistique, Statistical
Science, et Statistics in Medicine, voire encore bien d’autres.

4 On remarquera ainsi, de façon flagrante, que la littérature de langue anglaise


est largement prépondérante dans le domaine statistique. Mais la présentation
dans tout le texte des traductions des principaux termes utilisés et l’index des
traductions anglaises qui figure en fin de volume devraient faciliter la consultation
des divers documents.

Informations complémentaires : Murphy [1997], Theoharakis et Skordia [2003].

1.4.2 Documentation par internet


1 Le réseau internet o↵re également de très larges possibilités en matière de
documentation. Les quelques indications que nous donnons ici sont toutes relatives
uniquement à des sites ou des documents qui peuvent être consultés ou obtenus
gratuitement.
On notera cependant que les informations qui concernent les di↵érents sites
web sont fournies à titre purement indicatif, ces informations pouvant en e↵et
devenir caduques à tout moment, et d’autres sites tout aussi intéressants pouvant
également être développés à tout moment.

2 En ce qui concerne les revues, les tables des matières et les résumés des
articles de la plupart d’entre elles sont intégralement disponibles sur internet. Les
adresses des sites web de plusieurs dizaines de revues, essentiellement consacrées
à la statistique, sont données notamment par <www.stata.com/links/journals4.
html>.
En outre, pour certaines revues, les textes complets des articles sont également
accessibles. Tel est le cas, entre autres, pour les titres suivants : Electronic Journal
of Statistics (<imstat.org/ejs>), Journal de la Société Française de Statistique
(<smf4.emath.fr/Publications/JSFdS>), Journal of Statistical Education (<www.
amstat.org/publications/jse>), et Revue Modulad (<www.modulad.fr>).

3 D’autre part, de nombreux portails donnent accès à des informations très


diversifiées (cours, lexiques, logiciels, etc). Tel est la cas, par exemple, pour SMEL
(<mistis.inrialpes.fr/software/SMEL/index.html>), StatSci (<www.statsci.org>)
et SurfStat (<surfstat.anu.edu.au/surfstat-home/surfstat-main.html>).
26 INTRODUCTION GÉNÉRALE

Mais on pourrait citer en outre <www.agro-montpellier.fr/cnam-lr/statnet>,


<www.sfds.asso.fr/190-Polys denseignement>, <www.statsoft.com/textbook>,
<www.stata.com/links>, etc.

4 Enfin, et d’une manière tout à fait générale, des recherches peuvent être
e↵ectuées à l’aide des moteurs de recherche classiques, tels que Google (<www.
google.com>), Yahoo (<search.yahoo.com>), etc., et plus particulièrement les ver-
sions Books et Scholar de Google, respectivement pour les livres et pour les articles
de revues (<books.google.com/advanced book search> et <scholar.google.com/
advanced scholar search>).
On sera cependant toujours très circonspect lors de la consultation de sites
particuliers dont les auteurs ne seraient pas bien connus ou bien identifiés.

5 Nous tenons à souligner le fait que la bibliographie classique et la documen-


tation par internet doivent être considérées comme complémentaires, et non pas
comme exclusives l’une de l’autre.
D’une part, les références qui sont citées dans l’index bibliographique du présent
ouvrage ou éventuellement dans d’autres documents peuvent servir de point de
départ pour des recherches sur internet, notamment à l’aide de la version Scholar
de Google. Et d’autre part, comme nous l’avons signalé, le réseau internet permet
d’avoir largement accès aux revues imprimées traditionnelles.

Informations complémentaires : Bringé et Le Guen [2002], Larreamendy-Joers et al.


[2005], Shackman [2010].

Principaux mots-clés
Statistique, statistiques.
Collecte des données, observation, expérimentation.
Analyse statistique, statistique descriptive, inférence statistique.
Chapitre 2

La collecte des données

Sommaire
2.1 Introduction
2.2 L’étude par enquête
2.3 L’expérimentation
2.4 La nature, l’enregistrement et le traitement des données
Principaux mots-clés
28 COLLECTE DES DONNÉES 2.2.1

2.1 Introduction
1 Comme nous l’avons signalé antérieurement (§ 1.3.2), nous consacrons ce
chapitre 2 à la présentation, en termes très simples, de notions de base relatives
à la collecte des données, c’est-à-dire à ce qui constitue normalement la première
phase de toute étude statistique.
Nous envisagerons successivement les questions qui concernent les études par
enquête (§ 2.2), les problèmes d’expérimentation (§ 2.3), et les questions relatives à
la nature, à l’enregistrement et au traitement des données (§ 2.4). Nous reviendrons
ultérieurement de façon plus détaillée sur certains de ces sujets, lorsque nous aurons
présenté diverses notions de calcul des probabilités et de statistique théorique.

2 L’étude par enquête et l’expérimentation doivent normalement être organi-


sées, l’une et l’autre, dans des conditions telles que de nombreux éléments (choix
des unités ou des individus observés, a↵ectation aux di↵érentes unités expérimen-
tales des di↵érents traitements qui sont comparés, etc.) soient parfaitement maı̂-
trisés. Dans certains cas, et notamment dans certaines enquêtes rétrospectives, les
circonstances ne permettent pas de maı̂triser de tels éléments. L’étude est alors
basée sur une simple accumulation d’observations, sans qu’une structure ou un
ordre précis puisse être préétabli.
On parle dans ce cas d’étude par observation 1 . Nous ne traitons pas ce sujet
dans le présent ouvrage.

Informations complémentaires : en ce qui concerne l’observation par enquête, Ardilly


[2006], Barnett [2002], Dussaix et Grosbras [1993], Thompson [2002], Tillé [2001] ;
en ce qui concerne l’expérimentation, Dagnelie [2012], Fleiss [1999], Goupy et Creigh-
ton [2006], Kuehl [2000], Montgomery [2005] ; en ce qui concerne l’étude par obser-
vation : Kish [2004], Rosenbaum [2002, 2010], Smith et Sugden [1988].

2.2 L’étude par enquête


2.2.1 Principes généraux
1 Dans le domaine statistique, on appelle enquête ou, parfois, inventaire 2
l’ensemble des opérations qui ont pour but de collecter de façon organisée des
informations relatives à un groupe d’individus ou d’éléments, observés dans leur
milieu ou dans leur cadre habituel.
Les individus ou les éléments en question, également appelés unités de base ou
unités statistiques 3 , peuvent être aussi bien des personnes humaines que des ani-
1 En anglais : observational study, uncontrolled observational study.
2 En anglais : survey.
3 En anglais : unit.
2.2.2 ÉTUDE PAR ENQUÊTE 29

maux, des plantes, des groupes de personnes (familles, ménages, etc.), des groupes
d’animaux, des groupes de plantes, ou des éléments de toute autre nature (entre-
prises industrielles ou commerciales, exploitations agricoles, machines d’un type
donné, etc.). L’ensemble des unités auxquelles on s’intéresse est appelé population
ou univers ou ensemble statistique 4 .

2 Quand toutes les unités de la population considérée sont e↵ectivement ob-


servées individuellement, l’enquête est dite complète ou exhaustive. Elle est alors
appelée aussi recensement 5 .
Quand au contraire, pour réduire l’importance du travail de collecte des don-
nées, une partie seulement des individus ou des éléments de la population sont
réellement observés, l’enquête est dite partielle ou par échantillonnage. Elle est
également appelée parfois sondage 6 .
La partie de la population qui est réellement observée constitue l’échantillon 7 ,
et l’opération de choix de cette fraction de la population est précisément l’opération
d’échantillonnage ou de sondage 8 . En outre, lorsqu’il est question d’échantillon-
nage, la population de départ est souvent qualifiée aussi de population-parent.

3 Les principaux problèmes qui se posent dans la préparation ou la planifi-


cation 9 de toute enquête, complète ou partielle, sont la définition de l’unité de
base et de la population, la définition des observations à réaliser, et le choix d’une
méthode de collecte des données.
Dans le cas des enquêtes partielles, à ces di↵érentes questions, s’ajoutent quel-
ques problèmes supplémentaires, tels le choix d’une méthode d’échantillonnage et
la détermination de la taille de l’échantillon.

2.2.2 La définition de l’unité de base et de la population


1 La définition de l’unité de base et de la population, qui constitue ce qu’on
appelle aussi la délimitation de l’enquête, est en réalité un problème beaucoup plus
complexe qu’il n’y paraı̂t à première vue. Nous illustrons ce fait par deux exemples,
choisis parmi les plus simples, et à propos de ces exemples, par diverses questions.

2 Le premier exemple concerne la réalisation d’un recensement de population


humaine, normalement basé sur l’étude individuelle de chacun des groupes de
personnes qui vivent en commun, dans un même logement ou (( sous un même
toit )).
4 En anglais : population.
5 En anglais : census.
6 En anglais : sample survey.
7 En anglais : sample.
8 En anglais : sampling.
9 En anglais : planning.
30 COLLECTE DES DONNÉES 2.2.2

Faut-il, dans ce cas, partir de la notion de famille ou de la notion de ménage ?


Et comment définir exactement ces deux notions ? Qu’est-ce que vivre en commun
ou (( sous un même toit )), et qu’est-ce qu’un logement ? Comment faut-il considérer
les communautés, militaires ou religieuses notamment ?
Si le recensement s’étend à un certain territoire administratif, tel qu’un pays,
comment faut-il traiter le cas des personnes qui, venues de l’extérieur, se trouvent
dans le territoire considéré au moment de l’enquête, pour une période plus ou
moins longue (travailleurs immigrés, agents diplomatiques, membres du personnel
des institutions internationales, familles de ces di↵érentes catégories de personnes,
hommes d’a↵aires, touristes, etc.) ? Inversement, comment faut-il considérer les
personnes qui, issues du territoire étudié, se trouvent pour une période plus ou
moins longue à l’extérieur de celui-ci ?
Et, à l’intérieur du territoire en question, où faut-il comptabiliser (dans quelle
province, dans quelle commune) les personnes qui ne vivent pas constamment au
même endroit (travailleurs saisonniers, étudiants, personnes hospitalisées, occu-
pants de (( logements mobiles )), tels que bateaux et caravanes, etc.) ? Comment
éviter aussi les doubles comptages ou, inversement, les oublis, qui peuvent être liés
notamment aux résidences secondaires (de fin de semaine, d’été ou d’hiver) ?

3 D’autre part, au cours d’un recensement agricole, comment définir de façon


précise la notion même d’exploitation agricole ? En particulier, à partir de quelle
dimension (en superficie ou en nombre de têtes de bétail), faut-il considérer qu’il
s’agit réellement d’une (( exploitation )) ? Comment traiter les jardins, les vergers
et les petits élevages familiaux, les jardins, les vergers et les élevages des com-
munautés (communautés religieuses et pensionnats, par exemple), les terres et les
installations expérimentales des centres de recherche, etc. ?

4 Nous ne souhaitons nullement tenter de répondre ici à ces di↵érentes inter-


rogations, et à toutes les autres questions qui pourraient être soulevées dans ces
deux cas, ou dans d’autres situations semblables. Nous tenons seulement à insister
dès le départ sur l’absolue nécessité de se poser de telles questions et d’y répondre
de façon précise avant toute enquête statistique, et aussi sur la nécessité de donner
des indications détaillées à ce sujet dans tout rapport, mémoire ou publication.
De même, le lecteur de tout rapport, mémoire ou publication doit toujours exa-
miner avec circonspection les résultats dont il serait amené à prendre connaissance,
si des réponses circonstanciées à de telles questions ne sont pas données.
Pour illustrer ce fait, nous ajoutons simplement, à titre d’indication, que sans
aucune anomalie d’aucune sorte, la superficie moyenne des exploitations agricoles
recensées en Belgique était, en 1987, de 14,6 hectares en considérant toutes les
(( exploitations )), quelle que soit leur étendue, et de 17,2 hectares (soit une diffé-
rence de plus de 15 %) en limitant conventionnellement l’observation aux seules
exploitations de 1 hectare au moins (tableau 3.2.3).
2.2.3 ÉTUDE PAR ENQUÊTE 31

2.2.3 La définition des observations et le choix


d’une méthode de collecte des données
1 Les observations à réaliser au cours d’une enquête doivent aussi être parfai-
tement définies dans tous les cas, en fonction notamment du but poursuivi.
S’il s’agit d’observations qualitatives, telles que l’état civil ou la profession dans
un recensement de population ou le type d’exploitation dans un recensement agri-
cole, la signification exacte de tous les termes utilisés doit être précisée de manière
non ambiguë. De même, s’il s’agit d’observations quantitatives, telles que le nombre
de pièces d’habitation d’un logement ou la superficie sous labour d’une exploita-
tion agricole, non seulement les termes utilisés doivent être définis de façon très
précise, mais en outre, le mode de détermination des valeurs numériques (comp-
tage, mesure, estimation visuelle) et les unités de mesure doivent être clairement
spécifiés.
Pour illustrer les problèmes auxquels on peut être confronté dans ces quelques
cas, il suffit de penser, d’une part, en matière de professions, aux difficultés de
comptabilisation des travailleurs à temps partiel, des travailleurs aidant un membre
de leur famille et des personnes travaillant pour plusieurs employeurs, et d’autre
part, en ce qui concerne les nombres de pièces d’habitation, à la façon de compter
par exemple les cuisines, salles de bain, buanderies, offices, débarras, etc.

2 Un autre point important, en matière de définition des observations, est la


fixation de la date à laquelle les observations doivent être faites, s’il est possible
de les réaliser toutes simultanément, ou de la date à laquelle les observations sont
sensées avoir été faites, si la réalisation de l’enquête n’est pas instantanée, ou en-
core la définition de la période couverte par l’enquête, si celle-ci concerne, non pas
un instant donné, mais bien un certain intervalle de temps.
Il ne faut pas confondre par exemple le nombre de foyers de fièvre aphteuse ou
de peste porcine observés à un moment donné, et le nombre de nouveaux foyers
de fièvre aphteuse ou de peste porcine observés au cours d’une période donnée.

3 Quant aux méthodes de collecte des observations, les principales possibilités


classiques sont, d’une part, l’envoi de questionnaires par la poste et leur retour
par la même filière, et d’autre part, l’envoi d’enquêteurs, ainsi que des méthodes
mixtes, telles qu’un envoi de questionnaires préalable au passage d’enquêteurs. On
doit y ajouter les enquêtes, de plus en plus nombreuses, qui sont réalisées sous
différentes formes par téléphone et par internet.
Dans tous les cas, une attention particulière doit être accordée à la formation
éventuelle des enquêteurs, et à la préparation des questionnaires et de tous les
documents de travail, que sont par exemple les instructions écrites données aux
enquêteurs. Pour éviter des déboires au cours de l’enquête proprement dite, on a
d’ailleurs souvent intérêt à mettre sur pied une pré-enquête ou enquête-pilote 10 ,
10 En anglais : pilot survey, exploratory survey.
32 COLLECTE DES DONNÉES 2.2.4

destinée uniquement à contrôler sur un petit nombre d’unités la qualité des ques-
tionnaires et, le cas échéant, des enquêteurs.
Au moment du dépouillement des résultats de l’enquête, on doit également être
attentif au problème des absences de réponses, aussi appelées non-réponses 11 , qui
peuvent constituer un danger particulièrement grand dans le cas des enquêtes
réalisées par voie postale, par téléphone et par internet.

2.2.4 Quelques méthodes d’échantillonnage


1 Pour les enquêtes par échantillonnage, une première façon de constituer
l’échantillon consiste à choisir une à une, et indépendamment les unes des autres,
chacune des unités qui seront observées, en donnant à toutes les unités de la po-
pulation des chances égales d’être choisies. Un tel échantillonnage est dit aléatoire
et simple ou complètement aléatoire 12 .
Dans de nombreuses situations, la constitution d’échantillons de ce type peut
être réalisée en numérotant de façon continue toutes les unités de la population
et en choisissant (( au hasard )) le nombre voulu de numéros, par l’une ou l’autre
méthode de tirage au sort. Nous reviendrons ultérieurement, de façon plus précise,
sur ce point (§ 8.2).

2 Une autre procédure consiste à choisir comme ci-dessus une première unité,
et ensuite, à partir de celle-ci, de façon systématique ou régulière, les autres unités
qui doivent constituer l’échantillon.
Tel peut être le cas, dans une liste de personnes, en choisissant par exemple un
nom au hasard parmi les 20 premiers noms de la liste, et ensuite régulièrement, à
partir de celui-ci, un nom sur 20 (par exemple le 7ème nom pour commencer, puis
le 27ème nom, le 47ème nom, le 67ème nom, etc.).
Tel peut être le cas également, à deux dimensions, en agissant de la même façon
dans les deux directions. Par exemple, dans un champ de betteraves, on pourrait
choisir de façon systématique des lignes de betteraves et, dans ces lignes, de façon
systématique ou à intervalle régulier, des betteraves (par exemple la 3ème ligne, la
13ème ligne, la 23ème ligne, etc., et dans chacune de ces lignes, la 4ème betterave,
la 24ème betterave, la 44ème betterave, etc., ou la première betterave se trouvant
au-delà du point situé à 2 mètres du début de la ligne, au-delà du point situé à
12 mètres du début de la ligne, au-delà du point situé à 22 mètres du début de la
ligne, etc.).
Un tel échantillonnage est dit systématique 13 . En pratique, il est souvent plus
facile à réaliser qu’un échantillonnage complètement aléatoire, surtout pour des
observations qui doivent être e↵ectuées en champ, en verger, en forêt, etc.
11 En anglais : non-response.
12 En anglais : simple random sampling, unrestricted random sampling.
13 En anglais : systematic sampling.
2.2.4 ÉTUDE PAR ENQUÊTE 33

Pour un même nombre d’observations, l’échantillonnage systématique possède


aussi l’avantage de donner fréquemment des résultats plus précis que l’échantillon-
nage complètement aléatoire, mais il peut cependant soulever certains problèmes
particuliers, que nous évoquerons ultérieurement (§ 8.3.1.3 ).

3 Dans certains cas, il peut être utile de subdiviser la population en plusieurs


parties, appelées strates 14 , avant de procéder au choix des unités qui constitueront
l’échantillon. Le choix de ces unités est alors réalisé indépendamment dans chacune
des strates, soit de façon complètement aléatoire, soit de façon systématique.
Un tel échantillonnage est dit stratifié 15 . Son emploi se justifie surtout quand
la population-parent est très hétérogène et qu’on souhaite s’assurer que ses dif-
férentes composantes (di↵érentes catégories socio-professionnelles, di↵érents types
d’exploitations agricoles, di↵érents types de sols ou de végétations, par exemple) se-
ront toutes bien représentées dans l’échantillon. La stratification peut alors appor-
ter un gain de précision important, par rapport à l’échantillonnage complètement
aléatoire, sans modifier le nombre total d’observations à réaliser. Pour que ce gain
de précision soit maximum, on doit veiller à définir les strates de manière à ce
qu’elles soient toutes aussi homogènes que possible [STAT2, § 9.3.4] 16 .

4 L’échantillonnage à deux ou plusieurs degrés ou niveaux 17 , aussi appelé


échantillonnage en grappes, est une autre méthode couramment utilisée en pra-
tique. Son principe est de considérer deux ou plusieurs types d’unités statistiques,
correspondant aux deux ou aux di↵érents degrés ou niveaux de l’échantillonnage,
et de procéder de façon complètement aléatoire ou de façon systématique à chacun
de ces degrés ou niveaux.
Dans une enquête agricole par exemple, on peut choisir de façon complètement
aléatoire, au premier degré, un certain nombre de communes, puis au second degré,
dans les communes ainsi retenues et de façon complètement aléatoire également, un
certain nombre d’exploitations agricoles. Les communes sont les unités du premier
degré, et les exploitations, dans les communes, les unités du deuxième degré.
Dans une telle situation, cette façon de procéder permet notamment de limiter
les déplacements à un nombre restreint de communes, mais il faut savoir que cette
facilité de réalisation ne s’obtient en général qu’au prix d’une certaine perte de
précision. On peut en e↵et montrer que, pour un même nombre total d’observa-
tions, la précision des résultats obtenus par un échantillonnage à deux ou plusieurs
degrés est en général inférieure à celle d’un échantillonnage complètement aléatoire
[STAT2, § 9.3.4].
On notera aussi que le principe de l’échantillonnage à deux ou plusieurs degrés
est utilisé très fréquemment dans les processus d’analyse chimique, tels que par
14 En anglais : stratum.
15 En anglais : stratified sampling.
16 Nous rappelons que les mentions (( [STAT2, . . .] )) renvoient au deuxième tome de cette série

Statistique théorique et appliquée.


17 En anglais : two-stage sampling, multi-stage sampling.
34 COLLECTE DES DONNÉES 2.2.4

exemple, en matière d’étude de sols ou de fourrages, le prélèvement (( au hasard ))


de deux ou plusieurs échantillons de terre ou de fourrage dans une même parcelle
ou un même champ, et la réalisation au laboratoire de deux ou plusieurs analyses
pour chacun des échantillons prélevés. Les échantillons de terre ou de fourrage sont
ici les unités du premier degré, et les analyses les unités du deuxième degré.

5 La méthode des quotas 18 , enfin, est une méthode largement utilisée dans les
sondages d’opinion. Elle consiste à donner à l’échantillon une composition aussi
semblable que possible à celle de la population, en fonction de quelques critè-
res de classification considérés a priori comme particulièrement importants, mais
sans définir de façon précise la manière dont les individus devront être choisis à
l’intérieur de chacune des classes ou catégories de la population.
On tient souvent compte du sexe, de l’âge et des catégories socio-profession-
nelles, ou de la répartition géographique des di↵érentes personnes constituant la
population. Mais s’il faut choisir, par exemple, 15 ouvrières âgées de 20 à 30 ans,
pour assurer proportionnellement une bonne représentation de cette catégorie de
la population, on n’e↵ectue pas ce choix de façon complètement aléatoire ou de
façon systématique, parmi toutes les personnes qui appartiennent à cette catégo-
rie, mais on laisse en général la liberté de ce choix aux enquêteurs, moyennant
éventuellement certaines directives.
Comme l’échantillonnage stratifié, auquel elle est directement comparable, la
méthode des quotas donne, pour un même nombre d’observations, des résultats
plus précis que l’échantillonnage complètement aléatoire. En outre, son utilisation
est souvent plus facile ou plus rapide que celle de l’échantillonnage complètement
aléatoire. Mais l’absence de méthode précise de choix des individus à l’intérieur des
classes peut conduire à des erreurs importantes, liées notamment au comportement
des enquêteurs.

6 La réalisation de tout échantillonnage, quel qu’il soit, ne peut se faire va-


lablement que si on possède au départ, pour l’ensemble de la population, un mi-
nimum d’informations constituant la base d’échantillonnage ou de sondage 19 . Il
peut s’agir notamment de listes ou de répertoires, de documents cartographiques
ou de photographies aériennes, etc.
Les qualités essentielles de ces documents sont d’être complets, bien mis à jour,
et sans répétitions (c’est-à-dire sans mentions doubles ou multiples des mêmes uni-
tés). Il est évident, en e↵et, que la qualité d’un échantillon, et donc des résultats
qu’on en déduit, est toujours conditionnée dans une large mesure par la qualité
des documents qui ont servi de fondements à l’échantillonnage.
On remarquera aussi que, dans certains cas, la base d’échantillonnage ne doit
pas s’étendre en détail à l’ensemble de la population. Par exemple, dans le cas
de l’enquête agricole dont il a été question pour illustrer le principe de l’échan-
tillonnage à deux degrés, il pourrait s’agir d’une liste de toutes les communes et,
18 En anglais : quota.
19 En anglais : sampling frame.
2.2.5 ÉTUDE PAR ENQUÊTE 35

uniquement pour les communes choisies au premier degré, d’une liste de toutes les
exploitations agricoles.

7 Une caractéristique essentielle de tout échantillonnage est le fait que les


résultats qu’on en déduit sont le plus souvent entachés d’erreurs non négligeables.
Il peut s’agir à la fois d’erreurs systématiques 20 et d’erreurs ou de fluctuations
aléatoires 21 .
Les premières conduisent à une surestimation ou une sous-estimation plus ou
moins importante des valeurs qu’on souhaite connaı̂tre (moyennes, pourcentages,
etc.), mais elles peuvent être totalement éliminées dans certaines conditions. Les
secondes, par contre, peuvent se compenser dans une certaine mesure, mais elles
ne sont jamais complètement éliminées. Nous reviendrons ultérieurement sur ce
point (§ 9.3.1).
Les non-réponses, de même que les enquêtes téléphoniques et par internet,
peuvent être des sources importantes d’erreurs systématiques. Diverses méthodes
d’ajustement ou de redressement 22 permettent toutefois de remédier dans cer-
taines limites à ces inconvénients [Bethlehem, 2010].

Exemple 2.2.1. Di↵érentes méthodes d’échantillonnage.


Les di↵érents croquis de la figure 2.2.1 illustrent quelques-unes des méthodes
d’échantillonnage qui viennent d’être citées, dans le cas d’un espace à deux dimen-
sions, tel qu’un champ, un verger, une forêt, etc. Il s’agit successivement :
1. d’un échantillonnage complètement aléatoire (ou aléatoire et simple) de points
d’observation dans le domaine considéré ;
2. d’un échantillonnage aléatoire stratifié, avec une densité de points deux fois plus
importante dans la première strate (A), par comparaison avec la deuxième
strate (B) ;
3. d’un échantillonnage systématique simple ;
4. d’un échantillonnage systématique stratifié, avec également une densité de points
deux fois plus importante dans la première strate (A), par comparaison avec
la deuxième strate (B).

2.2.5 La taille de l’échantillon


1 La dernière question à laquelle nous consacrons quelques lignes, au cours
de ce bref exposé relatif aux problèmes d’enquête, est celle de la taille ou de la
dimension des échantillons. Cette taille peut être fixée en valeur absolue, c’est-à-
dire en nombre d’unités observées, ou en valeur relative, c’est-à-dire en proportion
20 En anglais : systematic error.
21 En anglais : random error.
22 En anglais : adjustment, imputation.
36 COLLECTE DES DONNÉES 2.2.5

Figure 2.2.1. Exemples d’échantillonnages aléatoires et systématiques,


non stratifiés et stratifiés.

du nombre d’unités observées, par rapport au nombre total d’unités constituant


la population.
En valeur absolue, on parle de la taille ou de l’e↵ectif de l’échantillon 23 , et
en valeur relative, de l’intensité d’échantillonnage ou de sondage, ou encore de la
fraction échantillonnée ou sondée 24 .

2 Sans faire intervenir aucune formule mathématique, on peut affirmer, par


simple bon sens, que la précision des résultats obtenus à l’issue d’une enquête par
échantillonnage dépend à la fois de l’importance de l’échantillon et du caractè-
re plus ou moins homogène ou hétérogène de la population-parent, la précision
étant d’autant meilleure que l’échantillon est de taille plus importante et que la
population est plus homogène.
Il en résulte aussi, inversement, qu’il ne peut être question de fixer objective-
ment la taille d’un échantillon sans avoir au préalable une idée suffisante, d’une
part, de la précision souhaitée, et d’autre part, du degré d’homogénéité de la po-
pulation étudiée.
23 En anglais : sample size.
24 En anglais : sampling fraction.
2.2.5 ÉTUDE PAR ENQUÊTE 37

On notera également que, dans le cas d’un échantillonnage stratifié ou à deux


ou plusieurs degrés ou niveaux, les tailles des échantillons ou les fractions échantil-
lonnées peuvent évidemment être di↵érentes d’une strate à l’autre ou d’un niveau
à l’autre.

Exemple 2.2.2. Inventaire forestier : principes de base.


Pour illustrer les di↵érents éléments évoqués ci-dessus, nous présentons rapide-
ment la méthode de travail qui a été adoptée dans le cadre d’un inventaire forestier
relatif à la partie méridionale de la Belgique [Rondeux et al., 1996].
Le but de cet inventaire est de chi↵rer l’importance de la forêt et de la carac-
tériser, notament en nombres d’arbres, en dimensions moyennes des arbres et en
volumes, pour di↵érents types de peuplements, di↵érentes essences forestières, etc.
Le territoire considéré est l’ensemble de la Région wallonne, soit une superficie de
16.000 km2 environ, dont près de 5.000 km2 de forêts.
La collecte des données se fait à l’aide de photographies aériennes et de cartes
topographiques, en ce qui concerne la localisation des points d’observation, et sur
le terrain, en ce qui concerne les observations elles-mêmes.
Les points d’observation sont répartis de façon systématique à raison de deux
points par kilomètre carré, selon un maillage rectangulaire de 500 m sur 1.000 m
(distance entre les points d’observation de 500 m dans la direction nord-sud et de
1.000 m dans la direction ouest-est). Le nombre total de points considérés est donc
de l’ordre de 10.000 , pour les 5.000 km2 de forêts qui sont étudiés.
En chacun des points en question, on définit une série de parcelles circulaires
concentriques. Les arbres de 20 à 69 cm de circonférence sont mesurés dans une
parcelle de 4,5 m de rayon (soit sur une surface d’environ 64 m2 ), les arbres de
70 à 119 cm de circonférence dans un rayon de 9 m (soit environ 2,5 ares), et les
arbres de plus de 119 cm de circonférence dans un rayon de 18 m (soit environ
10 ares). Des observations complémentaires sont également réalisées pour les semis
et les arbres de moins de 20 cm de circonférence.
L’intensité d’échantillonnage est en conséquence, respectivement pour les trois
catégories de grosseur, égale à environ 0,01 %, 0,05 % et 0,2 %. Et au total, pour
l’ensemble de l’étendue envisagée, l’observation porte sur près de 64 ha pour les
bois les plus petits, 2,5 km2 pour la catégorie intermédiaire, et 10 km2 pour les
bois les plus gros.
Quant aux observations, elles concernent essentiellement, en chaque point, la
localisation exacte et le type de propriétaire, les caractéristiques du milieu (to-
pographie, sol, végétation, etc.), la description du peuplement (forêt constituée
d’une seule ou de plusieurs essences, d’arbres de même âge ou d’âges di↵érents,
etc.), et les caractéristiques des arbres (circonférences de tous les arbres mesurées
à une hauteur de référence de 1,50 m, hauteurs de tous les arbres ou d’un certain
nombre d’entre eux seulement, état sanitaire, etc.).
38 COLLECTE DES DONNÉES 2.3.2

2.3 L’expérimentation
2.3.1 Principes généraux
1 Contrairement au cas de l’observation par enquête (§ 2.2.1), l’expérimenta-
tion 25 , c’est-à-dire la réalisation d’une ou plusieurs expériences ou d’un ou plu-
sieurs essais 26 , suppose que l’apparition des faits qu’on désire étudier est volon-
tairement provoquée, dans des conditions qu’on maı̂trise au moins partiellement.
L’expérimentation étant souvent plus efficace que la simple observation par
enquête, le chercheur ou l’homme de science doit toujours envisager la possibilité
d’y recourir, quand cela s’avère réalisable, ce qui est fréquemment le cas dans le
domaine biologique notamment.

2 Comme toute enquête, par échantillonnage ou non, toute expérience doit


être l’objet d’une préparation ou d’une planification 27 minutieuse.
D’une façon générale, les questions qu’il faut examiner en élaborant un plan
d’expérience ou un protocole expérimental sont la définition du but et des condi-
tions de l’expérience, la définition des facteurs qu’on désire étudier, la définition
des unités expérimentales, la définition des observations à réaliser, et la définition
du dispositif expérimental. Nous examinerons successivement ces di↵érents points,
à l’exclusion toutefois de la question des observations, pour laquelle il n’y a guère
de choses à ajouter ici, par rapport à ce qui a été dit en matière d’enquête (§ 2.2.3).
À ces principaux éléments, on peut éventuellement associer quelques indica-
tions préliminaires relatives à l’analyse des résultats.

2.3.2 La définition du but et des conditions de l’expérience


1 La définition du but et des conditions de réalisation d’une expérience cons-
titue une opération comparable à la définition de la population-parent dans le
cas d’une enquête par échantillonnage (§ 2.2.2). Les conclusions d’une expérience
n’auraient en e↵et guère de valeur en général si elles ne s’appliquaient qu’aux
quelques individus considérés au cours de l’expérience (aux quelques plantes ou
aux quelques animaux observés, par exemple). Ces conclusions n’acquièrent en fait
une réelle valeur que dans la mesure où elles peuvent s’appliquer à un ensemble
plus vaste, tel que, par exemple, l’ensemble des cultures de blé ou l’ensemble des
vaches laitières d’une région donnée.
Il importe donc que cet ensemble plus vaste, ou cette population, soit par-
faitement défini, et que les individus choisis pour l’expérience en constituent un
échantillon bien représentatif. On doit notamment être attentif à ne pas organiser
l’expérience dans des conditions trop particulières, sauf si les conclusions qu’on
25 En anglais : experimentation.
26 En anglais : experiment, trial, assay.
27 En anglais : planning of experiment, experimental planning.
2.3.3 EXPÉRIMENTATION 39

souhaite en déduire doivent être appliquées précisément dans de telles conditions


(expériences en serres ou en chambres de culture, par exemple).

2 Un point important, qui mérite d’être souligné tout particulièrement en ce


qui concerne la planification des expériences, est leur répétition éventuelle dans
l’espace et dans le temps. Dans de nombreux domaines, et notamment en matière
agronomique, le matériel expérimental (plantes et animaux, par exemple) présente
en e↵et une variabilité non négligeable d’un endroit à l’autre et d’une année à
l’autre, ou d’une saison de culture à l’autre, en relation notamment avec des dif-
férences de milieu et de climat.
En vue d’aboutir à des conclusions suffisamment sûres pour qu’elles puissent
être transposées dans la pratique, il importe donc que l’expérimentation ait été réa-
lisée dans des conditions assez diversifiées, les mêmes expériences étant répétées en
un certain nombre d’endroits, représentatifs de l’ensemble du territoire considéré,
et au cours de plusieurs années ou de plusieurs saisons de culture.

2.3.3 La définition des facteurs


1 La définition des facteurs 28 , dans un plan d’expérience, est un élément
nouveau par rapport au cas des enquêtes. Il s’agit en e↵et, précisément, des ca-
ractéristiques propres à l’expérience, qui sont sous l’entière dépendance de l’expé-
rimentateur.
Ces facteurs peuvent être soit qualitatifs, lorsqu’ils réunissent une série d’élé-
ments qui ne peuvent pas être classés a priori dans un ordre donné, tels que
des variétés ou des produits phytosanitaires, soit quantitatifs, quand il s’agit au
contraire d’éléments qui constituent a priori une suite logique, tels que di↵érentes
doses d’un même engrais, di↵érentes températures, ou di↵érentes pressions.
Les éléments individuels qui constituent un facteur (di↵érentes variétés, dif-
férents produits phytosanitaires, di↵érentes doses d’engrais, di↵érentes tempéra-
tures, di↵érentes pressions, etc.) sont généralement appelés modalités, ou encore
variantes ou niveaux 29 , le terme variante correspondant plus particulièrement aux
facteurs qualitatifs et le terme niveau aux facteurs quantitatifs.

2 Dans le cas d’un facteur qualitatif, les di↵érentes variantes sont généra-
lement définies a priori, en même temps que le but de l’expérience (par exemple
quelques variétés données de blé). Il peut arriver cependant que les variantes prises
en considération dans l’expérience doivent être choisies au sein d’un ensemble plus
vaste (par exemple quelques lignées de betterave sucrière, choisies parmi les descen-
dances résultant d’un grand nombre de croisements). Le choix d’un nombre limité
de variantes à mettre en expérience peut alors être réalisé de façon complètement
aléatoire.
28 En anglais : factor.
29 En anglais : level.
40 COLLECTE DES DONNÉES 2.3.4

Dans le cas d’un facteur quantitatif, les di↵érents niveaux sont généralement
choisis de manière à constituer une progression arithmétique (par exemple 100 ,
150 et 200 kg d’azote par hectare), ou une progression géométrique (par exemple
1 , 2 , 4 et 8 mg d’une matière active ou d’une substance de croissance donnée par
plante).
Quand deux ou plusieurs facteurs sont étudiés simultanément au cours d’une
même expérience, on s’e↵orce souvent d’associer chacune des variantes ou chacun
des niveaux d’un facteur, à chacune des variantes ou chacun des niveaux du ou
des autres facteurs (chacune des variétés associée à chacune des doses d’engrais,
par exemple). Une expérience organisée de cette manière est dite factorielle 30 .
Chacun des éléments individuels considérés, c’est-à-dire aussi bien chacun des
niveaux ou des variantes d’une expérience à un facteur, que chacune des combi-
naisons de niveaux ou de variantes d’une expérience à deux ou plusieurs facteurs
(une variété associée à une dose d’engrais, par exemple), peut être appelé objet.
Enfin, un problème connexe, qui doit toujours être envisagé, est celui de l’in-
clusion ou la non-inclusion dans l’expérience d’un ou plusieurs témoins ou objets
de référence 31 , qui ne subissent aucun traitement particulier (parcelles sans en-
grais, par exemple), ou qui servent de base de comparaison pour les autres objets
(variété bien connue servant de base de comparaison pour un ensemble de variétés
nouvelles, par exemple).

2.3.4 La définition des unités expérimentales


1 Un autre point important du plan d’expérience est la définition de l’unité
expérimentale 32 , qui joue un rôle analogue à celui de l’unité de base en matière
d’enquête (§ 2.2.2). Cette unité peut être soit tout à fait naturelle, tel un arbre ou
un animal, soit relativement artificielle, telle une parcelle de terrain plus ou moins
étendue ou un groupe de plantes ou d’animaux. Il y a lieu, dans ce dernier cas, de
déterminer de façon judicieuse la dimension (étendue de la parcelle ou nombre de
plantes ou d’animaux, par exemple) et, éventuellement, la forme de l’unité prise
en considération (forme carrée ou rectangulaire de la parcelle, par exemple).

2 Le nombre de répétitions 33 , c’est-à-dire le nombre d’unités expérimentales


qui se voient appliquer un traitement identique ou, d’une façon plus générale, qui
correspondent à un même objet, doit également être fixé lors de la planification
de l’expérience.
Très souvent, le nombre de répétitions et la dimension des unités expérimentales
sont deux éléments étroitement liés l’un à l’autre, en raison du fait que le matériel
expérimental total disponible est limité (étendue limitée du terrain disponible,
30 En anglais : factorial experiment.
31 En anglais : control.
32 En anglais : experimental unit.
33 En anglais : replication.
2.3.5 EXPÉRIMENTATION 41

nombre limité de plantes ou d’animaux, etc.), ce qui contraint l’expérimentateur


à réduire un de ces deux éléments quand il veut augmenter l’autre. Dans un tel
cas, pour obtenir un maximum de précision, il y a généralement intérêt à augmen-
ter le nombre de répétitions, en diminuant autant que possible, dans des limites
raisonnables, la dimension des unités expérimentales.

2.3.5 La définition du dispositif expérimental


1 Ayant déterminé de façon précise les di↵érents objets qu’il souhaite étudier,
et disposant d’un certain nombre d’unités de base, l’expérimentateur doit encore
définir la manière dont les objets seront associés aux unités de base, le mode d’as-
sociation adopté constituant le dispositif expérimental 34 .
Une première procédure consiste à répartir les objets tout à fait au hasard,
parmi les unités expérimentales, de telle sorte que chaque unité ait des chances
égales de se voir a↵ecter l’un ou l’autre des di↵érents objets, et de telle sorte
aussi que l’a↵ectation d’un objet à une unité expérimentale soit indépendante
de l’a↵ectation de l’un ou l’autre objet aux autres unités expérimentales. Un tel
dispositif est dit complètement aléatoire 35 .

2 Une deuxième solution consiste à réunir les unités expérimentales en groupes


aussi homogènes que possible et à répartir les objets au hasard à l’intérieur des
di↵érents groupes. Ces groupes d’unités expérimentales sont généralement appelés
blocs 36 et, dans le cas le plus simple, où chaque bloc contient autant d’unités ex-
périmentales qu’il y a d’objets, l’expérience est dite en blocs aléatoires complets 37 .
Les blocs constituent alors chacun une répétition complète.
Dans une expérience en champ, en verger, en forêt, etc., chacun des blocs est
généralement constitué de parcelles voisines, de plantes voisines ou d’arbres voisins
les uns des autres, en couvrant ainsi une certaine étendue de terrain. Au moment
où on détermine la dimension et la forme des unités expérimentales, on doit alors
définir aussi la dimension et la forme des blocs.
On notera que la notion de bloc, utilisée en expérimentation, est très semblable
à celle de strate, introduite en matière d’échantillonnage (§ 2.2.4.3 ). Dans les
deux cas en e↵et, l’objectif est de constituer des groupes d’unités de base aussi
homogènes que possible, en vue d’obtenir un maximum de précision, en procédant
au tirage au hasard à l’intérieur de ces groupes, et non dans l’ensemble de toute
la population ou dans tout le domaine considéré.

d 3 Comme en matière d’échantillonnage, de nombreux autres dispositifs exis-


tent également en matière d’expérimentation. Ils portent notamment les noms de
34 En anglais : design of experiment.
35 En anglais : completely randomized design.
36 En anglais : block.
37 En anglais : randomized complete block.
42 COLLECTE DES DONNÉES 2.3.5

carré latin 38 , de dispositif en blocs incomplets 39 , de dispositif en parcelles divi-


b sées , etc., mais nous n’en parlerons pas plus longuement ici.
40

Exemple 2.3.1. Expérience à deux facteurs sur céréales.


À titre d’illustration, nous présentons de façon relativement sommaire deux
exemples de ce que peuvent être des expériences agronomiques courantes, d’une
part sur végétaux et d’autre part sur animaux.
Le premier exemple concerne l’étude de l’influence d’un herbicide, appliqué à
di↵érentes doses, sur les rendements de deux variétés de blé. Nous désignerons les
deux variétés considérées respectivement par A et B , et nous supposerons que les
doses d’herbicides sont la dose normale conseillée par le producteur (dose 1), une
dose double de la normale (dose 2), et l’absence d’herbicide (dose 0).
Les variétés de blé et les doses d’herbicides sont les deux facteurs pris en con-
sidération. Le premier est de type qualitatif, et le second de type quantitatif.
Si chacun des trois niveaux du facteur doses est associé à chacune des deux
variétés, l’expérience est de type factoriel et comporte six objets. Ceux-ci peuvent
être numérotés de 1 à 6 ou désignés par exemple par les symboles :

A0 , A1 , A2 , B0 , B1 , B2 .
Les objets A0 et B0 sont des témoins (non traités).
Les unités expérimentales peuvent être des parcelles rectangulaires, de 6 m sur
20 m par exemple, et nous supposerons qu’en fonction des moyens disponibles,
le nombre de répétitions a été fixé à cinq, pour chacun des six objets. L’étendue
totale des 30 parcelles considérées est donc de 36 ares, compte non tenu des chemins
d’accès, sentiers et autres dégagements éventuels.
Les observations concerneront essentiellement les rendements en grains par
parcelle, exprimés en poids de matière sèche et ramenés conventionnellement à un
même niveau d’humidité (souvent 16 %).
Comme le montre la figure 2.3.1, dessinée à l’échelle 1/1.000 , l’expérience peut
être complètement aléatoire ou, au contraire, réalisée en blocs aléatoires com-
plets. Dans le premier cas, les cinq répétitions de chacun des six objets sont ré-
parties de façon tout à fait aléatoire dans l’ensemble des 30 parcelles. Dans le
deuxième cas, par contre, le champ est tout d’abord divisé en cinq blocs de six
parcelles, correspondant aux cinq bandes verticales de la figure 2.3.1, et les six
objets sont ensuite répartis de façon complètement aléatoire à l’intérieur de chacun
des cinq blocs, et cela de manière indépendante d’un bloc à l’autre. En pratique,
ce deuxième dispositif est généralement préférable au premier.

38 En anglais : Latin square.


39 En anglais : incomplete block.
40 En anglais : split-plot.
2.3.5 EXPÉRIMENTATION 43

Figure 2.3.1. Exemples d’expériences complètement aléatoire


et en blocs aléatoires complets.

Exemple 2.3.2. Expérience à un facteur sur bovins.


Notre deuxième exemple concerne la comparaison de cinq alimentations dif-
férentes, données à de jeunes taurillons. Les cinq alimentations correspondent à
l’adjonction de cinq compléments di↵érents à un même fourrage, et constituent un
facteur qualitatif.
Le matériel expérimental est formé de 60 taurillons d’une même race et d’une
même catégorie d’âge. Au cours de l’expérience, ceux-ci seront réunis en 20 groupes
de trois animaux, a↵ectés à 20 stalles ou loges indépendantes les unes des autres,
les groupes de trois animaux ou les stalles constituant les unités expérimentales.
Les observations consisteront essentiellement en des pesées régulières des ali-
ments consommés et des di↵érents animaux. Ces données fourniront subsidiaire-
ment des caractéristiques dérivées, telles que les consommations moyennes jour-
nalières en aliments, les gains moyens journaliers en poids, etc.
Au début de l’expérience, la constitution des 20 groupes de trois animaux peut
être réalisée de manière complètement aléatoire, et la répartition des cinq alimen-
tations au sein des 20 groupes (quatre groupes de trois animaux pour chacune des
cinq alimentations) peut également être entièrement aléatoire.
44 COLLECTE DES DONNÉES 2.4.1

Mais, si on a prévu une période initiale d’adaptation et d’observation des ani-


maux et, au cours de celle-ci, une ou plusieurs pesées préalables des animaux,
on peut également constituer les groupes en tenant compte de ces données pré-
liminaires. On peut par exemple former tout d’abord quatre lots de 15 animaux
de poids semblables (le premier lot réunissant les 15 taurillons les plus légers, le
deuxième lot les 15 taurillons de la tranche de poids suivante, le troisième lot à
nouveau les 15 taurillons de la tranche de poids suivante, et le quatrième lot les
15 taurillons les plus lourds), puis constituer au hasard cinq groupes de trois tau-
rillons au sein de chacun de ces quatre lots, et enfin répartir les cinq alimentations
au hasard et indépendamment parmi les cinq groupes relatifs à chacun des quatre
lots. On assurerait ainsi une meilleure répartition des alimentations, puisque cha-
cune d’entre elles serait donnée à trois taurillons de chacune des quatre catégories
de poids.
Les groupes de trois taurillons qui occupent une même stalle constituant les
unités expérimentales, on se trouve, d’une façon comme de l’autre, en présence
d’une expérience comportant quatre répétitions. Dans le premier cas, l’expérience
est complètement aléatoire, et dans le deuxième cas, elle est organisée en blocs
aléatoires complets, les blocs correspondant aux quatre lots d’animaux de poids
semblables. Le facteur subsidiaire (( poids initial des animaux )) remplace le facteur
(( proximité des parcelles )) de l’exemple 2.3.1.

2.4 La nature, l’enregistrement et le traitement


des données
2.4.1 Di↵érents types de données
1 Avant d’entreprendre quelque étude statistique que ce soit, il importe d’être
bien conscient de l’existence de di↵érents types de données. Le choix de l’une
ou l’autre méthode d’analyse statistique dépend en e↵et de cet élément [STAT2,
§ 1.2.4].
Nous avons déjà signalé antérieurement la distinction qui doit être faite entre
les observations qualitatives et les observations quantitatives (§ 2.2.3.1 ). Mais il
y a lieu d’aller plus loin.

2 En ce qui concerne tout d’abord les données quantitatives 41 , une nouvelle


distinction doit être introduite entre, d’une part, les dénombrements ou comptages,
et d’autre part, les mesures ou mensurations.
Les dénombrements ou comptages 42 ne soulèvent guère de problèmes parti-
culiers, en ce sens que leurs résultats s’expriment tout simplement en nombres
entiers, non négatifs (nombres de fruits par rameau, nombres de têtes de bétail
41 En anglais : quantitative data.
42 En anglais : enumeration, count.
2.4.1 NATURE, ENREGISTREMENT ET TRAITEMENT DES DONNÉES 45

par exploitation agricole, etc.). De telles données, et les variables sous-jacentes qui
y correspondent, sont fondamentalement de nature discontinue ou discrète 43 .
Les mesures ou mensurations 44 , par contre, soulèvent des problèmes de pré-
cision et de choix d’unités, auxquels des solutions claires doivent toujours être
apportées. On notera à ce sujet qu’il est souvent inutile, et même parfois dangereux,
de considérer au niveau de la mesure un nombre trop important de chi↵res. Dans
le domaine biologique par exemple, il est généralement illusoire d’utiliser plus de
deux ou trois chi↵res pour exprimer des résultats individuels (hauteurs totales
d’arbres exprimées en mètres, avec au maximum une décimale, poids de vaches
laitières exprimés en kilogrammes, sans décimales, etc.).
On notera également que, dans le cas des mesures, on e↵ectue en réalité des
observations discontinues, en raison de la nécessité d’arrondir les données à deux,
trois ou quelques chi↵res (discontinuités de 1 dm , 1 m , 1 kg , etc.), alors que les
variables considérées sont fondamentalement de nature continue 45 .

3 Quant aux données qualitatives 46 , elles concernent des caractères ou des


attributs 47 , que chacun des individus peut posséder ou ne pas posséder. Souvent,
ces données sont codées sous forme numérique, comme des variables quantitatives
discontinues, bien qu’il ne s’agisse pas de telles variables.
Dans les cas les plus simples, qui ne présentent que deux possibilités, telles que
la présence ou l’absence d’un caractère donné (pilosité, symptôme d’une certaine
maladie, etc.), on utilise couramment les valeurs 0 et 1 , en associant la valeur 0 à
l’absence et la valeur 1 à la présence du caractère considéré. Les mêmes valeurs, ou
éventuellement les valeurs 1 et 2 , sont aussi employées pour d’autres alternatives
simples, telles que vivant ou mort, mâle ou femelle, etc. De telles variables et
de telles données, ne pouvant prendre que deux valeurs, sont dites binaires ou
alternatives ou indicatrices 48 .
Quand le caractère considéré peut présenter plusieurs niveaux di↵érents, ordon-
nés les uns par rapport aux autres (individus sains, individus malades ou faiblement
atteints, individus fortement atteints, et individus morts, par exemple), on peut
également utiliser comme codification une suite de valeurs entières, telles que les
chi↵res de 0 à 3 ou de 1 à 4 , pour l’exemple qui vient d’être cité. On doit cependant
être extrêmement prudent dans l’utilisation de telles échelles de valeurs, notam-
ment en vue du calcul éventuel de moyennes ou d’autres paramètres. Les variables
et les données résultant d’une telle codification sont qualifiées d’ordinales 49 .
Enfin, quand le caractère considéré consiste en une série de modalités ou de
variantes qui ne peuvent pas être ordonnées d’une manière logique, telles que di-
43 En anglais : discontinuous data, discrete data.
44 En anglais : measurement.
45 En anglais : continuous data.
46 En anglais : qualitative data.
47 En anglais : character, attribute.
48 En anglais : binary data, indicatory data.
49 En anglais : ordinal data.
46 COLLECTE DES DONNÉES 2.4.1

verses couleurs de pelage, on peut aussi utiliser une codification basée sur une série
de valeurs numériques (1 pour un pelage brun, 2 pour un pelage gris, 3 pour un
pelage noir, etc.), mais on doit se souvenir du fait que toute opération arithmétique
basée sur de telles données, dites nominales 50 , doit être proscrite.
d Une autre solution applicable à ce dernier cas serait, au contraire, de considé-
rer qu’il y a autant de variables di↵érentes que de modalités ou de variantes, en
associant une variable binaire à chacune des modalités ou variantes (une première
variable pouvant prendre les valeurs 0 et 1 respectivement pour (( non brun )) et
brun, une deuxième variable pouvant prendre les valeurs 0 et 1 respectivement
b pour (( non gris )) et gris, etc.).

4 Indépendamment des cas les plus classiques, présentés ci-dessus, il faut si-
gnaler aussi l’existence de types plus particuliers de données, telles que les rangs
et les données directionnelles ou circulaires.
Les rangs 51 sont en fait les numéros d’ordre des di↵érents individus ou des
di↵érents éléments observés, classés selon l’ordre croissant de la caractéristique
considérée. De telles observations apparaissent notamment dans certains tests sen-
soriels, ou lors d’autres examens au cours desquels on ne demande pas aux experts
ou aux examinateurs d’attribuer une note à chacun des individus ou des éléments
observés, mais bien de procéder à un classement de ceux-ci.
On remarquera que les observations sont alors également, comme pour les dé-
nombrements ou les comptages, des nombres entiers non négatifs, mais les valeurs
obtenues ne sont pas indépendantes les unes des autres. En particulier, pour un
ensemble de n éléments auxquels sont attribués des rangs allant de 1 à n , la somme
des valeurs observées est égale à n (n + 1)/2 , et leur moyenne est toujours égale à
(n + 1)/2 .

d 5 Comme leur nom l’indique, les données directionnelles ou circulaires 52


concernent principalement des directions, le plus souvent dans un plan ou sur
une circonférence (direction du vent, direction des vols d’oiseaux migrateurs, d’in-
sectes, etc.), mais éventuellement aussi sur une sphère ou dans un espace à plus de
deux dimensions. Ces données sont généralement de nature continue, mais avec des
particularités telles que, par exemple, pour des observations exprimées en degrés,
les valeurs 0 et 360 se confondent, la di↵érence entre 350 et 15 est équivalente à la
di↵érence entre 15 et 40 , etc.
De telles données peuvent également être considérées dans le temps, en ce qui
concerne par exemple les di↵érentes heures de la journée, les valeurs 0 et 24 étant
b alors confondues.

Informations complémentaires : Fisher [1995], Fisher et al. [1993], Mardia et Jupp


[2000].
50 En anglais : nominal data.
51 En anglais : rank.
52 En anglais : directional data, circular data.
2.4.2 NATURE, ENREGISTREMENT ET TRAITEMENT DES DONNÉES 47

2.4.2 L’enregistrement et le traitement des données


1 L’enregistrement ou la saisie des données 53 peut tout d’abord être réalisé
sous forme manuscrite, dans des carnets de notes, sur des feuilles volantes, etc.
Quand le volume des données le justifie, on peut utilement avoir recours dans ce
cas à des feuilles de pointage ou des formulaires particuliers, prévoyant la place des
di↵érentes observations qui doivent être faites, et éventuellement leur codification.
En fonction des besoins ultérieurs, de telles données peuvent ensuite être enregis-
trées sur ordinateur.
Une deuxième solution consiste à e↵ectuer également un enregistrement ma-
nuel des données, non plus sur papier, mais directement sur un support infor-
matique. Tel est le cas notamment par l’utilisation d’ordinateurs portables ou
d’autres matériels équivalents. L’emploi éventuel de formulaires cède alors la place
à l’utilisation de cadres ou d’écrans de saisie des données.
Enfin, l’enregistrement des données peut être réalisé automatiquement, les ap-
pareils de mesure qui sont utilisés englobant l’un ou l’autre système informatique
ou étant connectés à de tels systèmes. Ces dispositifs peuvent servir à la fois à
l’enregistrement de données quantitatives et à l’enregistrement de données quali-
tatives, par des processus de reconnaissance de couleurs, de formes, etc.

2 Quelle que soit la méthode utilisée, l’enregistrement doit toujours être l’objet
d’une très grande attention, et cela autant que possible dès la planification de
l’enquête ou de l’expérience.
Le cas échéant, la conception des formulaires ou des écrans de saisie doit être
réalisée avec le plus grand soin, en vue de réduire au maximum les risques d’er-
reur. Dans le cas d’un enregistrement sous forme manuscrite, toute transcription
éventuelle des observations, y compris leur possible encodage sur ordinateur, doit
être l’objet d’une vérification très stricte.
D’une façon générale, un examen critique des données, relatif notamment à leur
plausibilité, doit être associé à toute procédure d’enregistrement. Il peut s’agir d’un
simple examen visuel, au cours ou à l’issue d’un enregistrement manuel. Mais il
peut s’agir aussi, dans le cas d’un enregistrement direct sur support informatique,
de la comparaison avec des valeurs minimales et maximales admissibles ou avec
une série de normes ou de codes admissibles, ou de tout autre processus permettant
de détecter des erreurs ou des discordances éventuelles.
À cet égard, il faut être conscient du fait que les procédures automatiques
de collecte des données ne sont pas à l’abri de toute défaillance. De plus, ces
procédures peuvent soulever dans certains cas des problèmes particuliers, liés au
volume considérable des données enregistrées.
Dès la fin de la collecte, voire même progressivement au cours de la collecte
elle-même, il est opportun d’assurer une sauvegarde des données, sous forme de
copies mises en sécurité.
53 En anglais : data acquisition, data capture.
48 COLLECTE DES DONNÉES 2.4.2

3 Le traitement des données doit normalement commencer par un examen


préliminaire, destiné notamment à identifier les éventuelles anomalies qui pour-
raient encore exister. Cet examen peut être basé sur l’étude de distributions de
fréquences, la préparation de graphiques, la détermination de paramètres (moyen-
nes, valeurs extrêmes, etc.), l’application de méthodes de détection des valeurs
anormales, etc. [STAT2, § 2.3 et 3.5].
Le traitement ultérieur des données peut alors être réalisé soit à l’aide de petites
machines à calculer, soit par ordinateur.
Le traitement à l’aide de petites machines à calculer (ou calculatrices ou cal-
culettes), même programmables ou dotées de fonctions statistiques (calcul de
moyennes, d’écarts-types, de coefficients de corrélation, etc.), ne se justifie que
pour de petits ensembles de données, relatifs à la fois à un nombre réduit d’indi-
vidus (quelques dizaines d’individus par exemple) et à un nombre très réduit de
variables ou de caractéristiques (généralement une ou deux variables ou caracté-
ristiques au maximum).
L’emploi de l’ordinateur s’impose pratiquement dans tous les autres cas. Se
posent alors des problèmes de choix, non seulement de matériels, mais aussi, et de
façon souvent plus aiguë, de logiciels. Nous avons déjà donné quelques indications
à ce sujet dans le (( mode d’emploi )) qui suit la table des matières.

Informations complémentaires : Finney [1988], Riley et Ryder [1979].

Exemple 2.4.1. Inventaire forestier : enregistrement des données.


Nous pouvons illustrer les questions d’enregistrement des données en revenant
à l’inventaire forestier dont les principes de base ont été exposés dans le cadre de
l’exemple 2.2.2.
La figure 2.4.1 présente le principal formulaire dont l’utilisation avait été dé-
cidée au départ, en vue de l’enregistrement, en chacun des points d’observation,
de diverses caractéristiques du peuplement forestier (cadre (( Structure ))) et des
arbres (Ess = essence, C150 = circonférence à 1,50 m de hauteur, Htot = hauteur
totale, etc.) [Rondeux et al., 1996].
Dans un deuxième temps, l’enregistrement manuel sur des documents papier a
cédé la place à un enregistrement toujours manuel, mais sur des ordinateurs por-
tables suffisamment robustes pour pouvoir être utilisés en toutes circonstances en
forêt. Des cadres ou des écrans de saisie, correspondant par exemple aux di↵érents
sous-tableaux de la figure 2.4.1 et pouvant faire intervenir des menus déroulants,
pour en faciliter l’utilisation, ont alors remplacé les formulaires initiaux [Rondeux
et Cavelier, 2001].
Cette façon de faire a aussi l’avantage de rendre possible la réalisation sur le
terrain, de manière automatique, d’un certain nombre de contrôles, de plausibilité
notamment, qui ne pouvaient intervenir antérieurement qu’a posteriori, au bureau.
2.4.2 NATURE, ENREGISTREMENT ET TRAITEMENT DES DONNÉES 49

Figure 2.4.1. Formulaire utilisé dans le cadre d’un inventaire forestier.


50 COLLECTE DES DONNÉES

Mais l’enregistrement de certaines données peut également être entièrement


automatisé. Ainsi, la localisation et l’altitude des points d’observation peuvent
être relevées à l’aide de certains GPS (global positioning system), et la grosseur
des arbres peut être mesurée à l’aide de compas enregistreurs. On entend par là des
sortes de grands pieds à coulisse, qui sont utilisés depuis longtemps pour la mesure
des diamètres des arbres, et qui sont complétés par des dispositifs d’enregistrement
automatique des mesures [Rotheudt et Verrue, 2002].

Principaux mots-clés
Enquête, expérimentation.
Population, échantillon, recensement, sondage.
Échantillonnage complètement aléatoire, systématique, stratifié, à deux ou plu-
sieurs degrés, par quotas.
Taille ou e↵ectif de l’échantillon, intensité d’échantillonnage ou de sondage.
Facteur, modalité, variante, niveau, objet, témoin.
Expérience factorielle.
Expérience complètement aléatoire, en blocs aléatoires complets.
Répétition.
Données quantitatives, discontinues, continues.
Données qualitatives, binaires, nominales, ordinales.
Rangs.
Deuxième partie

La statistique descriptive

Chapitre 3 La statistique descriptive à une dimension


Chapitre 4 La statistique descriptive à deux dimensions
Chapitre 3

La statistique descriptive
à une dimension

Sommaire
3.1 Introduction
3.2 Les distributions de fréquences
3.3 Les représentations graphiques
3.4 La réduction des données : généralités
3.5 Les paramètres de position
3.6 Les paramètres de dispersion
3.7 Les moments et les paramètres de dissymétrie et d’aplatisse-
ment
3.8 Le calcul de la moyenne, de la variance et des moments d’ordre
3 et 4
3.9 Quelques informations relatives à l’exécution des calculs
3.10 Les nombres-indices
Principaux mots-clés
Exercices
54 STATISTIQUE DESCRIPTIVE À UNE DIMENSION 3.2.1

3.1 Introduction
1 La statistique descriptive 1 a essentiellement pour but de présenter les don-
nées observées sous une forme telle qu’on puisse en prendre connaissance faci-
lement. Elle peut concerner une variable ou une caractéristique à la fois, deux
variables ou deux caractéristiques à la fois, ou encore plus de deux variables ou
plus de deux caractéristiques simultanément. Selon les cas, on parle de statistique
descriptive à une variable ou à une dimension 2 , de statistique descriptive à deux
variables ou à deux dimensions 3 , et de statistique descriptive à plusieurs variables
ou à plusieurs dimensions 4 .

2 À une dimension, le but de simplification de la statistique descriptive peut


être atteint en condensant les observations sous trois formes distinctes.
Des tableaux statistiques permettent de présenter les données sous la forme
numérique de distributions de fréquences (§ 3.2). Di↵érents types de diagrammes
permettent de présenter graphiquement ces distributions, ou les données initiales
elles-mêmes (§ 3.3). Et enfin, les données peuvent également être condensées sous
la forme de quelques paramètres ou valeurs typiques : le calcul de ces paramètres
constitue la réduction des données 5 (§ 3.4 et suivants) 6 .
La présentation des données sous forme de tableaux et de graphiques concerne
plus particulièrement les cas où les observations sont assez nombreuses, tandis que
la réduction des données s’applique indi↵éremment à tous les cas.

Informations complémentaires : Alonzo [2006], Hamon et Jégou [2008], Mazerolle


[2005].

3.2 Les distributions de fréquences


3.2.1 Les séries statistiques
La forme la plus élémentaire de présentation des données statistiques relatives
à une seule variable consiste en une simple énumération des observations :
x1 , x2 , . . . , xi , . . . , xn ,
celles-ci étant éventuellement rangées par ordre croissant, c’est-à-dire de telle sorte
que :
x1  x2  . . .  xi  . . .  xn .
1
En anglais : descriptive statistics.
2
En anglais : univariate, one-dimensional.
3 En anglais : bivariate, two-dimensional.
4 En anglais : multivariate, multidimensional.
5 En anglais : data reduction.
6 L’expression (( réduction des données )) est parfois utilisée pour désigner l’ensemble de la

statistique descriptive, y compris la préparation de tableaux et de graphiques.


Index des traductions
anglaises

Les numéros renvoient aux paragraphes et aux exemples (ex.).

A Asymptotically normal distribution :


A posteriori power : 10.4.3.7 6.6.5.1
A posteriori probability : 5.4.3 Attribute : 2.4.1.3
A priori power : 10.4.3.7 Autocatalytic function : 4.10.2.3
A priori probability : 5.4.3 Autoregressive model : 4.10.2.6
Absolute frequency : 3.2.2.1 Average : 3.5.1.1
Acceptance region : 10.3.1.2
B
Addition theorem : 5.3.1.3
Bahadur’s efficiency : 10.4.3.4
Adjustment : 2.2.4.7
Allometry : 4.10.2.4 Bar diagram : 3.3.1.1
Almost certain event : 5.3.1.2 Bartlett’s adjustment : 10.3.4.1
Almost impossible event : 5.3.2.3 Bartlett’s correction : 10.3.4.1
Alternative hypothesis : 10.3.1.1 Base : 3.10.1.2
Analysis of covariance : 1.2.2.2 Base switching : 3.10.3.2
Analysis of variance : 1.2.2.2 Bayes’s theorem : 5.4.3
Arithmetic mean : 3.5.1.1 Bayesian method : 1.2.3.3
Artificial neural network : 1.2.4.2 Bell-shaped distribution : 3.3.3
Assay : 2.3.1.1 Bernoulli’s distribution : 6.2.1.2
Association coefficient : 4.6.3.6
Bernoulli’s theorem : 8.5.2
Assumption : 9.4.3.2
Beta distribution : 6.10.5.5
Asymmetrical distribution : 3.3.3
Bias : 9.3.1.2
Asymptotic efficiency : 10.4.3.3
Asymptotic normality : 6.6.5.1 Bienaymé-Tchebychev’s inequality :
5.8.4.1
Asymptotically efficient estimator :
9.3.1.5 Bin width : 3.2.3.1
Asymptotically minimum variance estima- Binary data : 2.4.1.3
tor : 9.3.1.5 Binomial distribution : 6.2.1.2
496 INDEX DES TRADUCTIONS ANGLAISES

Bioinformatics : 1.2.4.2 Coefficient of concentration : 3.6.6.2


Biometrics : 1.2.2.2 Coefficient of variation : 3.6.1.2
Biometry : 1.2.2.2 Compartment model : 4.10.2.6
Biostatistics : 1.2.3.4 Compartmental model : 4.10.2.6
Biserial correlation coefficient : 4.6.3.2 Complementary events : 5.3.2.2
Bivariate continuous distribution : 5.5.4.1 Completely randomized design : 2.3.5.1
Bivariate continuous uniform distribu- Component analysis : 4.11.2
tion : ex. 5.5.7 Composite index : 3.10.1.2
Bivariate discrete distribution : 5.5.3.2 Compound distribution : 6.5.3.3
Bivariate discrete uniform distribution : Computer-intensive method : 1.2.3.3
ex. 5.5.6 Concentration curve : 3.6.6.3
Bivariate frequency distribution : 4.2.2.1 Concentration diagram : 3.6.6.3
Bivariate frequency table : 4.2.2.1 Conditional distribution : 4.2.3.2
Bivariate normal distribution : 7.4.3.1 Conditional frequency : 4.2.3.2
Bivariate statistics : 3.1.1 Conditional mean : 4.4.2
Block : 2.3.5.2 Conditional probability : 5.4.1.2
Bonferroni’s method : 10.3.5.2 Conditional variance : 4.4.2
Bootstrap : 8.4.2.2 Confidence coefficient : 9.4.1.2
Box-and-whisker plot : 3.3.4.2 Confidence interval : 9.4.1.2
Boxplot : 3.3.4.2 Confidence level : 9.4.1.2
Bravais’s correlation coefficient : 4.6.1.1 Confidence limit : 9.4.1.2
C Confidence region : 9.4.1.2
Conservative test : 10.3.3.8
Calibration : 4.7.6.2
Consistent estimator : 9.3.1.7
Censored distribution : 6.10.4.2
Contagious distribution : 6.5.3.1
Census : 2.2.1.2
Contingency table : 4.6.3.6
Centile : 3.6.4.5
Continuity correction : 6.6.4.3
Central limit theorem : 6.6.5.3
Continuous data : 2.4.1.2
Central moment : 3.7.1.1
Continuous distribution : 5.5.2.3
Certain event : 5.3.1.2
Continuous triangular distribution :
Chain index : 3.10.3.3 ex. 5.6.5
Character : 2.4.1.3 Continuous uniform distribution : ex. 5.5.4
Characteristic function : 5.9.2.2 Control : 2.3.3.2
Chi-square distribution : 6.8.1.1 Convergence in probability : 8.5.1
Circular data : 2.4.1.5 Corrected sum of squares : 3.8.1.3
Circularity : 3.10.3.1 Correction for grouping : 3.6.1.6
Class : 3.2.3.1 Correlation coefficient : 4.6.1.1
Class boundary : 3.2.3.1 Correlation matrix : 4.11.1.3
Class frequency : 3.2.3.1 Correlation ratio : 4.6.3.5
Class interval : 3.2.3.1 Correspondence analysis : 4.11.2
Class limit : 3.2.3.1 Count : 2.4.1.2
Class mark : 3.2.3.1 Covariance : 4.5.1.2
Class mid-point : 3.2.3.1 Covariance matrix : 4.11.1.2
INDEX DES TRADUCTIONS ANGLAISES 497

Critical region : 10.3.1.2 E


Critical value : 10.3.1.2 Eccentricity : 6.10.3.1
Cubic mean : 3.5.3.3 Econometrics : 1.2.2.2
Cumulant : 5.9.2.1 Econometry : 1.2.2.2
Cumulant generating function : 5.9.2.1 Efficiency : 9.3.1.4
Cumulative frequency : 3.2.2.4 Efficient estimator : 9.3.1.4
Cumulative frequency distribution : Elasticity : 4.10.2.4
3.3.2.3
Ellipse of concentration : 7.4.1.3
Cumulative function : 5.5.1.2
Enumeration : 2.4.1.2
Cumulative probability distribution :
Estimation : 9.3.1.1
5.5.1.2
Estimator : 9.3.1.1
Curvilinear regression : 4.10.1
Exclusive events : 5.3.1.3
D
Expectation : 5.7.1.1
Data acquisition : 2.4.2.1 Expected value : 4.7.3.1
Data capture : 2.4.2.1 Experiment : 2.3.1.1
Data matrix : 4.11.1.1 Experimental design : 1.2.2.2
Data mining : 1.2.4.2 Experimental planning : 2.3.1.2
Data reduction : 3.1.2
Experimental unit : 2.3.4.1
Database : 1.2.4.1
Experimentation : 2.3.1.1
Datawarehouse : 1.2.4.1
Explanatory variable : 4.7.1
Decile : 3.6.4.5
Exploratory survey : 2.2.3.3
Decision theory : 10.3.4.3
Exponential distribution : ex. 5.5.5
Degree of freedom : 6.7.1
Exponential family : 6.10.5.6
Dependent variable : 4.7.1
Exponential regression : 4.10.2.2
Descriptive statistics : 3.1.1
Extreme value : 3.2.3.1
Design of experiment : 2.3.5.1
Determination coefficient : 4.6.1.5 F
Diagonal regression line : 4.8.1.4 Factor : 2.3.3.1
Directional data : 2.4.1.5 Factor analysis : 4.11.2
Discontinuous data : 2.4.1.2 Factorial experiment : 2.3.3.2
Discrete data : 2.4.1.2 False discovery rate : 10.3.5.5
Discrete probability distribution : 5.5.1.2 False positive : 10.3.5.5
Discrete triangular distribution : ex. 5.6.4 False positive rate : 10.3.5.5
Discrete uniform distribution : ex. 5.5.3 F-distribution : 6.9.1.1
Discriminant analysis : 4.11.2 Fiducial limit : 9.4.4.1
Dispersion matrix : 4.11.1.2 Finite population : 8.2.1.1
Distribution function : 5.5.1.2 First kind error : 10.3.1.3
Distribution-free method : 9.3.4.1 First kind risk : 10.3.1.3
Dotplot : 3.3.4.1 Fisher’s coefficient : 3.7.2
Double-tailed test : 10.3.3.6 Fisher’s logarithmic series : 6.5.1.1
Doubly non-central F -distribution : Fisher-Snedecor’s distribution : 6.9.1.1
6.10.3.2 Fitting : 4.10.1
498 INDEX DES TRADUCTIONS ANGLAISES

Fourfold point correlation coefficient : Infinite population : 8.2.1.2


4.6.3.3 Influence curve : 9.3.1.6
Fractile : 3.6.4.5 Interdependent variables : 4.8.1.1
Frequency : 3.2.2.1 Interquartile range : 3.6.4.3
Frequency distribution : 3.2.2.1 Interval estimation : 9.4.1.1
Frequency function : 5.5.2.1 Intraclass correlation coefficient : 4.6.3.7
Frequency polygon : 3.3.1.1 I-shaped distribution : 3.3.3
Frequentist approach : 9.3.5.3 J
G Jackknife : 8.4.2.2
Gamma distribution : 6.10.5.5 J-shaped distribution : 3.3.3
Gamma function : 6.10.2.1 K
General linear model : 1.2.3.3 Kurtosis : 6.6.1.3
Generalized hypergeometric distribution :
L
6.3.2.1
Generalized linear model : 1.2.3.3 Laplace’s theorem : 6.6.4.1
Genomics : 1.2.4.2 Laspeyres’s index : 3.10.2.2
Geometric mean : 3.5.2.1 Latin square : 2.3.5.3
Law of large numbers : 8.5.1
Geometric series : 6.5.2.5
Least squares method : 4.7.2.1
Gini’s coefficient : 3.6.6.2
Leptokurtic distribution : 6.6.1.3
Gross error : 3.9.1.2
Level : 2.3.3.1
Gross error sensitivity : 9.3.1.6
Likelihood function : 9.3.2.2
Gumbel’s distribution : 8.3.4.3
Likelihood ratio : 10.3.4.1
H Likelihood ratio test : 10.3.4.1
Harmonic mean : 3.5.3.1 Lindeberg-Lévy’s theorem : 6.6.5.2
Highly significant : 10.3.1.4 Linear correlation coefficient : 4.6.1.1
Histogram : 3.3.1.1 Linear mixed model : 1.2.3.3
Hochberg’s method : 10.3.5.3 Linear model : 1.2.3.3
Holm-Bonferroni’s method : 10.3.5.3 Linear regression : 4.7.2.1
Holm’s method : 10.3.5.3 Locally most powerful test : 10.4.3.5
Homoscedasticity : 10.3.3.2 Logarithmic-normal distribution : 6.6.6.1
Hypergeometric distribution : 6.3.1.1 Logistic function : 4.10.2.3
I Logistic regression : 4.10.2.6
Identification : 4.10.1 Logit : 4.10.2.6
Impossible event : 5.3.2.3 Lognormal distribution : 6.6.6.1
Lorenz’s curve : 3.6.6.3
Imputation : 2.2.4.7
Lorenz’s diagram : 3.6.6.3
Incomplete block : 2.3.5.3
Lower critical value : 9.4.3.1
Independent variable : 4.7.1
Independently and identically distributed M
variables : 5.6.1.3 Mann-Whitney’s test : 10.3.3.2
Index number : 3.10.1.2 Marginal distribution : 4.2.3.1
Indicatory data : 2.4.1.3 Marginal frequency : 4.2.3.1
INDEX DES TRADUCTIONS ANGLAISES 499

Marginal mean : 4.4.2 N


Marginal variance : 4.4.2 Negative binomial distribution : 6.5.2.6
Maximum likelihood : 9.3.2.1 Neo-Bayesian method : 1.2.3.3
Mean : 3.5.1.1 Neural network : 1.2.4.2
Mean deviation : 3.6.2.1 Neyman’s type A distribution : 6.5.3.2
Mean di↵erence : 3.6.6.1 Nominal data : 2.4.1.3
Mean vector : 4.11.1.2 Non-central chi-square distribution :
Measure of dispersion : 3.4.1 6.10.3.1
Measure of kurtosis : 3.4.1 Non-central distribution : 6.10.3.1
Measure of location : 3.4.1 Non-central F -distribution : 6.10.3.2
Measure of skewness : 3.4.1 Non-central moment : 3.7.1.1
Measurement : 2.4.1.2 Non-central t-distribution : 6.10.3.3
Median : 3.5.4.1 Non-centrality : 6.10.3.1
Meta-analysis : 10.3.5.5 Non-linear correlation coefficient : 4.6.3.5
Method of moments : 9.3.3.2 Non-linear regression : 4.10.1
Mid-range : 9.2.1.4 Non-null hypothesis : 10.3.1.1
Minimum chi-square method : 9.3.3.2 Non-parametric method : 9.3.4.1
Minimum variance estimator : 9.3.1.4 Non-response : 2.2.3.3
Mitscherlich’s law : 4.10.2.3 Normal distribution : 6.6.2.1
Mixture : 6.10.4.3 Normal equation : 4.7.2.2
Mode : 3.5.6 Null hypothesis : 10.3.1.1
Numerical classification : 4.11.2
Modelling : 1.2.3.3
Moment : 3.7.1.1 O
Moment generating function : 5.9.1.1 Observational study : 2.1.2
Monte-Carlo method : 8.4.2.1 One-dimensional statistics : 3.1.1
Moving average : 4.10.2.6 One-sided confidence interval : 9.4.3.6
Multidimensional statistics : 3.1.1 One-sided test : 10.3.3.6
Multimodal distribution : 3.5.6 Open-ended class : 3.2.3.2
Multinomial distribution : 6.2.3 Operational research : 1.2.2.2
Multiple comparisons : 10.3.5.5 Operations research : 1.2.2.2
Multiple correlation coefficient : 4.11.2 Ordinal data : 2.4.1.3
Multiple endpoints : 10.3.4.5 Organic correlation line : 4.8.1.4
Multiple regression : 4.11.2 Orthogonal regression line : 4.8.1.4
Multiplication theorem : 5.4.1.2 Overdispersed distribution : 6.5.3.4
Multiplicative congruential method : Overdispersion : 6.5.3.4
8.2.3.1 P
Multiplicative method : 8.2.3.1
Paasche’s index : 3.10.2.2
Multi-stage sampling : 2.2.4.4
Paired samples t-test : 10.3.3.2
Multivariate analysis : 1.2.3.3
Parabolic regression : 4.10.2.5
Multivariate analysis of variance : 4.11.2
Pareto’s distribution : 8.3.4.3
Multivariate statistics : 3.1.1
Partial correlation coefficient : 4.11.2
Mutually exclusive events : 5.3.1.3
Pascal’s distribution : 6.5.2.1
500 INDEX DES TRADUCTIONS ANGLAISES

Pearson’s coefficient : 3.7.2 Product-moment correlation coefficient :


Pearson’s correlation coefficient : 4.6.1.1
4.6.1.1 Proportional frequency : 3.2.2.3
Pearson’s distribution : 6.8.1.1 Prospective power : 10.4.3.7
Pearson’s system : 6.10.5.2 Pseudo-random number : 8.2.3.1
Percentage point : 5.8.1.4 Pseudo-value : 9.3.4.3
Percentage standard deviation : 3.6.1.2 Psychometrics : 1.2.2.2
Percentile : 3.6.4.5 Psychometry : 1.2.2.2
Permutation test : 10.3.4.2 P -value : 10.3.2.2
Phi-coefficient : 4.6.3.3 Q
Piecewise regression : 4.10.2.6 Quadratic mean : 3.5.3.2
Pie-chart : 3.3.4.3 Quadratic regression : 4.10.3.2
Pilot survey : 2.2.3.3 Qualitative data : 2.4.1.3
Pitman’s efficiency : 10.4.3.4 Quality control : 1.2.2.2
Planning : 2.2.1.3 Quantile : 3.6.4.5
Planning of experiment : 2.3.1.2 Quantitative data : 2.4.1.2
Platykurtic distribution : 6.6.1.3 Quantity index : 3.10.2.3
Point biserial correlation coefficient : Quartile : 3.6.4.1
4.6.3.2 Quartile deviation : 3.6.4.3
Point estimation : 9.4.1.1 Quota : 2.2.4.5
Poisson-Pascal’s distribution : 6.5.3.3 R
Poisson-Poisson’s distribution : 6.5.3.2
Random error : 2.2.4.7
Poisson’s binomial distribution : 6.5.3.3
Random event : 5.2.1.1
Poisson’s distribution : 6.4.1.1
Random experiment : 5.2.1.1
Poisson’s process : 6.4.1.5 Random number : 8.2.2.2
Polynomial regression : 4.10.2.5 Random trial : 5.2.1.1
Population : 2.2.1.1 Random variable : 5.5.1.1
Posterior probability : 5.4.3 Randomization test : 10.3.4.2
Power : 10.4.1 Randomized complete block : 2.3.5.2
Power function : 10.4.1 Range : 3.6.5.1
Price index : 3.10.2.1 Rank : 2.4.1.4
Principal axis : 4.8.1.4 Rectangular distribution : ex. 5.5.4
Principal component analysis : 4.11.2 Reduced residual : 4.7.4.5
Prior probability : 5.4.3 Reduced variable : 5.8.3.1
Probability : 5.2.1.1 Regression coefficient : 4.7.2.3
Probability density function : 5.5.2.1 Regression curve : 4.10.1
Probability distribution : 5.5.1.2 Regression (straight) line : 4.7.2.1
Probability element : 5.5.2.2 Rejection region : 10.3.1.2
Probability law : 5.5.1.2 Relative efficiency : 9.3.1.4
Probability surface : 7.4.1.2 Relative frequency : 3.2.2.3
Probable error : 3.6.3 Replication : 2.3.4.2
Probit : 4.10.2.6 Rerandomization test : 10.3.4.2
INDEX DES TRADUCTIONS ANGLAISES 501

Resampling : 1.2.3.3 Single-tailed test : 10.3.3.6


Residual : 4.7.3.1 Skew distribution : 3.3.3
Residual standard deviation : 4.7.4.4 Snedecor’s distribution : 6.9.1.1
Residual sum of squares of deviates : Spearman’s rank correlation coefficient :
4.9.1.4 4.6.3.4
Residual variance : 4.7.4.1 Spearman’s ⇢ : 4.6.3.4
Restricted maximum likelihood : 9.3.3.3 Split-plot : 2.3.5.3
Retrospective power : 10.4.3.7 Standard deviation : 3.6.1.2
Reversibility : 3.10.3.1 Standard error : 8.3.1.2
Robust estimator : 9.3.1.6 Standard error method : 9.4.3.1
Robust method : 1.2.3.3 Standardized residual : 4.7.4.5
Robustness : 9.3.1.6 Standardized variable : 5.8.3.1
Rounding error : 3.9.1.3 Statistic : 1.1
S Statistical regularity : 5.2.2.1
Statistics : 1.1
Sample : 2.2.1.2
Stem-and-leaf diagram : 3.3.4.1
Sample size : 2.2.5.1
Stereogram : 4.3.2.1
Sample survey : 2.2.1.2
Stochastic convergence : 8.5.1
Sampling : 2.2.1.2
Stochastically dependent : 5.4.2.3
Sampling distribution : 8.3.1.2
Stochastically independent : 5.4.2.1
Sampling fraction : 2.2.5.1
Stratified sampling : 2.2.4.3
Sampling frame : 2.2.4.6
Stratum : 2.2.4.3
Scatter diagram : 4.3.1.1
Student’s distribution : 6.7.1
Scatter plot : 4.3.1.1
Student’s t-test : 10.3.2.4
Second kind error : 10.3.1.3
Sufficient estimator : 9.3.1.7
Second kind risk : 10.3.1.3
Sum of products of deviates : 4.9.1.2
Semi-interquartile range : 3.6.4.3
Sum of squares of deviates : 3.8.1.3
Sequential Bonferroni’s method :
10.3.5.3 Survey : 2.2.1.1
Sequential estimation : 9.4.4.4 Symmetrical distribution : 3.3.3
Sequential test : 10.3.4.4 System of distributions : 6.10.5.6
Sheppard’s correction : 3.6.1.6 System of frequency curves : 6.10.5.6
Shortest confidence interval : 9.4.3.6 Systematic error : 2.2.4.7
Sigmoid curve : 6.6.1.2 Systematic sampling : 2.2.4.2
Significance level : 10.3.1.1 T
Significance test : 10.2 t-distribution : 6.7.1
Significant : 10.3.1.4 Test of bioequivalence : 10.3.3.7
Significant point : 10.3.1.2 Test of conformity : 10.2
Simple index : 3.10.1.2 Test of equality : 10.2
Simple random sampling : 2.2.4.1 Test of equivalence : 10.3.3.7
Simulation : 1.2.3.3 Test of goodness of fit : 10.2
Simulation method : 8.4.2.1 Test of homogeneity : 10.2
Simultaneous tests : 10.3.5.2 Test of hypothesis : 10.2
502 INDEX DES TRADUCTIONS ANGLAISES

Test of independence : 10.2 Unit bivariate normal distribution :


Test of non-inferiority : 10.3.3.7 7.4.1.1
Test of superiority : 10.3.3.7 Unit normal distribution : 6.6.1.1
Tetrachoric correlation coefficient : Univariate statistics : 3.1.1
ex. 7.4.4 Unrestricted random sampling : 2.2.4.1
Three sigma rule : 5.8.4.3 Upper critical value : 9.4.3.1
Time-series : 4.9.1.5 U-shaped distribution : 3.3.3
Trial : 2.3.1.1 V
Trimmed mean : 9.2.1.4 Validation : 4.10.1
Truncated distribution : 6.10.4.2 Value index : 3.10.2.4
t-test : 10.3.2.4 Variance : 3.6.1.1
Two-dimensional statistics : 3.1.1 Variance-covariance matrix : 4.11.1.2
Two-sided test : 10.3.3.6 Variance-ratio distribution : 6.9.1.1
Two-stage sampling : 2.2.4.4 Variate : 5.5.1.1
Two-way table : 4.2.2.1 Very highly significant : 10.3.1.4
U W
Unbiased estimator : 9.3.1.2 Weak law of large numbers : 8.5.1
Unbiased minimum variance estimator : Weibull’s distribution : 8.3.4.3
9.3.1.4 Weight : 3.5.1.3
Uncontrolled observational study : 2.1.2 Weighted average : 3.5.1.3
Underdispersed distribution : 6.5.3.4 Weighted mean : 3.5.1.3
Underdispersion : 6.5.3.4 Weighted regression : 4.7.6.1
Uniformly most powerful test : 10.4.3.5 Welch’s test : 10.3.3.2
Unimodal distribution : 3.5.6 Wilcoxon’s test : 10.3.3.2
Unit : 2.2.1.1 Without replacement : 8.2.2.3
Index des matières

Les numéros renvoient aux paragraphes et aux exemples (ex.).

A Aléatoire (nombre —) : 8.2.2.2


A posteriori (probabilité —) : 5.4.3 Aléatoire (variable —) : 5.5.1.1 , 5.5.2.1 ,
A posteriori (puissance —) : 10.4.3.7 5.5.3.1
A priori (probabilité —) : 5.4.3 Allométrie (coefficient d’— et relation
d’—) : 4.10.2.4 , ex. 4.10.1
A priori (puissance —) : 10.4.3.7
Alternative (hypothèse —) : 10.3.1.1
Absolue (fréquence —) : 3.2.2.1
Alternative (variable — et variable aléa-
Acceptation (domaine d’— ou région
toire —) : voir binaire (variable — et
d’—) : 10.3.1.2
variable aléatoire —)
Achenwall (Gottfried —) : 1.2.1.1
Alternative répétée (loi d’—) : voir bino-
Addition de variables aléatoires : voir som- miale (distribution —, loi — et variable
me de variables aléatoires —)
Additivité (axiome d’— et propriété Amplitude : 3.6.5, 3.6.7.1 , 5.8.1.2 , 8.3.5
d’—) : 5.3.1.3 , 5.3.2.1 Amplitude (d’une classe) : voir intervalle
Adéquation (test d’—) : 10.2 (d’une classe)
Agrégative (distribution —) : 6.5.3 Analyse à plusieurs variables : 1.2.3.3 ,
Ajustement (d’une courbe de régression) : 4.11.2
4.10.1, 4.10.3 Aplatissement (coefficient d’— ou paramè-
Ajustement (test d’—) : 10.2 tre d’—) : 3.4.1 , 5.8.5, 6.6.1.3
Aléatoire (bloc — complet) : 2.3.5.2 Approchée (valeur —) : 3.2.4, 3.9.1.4
Aléatoire (échantillonnage —) : 2.2.4.1 , Approximation (erreur d’—) : 3.9.1.3
8.2.2.1 Arithmétique (moyenne —) : voir moyen-
Aléatoire (échantillonnage complètement ne arithmétique
—) : 2.2.4.1 , 8.2.2.1 Arithmétique (politique) : 1.2.1.1
Aléatoire (erreur —) : 2.2.4.7 , 9.3.1.3 Arrondissage (erreur d’—) : 3.9.1.3
Aléatoire (événement —) : 5.2.1.1 Arrêt (points d’— multiples) : 10.3.4.5
Aléatoire (expérience —) : 5.2.1.1 Association (coefficient d’—) : 4.6.3.6
Aléatoire (expérience complètement —) : Association (tableau d’—) : 4.6.3.6
2.3.5.1 Asymétrie : voir dissymétrie
Aléatoire (fluctuation —) : voir aléatoire Asymptotique (efficacité —) : 9.3.1,
(erreur —) 10.4.3.3
504 INDEX DES MATIÈRES

Asymptotiquement efficace : 9.3.1, Binomiale généralisée (distribution —) :


10.4.3.3 voir polynomiale (distribution — et loi
Asymptotiquement normal : 6.6.5 —)
Attendue (valeur —) : voir espérance ma- Binomiale négative (distribution —) :
thématique 6.5.2.6 , 6.5.3.3 , 6.10.2.2
Attribut : voir qualitative (donnée — ou Bioéquivalence (test de —) : 10.3.3.7
observation —) Bioinformatique : 1.2.4.2
Autocatalytique (fonction —) : voir logis-
Biométrie : 1.2.2.2
tique (fonction —)
Biostatistique : 1.2.3.4
Autocomparaison (test d’—) : 10.3.4.2
Autorégressif (modèle —) : 4.10.2.6 Bisérial (coefficient de corrélation —) :
Axe majeur : voir moindres rectangles 4.6.3.2
(droite des —) Bloc (aléatoire complet) : 2.3.5.2
Axe principal : 4.8.2.3 , 4.11.2 Bloc (incomplet) : 2.3.5.3
Axe principal réduit : voir moindres rec- Boı̂te (de dispersion ou — à moustaches) :
tangles (droite des —) voir boxplot
B Bonferroni (méthode de —) : 10.3.5.2
Babbage (Charles —) : 1.2.1.2 Bootstrap : 8.4.2.2 , 9.4.4.2 , 10.3.4.2
Bahadur (efficacité de —) : 10.4.3.4 Boxplot : 3.3.4.2 , 3.6.4.4 , 4.3.1.2
Bartlett (correction de —) : 10.3.4.1 Bravais-Pearson (coefficient de corréla-
Base (changement de —) : 3.10.3.2 tion de —) : voir corrélation (coeffi-
Base (d’échantillonnage) : 2.2.4.6 cient de —)
Base (de données) : 1.2.4.1 C
Base (période de —) : 3.10.1.2
Calcul (numérique) : 3.4.2 , 3.9.1, 3.9.2,
Base (unité de —) : 2.2.1.1 , 2.2.2
3.9.3
Bâtons (diagramme en —) : 3.3.1, 4.3.2.1
Calibrage : 4.7.6.2
Bayes (théorème de —) : 5.4.3
Bayesienne (méthode —) : 1.2.3.3 , 9.3.5, Camembert (diagramme en —) : 3.3.4.3
9.4.4.3 , 10.3.4.3 Caractéristique (fonction —) : 5.9.2.2
Bernoulli (Daniel —) : 1.2.1.1 Carré latin : 2.3.5.3
Bernoulli (schéma de —) : 6.2.1.1 Catégorie (d’une distribution de fréquen-
Bernoulli (théorème de —) : 8.5.2 ces) : voir classe (d’une distribution de
Bêta (distribution —) : 6.10.5.5 fréquences)
Biais : 9.3.1.2 Censurée (distribution —) : 6.10.4.2
Biaisé : 9.3.1.2 Centile : 3.6.4.5 , 5.8.1.2
Biaisé (test non —) : 10.4.3.6 Central (théorème — limite) : 6.6.5,
Bibliographie : 1.4.1 6.6.6.4
Bienaymé-Tchebychev (inégalité de Centrale (distribution non —) : 6.10.3
—) : 5.8.4
Centrale (valeur —) : 3.4.1
Bilatéral (test —) : 10.3.3.6
Centré (moment — et non —) : voir mo-
Binaire (variable —) : 2.4.1.3
ment
Binaire (variable aléatoire —) : ex. 5.5.2,
ex. 5.8.1, 6.10.1.2 Certain (événement —) : 5.3.1.2
Binomiale (distribution —, loi — et va- Chaı̂ne (de rapports et indice en —) :
riable —) : 6.2.1, 6.2.2, 6.3.1.2 , 6.4.1, 3.10.3.3
6.6.4 Chronique : voir chronologique (série —)
INDEX DES MATIÈRES 505

Chronologique (série —) : 4.9.1.5 , Consistant (estimateur — et test —) :


4.10.2.6 9.3.1.7 , 10.4.3.6
Circulaire (diagramme —) : 3.3.4.3 Contagieuse (distribution —) : 6.5.3
Circulaire (donnée —) : 2.4.1.5 Contingence (tableau de —) : 4.6.3.6
Circularité (d’un nombre-indice) : Continue (distribution théorique — et va-
3.10.3.1 riable aléatoire —) : 5.5.2, 5.5.4
Classe (d’une distribution de fréquences) : Continue (donnée — et variable observée
3.2.3.1 , 4.2.2.3 —) : 2.4.1.2
Classification (numérique) : 4.11.2 Continuité (correction de —) : 6.6.4.3
Cloche (distribution en —) : 3.3.3 Contradictoire (événement —) : 5.3.2.2
Collecte (des données) : 1.3.1.1 , 2.2.3.3 , Contraire (événement —) : 5.3.2.2
2.4.2 Convergence (stochastique) : 8.5.1
Combinaison de tests : 10.3.5.4 Convergent (estimateur —) : voir consis-
Compartiments (modèle à —) : 4.10.2.6 tant (estimateur — et test —)
Complémentaire (événement —) : 5.3.2.2 Correct (estimateur absolument —) : voir
biais
Complète (enquête —) : 2.2.1.2
Correctif (terme —) : 3.8.1.3
Composantes (analyse des — ou analyse
en — principales) : 4.11.2 Corrélation (coefficient de —) : 4.6.1,
4.6.2, 4.6.3, 4.9.1.3 , 7.3.2
Composé (indice —) : 3.10.1.2
Corrélation (matrice de —) : 4.11.1.3
Composée (distribution —) : 6.5.3.3
Corrélation (rapport de —) : 4.6.3.5
Comptage : 2.4.1.2
Corrélation non linéaire (coefficient de
Concentration (coefficient de —) : 3.6.6,
—) : 4.6.3.5
3.6.7.2 , 5.8.1.2
Corrélation totale (coefficient de —) : voir
Concentration (courbe de — et diagramme corrélation (coefficient de —)
de —) : 3.6.6.3
Correspondances (analyse des — ou ana-
Concentration (ellipse de —) : 7.4.1.3 lyse factorielle des —) : 4.11.2
Condition d’application : 9.4.3.2 , Covariance : 4.5.1.2 , 4.5.2, 4.9.1.3 , 7.3.2
10.3.3.2
Covariance (analyse de la —) : 1.2.2.2
Conditionnelle (densité de probabilité
Covariance (matrice de —) : 4.11.1.2
—) : 7.2.1.3
Critique (région — et valeur —) : 10.3.1.2
Conditionnelle (distribution —) : 4.2.3.2 ,
Croissance (courbe de —) : 4.10.2
7.2.1
Cubique (moyenne —) : 3.5.3, 3.5.7.2 ,
Conditionnelle (fréquence —) : 4.2.3.2 ,
5.8.1.1
5.4.1.1
Cumulant : 5.9.2.1
Conditionnelle (moyenne —) : 4.4.2 , 7.3.1
Cumulative (fonction — de fréquences) :
Conditionnelle (probabilité —) : 5.4.1.2 ,
3.3.2.3 , 4.2.2.4
7.2.1.2
Cumulée (fréquence —) : 3.2.2.4 , 4.2.2.4
Conditionnelle (variance —) : 4.4.2 , 7.3.1
Curtosis : 6.6.1.3
Confiance (coefficient de —, intervalle de
Curvilinéaire (régression —) : 4.10.1
— et limite de —) : 9.4.1, 9.4.3,
10.3.3.5 D
Conformité (test de —) : 10.2 Date (d’observation) : 2.2.3.2
Congruentielle (méthode multiplicative Décentrage (coefficient de —) : 6.10.3.1
—) : 8.2.3.1 Décile : 3.6.4.5 , 5.8.1.2
Conservateur (test —) : 10.3.3.8 Décision (théorie de la —) : 10.3.4.3
506 INDEX DES MATIÈRES

Degrés (échantillonnage à deux ou plu- Dissymétrie (paramètre de —) : 3.4.1 ,


sieurs —) : 2.2.4.4 3.7.1.3 , 3.7.2, 5.8.1.3 , 5.8.5
Degrés de liberté (nombre de —) : 6.7.1 , Dissymétrique (distribution —) : 3.3.3,
6.8.1.1 , 6.9.1.1 3.7.1.3 , 5.8.5.1
Délimitation (d’une enquête) : 2.2.2 Distribution (fonction de —) : voir répar-
Dénombrement : 2.4.1.2 tition (fonction de —)
Densité de fréquence : voir unitaire (fré- Distribution (observée) : voir fréquences
quence —) (distribution de —)
Densité de probabilité (fonction de —) : Distribution (théorique) : 5.5.1, 5.5.2,
5.5.2.1 , 5.5.4.1 5.5.3, 5.5.4, 6.1, 7.1
Divisée (parcelle —) : 2.3.5.3
Dépendant en probabilité : voir indépen-
dance (stochastique) Documentation (complémentaire) : 1.4.1,
1.4.2
Dépendante (variable —) : 4.7.1
Dominante (valeur —) : voir mode
Dépenses (indice de —) : 3.10.2.4
Données (analyse des —) : 1.2.3.3
Descriptive (statistique —) : 1.3.1.1 , 3.1,
Données (matrice des —) : 4.11.1.1
4.1, 4.11
Dotplot : 3.3.4.1
Détermination (coefficient de —) :
Droite (dissymétrie —) : voir dissymétrie
4.6.1.5 , 4.7.4.3
(d’une distribution)
Déviation standard : voir écart-type
E
Diagonale (droite de régression —) : voir
moindres rectangles (droite des —) Écarts (somme des carrés des —) : 3.8.1.3
Diagramme : 3.3.1, 3.3.2, 3.3.4, 4.3.1, 4.3.2 Écarts (somme des produits des —) :
Dictionnaires (de statistique) : 1.4.1.1 4.9.1.2
Écart-type (définition, propriétés, calcul) :
Di↵érence de variables aléatoires : 5.7.2.2 ,
3.6.1, 3.6.7.1 , 3.8.1, 5.8.1.2
5.8.2.1 , 5.8.3.3 , 7.3.5.3
Écart-type (distribution d’échantillonna-
Di↵érence moyenne : 3.6.6, 3.6.7.2 ,
ge) : ex. 8.4.1, 8.4.3.2
5.8.1.2
Écart-type (estimation) : 9.2.2
Dimension(s) (statistique à une —, à deux
Échantillon : 2.2.1.2 , 8.2.1
— et à plusieurs —) : 3.1.1
Échantillonnage : 2.2.1.2 , 2.2.4, 8.2.2,
Directionnelle (donnée —) : 2.4.1.5
8.2.3
Discontinue (distribution théorique — et
Échantillonnage (distribution d’—) : 8.4.1,
variable aléatoire —) : 5.5.1, 5.5.3
8.4.2, 8.4.3
Discontinue (donnée — et variable obser- Échantillonnage (enquête par —) :
vée —) : 2.4.1.2 2.2.1.2 , 2.2.4
Discrète : voir discontinue Échantillonnée (distribution —) : voir
Discriminante (analyse —) : 4.11.2 échantillonnage (distribution d’—)
Dispersion (boı̂te de —) : voir boxplot Échantillonnée (fraction —) : 2.2.5.1
Dispersion (diagramme de —) : 4.3.1.1 , Échelle (d’un diagramme) : 3.3.1.2 ,
4.3.2.2 3.3.2.2 , 3.3.4.4
Dispersion (matrice de —) : 4.11.1.2 Économétrie : 1.2.2.2
Dispersion (paramètre de —) : 3.4.1 , E↵ectif : 2.2.5, 3.2.1
3.7.1.3 , 5.8.1.2 Efficace (estimateur —) : 9.3.1.4
Dispositif (expérimental) : 2.3.5 Efficacité : 9.3.1, 10.4.3.3
Dissymétrie (d’une distribution) : 3.3.3, Égalité (test d’—) : 10.2
3.7.1.3 , 5.8.5.1 Élaguée (moyenne —) : 9.2.1.4 , 9.3.4.2
INDEX DES MATIÈRES 507

Élasticité : 4.10.2.4 Exponentielle (distribution — tronquée) :


Élément de probabilité : 5.5.2.2 , 5.5.4.1 6.10.4.2
Élémentaire (indice —) : 3.10.1.2 Exponentielle (famille —) : 6.10.5.6
Empirique (distribution —) : voir fréquen- Exponentielle (régression —) : 4.10.2.2 ,
ces (distribution de —) 4.10.3.1
Encyclopédies (de statistique) : 1.4.1.1 Extraction (des données) : 1.2.4.2
Enquête : 2.2.1 Extrême (valeur — d’une classe) : 3.2.3.1
Enquêteur : 2.2.3.3 Extrêmes (distribution d’échantillonnage
Enregistrement (des données) : 2.4.2 des valeurs —) : 8.3.4
Ensemble (statistique) : voir population
F
Entrepôt (de données) : 1.2.4.1
F (distribution —) : 6.9.1, 6.9.2, 6.10.1.3 ,
Équiprobable (écart —) : voir médian
6.10.2.2 , 6.10.5
(écart —)
Équivalence (test d’—) : 10.3.3.7 F (distribution — non centrale) : 6.10.3.2
Erreur (maximum ou marge d’—) : Facteur (d’une expérience) : 2.3.3
9.4.5.2 Factorielle (analyse —) : 4.11.2
Erreur de deuxième espèce : 10.3.1.3 , Factorielle (expérience —) : 2.3.3.2 ,
10.4.1 ex. 2.3.1
Erreur de première espèce : 10.3.1.3 Faux positif : 10.3.5.5
Erreur standard : 8.3.1.2 , 8.4.1.1 Fiduciaire (limite —) : 9.4.4.1
Erreur standard (méthode de l’—) : Fisher (coefficient de —) : 3.7.2, 5.8.1.3 ,
9.4.3.1 , 10.3.3.1 5.8.5
Erreur-type : voir erreur standard Fisher (Ronald Aylmer —) : 1.2.2.2
Espérance mathématique : 5.7.1, 5.7.2 Fisher (série logarithmique de —) : 6.5.1,
Essai : 2.3.1.1 6.5.3.3
Estimateur : 9.3.1.1 Fisher-Snedecor (distribution F de —) :
Estimation : 9.1, 9.3.1.1 voir F (distribution —)
Estimée (valeur — par régression) : Fonction caractéristique : 5.9.2.2
4.7.3.1 Fonction de densité de probabilité :
Étendue : voir amplitude 5.5.2.1 , 5.5.4.1
Événement (aléatoire) : 5.2.1.1 Fonction de distribution : voir fonction de
Exacte (décimale —) : 3.9.1.4 répartition
Exacte (valeur —) : 3.2.4, 3.9.1.4 Fonction de répartition : 5.5.1.2 , 5.5.3.2
Exactitude : voir biais Fonction de variable aléatoire : voir trans-
Excentricité (coefficient d’—) : 6.10.3.1 formation (de variable aléatoire)
Exclusifs (événements —) : 5.3.1.3 Fonction génératrice des cumulants :
Exhaustif (estimateur —) : 9.3.1.7 5.9.2.1
Exhaustive (enquête —) : 2.2.1.2 Fonction génératrice des moments : 5.9.1,
Expérience : 2.3.1 6.6.2.4
Expérience aléatoire : 5.2.1.1 Fouille (des données) : 1.2.4.2
Expérimentale (unité —) : 2.3.4.1 Fractile : voir quantile
Expérimentation : 2.3.1 Fraction (échantillonnée) : 2.2.5.1
Explicative (variable —) : 4.7.1
Fréquences (distribution de —) : 3.2.2,
Exponentielle (distribution —) : ex. 5.5.5, 3.2.3, 3.2.4, 4.2.2, 4.2.3
ex. 5.6.6, ex. 5.8.4, ex. 5.9.4, 6.4.1.5 ,
Fréquentiste (approche —) : 9.3.5.3
6.8.2.5 , 6.10.5.4
508 INDEX DES MATIÈRES

G Hypergéométrique généralisée (distribu-


Galton (Francis —) : 1.2.1.2 tion — et loi —) : 6.3.2
Gamma (distribution —) : 6.10.5.5 Hypernormale (distribution —) : 6.6.1.3
Gamma (fonction —) : 6.10.2 Hyponormale (distribution —) : 6.6.1.3
Gauche (dissymétrie —) : voir dissymétrie Hypothèse (test d’—) : 10.2
(d’une distribution) I
Gauss (distribution de —) : voir normale
i (distribution en —) : 3.3.3
(distribution — à une dimension)
Identification : 4.10.1, 4.10.2
Gauss (Karl Friedrich —) : 1.2.1.1
i.i.d. (variables —) : 5.6.1.3
Génératrice (fonction — des cumulants) :
5.9.2.1 Impartial : voir biais
Génératrice (fonction — des moments) : Impossible (événement —) : 5.3.2.3
5.9.1, 6.6.2.4 Incomplet (bloc —) : 2.3.5.3
Génomique : 1.2.4.2 Indépendance (stochastique) : 5.4.2, 5.6.1,
Géométrique (moyenne —) : 3.5.2, 3.5.3, 7.3.2.2
3.5.7.2 , 4.10.3.1 , 5.8.1.1 Indépendance (test d’—) : 10.2
Géométrique (série —) : 6.5.2.5 Indépendante (variable —) : 4.7.1
Gini (coefficient de —) : voir concentra- Indicatrice (ellipse —) : 7.4.1.3
tion (coefficient de —) Indicatrice (variable — et variable aléatoi-
Glissante (moyenne —) : 4.10.2.6 re —) : voir binaire (variable — et va-
Gosset (William Sealy —) : 1.2.2.2 riable aléatoire —)
Grands nombres (loi des —) : 8.5.1 Indice (nombre —) : 3.10.1, 3.10.2, 3.10.3
Graphique : voir diagramme Inexactitude : voir biais
Grappes (échantillonnage en —) : 2.2.4.4 Inférence (statistique) : 1.3.1.1 , 9.1, 10.1
Grossière (erreur —) : 3.9.1.2 Influence (fonction d’— et courbe d’—) :
Groupée (distribution —) : 3.2.3, 3.2.4, 9.3.1.6
4.2.2.3 Informatique : 1.2.3, 1.2.4
Groupée (distribution non —) : 3.2.2, Initiale (période —) : 3.10.1.2
3.2.4, 4.2.2 Intensité (d’échantillonnage) : 2.2.5.1
Gumbel (distribution de —) : 8.3.4.3 Interdépendantes (variables —) : 4.8.1.1
H Internet (documentation par —) : 1.4.2
Harmonique (moyenne —) : 3.5.3, 5.8.1.1 Interquartile (écart —) : 3.6.4.3 , 3.6.7.2 ,
Hasard (échantillonnage au —) : 2.2.4.1 5.8.1.2
Histogramme : 3.3.1 Intervalle (d’une classe) : 3.2.3.1 , 4.2.2.3
Histogramme (de fréquences cumulées) : Intervalle (estimation par —) : 9.4.1.1
3.3.2 Intervalle de confiance : 9.4.1, 9.4.3,
Historique : 1.2.1, 1.2.2, 1.2.3, 1.2.4 10.3.3.5
Hochberg (méthode de —) : 10.3.5.5 Intraclasse (coefficient de corrélation —) :
Holm (méthode de —) : 10.3.5.3 4.6.3.7
Holm-Bonferroni (méthode de —) : Inventaire : 2.2.1.1 , ex. 2.2.2
10.3.5.3 Isométrie : ex. 4.10.1
Homogénéité (test d’—) : 10.2 J
Homoscédasticité : 10.3.3.2
j (distribution en —) : 3.3.3
Hypergéométrique (distribution — et loi
Jackknife : 8.4.2.2 , 9.4.4.2 , 10.3.4.2
—) : 6.3.1, 6.10.1.2
INDEX DES MATIÈRES 509

K Longueur minimum (intervalle de confian-


Khi-carré (distribution —) : 6.8.1, 6.8.2, ce de —) : 9.4.3.6
6.9.2, 6.10.1, 6.10.2.2 , 6.10.5 Lorenz (courbe de — et diagramme de
Khi-carré (distribution — non centrale) : —) : 3.6.6.3
6.10.3.1 M
Khi-carré minimum (méthode du —) : Mann et Whitney (test de —) : 10.3.3.2
9.3.3.3 Marge d’erreur : 9.4.5.2
L Marginale (distribution —) : 4.2.3.1 ,
5.5.3.3 , 5.5.4.2 , 7.2.1
Laplace (Pierre Simon de —) : 1.2.1.1
Marginale (fréquence —) : 4.2.3.1
Laplace (théorème de —) : voir Moivre
Marginale (moyenne —) : 4.4.2 , 7.3.1
(théorème de —)
Marginale (variance —) : 4.4.2 , 7.3.1
Laplace-Gauss (distribution de —) : voir
Médiale : 3.5.5, 5.8.1.1
normale (distribution — à une dimen-
Médian (écart —) : 3.6.3, 5.8.1.2
sion)
Médian (point — d’une classe) : voir point
Laplace-Liapounov (théorème de —) :
central (d’une classe)
voir central (théorème — limite)
Médiane : 3.5.4, 3.5.7.1 , 5.8.1.1 , 8.3.3
Laspeyres (indice de —) : 3.10.2
Médiane (classe —) : 3.5.4.3
Latin (carré —) : 2.3.5.3
Mélange (de distributions) : 6.10.4.3
Leptocurtique (distribution —) : 6.6.1.3 Mensuration : 2.4.1.2
Liée : voir conditionnelle Mesure : 2.4.1.2
Limite (d’une classe) : 3.2.3.1 Méta-analyse : 10.3.5.5
Limite (théorème central —) : 6.6.5, Mid-range : 9.2.1.4
6.6.6.4 Mitscherlich (loi de —) : 4.10.2.3 ,
Lindeberg-Lévy (théorème de —) : 6.6.5 4.10.3.3
Linéaire (modèle — général) : 1.2.3.3 Mobile (moyenne —) : 4.10.2.6
Linéaire (modèle — généralisé) : 1.2.3.3 Modale (classe —) : 3.5.6
Linéaire (modèle — mixte) : 1.2.3.3 Modalité (d’un facteur) : 2.3.3.1
Linéaires (diagramme à échelles non —) : Mode : 3.5.6, 3.5.7.1 , 5.8.1.1
3.3.4.4 Modélisation : 1.2.3.3
Livres (de statistique) : 1.4.1.1 Module (d’une classe) : voir intervalle
(d’une classe)
Localement le plus puissant (test —) :
10.4.3.5 Moindres carrés (droite des —) : voir ré-
gression (coefficient de — et droite de
Logarithmico-normale (distribution —) :
—)
6.6.6
Moindres carrés (méthode des —) : 4.7.2,
Logarithmique (série — de Fisher) : 6.5.1, 9.3.3.3
6.5.3.3
Moindres rectangles (droite des —) : 4.8.1,
Logiciels (statistiques) : (( Mode d’emploi )) 4.8.2, 4.9.1.3
Logistique (fonction —) : 4.10.2.3 , Moivre (Abraham de —) : 1.2.1.1
4.10.3.3 Moivre (théorème de —) : 6.6.4, 6.6.5
Logistique (régression —) : 4.10.2.6 Moment : 3.7.1, 3.8.1.6 , 4.5.1.1 , 5.8.1.3 ,
Logit : 4.10.2.6 5.9.1, 7.3.2.1 , 8.4.1.3
Log-normale (distribution —) : 6.6.6 Moments (méthode des —) : 9.3.3.2
Loi (de probabilité) : voir distribution Monte-Carlo (méthode de —) : 8.4.2.1
(théorique) Moustaches (boı̂te à —) : voir boxplot
510 INDEX DES MATIÈRES

Moyen (écart — absolu) : 3.6.2, 3.6.7.1 , Non-infériorité (test de —) : 10.3.3.7


5.8.1.2 Non-réponse : 2.2.3.3 , 2.2.5.7
Moyenne : voir moyenne arithmétique Normale (distribution — à deux dimen-
Moyenne arithmétique (définition, pro- sions) : 7.4.1, 7.4.2, 7.4.3
priétés, calcul) : 3.5.1, 3.5.3, 3.5.7.1 , Normale (distribution — à une dimen-
3.8.1, 5.8.1.1 , 5.8.2, 7.3.5 sion) : 6.6.1, 6.6.2, 6.6.3, 6.6.4, 6.6.5,
Moyenne arithmétique (distribution 6.8.2, 6.9.2.3 , 6.10.1, 6.10.5
d’échantillonnage) : 8.3.1, 8.3.2, Normale (équation —) : 4.7.2.2 , 4.10.3
8.4.3.2 Normalité asymptotique : 6.6.5
Moyenne arithmétique (estimation) :
Normé (histogramme —) : 3.3.1.2
9.2.1, 9.3.1.2 , ex. 9.3.1, ex. 9.3.5,
Normé (stéréogramme —) : 4.3.2.1
ex. 9.3.7
Moyenne arithmétique (intervalle de con- Nuage (de points) : voir dispersion (dia-
fiance) : 9.4.2 gramme de —)
Moyenne arithmétique (test d’égalité) : Nulle (hypothèse —) : 10.3.1.1
10.3.2, 10.4.2 O
Moyenne (valeur —) : 3.4.1 , 5.7.1.1 Objet (d’une expérience) : 2.3.3.2
Moyennes (vecteur de —) : 4.11.1.2 Obliquité (d’une distribution) : voir dissy-
Multidimensionnelle (analyse —) : métrie (d’une distribution)
1.2.3.3 , 4.11.2 Observation : 2.2.3
Multiple (coefficient de corrélation —) : Observation (étude par —) : 2.1.2
4.11.2
Observée (distribution —) : voir fréquen-
Multiple (régression —) : 4.11.2 ces (distribution de —)
Multiples (comparaisons —) : 10.3.5.5 Opérationnelle (recherche —) : 1.2.2.2
Multiples (tests —) : 10.3.5
Opposé (événement —) : 5.3.2.2
Multiplicative (méthode — congruen-
Opposée (hypothèse —) : 10.3.1.1
tielle) : 8.2.3.1
Ordinale (variable —) : 2.4.1.3
Multiplicativité (propriété de —) : 5.4.1.2
Ordinateur : 1.2.3, 1.2.4, 2.4.2.3
Mutuellement exclusifs (événements —) :
5.3.1.3 Organique (droite de corrélation —) : voir
moindres rectangles (droite des —)
N
Origine (régression par l’—) : 4.7.6
Néo-bayesienne (méthode —) : voir Orthogonale (droite de régression —) :
bayesienne (méthode —) voir moindres rectangles (droite des
Neurones (réseau de —) : 1.2.4.2 —)
Neyman type A (distribution de —) : Ouverte (classe —) : 3.2.3.2
6.5.3
Niveau (d’un facteur) : 2.3.3 P
Niveau de signification : 10.3.1.1 Paasche (indice de —) : 3.10.2
Niveaux (échantillonnage à deux ou plu- Paires (test t par —) : 10.3.3.2
sieurs —) : 2.2.4.4 Parabolique (régression —) : 4.10.2.5 ,
Nombre d’observations : 9.4.5, 10.4.4 4.10.3.2
Nombre-indice : 3.10.1, 3.10.2, 3.10.3 Paramètre : 3.1.2 , 3.4, 4.4, 5.8.1
Nominale (variable —) : 2.4.1.3 Paramétrique (méthode non — et test non
Non-centrale (distribution —) : 6.10.3 —) : 9.3.4.1 , 10.3.3.2
Non-centralité (coefficient de —) : Parcelle divisée : 2.3.5.3
6.10.3.1 Pareto (distribution de —) : 8.3.4.3
INDEX DES MATIÈRES 511

Partielle (coefficient de corrélation —) : Pondérée (moyenne —) : 3.5.1.3


4.11.2 Pondérée (régression —) : 4.7.6
Partielle (enquête —) : voir échantillonna- Population : 2.2.1.1 , 2.2.2, 2.3.2.1 , 8.2.1
ge (enquête par —) Population-parent : voir population
Pascal (Blaise —) : 1.2.1.1 Position (paramètre de —) : 3.4.1
Pascal (distribution de —) : 6.5.2, Précision : 9.3.1.3
6.5.3.3 Pré-enquête : 2.2.3.3
Pearson (coefficient de —) : 3.7.2,
Presque certain (événement —) : 5.3.1.2
5.8.1.3 , 5.8.5
Presque impossible (événement —) :
Pearson (distribution 2 de —) : voir
5.3.2.3
khi-carré (distribution —)
Prix (indice de —) : 3.10.2
Pearson (Karl —) : 1.2.2.2
Probabilité : 5.2.1, 5.2.2
Pearson (système de —) : 6.10.5
Probabilité (convergence en —) : 8.5.1
Percentile : voir centile
Probabilité (distribution de — et loi de
Période (d’observation) : 2.2.3.2
—) : voir distribution (théorique)
Permutation (test de —) : 10.3.4.2
Probabilité composée (propriété de la —) :
Pilote (enquête —) : 2.2.3.3
5.4.1.2
Pitman (efficacité de —) : 10.4.3.4
Probabilité totale (axiome de la — et pro-
Plan (d’expérience) : 2.3.1.2 priété de la —) : voir additivité (axio-
Planification (d’une enquête) : 2.2.1.3 me d’— et propriété d’—)
Platycurtique (distribution —) : 6.6.1.3 Probabilités (calcul des —) : 1.2.1.1
Plurimodale (distribution —) : 3.5.6 Probable (écart —) : voir médian (écart
Poids : 3.5.1.3 , 4.7.6.1 —)
Point (coefficient de corrélation de —) : Probit : 4.10.2.6
4.6.3.3 Produit de variables aléatoires : 5.7.2.3 ,
Point (estimation de —) : 9.4.1.1 5.8.2.1 , 5.8.3.4 , 7.3.5.1
Point central (d’une classe) : 3.2.3.1 , Progressif (test —) : 10.3.4.4
4.2.2.3 Progressive (estimation —) : 9.4.4.4
Poisson (distribution de — et théorème Proportion (distribution d’échantillonnage
de —) : 6.4.1, 6.4.2, 6.5.2.3 , ex. 6.6.7, d’une —) : ex. 8.3.4, ex 8.4.7
6.10.1.2
Proportion (estimation d’une —) :
Poisson (processus de —) : 6.4.1.5 ex. 9.3.4
Poisson (Siméon Denis —) : 1.2.1.1 Prospective (puissance —) : 10.4.3.7
Poisson-binomiale (distribution —) : Protocole (expérimental) : 2.3.1.2
6.5.3.3
Pseudo-aléatoire (nombre —) : 8.2.3
Poisson-Pascal (distribution —) :
Pseudo-valeur : 9.3.4.3
6.5.3.3
Psychométrie : 1.2.2.2
Polygone (de fréquences) : 3.3.1
Puissance (d’un test) : 10.4.1, 10.4.3
Polygone (de fréquences cumulées) : 3.3.2
Puissance (fonction —) : 4.10.2.4 ,
Polynomiale (distribution — et loi —) :
4.10.3.1
6.2.3, 6.3.2.2 , ex. 7.3.3
Puissance (fonction de —) : 10.4.1, 10.4.3
Polynomiale (régression —) : 4.10.2.5 ,
4.10.3.2 Q
Ponctuelle (estimation —) : 9.4.1.1 Quadratique (droite de régression en
Pondération (coefficient de —) : 3.5.1.3 , moyenne —) : voir régression (coeffi-
4.7.6.1 cient de — et droite de —)
512 INDEX DES MATIÈRES

Quadratique (écart — moyen) : voir écart- Référence (période de —) : 3.10.1.2


type Régression (coefficient de — et droite de
Quadratique (moyenne —) : 3.5.3, —) : 4.7.2, 4.7.5, 4.9.1.3 , 7.3.4.1
3.5.7.2 , 5.8.1.1 Régression (courbe de —) : 4.10.1
Quadratique (régression —) : 4.10.3.2 Régression (diagramme de —) : 4.7.1, 7.3.3
Qualitatif (facteur —) : 2.3.3.1 Régression (ligne de —) : 7.3.3.1
Qualitative (donnée — ou observation Régularité statistique : 5.2.2.1 , 8.5.2
—) : 2.2.3.1 , 2.4.1.3 Rejet (condition de —) : 10.3.1.4
Qualité (contrôle de la —) : 1.2.2.2 Rejet (domaine de — ou région de —) :
Quantile : 3.6.4.5 , 5.8.1.4 10.3.1.2
Quantitatif (facteur —) : 2.3.3.1 Relative (efficacité —) : 9.3.1.4 , 10.4.3.3
Quantitative (donnée — ou observation Relative (fréquence —) : 3.2.2.3 , 3.2.3.1 ,
—) : 2.2.3.1 , 2.4.1.2 4.2.2.4
Quantités (indice de —) : 3.10.2.3 Répartition (fonction de —) : 3.3.2.3 ,
Quartiers de tarte (diagramme en —) : 5.5.1.2 , 5.5.3.2
3.3.4.3 Répétition : 2.3.4.2
Quartile : 3.6.4, 5.8.1.2 Rerandomisation (test de —) : 10.3.4.2
Questionnaire : 2.2.3.3 Résidu (de la régression) : 4.7.3, 4.7.4.5 ,
Quetelet (Lambert Adolphe —) : 4.10.4, 7.3.4.2
1.2.1.2 Résiduel (écart-type —) : 4.7.4.4
Quotas (méthode des —) : 2.2.4.5 Résiduelle (somme des carrés des écarts
Quotient de variables aléatoires : 5.7.2.4 , —) : 4.9.1.4
5.8.2.3 , 5.8.3.5 , 7.3.5.2 Résiduelle (variance —) : 4.7.4, 4.9.1.3 ,
R 7.3.4
Rabotée (moyenne —) : 9.2.1.4 , 9.3.4.2 Rétrocumulée (fréquence —) : 3.2.2.4
Randomisation (test de —) : 10.3.4.2 Rétrospective (puissance —) : 10.4.3.7
Rang : 2.4.1.4 Réversibilité (d’un nombre-indice) :
3.10.3.1
Rang (coefficient de corrélation de —) :
4.6.3.4 Revues (de statistique) : 1.4.1.3 , 1.4.2.2
Rapports (de moyennes et moyennes de Risque de deuxième espèce : 10.3.1.3 ,
—) : 3.10.1.4 10.4.1
Recensement : 2.2.1.2 Risque de première espèce : 10.3.1.3
Rectangulaire (distribution —) : voir uni- Robuste (estimateur — et méthode
forme (distribution — continue à une —) : 1.2.3.3 , 9.3.1.6 , 9.3.4, 9.4.4.2 ,
dimension) 10.3.4.2
Redressement : 2.2.4.7 Robustesse : 9.3.1.6
Réduction (des données) : 3.1.2 , 3.4, 4.4 Rognée (moyenne —) : 9.2.1.4 , 9.3.4.2
Réduit (résidu —) : 4.7.4.5 S
Réduite (distribution normale — à deux Saisie (des données) : 2.4.2.1
dimensions) : 7.4.1, 7.4.2 Sécurité (coefficient de —, intervalle de —
Réduite (distribution normale — à une di- et limite de —) : voir confiance (coef-
mension) : voir normale (distribution ficient de —, intervalle de — et limite
— à une dimension) de —)
Réduite (variable —) : 4.8.2.3 , 5.8.3.1 Segmentée (régression —) : 4.10.2.6
Rééchantillonnage : 1.2.3.3 , 8.4.2.2 Semi-interquartile : 3.6.4.3 , 5.8.1.2
INDEX DES MATIÈRES 513

Sensibilité (aux erreurs importantes) : Stochastiquement certain (événement —) :


9.3.1.6 5.3.1.2
Séquentiel (test —) : 10.3.4.4 Stochastiquement dépendant : voir indé-
Séquentielle (estimation —) : 9.4.4.4 pendance (stochastique)
Série (statistique) : 3.2.1, 4.2.1 Stochastiquement impossible (événement
Sheppard (correction de —) : 3.6.1.6 , —) : 5.3.2.3
3.7.1.4 , 4.5.2.4 Stochastiquement indépendant : voir indé-
Sigmoı̈de (courbe —) : 6.6.1.2 pendance (stochastique)
Significatif : 10.3.1.4 Strate : 2.2.4.3
Significatif (chi↵re —) : 3.9.2 Stratifié (échantillonnage —) : 2.2.4.3
Significatif (hautement — et très haute- Student : 1.2.2.2
ment —) : 10.3.1.4 Student (distribution t de —) : voir t
Signification (niveau de —) : 10.3.1.1 (distribution —)
Signification (seuil de —) : 10.3.1.2 Student (test t de —) : 10.3.2.4
Signification (test de —) : 10.2 Suffisant (estimateur —) : 9.3.1.7
Simple (échantillonnage —) : 2.2.4.1 , Supériorité (test de —) : 10.3.3.7
8.2.2.1 Surdispersée (distribution —) : 6.5.3.4
Simple (indice —) : 3.10.1.2 Surdispersion : 6.5.3.4
Simulation : 1.2.3.3 , 8.4.2.1 Symétrie : voir dissymétrie
Simultanés (tests —) : 10.3.5 Symétrique (distribution —) : voir dissy-
Six sigma : 1.2.4.2 métrique (distribution —)
Snedecor (distribution F de —) : voir F Synthétique (indice —) : 3.10.1.2
(distribution —) Systématique (échantillonnage —) :
Somme de variables aléatoires : 5.6.3, 2.2.4.2
5.7.2.2 , 5.8.2.1 , 5.8.3.3 , 7.2.2.2 , Systématique (erreur —) : 2.2.4.7 ,
7.3.5.3 9.3.1.2
Sondage : voir échantillonnage Système (de distributions et — de Pear-
Sondée (fraction —) : 2.2.5.1 son) : 6.10.5
Sous-dispersée (distribution —) : 6.5.3.4 T
Sous-dispersion : 6.5.3.4 t (distribution —) : 6.7, 6.8.2.3 , 6.9.2.2 ,
Spearman (Charles Edward —) : 1.2.2.2 6.10.1, 6.10.2.2 , 6.10.5
Spearman (coefficient de corrélation de t (distribution — non centrale) : 6.10.3.3
—) : 4.6.3.4 t (test — de Student) : 10.3.2.4
Stabilité des fréquences : voir régularité t (test — par paires) : 10.3.3.2
statistique Tableau (à double entrée) : 4.2.2.1
Statistique (analyse —) : 1.3.1.1 Tables : 1.4.1.2 , 6.1.2
Statistique (définition) : 1.1 Taille : voir e↵ectif
Statistique (distribution —) : voir fré- Témoin : 2.3.3.2
quences (distribution de —) Test (d’hypothèse ou de signification) :
Statistique (unité —) : voir unité (de base) 10.2
Stem-and-leaf (diagramme —) : 3.3.4.1 Tétrachorique (coefficient de corrélation
Stéréogramme : 4.3.2.1 —) : ex. 7.4.4
Stochastique (convergence —) : 8.5.1 Tige et feuilles (diagramme en —) :
Stochastique (indépendance —) : 5.4.2, 3.3.4.1
5.6.1, 7.3.2.2 Totale : voir marginale
514 INDEX DES MATIÈRES

Totalement exclusifs (événements —) : V


5.3.2.2 Valeur P : 10.3.2.2 , 10.3.3.4
Traitement (des données) : 2.4.2.3 Valeurs (indice de —) : 3.10.2.4
Transférabilité (d’un nombre-indice) :
Validation : 4.10.1, 4.10.4
3.10.3.1
Variabilité (coefficient de —) : voir varia-
Transformation (de variable aléatoire) :
tion (coefficient de —)
5.6.2, 5.7.2.1 , 5.8.2, 5.8.3, 7.2.2.1
Transformation logarithmique : ex. 5.8.6, Variable (aléatoire) : 5.5.1.1 , 5.5.2.1 ,
ex. 5.8.9 5.5.3.1
Triangulaire (distribution —) : ex. 5.6.5, Variable (intervalle de classe —) : 3.2.3.2
ex. 5.9.3 Variable(s) (statistique à une, à deux et à
Trois sigma (règle des —) : 5.8.4.3 plusieurs —) : 3.1.1
Tronquée (distribution —) : 6.10.4.2 Variance (analyse de la —) : 1.2.2.2
Type (de distribution) : 3.3.3, 6.10.5 Variance (analyse de la — à plusieurs va-
Typique (valeur —) : voir paramètre riables) : 4.11.2
U Variance (définition, propriétés, calcul) :
3.6.1, 3.6.7.1 , 3.8.1, 5.8.1.2 , 5.8.3,
u (distribution en —) : 3.3.3
5.8.4, 7.3.5.3
Uniforme (carré d’une variable aléatoire —
Variance (distribution d’échantillonnage) :
continue à une dimension) : ex. 5.6.2,
8.3.2, 8.4.3.2
ex. 5.7.3, ex. 5.8.8
Variance (estimation) : 9.2.2, 9.3.1.2 ,
Uniforme (distribution — continue à deux
ex. 9.3.2, ex. 9.3.5, ex. 9.3.7
dimensions) : ex. 5.5.7
Uniforme (distribution — continue à Variance minimum (estimateur de —) :
une dimension) : ex. 5.5.4, ex. 5.6.5, 9.3.1.4
ex. 5.7.2, ex. 5.8.3, 6.10.1, 6.10.5.3 Variances (matrice de — et covariances) :
Uniforme (distribution — discontinue à 4.11.1.2
deux dimensions) : ex. 5.5.6 Variante (d’un facteur) : 2.3.3
Uniforme (distribution — discontinue à Variation (coefficient de —) : 3.6.1,
une dimension) : ex. 5.5.3, 6.8.2.4 , 3.6.7.1 , 5.8.1.2 , ex. 8.4.2
6.10.1.2 Vraisemblance (fonction de —) : 9.3.2.2 ,
Uniformément le plus puissant (test —) : 10.3.4.1
10.4.3.5 Vraisemblance (méthode du maximum de
Unilatéral (intervalle de confiance —) : —) : 9.3.2
9.4.3.6 Vraisemblance (méthode du maximum de
Unilatéral (test —) : 10.3.3.6 — restreint) : 9.3.3.3
Unimodale (distribution —) : 3.5.6 Vraisemblance (rapport de —) : 10.3.4.1
Unitaire (fréquence —) : 3.2.3.3 , 4.2.2.4
W
Unité (de base) : 2.2.1.1 , 2.2.2
Unité (de mesure) : 2.2.3.1 Weibull (distribution de —) : 8.3.4.3
Unité (expérimentale) : 2.3.4.1 Welch (test de —) : 10.3.3.2
Unité (statistique) : voir unité (de base) Wilcoxon (test de —) : 10.3.3.2
Univers : voir population Y
Usage intensif (de l’ordinateur) : 1.2.3.3
Yule (George Udny —) : 1.2.2.2
Index des symboles

Les principaux symboles utilisés dans le texte sont énumérés ici par ordre
alphabétique, d’abord pour l’alphabet latin, puis pour l’alphabet grec.

a : ordonnée à l’origine d’une droite de ré- e : base des logarithmes népériens


gression (valeur observée) em : écart moyen absolu (valeur observée)
ak : moment par rapport à l’origine (valeur E(X) : espérance mathématique
observée)
exp : exponentielle
AH0 : acceptation d’une hypothèse nulle
F : variable de Fisher-Snedecor
b , byx : coefficient de régression (valeur ob-
F↵/2 , F1 ↵ , F1 ↵/2 : valeur théorique
servée)
(quantile) d’une variable de Fisher-
b1 , b2 : coefficient de Pearson (valeur ob- Snedecor
servée)
f (x), f1 (x), f (x, y) : fonction de densité de
probabilité
c : coefficient d’une droite des moindres F (x), F1 (x), F (x, y) : fonction de réparti-
rectangles (valeur observée) tion
x
Cn : nombre de combinaisons f (x | y) : fonction de densité de probabilité
cov , cov(x, y), cov(X, Y ) : covariance (va- conditionnelle
leur observée ou théorique)
cv , cvx : coefficient de variation (valeur g : paramètre quelconque (valeur obser-
observée) vée)
Cv , CvX : variable aléatoire correspon- G : variable aléatoire correspondant au pa-
dant au coefficient de variation d’un ramètre g d’un échantillon
échantillon
g1 , g2 : coefficient de Fisher (valeur ob-
CV , CVX : coefficient de variation (valeur servée)
théorique)
H : hypothèse alternative
d : marge d’erreur
H0 : hypothèse nulle
di : résidu
d0i : résidu réduit k , k1 , k2 : paramètre, nombre de degrés
dr : marge d’erreur relative de liberté
516 INDEX DES SYMBOLES

log : logarithme s , sx : écart-type (valeur observée)


loge : logarithme népérien s2 , s2x : variance (valeur observée)
log10 : logarithme décimal S 2 : variable aléatoire correspondant à la
variance d’un échantillon
m , mX : moyenne arithmétique (valeur sy.x : écart-type résiduel (valeur observée)
théorique) s2y.x : variance résiduelle (valeur observée)
b ,m
m b X : moyenne arithmétique (valeur es- sy|i , sy|x : écart-type conditionnel (valeur
timée) observée)
m̃ , m̃X : médiane (valeur théorique) s2y|i , s2y|x : variance conditionnelle (valeur
mk , mkl : moment centré (valeur obser- observée)
vée) SCE , SCEx : somme des carrés des écarts
mX|y : moyenne conditionnelle (valeur SCEy.x : somme des carrés des écarts rési-
théorique) duelle
m11 : covariance (valeur observée) SPE , SPExy : somme des produits des
écarts
n , ni , nij : e↵ectif, fréquence absolue
N : e↵ectif d’une population finie t : variable de Student
n0i , n0ij : fréquence relative t1 ↵ , t1 ↵/2 : valeur théorique (quantile)
d’une variable de Student
n00i , n00ij : fréquence unitaire
ni. , n.j : fréquence marginale absolue
U , Ui : variable aléatoire réduite, variable
n0i. , n0.j : fréquence marginale relative normale réduite
n0i|j , n0j|i : fréquence conditionnelle rela- uobs : valeur observée de la variable nor-
tive male réduite
N 0 (x) : fonction cumulative de fréquences u1 ↵ , u1 ↵/2 : valeur théorique (quantile)
de la variable normale réduite
p : nombre de classes, proportion, paramè-
tre d’une distribution binomiale (va- var , var(x), var(X) : variance (valeur ob-
leur théorique) servée ou théorique)
pb : proportion, paramètre d’une distribu-
tion binomiale (valeur estimée) w : amplitude (valeur observée)
P(A), P(X = x), P(x), Px , P(x, y) : pro- W : variable aléatoire correspondant à
babilité l’amplitude d’un échantillon
P(A | B), P(x | y) : probabilité condition- wi : coefficient de pondération, poids
nelle
x , xi : valeur observée
q : nombre de classes (ou 1 p) X, Xi : variable aléatoire
q1 , q3 : quartile (valeur observée) x̄ : moyenne arithmétique (valeur ob-
servée)
r , rxy : coefficient de corrélation (valeur X̄ : variable aléatoire correspondant à la
observée) moyenne arithmétique d’un échantillon
r2 , rxy
2
: coefficient de détermination (va- x̃ : médiane (valeur observée)
leur observée) X̃ : variable aléatoire correspondant à la
rS : coefficient de corrélation de rang de médiane d’un échantillon
Spearman (valeur observée) x̄j , x̄y : moyenne conditionnelle (valeur
RH0 : rejet d’une hypothèse nulle observée)
INDEX DES SYMBOLES 517

y : voir x , X : écart-type, erreur standard (valeur


théorique)
↵ : ordonnée à l’origine d’une droite de ré- b : écart-type (valeur estimée)
gression (valeur théorique), niveau de 2 2
signification, risque de première espèce , X : variance (valeur théorique)
2
↵k : moment par rapport à l’origine (va- b : variance (valeur estimée)
leur théorique) Y.x : écart-type résiduel (valeur théori-
1 ↵ : degré de confiance que)
2
Y.x : variance résiduelle (valeur théori-
: risque de deuxième espèce que)
yx : coefficient de régression (valeur théo-
rique) Y |x : écart-type conditionnel (valeur
théorique)
1, 2 : coefficient de Pearson (valeur
2
théorique) Y |x : variance conditionnelle (valeur théo-
1 : puissance rique)
b
X
: paramètre quelconque (valeur théori- : symbole de sommation
que) i=a

b : paramètre quelconque (valeur estimée)


1 , 2 : coefficient de Fisher (valeur théo- : coefficient de corrélation de point (va-
rique) leur observée)
(u), (u, v) : fonction de densité de pro-
: di↵érence de moyennes babilité d’une distribution normale ré-
r : di↵érence relative de moyennes duite
x, xi : accroissement, intervalle de (u) : fonction de répartition de la distri-
classe bution normale réduite à une dimen-
sion
"m : écart moyen absolu (valeur théorique)
2
: variable de Pearson
µk , µkl : moment centré (valeur théorique)
2
µ11 : covariance (valeur théorique) obs : valeur observée d’une variable de
Pearson
2
⇢ , ⇢XY : coefficient de corrélation (valeur ↵/2 , 21 ↵ , 21 ↵/2 : valeur théorique
théorique) (quantile) d’une variable de Pearson
STATISTIQUE
STATISTIQUE
•DAGNELIE•
THÉORIQUE
ET APPLIQUÉE 1
1. Statistique descriptive
et bases de l’inférence statistique
THÉORIQUE

STATISTIQUE THéORIQUE ET APPLIQUéE


3e édition

ET APPLIQUÉE
•pierre Dagnelie•

La statistique – considérée comme l’ensemble des méthodes qui ont pour but de recueillir
et d’analyser des données relatives à des groupes d’individus ou d’objets – joue un rôle
essentiel dans de très nombreuses disciplines. Tel est le cas, entre autres, pour les sciences
du vivant : biologie, agronomie, écologie, etc.
1. Statistique descriptive
Les deux tomes de Statistique théorique et appliquée ont précisément pour objectif de
permettre aux scientifiques de disciplines très variées, en particulier les sciences du vivant,
et bases de l’inférence statistique
d’utiliser au mieux les méthodes statistiques classiques, sans en négliger ni les fondements
ni les limites.
3e édition
L’objet du tome 1 est la présentation des notions de base de statistique descriptive
(à une et à deux dimensions), de statistique théorique (à une et à deux dimensions •pierre Dagnelie•
également), et d’inférence statistique (distributions d’échantillonnage, problèmes
d’estimation et tests d’hypothèses).

Cet ouvrage est conçu de manière à être à la fois un manuel et un livre de référence.
À cette fin, il comporte une documentation détaillée, dont plus de 350 références
bibliographiques, des tables, et divers index (index bibliographique, index des traductions
anglaises, index des matières et index des symboles). Son utilisation comme manuel
est facilitée par la définition de différents plans de lecture, clairement indiqués
tout au long du texte, et par la présence de nombreux exemples et exercices,
accompagnés de leurs solutions. Des informations complémentaires sont présentées dans
un site web.

} Pierre Dagnelie
Professeur émérite de la Faculté des sciences agronomiques de Gembloux, il a enseigné pendant plus de 30 ans
la statistique, théorique et appliquée. Il a exercé des fonctions de professeur visiteur dans plusieurs universités et
établissements d’enseignement supérieur de France, de Grande-Bretagne, de Hongrie, de Suisse, d’Algérie, du Maroc et
du Brésil. Il a été président de la Société Internationale de Biométrie (International Biometric Society). Il est lauréat du prix
du statisticien d’expression française et Honorary Fellow de la Royal Statistical Society de Grande-Bretagne.

www.deboeck.com

STTHAP1
ISBN 978-2-8041-7560-3

STTHAP1-cov.indd 1-3 6/12/12 13:38

Vous aimerez peut-être aussi