Vous êtes sur la page 1sur 57

Retrouver ce titre sur Numilog.

com
Retrouver ce titre sur Numilog.com

Statistiques et probabilités
pour les sciences économiques et sociales
Retrouver ce titre sur Numilog.com

COLLECTION MAJOR
DIRIGÉE PAR PASCAL GAUCHON
Retrouver ce titre sur Numilog.com

Statistiques et probabilités
pour les sciences économiques
et sociales
par
Maurice Comte
Joël Gaden

Presses Universitaires de France


Retrouver ce titre sur Numilog.com

ISBN2 13049682 2
Dépôt légal —lre édition : 2000, mars
9)Presses Universitaires de France, 2000
108, boulevard Saint-Germain, 75006 Paris
Retrouver ce titre sur Numilog.com

Tabledesmatières

CHAPITRE 1
DÉFINITIONS

1.1 La méthode statistique 1


1.1.1 Une définition extensive de la statistique 1
1.1.2 La technique statistique 3
1.2 Population et variables 4
1.2.1 Population 4
1.2.2 Variables ou caractères 5
1.2.3 Les résultats de la mesure : valeurs, effectifs et fréquences .... 10
1.3 Les opérateurs statistiques 11
1.3.1 L'opérateur somme E 11
1.3.2 L'opérateur produit 13
1.3.3 Application des propriétés des logarithmes 14
1.3.4 Double somme 15
Exercices 16

CHAPITRE II
DISTRIBUTIONS À UN CARACTÈRE,
TABLEAUXET GRAPHIQUES

11.1 Tableaux 21
II. 1.1 Le fichier individus/variables 21
II.1.2 Caractère qualitatif ordinal ou nominal ...................... 24
11.1.3 Variable quantitative discrète 25
11.1.4 Variable quantitative continue 27
11.2 Graphiques 28
11.2.1 Caractère qualitatif 28
11.2.2 Variable quantitative discrète 34
11.2.3 Variable quantitative continue................................ 37
Exercices ............................................................. 52
Retrouver ce titre sur Numilog.com

CHAPITRE III
ANALYSED'UNE VARIABLE QUANTITATIVE
III. 1 Caractéristiques de tendance centrale 61
111.1.1 Mode 61
III. 1.2 Médiane 64
111.1.3 Moyenne arithmétique 72
III. 1.4 Moyenne géométrique 76
111.1.5 Moyenne harmonique 79
III. 1.6 Tableau synoptique 82
111.2 Dispersion 84
111.2.1 Étendue 85
111.2.2 Intervalle interquartile 86
111.2.3 Moyenne des écarts absolus 88
111.2.4 Variance, écart-type 89
111.3 Concentration 92
111.3.1 Courbe de Lorenz 93
111.3.2 Indice de Gini 100
Exercices 102

CHAPITRE IV
REPRÉSENTATION ET ANALYSE
D'UNE DISTRIBUTIONÀDEUX CARACTÈRES
IV.1 Relations entre caractères qualitatifs nominaux 115
IV.1.1 Distributions marginales et conditionnelles : principes 116
IV.1.2 Formalisation 122
IV.1.3 Représentation graphique du croisement de caractères quali-
tatifs 125
IV.2 Relations entre variables quantitatives 127
IV.2.1 Représentation graphique 127
IV.2.2 Caractéristiques marginales et conditionnelles 129
Exercices 132

CHAPITRE V
LIAISON ENTRE VARIABLES QUANTITATIVES :
RÉGRESSION ET CORRÉLATIONLINÉAIRE
V.1 Le choix des formes 141
V,1.1 Pourquoi rechercher une courbe simple ?...................... 141
Retrouver ce titre sur Numilog.com

V.1.2 Forme du nuage et sélection de la fonction 142


V.1.3 Ajustement graphique 143
V.2 Méthode des moindres carrés 146
V.2.1 Quelle distance ? 146
V.2.2 La covariance 148
V.2.3 Calcul de la droite des moindres carrés 151
V.3 Qualité de la régression : la notion de corrélation 154
V.3.1 Notion de résidu d'estimation 154
V.3.2 Expression de l'indicateur de liaison 157
V.3.3 Interprétation du coefficient de détermination 158
V.3.4 Coefficient de corrélation linéaire 161
V.3.5 Généralisation : corrélation non linéaire 161
Exercices 169

CHAPITRE VI
LES NOMBRES INDICES

VI.1 Indices élémentaire et description statistique 179


VI.1.1 Calcul d'un indice élémentaire entre deux dates 180
VI.1.2 Calcul d'un indice élémentaire sur une période 180
VI.1.3 Représentation graphique de valeurs indicées 181
VI.1.4 Propriétés fondamentales des indices élémentaires 182
VI.1.5 Changement de date de référence 183
VI.1.6 Remarque très importante 184
VI.2 Aspects techniques de la synthèse d'indices 185
VI.2.1 Comment réaliser la synthèse de l'évolution de plusieurs prix 185
VI.2.2 Décomposition de l'évolution de dépense 187
VI.2.3 Exemple 189
VI.2.4 Indices de prix, indices de quantités 190
VI.2.5 Quelle formule préférer ? 191
VI.2.6 Propriétés que n'ont pas les indices synthétiques 191
VI.2.7 Une propriété importante : l'agrégation 192
VI.3 Quelques problèmes pratiques d'utilisation 193
VI.3.1 Relations entre les indices de Laspeyres et Paasche des prix . 193
VI.3.2 La mise à jour des indices ................................... 196
Exercices ............................................................. 199
Retrouver ce titre sur Numilog.com

CHAPITRE VII
SÉRIES CHRONOLOGIQUES :
L'OBSERVATIONDES ÉVOLUTIONS TEMPORELLES

VII.1 Particularités des variables datées 214


VII.1.1 Définition 214
VII.1.2 Postulat de continuité 214
VII.1.3 Nature des variables et temporalité : flux et stocks 215
VII.2 Croissance cumulative : représentation semi-logarithmique 220
VII.2.1 Problèmes posés par une représentation arithmétique 221
VII.2.2 Principale propriété du diagramme semi-logarithmique 224
VII.2.3 Propriétés corollaires 224
VII.2.4 Construction d'un graphique semi-log 225
VII.3 Problèmes d'interprétation : date ponctuelles et périodes ... 227
VII.3.1 Observation en glissement 227
VII.3.2 Observation en moyenne annuelle 228
VII.4 Lissage d'une série chronologique 229
VII.4.1 Hypothèses sur la forme de la série 229
VII.4.2 Lissage par moyenne mobile 231
VII.4.3 Calcul de la moyenne mobile 233
Exercices 237

CHAPITRE VIII
SÉRIES CHRONOLOGIQUES :
CORRECTIONDES VARIATIONS PÉRIODIQUES

VIII.1 Qu'est-ce qu'un phénomène périodique ? 243


VIII.1.1 Diversité des phénomènes périodiques 244
VIII.1.2 Une gêne pour l'observation 244
VIII.1.3 Décomposition du mouvement complexe en mouvements plus
simples 245
VIII.2 Le phénomène périodique : additif ou multiplicatif ? 247
VIII.2.1 Ecart ou rapport au mouvement extra-périodique 247
VIII.2.2 Comment choisir ? 248
VIII.3 Filtrage de la composante périodique 250
VIII.3.1 Filtrage par la moyenne mobile (≠ lissage) 250
VIII.3.2 Défauts de la méthode des moyennes mobiles pour la
correction des variations périodiques ............................... 252
Retrouver ce titre sur Numilog.com

VIII.4 Calcul et synthèse des écarts/rapports périodiques 255


VIII.4.1 Il existe un seul écart très différent des autres 255
VIII.4.2 Les coefficients sont très dispersés, de manière anarchique . 255
VIII.4.3 Les coefficients dépendent de X ou changent dans le temps 255
VIII.4.4 Les coefficients sont régulièrement dispersés 257
VIII.5 Correction des coefficients périodiques 257
VIII.6 Calcul de la première estimation de la série corrigée des
variations périodiques 259
VIII.7 Itération 259
VIII.8 Conclusions méthodologiques et pratiques 260
VIII.9 Exemple récapitulatif 261
Exercices 267

CHAPITRE IX
COMBINATOIRE

IX.1 Combinaisons 275


IX.1.1 Combinaisons sans répétition 275
IX.1.2 Exercices 276
IX.1.3 Formules et propriétés 277
IX.1.4 Combinaisons avec répétition 280
IX.2 Arrangements 282
EX.2.1 Arrangements sans répétition 282
IX.2.2 Arrangements avec répétition 285
IX.3 Permutations 287
IX.3.1 Permutations sans répétition 287
IX.3.2 Permutations avec répétition 290
IX.4 Récapitulatif 291
IX.4.1 Axes de réflexion 291
IX.4.2 Principes de calculs 291
IX.4.3 Rédaction des preuves 292
IX.5 Exercices récapitulatifs 292

CHAPITRE X
GÉNÉRALITÉS SUR LES PROBABILITÉS

X.1Vocabulaire et notations ......................................... 301


X.2 Espace probabilisé fini .......................................... 303
Retrouver ce titre sur Numilog.com

X.2.1 Probabilité sur un ensemble fini non vide il 303


X.2.2 Propriétés d'une probabilité 303
X.2.3 Caractérisation d'une probabilité 304
X.2.4 Probabilité uniforme 305
X.3 Espace probabilisé avec Qquelconque 309
X.3.1 Tribu d'événements 309
X.3.2 Système complet d'événements 311
X.3.3 Probabilité sur un espace probabilisable (ft, T) 312
X.4 Probabilité conditionnelle 313
X.4.1 Théorème de la probabilité conditionnelle (ou probabilité
composée) 313
X.4.2 Théorème de la probabilité conditionnelle généralisée 317
X.5 Formule des probabilités totales 318
X.6 Formule de Bayes (ou théorème de la probabilité des causes) 319
X.7 Indépendance 324
X.7.1 Indépendance de deux événements 324
X.7.2 Indépendances d'une famille d'événements 325

CHAPITRE XI
VARIABLESALÉATOIRES RÉELLES
XI.1 Généralités 327
XI.1.1 Définition d'une variable aléatoire réelle 327
XI.1.2 Fonction de répartition d'une variable aléatoire réelle 327
XI.2 Variables aléatoires discrètes 329
XI.2.1 Définition d'une variable aléatoire discrète 329
XI.2.2 Loi de probabilité d'une variable aléatoire discrète 329
XI.2.3 Fonction de répartition d'une variable aléatoire discrète 330
XI.2.4 Moments d'une variable aléatoire discrète 336
XI.3 Variables aléatoires continues ou encore à densité 341
XI.3.1 Densité de probabilité d'une variable aléatoire continue 341
XI.3.2 Fonction de répartition d'une variable aléatoire continue 342
XI.3.3 Propriétés générales d'une variable à densité 344
XI.3.4 Espérance mathématique d'une variable à densité 349
XI.3.5 Variance d'une variable à densité 353
XI.3.6 Écart-type d'une variable à densité .......................... 356
Retrouver ce titre sur Numilog.com

CHAPITRE XII
LOIS DISCRÈTES USUELLES
XII.1 Lois discrètes finies 369
XII.1.1 Loi de Bernoulli B(1;p) 369
XII.1.2 Loi Binomiale B(n;p) 372
XII.1.3 Loi Uniforme U(n) 382
XII.1.4 Loi Hhypergéométrique H(N, n,p) 388
XII.2 Lois discrètes infinies 393
XII.2.1 Loi géométrique GN(P) ou loi de Pascal 393
XII.2.2 Loi géométrique GN*(p) sur N* 399
XII.2.3 Loi de Poisson P(À) avec 0 402

CHAPITRE XIII
LOIS CONTINUES USUELLES
(OUÀDENSITÉ)

Avant-propos 409
XIII.1 Loi uniforme U([a;b]) 410
XIII.1.1 Principe et fonction densité 410
XIII.1.2 Fonction de répartition 411
XIII.1.3 Espérance 412
XIII.1.4 Variance 412
XIII.1.5 Ecart-type 413
XIII.1.7 Remarque 418
XIII.2 Loi exponentielle E(a) 418
XIII.2.1 Principe et fonction densité 418
XIII.2.2 Fonction de répartition 420
XIII.2.3 Espérance 420
XIII.2.4 Variance 422
XIII.2.5 Ecart-type 423
XIII.3 Loi normale N(m; a) encore appelée loi de Gauss 427
XIII.3.1 Principe et fonction densité 428
XIII.3.2 Fonction de répartition 430
XIII.3.3 Espérance 432
XIII.3.4 Variance 432
XIII.3.5 Ecart-type 432
XIII.4 Loi normale N(O; 1) centrée et réduite ....................... 432
Retrouver ce titre sur Numilog.com

XIII.4.1 Principe et fonction densité 433


XIII.4.2 Fonction de répartition 435
XIII.4.3 Espérance 440
XIII.4.4 Variance 441
XIII.4.5 Ecart-type 441
XIII.6 Exercices récapitulatifs 442

CHAPITRE XIV
APPROXIMATIONDE LOIS USUELLES. UTILISATION
DES TABLES NUMÉRIQUES. PAPIER
GAUSSO-ARITHMÉTIQUE ET DROITE DE HENRY

Avant-propos 461
XIV.1Approximation de lois usuelles 461
XIV.1.1 Conditions d'approximation 461
XIV.1.2 Correction de continuité 462
XIV.1.3 Exercices 463
XIV.2 Utilisation des tables numériques 470
XIV.2.1 Table de la loi de Poisson P(À) 470
XIV.2.2 Table de la loi Binomiale B(n;p) 474
XIV.2.3 Table de la loi Normale centrée-réduite N(O; 1) 476
XIV.3 Papier Gausso-Arithmétique et droite de Henry ............. 480
XIV.3.1 Principe de l'échelle gaussienne 480
XIV.3.2 Papier gausso-arithmétique 481
XIV.3.3 Utilisation du papier gausso-arithmétique 481
XIV.3.4 Droite de Henry 481

CHAPITRE XV
COUPLES DE VARIABLESALÉATOIRES

Avant-propos 489
XV.1 Loi conjointe 489
XV.2 Lois marginales 493
XV.3 Lois conditionnelles 495
XV4 Indépendance des variables 497
XV.5 Covariance 498
XV.6 Coefficient de corrélation linéaire ............................. 501
Retrouver ce titre sur Numilog.com

XV.7 Somme de deux variables 503


XV.8 Produit de deux variables ...................................... 506
XV.9 Exercices récapitulatifs ........................................ 509
Retrouver ce titre sur Numilog.com
Retrouver ce titre sur Numilog.com

Avant-propos

Ce manuel a été rédigé en fonction de trois préoccupations principales,


concernant son contenu, sa finalité et sa forme.
a Il couvre la totalité du programme officiel de statistiques et probabilités
figurant aux concours interne et externe du CAPESde Sciences Economiques
et Sociales et s'adresse aussi aux étudiants des premiers cycles.
e Il est destiné à permettre un travail autonome, «à la maison », ce qui se
traduit par le respect de trois principes :utiliser un minimum de formalisation
mathématique, ne pas séparer les techniques de leur usage et ne considérer
aucune notion comme évidente.
- Sur le premier point, les démonstrations sont en nombre réduit,
présentées sous des formes originales dans un souci de simplification et
accompagnées du détail des calculs.
- Sur le second, le caractère de «méthode » de la statistique (par
opposition à la «cuisine » est sans cesse rappelé et illustré, par le traitement
systématique de certaines questions :
quels sont les motifs logiques qui déterminent le choix de construire et
d'utiliser tel ou tel outil (descriptif ou analytique) ?
quelles sont les conséquences de ce choix pour un usage raisonné de cet
outil ?
- Enfin, chaque chapitre comprend un grand nombre d'illustrations ou
d'exemples, ainsi qu'une importante partie consacrée à des exercices. Toutes
ces applications sont traités en détail, ce qui donne à cet ouvrage le caractère
d'un «livre du maître » : non seulement comprendre mais pouvoir faire
comprendre. Les nombreux exercices font appel au «vécu », utilisent le plus
souvent possible des données économiques et sociologiques d'usage courant.
Ils sont accompagnés d'un corrigé complet :
il fournit tous les résultats, les formules intermédiaires et des exemples de
calculs ;
il est entièrement rédigé, et inclut des commentaires de tableau ou de
graphique, qui débordent le cadre purement technique pour souligner
l'importance de l'interprétation.
Cet ouvrage comprend deux parties principales : la statistique descriptive
(chapitre 1 à 8) et les probabilités (chapitre 9 à 15). Bien que cette
structure soit très classique, elle surprend souvent les étudiants en raison
des différences de thématique et de contenu : la première partie traite de
données économiques ou sociologiques (population, croissance, professions,
etc.), tandis que la seconde aborde surtout des problèmes «théoriques»
(expériences sur le tirage au hasard), qui semblent avoir une application
moins immédiate à l'analyse du monde contemporain.
Cette différence est pour une part réelle, mais elle provient surtout de ce
que l'ouvrage est une initiation, qui ne peut rendre compte de l'imbrication
très étroite des aspects pratiques et théoriques de la statistique. Pour prendre
une image, avant d'arriver à danser, il faut étudier à la fois les pas (les
déplacements) et le rythme, et ces deux apprentissages font appel à des
Retrouver ce titre sur Numilog.com

capacités fort différentes. Un initiation à l'analyse statistique avancée suppose


deux approches, qui reposent sur des fondements différents :
- des techniques de traitement et des raisonnements ayant un certain ca-
ractère empiriques, mais aussi des méthodes pour soumettre rationnellement
un problème à un test quantitatif ;
- la compréhension du rôle joué par le hasard dans la production et le
traitement des données : la complexité du réel est en effet telle qu'on peut
faussement croire à un lien entre variables. Pour prendre un exemple très
simple, on peut être tenté de dire d'un dé qui a montré 4 fois le 1 en six
tirages qu'il est «pipé » ; or il est facile de montrer que cet événement se
produit sans aucune tricherie, et même de calculer sa fréquence. Appliquons
à l'économie : il arrive que la hausse de prix d'un produit s'accompagne
d'une hausse des ventes. Avant de théoriser les causes éventuelles de ce
phénomène («snob effect»), il faut s'assurer que la relation est dotée
d'une certaine stabilité, qu'elle ne résulte pas de la conjonction hasardeuse
de multiples phénomènes. C'est là justement le champ de l'analyse des
probabilités, qui débouche sur l'usage de l'instrument fondamental qu'est
l'inférence statistique.
A. STATISTIQUEDESCRIPTIVE
1. Définitions. Quels sont les buts de la statistiques ? En quoi se distingue-t-
elle d'autres domaines de la connaissance ? Quels sont les éléments de base
de son vocabulaire spécifique (population, variable, etc.) et les formalisations
mathématiques adaptées à son objet (opérateurs) ?
2. Distributions à un caractère tableaux et graphiques. [CAPES IV.1] La base
de la statistique est la représentation d'une seule variable (ou caractère)
par un tableau ou un graphique. Cet exercice est loin d'être évident : il
recèle de nombreux pièges et conduit à de multiples erreurs d'interprétation
dont on trouve malheureusement de nombreuses illustrations dans la presse
ou les documents d'information les plus divers. En se réappropriant la
logique de la description statistique, il est possible d'éviter ces erreurs.
Dans cette perspective, les graphiques plus complexes qui nécessitent une
compréhension des problèmes analytiques sous-jacents sont renvoyés aux
chapitres suivants.
3. Analysed'une variable quantitative. [CAPESIV.2] Lastatistique observe des
grandeurs non mesurables et des grandeurs mesurables. Celles-ci, appelées
variables quantitatives, offrent un large champ au calcul mathématique. Cela
permet en particulier de résumer un ensemble très grand de données par
un seul indicateur (moyenne, médiane, etc.), à condition d'être capable de
juger de la valeur de la synthèse proposées (indicateurs de dispersion).
4. Représentation et analyse d'une distribution à deux caractères. [CAPES IV.3,
extension] Beaucoup d'études statistiques se limitent à la description chiffrée
d'un ensemble de variables selon les règles définies aux chapitres II et III.
Or, l'intérêt et l'efficacité de la méthode statistique ne se révèlent qu'à partir
du moment où elle s'applique à la relation entre variables : entre revenu
et consommation, entre statut social et comportement, etc. Le chapitre IV
Retrouver ce titre sur Numilog.com

traite de la relation entre caractères qualitatifs, et aborde la question de la


corrélation entre variables discrètes.
5. Liaisonentrevariables quantitatives : régressionetcorrélation linéaire. [CAPES
IV.3] Ce chapitre est une introduction à la modélisation statistique. L'analyse
logique et formelle de la liaison entre une variable dépendante et une
variable indépendante débouche sur le calcul d'une fonction résumant au
mieux les données. Il s'agit le plus souvent d'une droite, calculée par des
procédés simples (droite de Mayer) ou plus sophistiqués (moindres carrés).
La méthode présente un caractère très général, qui permet de l'appliquer
à des relations non linéaires. La régression linéaire est une synthèse à
deux dimensions au même titre que la moyenne l'est à une dimension. La
validité de la synthèse est évaluée par l'analyse de la corrélation : calcul du
coefficient de détermination, du coefficient de corrélation, observation des
résidus d'estimation.
6. Les nombres indices. [CAPES IV.4] sont un des instruments les plus
utilisés de la statistique descriptive, sans cesse confrontée aux difficultés de
l'agrégation ou de la comparaison de grandeurs hétérogènes. Les indices
élémentaires sont un outil de travail simple aux propriétés mathématiques
multiples, mais ils sont essentiellement descriptifs. Les indices synthétiques
ouvrent des horizons analytiques, mais leur élaboration comme leur
interprétation posent des problèmes difficiles.
7. Séries chronologiques : l'observation desévolutions temporelles. [CAPESIV.5a]
Comme MonsieurJourdain faisait de la prose sans le savoir, tout le monde
observe l'évolution dans le temps d'un ou plusieurs phénomènes : le
consommateur surveille son salaire ou ses dépenses téléphoniques, le chef
d'entreprise son chiffre d'affaires, son bénéfice et des dizaines de ratios de
gestion, l'élève l'évolution en cours d'année de ses notes... Ces pratiques
ne respectent que rarement les règles pourtant indispensables à un usage
efficace. Ce chapitre définit rigoureusement les particularités des variables
(flux et stocks), et analyse les contraintes d'une représentation graphique
ou d'un calcul portant sur des variations ; il débouche sur une approche
formelle, mais cohérente, des séries chronologiques, qui est un préalable à
leur analyse.
8. Séries chronologiques : correction des variations périodiques. [CAPES IV.5b]
Beaucoup de phénomènes économiques ou sociaux ont un aspect cyclique :
l'agriculture est soumise depuis toujours à l'alternance des saisons qui fait
fluctuer fortement la production. Ces fluctuations rendent difficile l'analyse
du long terme et a fortiori du moyen terme, ce qui explique qu'on ait
conçu des méthodes permettant d'en faire abstraction. Nous abordons cette
question avec deux aspects originaux :
- la correction des variations périodiques est séparée du traitement des
séries chronologiques (présenté au chapitre 7). Nous avons fait ce choix,
contraire àl'habitude desmanuels, pour une raison très précise :la correction
des variations périodiques comprend un grand nombre de calculs et use de
nombreuses techniques. Lelecteur à la fois inquiet et fasciné a alors tendance
à s'y consacrer et à négliger les aspects pourtant bien plus fondamentaux de
l'observation des séries.
Retrouver ce titre sur Numilog.com

- La technique présentée est très classique, et ne représente pas le nec


plus ultra en la matière. En revanche, elle est un bon exemple de méthode
par sa manière originale de traiter les approximations grâce à des contrôles
et des corrections à la fois empiriques et théoriques.
B. PROBABILITÉS
La réflexion probabiliste et la formalisation de cas concrets sont
développées de manière continue tout au long des chapitres 9 à 15.
9. Combinatoire. [CAPESV.l] Le programme du CAPES«suppose connues :
les notions d'ensemble, d'inclusion, d'intersection et de réunion de plusieurs
sous-ensembles, d'application injective, surjective ou bijective ».
Elles constituent un point de départ indispensable.
10. Généralités sur les probabilités. [CAPES V.l] A l'origine, la probabilité
d'un événement aléatoire était définie comme le rapport du nombre de
cas «favorables » au nombre de cas possibles. Cette définition, toujours
utile dans de nombreux cas simples faisant intervenir l'analyse combinatoire
et l'équiprobabilité, a été prolongée par les probabilités conditionnelles,
les probabilités des causes et les probabilités totales. Puis la théorie des
probabilités a fait intervenir la notion d'espace probabilisable pour étudier
le cas possibles non équiprobables.
11 et 12. Variables aléatoires réelles et lois discrètes usuelles. [CAPES V.2 a] La
présentation générale des variables aléatoires réelles, qu'elles soient discrètes
ou à densité (XI) est illustrée (XII) par les modèles de lois discrètes usuelles
(Binomiale, Hypergéométrique, Géométrique, de Bernouilli, de Pascal, de
Poisson, etc.), qui sont utilisées dans de nombreux domaines (économie,
industrie, biologie, médecine, physique etc.).
13. Lois à densité usuelles. [CAPES V.2b] Le champ de réflexion est
ensuite étendu aux variables à densité usuelles, qui ont de nombreuses
applications à notre époque. Elles fournissent des «modèles » d'étude et
d'analyse (loi exponentielle, loi normale...) indispensables à l'usage de la
statistique inférentielle. Qui n'a pas été impressionné par les résultats de
divers «sondages » effectués sur des «échantillons représentatifs » d'une
population ?
14. Approximation des lois usuelles et pratique des tables ou des graphiques.
[CAPESV.2b] Les résultats obtenus par une loi usuelle discrète ou continue
peuvent être approchés par ceux obtenus dans certaines conditions par
d'autres loi usuelles, ce qui simplifie de manière importante certains calculs.
L'usage des tables et des graphiques spécifiques (papier gausso-arithmétique),
souvent problématique pour le débutant, est expliqué de manière détaillée.
15. Couples de variables aléatoires réelles discrètes finies. [CAPES V.2c] La
réalisation simultanée d'événements de deux variables est l'objet de la loi
conjointe. De nombreux exercices permettent de définir et utiliser les lois
marginales et les diverses lois conditionnelles liées à la loi conjointe, puis la
possibilité de corrélation linéaire. Enfin, des cas précis sont consacrés à la
somme et au produit de deux variables aléatoires réelles discrètes finies.
Retrouver ce titre sur Numilog.com

Définitions

Le mot statistique, comme beaucoup d'autres, est utilisé en plusieurs sens et


le vocabulaire des statisticiens eux-mêmes n'est pas exempt d'ambiguïtés. Sans
doute, on différencie bien les statistiques, qui sont les nombres produits par
l'investigation statistique, mais il n'existe pas de vocabulaire spécifique pour
distinguer ce qui est de l'ordre de la méthodologie de la quantification et des
techniques d'analyses. Dans ce chapitre, nous exposons brièvement quelques
enjeux de ces distinctions et leurs conséquences pratiques (1.1.), avant de définir
précisément les notions de base qui structurent la méthode statistique (1.2.) et
de présenter quelques formulations très usitées (1.3.).

I.1. LAMÉTHODESTATISTIQUE
1.1.1 Une définition extensive de la statistique
Pour bien comprendre les enjeux, nous partirons des statistiques : ce sont
ces colonnes de chiffres que l'on trouve en abondance dans les publications les
plus diverses (annuaires, bases de données, etc.) et reprises aussi bien dans les
publications scientifiques quejournalistiques. Par eux-mêmes, ces nombres sont
des objets mathématiques et leur signification est nulle. Pour leur donner
sens, deux opérations fondamentales doivent être effectuées.
1. Il faut les rapporter à une réalité dont ils sont les indicateurs quantifiés.
Par exemple, l'indice des prix à la consommation est un indicateur possible (mais
il en existe d'autres) de l'inflation, le nombre des chômeurs est un indicateur
de la sous-utilisation de la main d'oeuvre, etc. Cette relation entre un concept
abstrait et un indicateur est le premier champ de la méthode statistique,
que l'on pourrait appeler méthodologie de la quantification. Il s'agit de
l'ensemble des méthodes, des outils, des techniques, qui permettent de définir
un contenu d'information et la manière d'obtenir un indicateur quantifié lui
correspondant. Les techniques statistiques, la statistique en tant que branche
des mathématiques ne sont nullement absentes à ce stade, mais elles sont des
auxiliaires dans des constructions principalement logiques :
- l'analyse de données et la classification automatique aident à créer des
nomenclatures, c'est-à-dire à diviser les observations en catégories (comme les
catégories socioprofessionnelles) ; il n'en reste pas moins qu'elles utilisent des
critères définis a priori par l'observateur ;
- la théorie del'échantillonnage permet de trouver la procédure de sondage la
plus économique et la plus efficace dans tel ou tel contexte précis et de calculer
Retrouver ce titre sur Numilog.com

les incertitudes sur les résultats. Son influence sur la définition des objectifs se
résume à des contraintes techniques.
2. Les chiffres obtenus ont ainsi un contenu précis et il reste à les mettre
en relation les uns avec les autres (comparaison, évolution, etc.) et à les
interpréter.
- La mise en relation utilise des méthodes assez simples, ce qu'on appelle la
statistique descriptive, ou beaucoup plus complexes, la statistique inférentielle.
Onpeut parler, mêmesi celaest unpeutrop restrictif, detechnique statistique,
englobant les deux aspects dont la séparation sémantique ne sejustifie guère.
- L'interprétation statistique, qui est la vraie finalité de tout le reste, est
un art spécifique, qui doit associer une connaissance parfaite des techniques
statistiques et une compréhension exacte des hypothèses de nature logique ou
théorique qui ressortent au champ disciplinaire (économique, sociologique, ...)
exploré.
En d'autres termes, la statistique dans son ensemble n'est jamais indépen-
dante des choix effectués par l'observateur ou l'analyste.
L'expression «ce sont les chiffres », malheureusement fort souvent utilisée,
traduit une grave confusion entre les nombres, qui sont des êtres mathémati-
ques abstraits, et les statistiques, quisont des représentations dephénomènes
bien réels. Lespremiers s'imposent àtous, les secondes supposent des hypothèses,
des choix, qui peuvent fortement dépendre du point de vue (théorique, politique)
adopté.
Peut-on en déduire qu'« onleur fait dire cequ'onveut »?Cette expression tout
aussi banale traduit une autre forme de méconnaissance profonde du travail
statistique : les statistiques sont utilisables pour tromper ou désinformer, mais
ni plus ni moins que le langage. Cequi permet à l'auditeur attentif de traquer le
mensonge dans un discours, c'est sa bonne connaissance de la langue (syntaxe,
vocabulaire) et des faits ;il en est demêmepour la manipulation statistique. S'il
existe une différence, c'est que le nombre de gens qui connaissent les techniques
statistiques est beaucoup plus faible que ceux qui maîtrisent la langue...
En statistique, la manipulation des résultats est moins dangereuse que la
non-compréhension de leur champ d'application. Correctement collectées - ce
qui dépend moins des personnes que des institutions -, clairement définies, les
statistiques traitées en respectant les règles de l'art de la méthode statistique
sont un instrument irremplaçable au service de la connaissance. En effet,
si la capacité des chercheurs à inventer sans cesse de nouvelles théories ou
à affiner des théories anciennes est sans limites, la démarche déductive en
sciences humaines est d'une faible puissance. En l'absence d'expériences au
sens d'expériences contrôlées et programmées, la quantification est un moyen
de tester des hypothèses : bien sûr, aucun test ne fournira jamais de preuve
décisive de la fausseté ou de la vérité d'une théorie, mais l'accumulation des
tests utilisant des méthodes ou des données différentes, finit par créer de fortes
présomptions. En économie, les effets sur la croissance de l'innovation technique
ou de l'accumulation du capital humain ne peuvent plus guère être niés, même
s'il reste de nombreuses incertitudes quant à leur quantification ou à leur
mode de diffusion. En sociologie, les conséquences parfois peu discernables de
Retrouver ce titre sur Numilog.com

l'appartenance à une couche sociale, du sexe, etc., apparaissent clairement dans


l'analyse statistique.

1.1.2 La technique statistique


Cetouvragenetraite pratiquement pas dela méthodologie dela quantification
ou de l'art de l'interprétation. Il se situe dans le champ de la technique
statistique élémentaire. Pour définir celle-ci, reprenons une définition classique
de la statistique : la technique statistique est une méthode de description
quantitative des faits nombreux.
a L'aspect quantitatif est évidemment fondamental : si on admet la validité
théorique et la précision suffisante des données recueillies, le traitement des
nombres répond à une logique interne, assure une cohérence aux déductions qui
seront faites à partir d'eux. Cela ne veut pas toujours dire que deux observateurs
de bonne foi parviendront au même résultat quantifié (car il est rare que les
traitements puissent être absolument identiques), mais que les divergences
seront faibles ou qu'elles pourront être expliquées. La technique statistique est
sans doute la partie de la statistique où le degré d'objectivation (au sens
d'indépendance de l'observateur) est le plus élevé.
• Les faits observés doivent être nombreux :
- la statistique est méthodologiquement associée à des notions de régularité,
decomportement-type, etc. Elle est d'un faible secours si onprivilégie demanière
irréductible l'individualité ;
- l'efficacité technique de la statistique est conditionnée par l'abondance
d'informations : contrairement à des méthodes qualitatives qui s'appuyent
fortement sur des articulations entre faits (même isolés) et sur une
hiérarchisation, la statistique repose sur la répétitivité, la fréquence, de
phénomènes se situant largement sur un mêmeplan. Il en résulte que quelques
observations ne suffisent pas à établir l'existence d'une relation entre variables.
En bref, la statistique est une méthode horizontale et extensive, les techniques
qualitatives (entretiens, observations ethnographiques ou ethnosociologiques)
étant à la fois verticales et intensives.
a Enfin, la technique statistique s'arrête en principe à la description : au-
delà, on débouche sur l'interprétation statistique. En réalité, toute description
contient déjà des prémices interprétatives : par exemple, un tableau croisant
deux variables suggère une relation entre elles. Cependant, il est possible
de tirer un certain nombre de conclusions qui reposent sur la seule logique
interne des chiffres : parallélisme, accélération, ralentissement, hausse de la
moyenne, etc., sont des termes pouvant s'appliquer à des nombres avec un
minimum de contenu interprétatif. Nous nous limiterons le plus souvent à ce
stade, tout en donnant des exemples ou illustrations de l'insuffisance d'une
telle approche, comparable à une lecture qui se limiterait à déchiffrer des
caractères, à effectuer un découpage en syntagmes et à en saisir les relations
(sujet/verbe), sans être capable de fournir le sens des phrases. Nombreux sont
les statisticiens amateurs capables de mettre en évidence une liaison entre deux
séries de nombres (l'âge et le comportement d'achat) ; tout aussi nombreux sont
Retrouver ce titre sur Numilog.com

les statisticiens professionnels qui ne parviennent pas à comprendre pourquoi


de telles relations, parfois très régulières, sont observables...

I.2. POPULATIONET VARIABLES


Nous avons exclu du champ de cet ouvrage le recueil de l'information et
sa traduction en chiffres. Il faut cependant en retenir certaines conséquences,
importantes pour l'utilisation des techniques de description. Il s'agit pour
l'essentiel d'éléments provenant de l'opération de quantification, qui prend des
formes très différentes selon les champs dans lesquels elle s'applique.

1.2.1 Population
La population (la population française, les moins de 25 ans, etc.) est une
notion trop évidente : on prend connaissance rapidement de son contenu dans
le titre du tableau ou du graphique. Si on reprend sa définition de base, elle
est pourtant une élément d'information décisif, puisqu'elle désigne l'ensemble
des unités statistiques concernées par l'étude quantitative. Trois aspects
méritent réflexion.
- Les composants de la population ou unités statistiques sont les éléments
qui font l'objet d'un dénombrement ou sur lesquels on observe certaines
caractéristiques. Ils sont très divers : il s'agit souvent de personnes, mais bien
plus souvent encore d'entités. Celles-ci peuvent être définies institutionnellement
(États, entreprises, communes), ou de manière abstraite : un ménage est une
entité de décision économique, qui peut se limiter à une personne, ou comprendre
un ensemble de personnes, reliées ou non par des liens familiaux.
- L'ensemble des unités concernées. On distinguera soigneusement les unités
observées et concernées : les premières ne peuvent être qu'un sous-ensemble
très réduit des secondes, un échantillon. Ainsi, beaucoup de propositions
(60% des Français sont favorables à ..., la majorité des chefs d'entreprises
considèrent que ...) sont la généralisation à l'ensemble de la population de
référence d'observations réalisée sur un millier de personnes environ. Sous
réserve que l'échantillonnage soit réalisé dans les règles et moyennant quelques
précautions dans l'interprétation (cf sur ce point, les ouvrages de théorie
de l'échantillonnage), cette généralisation est parfaitement admissible. Nous
considérerons dans cet ouvrage que l'observation est exhaustive, c'est-à-dire
qu'elle concerne l'ensemble de la population, même s'il s'agit parfois seulement
d'échantillons.
- Si on se réfère à la population concernée, la question de «l'ensemble » n'est
pas pour autant réglée. Elle définit les contours de la population étudiée. En
raison des choix effectués au moment du recueil de l'information ou de problèmes
de sources, la population dénombrée ne correspond pas nécessairement à l'objet
de l'étude. Par exemple, des pans entiers du dispositif français d'observation de
la vie des entreprises ne concernent que les entreprises de plus de 10 ou de 20
(voire 50) salariés. Pourtant, les commentaires évoquent le plus souvent «Les
Retrouver ce titre sur Numilog.com

entreprises françaises », supposant implicitement que les petites entreprises ont


le même comportement que les plus grandes.
La couverture du champ est une notion relative : un économiste qui
étudie les entreprises de plus de 50 salariés dispose d'une source fournissant
une couverture complète. A contrario, celui qui veut étudier l'ensemble des
entreprises françaises ne dispose que d'une source partielle. On voit alors
l'importance de bien distinguer la population concernée par l'investigation
statistique et la population concernée par l'étude que l'on entreprend, les
décalages entre les deux étant fréquents.

1.2.2 Variables ou caractères

Les variables ou caractères désignent les angles sous lesquels a été réalisée
l'observation des unités statistiques. Par exemple, les entreprises peuvent être
décrites à l'aide d'une multiplicité d'indicateurs : la forme juridique, l'adresse,
l'effectif de chaque catégorie de personnel, le chiffre d'affaires, les ventes, le
bénéfice, les immobilisations, l'endettement, etc.
Le concept et l'indicateur
Chacun de ces indicateurs est construit pour représenter un phénomène plus
général, un concept ou une notion. La relation d'adéquation entre le concept
et l'indicateur est particulièrement importante, et trop souvent négligée dans
l'analyse statistique.
La productivité du travail d'une entreprise n'est pas toujours bien traduite
par le rapport de la valeur ajoutée à l'effectif global : un simple accroissement de
la main-d'œuvre travaillant à mi-temps fait chuter la productivité par tête. De
même, une étude sociologique visant à étudier le comportement des chômeurs
aura quelque peine à utiliser la statistique des «chômeurs au sens du BIT » :
orienté par des principes économiques, ce dénombrement exclut les personnes
ayant effectué un travail, même insignifiant (1 heure dans la semaine).
Au-delà de la question de la représentativité des indicateurs, celle de leur
signification est encore plus délicate et doit être élucidée avant de procéder à
toute analyse quantitative, quelle qu'elle soit. Il arrive qu'un même indicateur se
rapporte à plusieurs phénomènes. Ainsi, l'âge des personnes traduit à la fois les
effets biologiques du vieillissement (maladies, coût des soins), les conséquences
d'un changement de position dans la vie active (expérience dans l'emploi, passage
à la retraite), ou bien encore des effets de génération : le niveau de diplôme de
la personne est bas car elle est née à une période où l'enseignement supérieur
n'était pas généralisé, ses goûts musicaux correspondent à ceux de la mode
existant lors de son adolescence, etc.
Le traitement statistique, au sens étroit de manipulation des données, peut
dans une certaine mesure faire abstraction des considérations précédentes :
un âge moyen est calculable sans savoir à quoi cette moyenne va servir. En
revanche, la nature du caractère importe considérablement pour le choix des
représentations graphiques et des techniques d'interprétation.
Retrouver ce titre sur Numilog.com

Caractères et variables
Caractères qualitatifs
Les caractères qualitatifs se définissent par le fait que les différents états
possibles de l'indicateur ne sont pas mesurés à l'aide de nombres, mais de
modalités. Le sexe (modalités : masculin, féminin), la couleur des yeux (bleu,
vert, etc.), le degré de satisfaction (fort, moyen, faible), sont des caractères
qualitatifs.
Ces exemples mettent en évidence deux catégories :
- les caractères ordinaux :les modalités sont des mots décrivant des «états »
de la variable correspondant à une hiérarchie, un rang. Le degré de satisfaction,
le niveau de diplôme (en partie), sont des caractères ordinaux ;
- les caractères nominaux : les modalités sont toujours des mots, mais il
n'existe aucun rangement, ou au moins aucun rangement unique des variables.
Le sexe, la nationalité, la localité, le type d'activité, le statut juridique, etc.,
sont dans le premier cas. La catégorie socio-professionnelle est plutôt dans le
second : certaines hiérarchies existent (cadre > employé), mais il est impossible
d'ordonner l'ensemble en raison de la complexité de la notion de «hiérarchie
sociale »:en moyenne, un cadre a ainsi beaucoup plus de diplômes qu'un patron,
mais un revenu inférieur.
Caractères quantitatifs ou variables
e Un caractère est quantitatif si la caractéristique observée sur l'individu
statistique s'exprime sous la forme d'une valeur numérique. Le nombre
d'enfants, le revenu, la taille, le chiffre d'affaires, le nombre d'employés, la
surface des ateliers, etc., sont dans ce cas. On désigne souvent ces caractères
sous le terme de variables quantitatives ou tout simplement de variables1. Le
traitement statistique implique de distinguer entre les variables discrètes et
continues.
Unevariable continue prend toutes les valeurs d'un intervalle :l'âge, la durée,
etc. sont des variables continues.
Une variable discrète est une variable ne prenant que des valeurs entières
au sein d'un intervalle : le nombre de frères et sœurs, nombre de pièces d'un
logement, etc.
e La distinction entre variables continues et discrètes n'est pas tou-
jours évidente. Une approche «puriste »retient une définition mathématique
stricte : dans ce cas, le budget d'un ménage est une variable discrète, contrai-
rement à la taille des personnes ou à la surface d'un logement. En effet, une
somme ne peut être exprimée avec une unité inférieure à la plus petite unité
monétaire existante (le centime en France2), tandis qu'il est théoriquement
possible de mesurer la taille ou la surface avec une unité aussi petite que l'on
souhaite. Cette approche est à la fois discutable du point de vue logique et
1 En pratique, on appelle également très souvent les caractères quantitatifs des variables. Dans cet
ouvrage, dans un but pédagogique, nous réserverons le terme « variable » à des caractères quantitatifs.
2 Notons que la discrétisation de l'unité monétaire conduit à des résultats très différents aux USA (le
cent) et en Italie (la lire).
Retrouver ce titre sur Numilog.com

peu opérationnelle. L'unité de mesure n'étant jamais divisible à l'infini, toutes


les variables seraient «théoriquement» discrètes, alors même qu'il faudrait
toujours les traiter comme des variables continues (cf le revenu).
Pour un usage statistique, suggérons plusieurs critères convergents :
- la relation entre précision de la mesure et taille de la population :
une variable continue est telle qu'à chaque valeur de la variable ne correspond
qu'un individu ou une faible proportion de la population.
Avec cette définition, le revenu est clairement une variable continue, car le
nombre de ménages ayant au centime près le même revenu est très faible. Le cas
est moins net pour des variables discrètes par « nature », mais dont le nombre
de modalités est assez élevé : que faire du nombre de déplacements annuels à
l'aide de transports en communs (allant jusqu'à plusieurs milliers...) ?
- On peut aussi considérer que la distinction doit se fonder sur les écarts
relatifs entre valeurs successives : un écart faible signifie qu'on se rapproche
de la différentielle Ox des mathématiques. Selon cette approche, le revenu est
toujours une variable continue (écart entre deux revenus consécutifs proche de
0) et les déplacements annuels à l'aide de transports en commun également :
si la moyenne annuelle est de 300 déplacements, le saut d'une unité proche
de la moyenne ne représente que 1/300° . Par contre, le nombre d'enfants est
clairement discret (saut de 2 à 3 = 50%).
L'introduction du critère d'écart relatif aux abords de la moyenne a l'avantage
de permettre de traiter des variables qui peuvent prendre un nombre important
de valeurs différentes, mais où les petites valeurs recouvrent l'essentiel de
la population. Imaginons que l'on s'interroge sur le nombre d'utilisations du
minitel dans une entreprise : certaines personnes s'en servent en permanence
ou presque, et la plupart des autres très occasionnellement. Cette variable sera
traitée en variable continue (regroupement en classe des fortes valeurs qui sont
peu fréquentes), mais la moyenne se situant assez bas (disons 2 ou 3 usages
hebdomadaires) elle aura des propriétés de variable discrète dans cette zone.
a Même si les deux types de variables sont souvent justiciables des mêmes
traitements, on s'efforcera de bien les identifier pour éviter certaines erreurs
(cf médiane, régression, etc.).
Echelles qualitatives
Le type de variable est important car il est associé à une échelle de
mesure spécifique, laquelle conditionne la nature et la puissance des traitements
quantitatifs qui seront réalisés.
Un caractère qualitatif est décrit par une liste finie de modalités. Cette liste
est appelée nomenclature et doit répondre à certains critères précis :
- elle doit couvrir la totalité des cas possibles : tout individu statistique se
voit affecter une modalité. La difficulté de cette opération explique la présence
fréquente d'un « autres cas » en fin de liste ;
- chaque individu est affecté à une seule classe : les modalités sont dites
exclusives.
En d'autres terme, une classification ou nomenclature réalise une partition
au sens mathématique de la population : tout individu est affecté à une modalité
et une seule.
Retrouver ce titre sur Numilog.com

e Echelle nominale. Il n'existe pas d'ordre de rangement. Sans doute


pour les besoins du codage et du traitement statistique, chaque modalité a-
t-elle un équivalent numérique, (1 = Homme, 2 = Femme ; 4 = Profession
intermédiaire, etc.), mais le choix de cet équivalent est purement arbitraire et
sans conséquence sur le traitement : rien ne vous empêche d'affecter le numéro
2 aux hommes et le 1 aux femmes...
Au sein d'une échelle nominale la seule propriété mathématique est
celle de l'équivalence et son opposé la différence : en langage mathématique,
= et 7^. Un individu classé ouvrier spécialisé de la métallurgie exerce une
activité qui est jugée à la fois proche de celle de la moyenne de la catégorie en
question et significativement différente de celle d'une autre catégorie telle celle
d'ouvrier qualifié de la métallurgie. Cet exemple met l'accent sur une propriété
importante des échelles nominales : tous les individus ayant la même modalité
sont considérés comme identiques au regard de cette modalité. Il est aisé
de voir que la notion d'identité est ainsi très relative : il suffit de multiplier les
modalités pour accroître l'homogénéité au sein de la classe et réciproquement :
en créant la catégorie englobante des « ouvriers », on réunit les ouvriers qualifiés
et non qualifiés, ceux du textile et du bâtiment, etc. Le degré de désagrégation
de la nomenclature et plus encore les critères qui définissent les classes, ont des
conséquences sur l'interprétation qui sera donnée de l'analyse statistique et les
choix en la matière doivent faire l'objet d'une réflexion significative avant tout
traitement.
e L'échelle ordinale est un peu plus puissante que la précédente, car elle
ajoute un opérateur qui est la relation d'ordre (> ; <). Le code numérique
prend alors une certaine importance : même si l'ensemble des nombres choisis
et le sens de lecture sont indifférents, il existe une règle unique qui permet de
retrouver à tout instant le rangement des individus.
Ainsi, les trois formes de codage ci-dessous sont envisageables :

Dans chaque cas, il est possible de positionner la satisfaction d'un individu


par rapport à celle d'un autre et les trois classements sont cohérents.
En revanche, et c'est ce que montre bien la dernière échelle retenue, l'écart
entre les niveaux de satisfaction est inconnu : il est impossible de dire que
le supplément de satisfaction d'un individu passant du rang 2 au rang 1 est
identique à celui d'un individu passant du rang 3 au rang 2. L'échelle de mesure
est dite non métrique et les opérations arithmétiques élémentaires que sont
l'addition, la soustraction, etc., sont impossibles.
Retrouver ce titre sur Numilog.com

Echelles quantitatives
Chaque individu statistique est caractérisé par une valeur. Rappelons que
l'élément essentiel différenciant les variables continues est que, pour une valeur
donnée de la variable, il existe un individu ou quelques individus. Au contraire,
dans le cas des variables discrètes, il existe un grand nombre d'individus
caractérisés par la même valeur : tous les logements de 3 pièces.
e Dans un cas comme dans l'autre, les opérations arithmétiques telles que
l'addition sont possibles, même si leur sens n'est pas toujours évident : il est
légitime d'additionner les tailles des individus (pour calculer la moyenne), même
si cela ne correspond à rien (contrairement au poids).
a Parmi les échelles quantitatives, ont fait parfois la différence entre celles
qui disposent d'un 0 absolu, i.e. d'une valeur traduisant le fait que l'individu n'a
pas la caractéristique mesurée : pas d'enfant, pas de succursale, etc. Le 0 ayant
une signification, la multiplication et la division sont possibles, ce qui fait qu'on
parle d'échelle de rapports.
D'autres échelles n'ont pas cette propriété : le 0 est une valeur conventionnelle
que l'on place où l'on veut, l'échelle ayant seulement la propriété de conserver
les intervalles. Le temps est un bon exemple : la représentation graphique ne
sera pas modifiée si on numérote de 1 à n ou de t à t + (n - 1).
La question du zéro absolu est loin d'être simple ou anodine. Ainsi, quand on
compare des taux de chômage ou des taux de natalité à l'échelle internationale,
faut-il utiliser des rapports (échelle absolue) ou des écarts (échelle relative) ?
- Soient trois pays avec trois taux de natalité de 1, 1,5 et 2 pour mille. L'écart
entre le premier et le second est-il identique à celui existant entre le second et
le troisième (+0,5 points) ou différent (+50% ; +33,33%) ?
- Il existe bien un zéro absolu, mais la valeur moyenne étant proche de 0,
il en résulte une forte disymétrie entre les écarts au-dessus et au-dessous de la
moyenne, qui semble difficile à justifier. Du point de vue du sens, l'écart absolu
ou d'autres distances (logistique) seront plus appropriés.
Recueil de l'information et choix des variables

Il existe une hiérarchie de la précision et des capacités de traitement des


variables. En principe, tout caractère est associé à une échelle et une seule : on
ne peut pas coder le sexe avec une échelle numérique ou ordinale. Cependant,
les variables quantitatives ayant les propriétés les plus nombreuses peuvent
être codées et traitées dans une catégorie « inférieure » : rien n'empêche de
saisir le revenu exact des personnes (variable quantitative continue), puis
de procéder à un regroupement par tranches de revenu croissant (variable
ordinale) ou de réunir dans une catégorie unique les hauts et les bas revenus,
opposés au revenus moyens, selon une typologie qui ressort souvent de certaines
investigations statistiques (analyse factorielle).
Ce procédé présente des inconvénients, puisqu'on perd en puissance et
en diversité des traitements, et nous verrons qu'il est parfois dangereux pour
l'interprétation. Il a également des avantages : si tous les caractères sont
ramenés à une même échelle, l'analyse est plus simple et universelle, car elle
met en œuvre les mêmes techniques (le tableau croisé) pour toutes les variables.
Retrouver ce titre sur Numilog.com

1.2.3 Les r é s u l t a t s de la m e s u r e : valeurs, effectifs et f r é q u e n c e s

Le résultat d'une investigation statistique est ce que nous appellerons un


tableau individus/variables (bien qu'il contienne des caractères qualitatifs),
où chaque individu statistique est représenté par une ligne, au sein de laquelle
figure dans chaque colonne une valeur ou une modalité. Par exemple, une
enquête sur des petites entreprises (0 à 9 salariés) donne des résultats du genre.

Le nombre d'employés est un effectif, le capital une valeur monétaire ; le


secteur est un caractère nominal, le classement dans la nomenclature d'activité
française ; le taux d'endettement est un pourcentage.
a Le traitement élémentaire du fichier, le seul dans le cas des caractères
nominaux, consiste à fabriquer un tableau où apparaîtront les effectifs de
chaque classe, lui même transformable en un tableau de fréquences en calculant
la proportion de chaque classe dans la population totale.

secteur (NAF) effectif fréquence

33 250 0,25

46 320 0,32

. . . . . . . . .

ensemble 1 000 1,00

e Le nombre d'employés est une variable discrète avec 0 absolu. Deux


traitements sont envisageables :
- le décompte des entreprises selon le nombre d'employés (0 à 9) qu'elles
occupent et les fréquences correspondantes ;

^ Il s'agit d'une variable discrète dans le contexte, puisque la variable n'a que 10 modalités. Elle serait
(de facto) continue si l'investigation portait sur toutes les entreprises sans limite de taille.
Retrouver ce titre sur Numilog.com

- le calcul direct d'indicateurs synthétiques, par exemple, le nombre moyen


ou médian d'employés.
e Le capital a également un zéro absolu. Deux possibilités sont ouvertes :
- calcul d'indicateurs synthétiques comme dans le cas précédent ;
- regroupement en classes selon la taille du capital permettant d'établir un
tableau de fréquences.
a Les taux d'endettement ne sont pas directement additifs, même si leur
moyenne est calculable.

I.3. LES OPÉRATEURSSTATISTIQUES


La statistique descriptive réalise une synthèse sur un grand nombre de
données. Lorsque celles-ci sont quantitatives, on est amené fréquemment à
effectuer des sommes et des produits. Pour cela on use d'un langage de notation
simplifié. Souvent jugé rébarbatif par les débutants, ce langage est extrêmement
efficace et il est indispensable d'en connaître quelques rudiments.

1.3.1 L'opérateur somme ^


Soit un ensemble d'observations, par exemple le nombre de véhicules vendus
un mois donné par les concessionnaires d'un grand constructeur. xi est le
nombre de véhicule vendu par le concessionnaire i. n est le nombre total de
concessionnaires. La somme des ventes s'écrit en langage «ordinaire » :
Ventes = x, + X2+ X3+ X4+ X5+ ... + Xn.
L'apparition du «+ ... + » traduit le fait que la chaîne est particulièrement
longue et donc fastidieuse à écrire. Afortiori, imaginons qu'on l'introduise dans
une démonstration...
Principe
Il existe une écriture beaucoup plus condensée, qui utilise un terme écrit ^ ^
(sigma), dont la signification est «somme de tous les termes qui suivent ». On
pourrait écrire ainsi :
Ventes = x.
En pratique, cette écriture s'avère trop imprécise, car elle ne dit pas quels
sont les x qui sont additionnés. D'où le complément qui permet d'indiquer les x
pris en compte : on met en dessous du signe le point de départ et au-dessus
le point d'arrivée.
se lit : « somme des ventes des concessionnaires numérotés i, pour i
variant de 1 à 5 (bornes incluses) » ; en bref, on calcule : XI + X2+ X3+ X4+ X5-
Retrouver ce titre sur Numilog.com

Comme les nombres situés en dessus et en dessous de E concernent le


même indice (i), on omet de le répéter. On obtient ainsi :

Propriétés
Le langage traduit de manière simple les propriétés de la somme.
Donnons-en quelques exemples.
- Multiplication de chaque terme par une constante quelconque a :
Somme = ax, + aX2 + aX3 + ... + axn.
Le terme a se met en facteur commun :
Somme = a(x1+ X2+ X3+ --- + xn).
Or, le terme entre parenthèse n'est pas autre chose que la somme de 1 à n
des x dont nous avons fourni l'écriture simplifiée ci-dessus. Il en résulte une
première règle de calcul sur le signe : les termes constants peuvent être mis
en facteur commun.

(1)

- Appliquons à l'addition de termes constants, ce qui revient à prendre


xi = 1 : la somme se transforme en un produit.

(2)

- Supposons que xt soit la somme de plusieurs nombres Vi, Wi, yi et zi (par


exemple le nombre de voitures petites, moyennes, grandes, d'utilitaires, etc.).
Pour i = [1 ; 2] : Xl + X2 = YI + zi + Y2+ Z2 = (YI + Y2) + (Zl + z2).
Soit en utilisant le signe ^ :

(3)

La somme des termes décomposables Xi est équivalente à la somme des


sommes de leurs composants.
Retrouver ce titre sur Numilog.com

- Les deux exemples qui précèdent fournissent la solution au calcul de la


quantité :

(3) puis (2)


- Plus généralement, il devient assez simple de résoudre des problèmes
qui sont loin d'être évidents avec la somme développée. Par exemple, le calcul
fastidieux de :

Le terme entre parenthèses s'écrit sous forme développée :

En vertu de (3) on peut dissocier les éléments :

La deuxième somme porte sur le produit de chaque Xi par la constante -2a.


En vertu de (1), factorisons la constante :

La troisième somme porte sur des termes constants (2) :


n
a 2 = na2
i—1
n n
S = x2 - 2a xt + na2
i=l i=l

Cette expression est aisément calculable.

1.3.2 L'opérateur produit i l


Les mêmes principes de construction étant applicables, nous présentons plus
rapidement le produit de valeurs.
Retrouver ce titre sur Numilog.com

- Multiplication par une constante

En regroupant tous les termes en x et en utilisant la définition de FT :

(11)
- Appliquons au produit de termes constants

(2')

- Produit de termes décomposables

(30

1.3.3 Application des propriétés des logarithmes


Les formules utilisées pour le produit sont exactement identiques à celles
des sommes si on remplace les valeurs observées par leur logarithme. Posons
x[ = log (Xi) ; a' = log (a), etc.

Prenons les logarithmes des deux termes, en se rappelant que le logarithme


d'un produit est la somme des logarithmes :

Le logarithme d'un produit est la somme des logarithmes.


- Si le terme est constant
(2")
Retrouver ce titre sur Numilog.com

- Multiplication par une constante

(1")

- Produit de termes décomposables

1.3.4 Double somme


Le signe somme s'applique à plusieurs sous-ensembles. Par exemple, si on
dénombre des personnes qui appartiennent à des groupes, on a le choix entre
une méthode directe portant sur les individus et une méthode en deux étapes :
les groupes et les individus de chaque groupe.
Supposons que nous étudions 12établissements scolaires, comprenant chacun
entre 300et 600élèves. Unélève del'établissement numéro 6pourra être désigné
n6;350 : le premier chiffre désigne l'établissement et le second un numéro d'ordre
conventionnel le différenciant des autres élèves.
On peut compter les élèves un par un ou par établissement. En appelant
i [1, 2, ..., k] l'établissement et j [1, 2, ... , p] le numéro de l'élève au sein de
l'établissement, onprocède en deux temps :
- calcul des effectifs de chaque établissement n1, n2, ni, ..., nk :

- somme des sous-totaux :


effectif total

Ces deux expressions peuvent être réunies en une seule :

Elle se lit somme sur i variant de 1 à k et sur j variant de 1 à p des Xij.


Retrouver ce titre sur Numilog.com

EXERCICES
Exercice 1.1

Que pensez-vous de cette proposition extraite de Bourdieu P., Passeron


J.C., Chamboredon J.C., 1968, «Le métier de sociologue », P.U.F
«La mesure et les instruments de mesure et, plus généralement, toutes les
opérations de la pratique sociologique, depuis l'élaboration des questionnaires
et le codage jusqu'à l'analyse statistique, sont autant de théories en actes, au
titre de procédures de construction, conscientes ou inconscientes, des faits et
des relations entre les faits. »

Solution de l'exercice 1.1

Un tel sujet permettrait d'écrire un gros ouvrage. Nous ne relevons que


quelques points importants.
e Les auteurs décrivent le champ du statistique tel que défini dans ce chapitre,
c'est-à-dire incluant l'élaboration des questionnaires, le choix de nomenclatures
et leur usage, et enfin l'analyse statistique ;
• L'ensemble de ce champ n'est pas «neutre » :
—les faits sont sélectionnés, les indicateurs construits avec des normes
précises, en fonction de finalités ;
- la mise en relation de variables quelles qu'elles soient, traduit une option
de nature théorique.
Il suffit de se poser la question de la signification donnée à des variables
comme l'âge (cf. ci-dessus), le sexe, la formation, la catégorie sociale, etc., pour
comprendre qu'il existe plusieurs manières de lire un tableau.
e Lorsqu'un observateur n'est pas conscient d'avoir un point de vue, il
risque de croire à l'universalité de ses mesures ou de ses analyses, alors même
qu'il s'appuie sur des intuitions, des habitudes, voire des préjugés. Prendre
conscience des implications théoriques de la mesure ce n'est pas remettre en
cause l'opération de mesure mais au contraire lui donner sa véritable dimension
et limiter les risques d'erreur.

Exercice 1.2

On souhaite connaître la proportion de ménages français ayant deux


logements ou plus.
a) Formulez des questions permettant d'effectuer ce calcul.
b) Quelle est la nature des variables correspondantes ?
Retrouver ce titre sur Numilog.com

Solution de l'exercice 1.2

«Vous et les personnes que je viens d'énumérer [les membres du ménage


selon la définition retenue],... »
0 «... combien de résidences dont vous êtes les propriétaires occupez-vous de
manière régulière ?». La réponse est un nombre. Variable quantitative.
e «... avez-vous au moins une autre résidence dont vous êtes propriétaire
que vous occupez de façon régulière ?». Variable ordinale (pas d'autre ; une ou
plus).

Exercice 1.3

Que pensez-vous de cette nomenclature fonctionnelle des enseignants :


Instituteur ; Professeur de collège ; Professeur de lycée ; Professeur agrégé ;
Enseignant du supérieur

Solution de l'exercice 1.3

Cette nomenclature n'en est pas une :


- elle n'est pas exhaustive : les enseignants de lycée professionnel (et
d'autres...) ne peuvent se classer ;
- elle ne permet pas de se classer dans une case et une seule, car certaines
modalités ne sont pas exclusives ;
- ce défaut est peu gênant pour les modalités qui sont homogènes entre
elles : une personne qui enseigne à la fois en lycée ou en collège est classable en
utilisant la notion de «fonction principale exercée » ;
- a contrario, le problème est insoluble lorsqu'il y a incohérence : c'est le cas
de l'item (réponse) «professeur agrégé », qui renvoie à un titre, tandis que les
autres items désignent des segments du système d'enseignement. Un professeur
agrégé peut enseigner en collège, en lycée ou dans le supérieur et il n'est pas
possible de dire s'il est «davantage » professeur de lycée qu'agrégé...

Exercice 1.4
3
Calculez en utilisant l'opérateur 3(xi + 4).
i=l
Vérifiez votre calcul sur le tableau comprenant Xi = [2 ; 3 ; 5].
Retrouver ce titre sur Numilog.com

Solution de l'exercice 1.4

e Tableau de calcul direct

Xi 3(xi + 4)
2 18
3 21
5 27
10 66

On vérifie que :
66 = 3 * 10 + 36.

Exercice 1.5

Calculez,enutilisantlecaséchéantlesolgarhtimes: ;.
Solution de l'exercice 1.5

En logarithmes :
Retrouver ce titre sur Numilog.com

Exercice 1.6

Ecrivez avec le signe l'expression :


S = x1y1 + x2y2 + . . . + xiyi + . . . + xnyn.

Solution de l'exercice 1.6

Chaque terme a la même forme, celle d'un produit XiYi. Ces termes ont une
forme identique : .
NB. Une erreur très fréquente consiste à écrire que S est le produit des

sommes, , alors qu'il s'agit de la somme des produits.


Retrouver ce titre sur Numilog.com
Retrouver ce titre sur Numilog.com

2
Distributions à uncaractère,
tableauxetgraphiques

La première étape de toute analyse statistique est l'étude séparée de chaque


caractère ; ce n'est que dans un deuxième temps que sera envisagée l'hypothèse
de liens entre deux ou plusieurs caractères (cf. infra, chapitres 4 à 6, distribution
à deux caractères, régression).
Pour chacun des caractères, on fabrique un tableau et un graphique qui
figurent la distribution du caractère, c'est-à-dire qui mettent en regard des
modalités ou valeurs de celui-ci les effectifs (ou les fréquences). Les tableaux,
comme les représentations graphiques, dépendent de la nature du caractère :
- pour les caractères qualitatifs (ou les variables discrètes), à chaque
modalité correspond un nombre d'individus statistiques (ou une fréquence) ;
- pour les variables quantitatives continues, on observe deux particularités.
D'une part, le nombre de valeurs différentes est très important et l'élaboration
d'un tableau statistique passe par un regroupement des valeurs et des
individus en classes. D'autre part, le fait que les «modalités » ainsi construites
soient des valeurs introduit à la fois des contraintes graphiques et des
possibilités supplémentaires de calcul.
Dans ce chapitre, nous étudions les liens étroits existant entre la nature
des caractères, et la forme des tableaux statistiques (II.1) ou les règles
d'élaboration des représentations graphiques (11.2). Ce choix d'une approche
méthodologique explique que la construction des représentations plus complexes
(deux caractères, diagrammes chronologiques) n'intervienne qu'après l'étude des
méthodes d'analyse correspondantes (chapitres 4, 5, 6, 7).

II. 1. TABLEAUX
Les tableaux statistiques se ressemblent beaucoup :un ensemble d'intitulés de
lignes, une colonne où figurent des effectifs ou des fréquences. Cette similarité
est purement formelle : les intitulés des lignes ont des significations très
différentes selon les caractéristiques du caractère et conditionnent la manière
d'interpréter les distributions de fréquences.

II. 1.1 Le fichier individus/variables


Les tableaux sont des représentations synthétiques et leur compréhension
implique de ne jamais oublier leur source : quelle que soit la forme de
Retrouver ce titre sur Numilog.com

l'investigation statistique (enquête, dénombrement direct), les informations


recueillies sont rassemblées dans une base de données après une formalisation
rigoureuse.

Codage de l'information statistique

Le premier niveau est l'établissement de la fiche individuelle. Toutes les


observations réalisées sur un individu statistique sont transcrites dans un
langage rigoureux et simplifié : c'est le codage, qui est une opération simple à
réaliser pour les variables et souvent beaucoup plus complexe pour les caractères
qualitatifs.
e Le résultat de l'observation d'une variable quantitative est une valeur et
le code est le nombre correspondant. Pour une variable discrète le nombre de
valeurs différentes possibles est restreint. Le nombre d'enfants dans un
ménage, de téléviseurs dans un logement, d'activités artistiques ou de sports
pratiqués par des individus, se situe dans un intervalle restreint (0 à 10 au
maximum). Pour une variable quantitative continue, il existe un très grand
nombre de valeurs différentes : nombre de salariés ou bénéfice de l'entreprise
X.
e Le résultat de l'observation d'un caractère qualitatif est une modalité.
Suite à une interrogation sur le sexe, la catégorie socioprofessionnelle, le lieu
de résidence, on code pour un individu donné une réponse du genre : femme,
profession intermédiaire, Haute-Savoie. Ces exemples montrent que le codage
est une opération qui est tantôt très simple (le sexe), tantôt très délicate. Trois
problèmes doivent être résolus.
- Le choix d'une nomenclature. Rappelons que celle-ci affecte à
une modalité donnée des personnes «considérées comme identiques ». Or,
«l'identité » en question dépend fortement des choix théoriques de l'observateur.
Par exemple, la notion de «profession intermédiaire » de la nomenclature PCS
(Professions et Catégories Socioprofessionnelles) repose sur l'analyse qualitative
d'un ensemble de critères (profession au sens statutaire, secteur d'activité, etc.),
qui ont été sélectionnés par les créateurs de la nomenclature pour traduire
à la fois une position sociale et professionnelle. Un classement purement
professionnel (tel celui du Répertoire Opérationnel des Métiers et des Emplois
de l'ANPE) repose exclusivement sur la définition du contenu de la profession
(compétences, formation, etc.). On prendra garde à ce que les nomenclatures
«préconstruites », comme la PCS, la NAF (nomenclature d'activité française),
etc., sont adaptées aux objectifs particuliers de l'étude envisagée. Sinon, il faut
constituer une nomenclature spécifique.
- L'affectation d'un code est souvent incertaine : en effet, à moins
d'admettre que chaque individu est différent au regard de la question posée, il
faut l'affecter à la catégorie «la plus proche ». Cette difficulté apparaît même si
la nomenclature est très détaillée (et préserve donc au maximum l'individualité
des situations), mais elle se comprend mieux en prenant comme exemple une
synthèse de classes élémentaires (recodage). Supposons que vous ayez à classer
par « style » (jazz, variété, classique, rock, ...) des disques qui ont déjà été classés
Retrouver ce titre sur Numilog.com

dans des sous-catégories détaillées : que ferez-vous du rythm and blues, du rap,
de la salsa, etc.l ?
- Le choix du nombre de catégories retenues. Il n'est pas sans lien avec ce
qui précède : ne faut-il pas conserver un très grand nombre de catégories, ce qui
éviterait largement le dilemme du regroupement ? Deux éléments empêchent
qu'il en soit ainsi. En premier lieu, en conservant beaucoup de classes, certaines
d'entre elles finissent par ne regrouper que quelques individus. Cela veut dire
qu'on ne peut plus utiliser valablement les résultats des sondages et, plus
généralement, qu'on sort du champ des «phénomènes nombreux » dont traite la
statistique. En second lieu, la manipulation et l'interprétation de ces catégories
se heurtent à des difficultés considérables : on crée des tableaux gigantesques,
dont il s'avère rapidement qu'ils ne contiennent guère plus d'information que
des tableaux regroupés...
Au total, les caractères qualitatifs sont difficiles à interpréter, dans la
mesure où le code qui leur est affecté est une simplification très radicale, une
condensation produite par une méthode d'observation, qu'il est indispensable de
bien comprendre.
Base de données

En supposant tous les problèmes précédents résolus, on dispose d'une fiche


pour chaque individu statistique. Le contenu des fiches est regroupé en un
seul tableau «individus/variables », dont la première colonne identifie chaque
individu par un numéro d'ordre et dont les colonnes suivantes détaillent les
modalités des caractères ou les valeurs des variables.

Extrait d'un tableau individus/variables

Il y a n individus numérotés de 1 à n et k caractères Vi à Vfc.


Vi est un caractère qualitatif à deux modalités (V1.I, V1.2), V2 une variable
quantitative discrète avec des valeurs comprises entre 1et 5, V3est une variable
continue et prend une infinité de valeurs différentes.
Lestrès grandes difficultés induites parceproblèmesont souvent invoquéesparles critiques dela
méthode statistique. Ils oublient trop souvent que, si la nomenclature est bien faite, les classements
«arbitraires »neconcernentquedescatégoriesàeffectifstrès faibles :lescatégoriesnombreusesn'ont
pasbesoind'êtreregroupées.
Retrouver ce titre sur Numilog.com

Exemple

Tableau individus/variables. La population est celle des dix salariés d'une


petite entreprise.

En pratique, le caractère sexe, comme tous les caractères qualitatifs, est


figuré par un numéro de code (1, 2, ..., p), sur lequel les opérations arithmétiques
sont évidemment prohibées2.
Ce tableau constitue la base de données, à partir de laquelle vont être
construits autant de tableaux qu'il existe de caractères (tris à plat) et tous les
croisements possibles entre caractères (tris croisés).

11.1.2 Caractère qualitatif ordinal ou nominal

On se reportera au chapitre 1 pour des définitions plus rigoureuse des divers


types de caractères.

Distribution des individus selon la modalité

Pour établir la distribution par sexe, on fait correspondre à chaque modalité


(h, f) le nombre d'individus statistiques concernés (nh ; nf). La procédure
manuelle consiste à parcourir la colonne et à cocher chaque modalité rencontrée.
2 Certains logiciels de statistiques, qui n'exigent pas une déclaration préalable de la nature de la
variable, peuvent provoquer des erreurs.
Retrouver ce titre sur Numilog.com

Dénombrement et classement des individus

sexe effectif
h I 11 1 I
f II I I1

Finalement, le tableau de distribution exprime sous forme numérique les


effectifs et les fréquences (nh/n ; nf/n) pour chacune des modalités.

Distribution du caractère qualitatif sexe

modalité effectif fréquence


h 5 0,5
f 5 0,5
total 10 1,0

Distribution d'une variable quantitative selon la modalité

Certains tableaux utilisent en ligne les modalités d'un caractère qualitatif,


mais ne doivent pas être confondus avec ceux du modèle précédent : au lieu de
compter les individus statistiques de chaque sexe, on additionne les nombres
qui les caractérisent pour une variable quantitative donnée. Il s'agit en fait d'un
croisement de variables.
Part des salaires selon le sexe

revenu proportion
homme 44 000 0,524
femme 40 000 0,476
total 84 000 1,000

Dans cette entreprise, les hommes de la population perçoivent 52,4% de


l'ensemble des salaires distribués.

11.1.3 Variable q u a n t i t a t i v e discrète

e La procédure d'établissement est similaire, puisque chaque valeur de


la variable est assimilable à une modalité, qui est partagée par un nombre
significatif d'individus statistiques (salariés).
Retrouver ce titre sur Numilog.com

Distribution de la variable discrète : nombre d'enfants (par individu)

nb. enfants effectif (individus) fréquence


0 2 0,2
1 7 0,7
2 1 0,1
total 10 1 1,0
Lecture : 70% des salariés de l'entreprise ont 1 enfant.

e Cependant, par rapport au cas précédent, la nature quantitative de la


variable permet de calculer le nombre total d'enfants élevés par les individus
ayant 1 ou 2 enfants, en effectuant le produit des effectifs par les nombres
caractérisant la variable (nombre d'enfants).

Distribution de la population des enfants selon la taille des familles


nombre d'enfants par individu nombre total d'enfants fréquences
1 7 (7 * 1) 0,778
2 2 (1 * 2) 0,222
total 9 1,000
Lecture : la proportion d'enfants uniques (au sein de l'échantillon) est de 77,8%.

Ce mode de lecture montre qu'on a changé d'individu statistique : celui-ci


ne se définit plus comme la personne appartenant à la population, mais comme
l'enfant d'une personne de la population.
a Rappelons que les variables quantitatives discrètes utilisables telles quelles
sont plutôt rares. Dans notre exemple, le nombre d'enfants n'excède pas 2, mais
on sait qu'il lui arrive d'être beaucoup plus élevé. La présentation en tableau
exige alors la présence d'une «classe » d'individus regroupant un ensemble de
valeurs. Par exemple, la dernière ligne comprendra toutes les personnes ayant
6 enfants et plus. Cette variable n'est pas pour autant continue, car sa moyenne
est proche de 2, ce qui empêche de vérifier les conditions de continuité : d'une
part une proportion importante de ménages a 1, 2 ou 3 enfants (très peu 14 ou
15 !), d'autre part, l'écart relatif entre ces valeurs proches de la moyenne est
très important (2/1 ou 3/2)3.

3 Voir le chapitre 1.
Retrouver ce titre sur Numilog.com

11.1.4 Variable quantitative continue


Une variable quantitative continue est caractérisée par le fait que presque
chaque individu est associé à une valeur différente de la variable. Par
exemple, il est rare, même dans la fonction publique oùles grilles de salaires ont
un effet d'homogénéisation, de trouver un nombre significatif de salariés ayant
exactement le même salaire net mensuel, au centime près (primes, allocations
diverses).
En utilisant les procédures précédentes on obtiendrait autant de lignes que
d'individus :le tableau statistique serait identique au tableau individus/variables
et il serait impossible de faire aucune analyse statistique. La seule solution
pour établir un tableau d'effectifs ou de fréquences consiste à se servir des
valeurs de la variable pour diviser la population en un nombre limité de
sous-populations : c'est le regroupement en classes.
Reprenons les 10 individus étudiés ci-dessus et établissons le tableau
correspondant à la variable âge4.
Tableau originel
âge effectif
25 2
26 3
27 1
28 1
29 2
30 1
Total 10

Regroupons les valeurs en deux classes.


Tableau reclassé
âge effectif
[25 - 27[ 5
[27 - 31[ 5
Total 10

Notons la nécessité de définir strictement les bornes pour éviter tout


chevauchement sur les valeurs entières. L'exemple reprend un usage fréquent
consistant à inclure la borne inférieure à exclure la borne supérieure. Même
Dufait
variable dunombreélevédevaleursdifférentes,cettevariableestpresquetoujourstraitéecommeune
continue.
Retrouver ce titre sur Numilog.com

si cette présentation est un peu bizarre (apparition du 31 qui ne figure pas


dans les données), elle a l'avantage de bien traduire la continuité sur les bornes
intermédiaires : l'individu de 26 ans et 11 mois est dans la première classe, celui
qui a 27 ans 1 mois dans la seconde.
D'autres présentations, différentes ou moins rigoureuses, sont fréquemment
utilisées : [25 - 27[, [27 - 30] ; 25 - 26, 27 - 30. Il convient, avant tout calcul,
de rechercher la logique sous-jacente à la présentation utilisée, afin de ne pas
commettre d'erreur d'interprétation : ainsi, la classe 25-26 ne correspond pas à
une seule tranche annuelle (26 —25 = 1), mais à deux tranches annuelles (les
personnes ayant 25 ans et celles ayant 26 ans).
Le regroupement en classes d'une variable quantitative est beaucoup moins
problématique que celui d'un caractère qualitatif. Ce n'est pas pour autant une
opération innocente du point de vue du sens et de la représentation de la série :
le choix des limites de classes comporte une part d'arbitraire, limitée par le
recours à certaines règles techniques (cf exercice 4 et chapitre 3).

II.2. GRAPHIQUES
La sélection d'une représentation graphique adaptée répond à des règles
précises. Les graphiques traduisent parfaitement l'essence de la statistique
descriptive : permettre à un utilisateur de saisir rapidement l'essentiel
du contenu d'un ensemble de données très nombreuses. S'ils ne sont pas
construits dans cet esprit, les graphiques suscitent des erreurs d'interprétations
graves. C'est dire que toute autre considération (esthétique, «simplicité », etc.),
pour respectable qu'elle soit, doit passer après le respect strict des principes
méthodologiques, qui sont, là-encore, différents selon la nature (qualitative ou
quantitative) du caractère étudié.

II.2.1 Caractère qualitatif


Les modalités d'un caractère qualitatif désignent un groupe d'individus
statistiques considérés comme identiques du point de vue du caractère
considéré. Les employés de bureau et les employés de commerce sont
fréquemment regroupés au sein d'une catégorie unique, celle des «employés » :
cela ne veut pas dire qu'il n'existe pas entre eux des différences importantes
(de revenu, de formation, etc.), mais que pour les besoins d'une analyse donnée,
ils sont suffisamment semblables pour qu'on les considère comme une catégorie
unique. Même si pour des raisons pratiques elles sont représentées par un
nombre, ces modalités ne sont pas des valeurs, mais de simples positions
dans un espace, dont la carte est en grande partie définie par l'observateur.
Cela justifie qu'on représente la population sous la forme d'une surface, dont
chaque modalité occupe une partie. On doit alors prendre garde au fait que
l'impression visuelle spontanée est fondée sur la proportionnalité de
surfaces.
Sur cette base, trois familles de graphiques sont utilisées, les diagrammes
circulaires, les diagrammes en barres ou tuyaux d'orgue et les pictogrammes.
Retrouver ce titre sur Numilog.com

Ces représentations s'appliquent de la même manière aux caractères nominaux


et ordinaux, la seule différence étant que l'ordre des modalités est fixe dans le
second cas.
Diagrammes circulaires
Ils sont encore appelés diagrammes en secteurs ou, familièrement, camem-
berts.
Principe
L'effectif ou la fréquence de la population dans son ensemble est représenté
par la surface d'un cercle. Chaque modalité se voit affecter une aire délimitée
par un angle au centre. Du fait d'une propriété géométrique connue, la règle
de proportionnalité des effectifs/pourcentages aux aires se ramène à une
proportionnalité aux angles au centre : un angle de 90% équivaut au
quart de la population.
fréquence angle
population 1 360
modalité fi Pi

Pour trouver l'angle au centre, on pose l'équation de proportionnalité :

Une fréquence 0,15 est représentée par un angle de 0,15 * 360 = 54° .
Exemple
Etablissements d'enseignement. France 1994-95 (effectifs)

18989
Ecoles maternelles : 360* 71445 = 360 *0, 2658 = 95, 688 95, 7degrés.
Retrouver ce titre sur Numilog.com

Etablissements d'enseignement (1° et 2° degré) France 1994-95


total : 71445

Avantages et inconvénients

e La représentation circulaire est simple et en général bien lisible lorsque le


nombre de modalités est faible.
e Dans le cas contraire, le bilan est moins favorable à tous points de vue :
- même avec des couleurs, il est difficile de différencier les secteurs ;
—comme il n'est pas possible d'écrire la légende sur le graphique (en raison
de la faible fréquence de certaines modalités), il faut recourir à une légende
séparée dont la lecture est peu commode.

Diagramme en Tuyaux d'orgue ou en barres

Pour les raisons exposées ci-dessus, ce sont des diagrammes de surface.


Cependant, commeil s'agit derectangles dontla base a une taille conventionnelle
identique pour toutes les modalités, seule l'échelle verticale (tuyau d'orgue) ou
horizontale (barres) compte. Ils sont utilisables en pourcentages ou en effectifs,
et peuvent être cumulés.

Représentation en effectifs non cumulés

Le diagramme non cumulé montre bien la modalité dominante (ici écoles


élémentaires).
Retrouver ce titre sur Numilog.com

Etablissements d'enseignement (1° et 2° degré) France 1994-95


(milliers)

Effectifs ou fréquences cumulées


Le diagramme superpose les diverses aires, en sorte que la fréquence (ou
l'effectif) totale soit figurée par un seul rectangle. Pour construire ce graphique,
on crée une colonne spécifique contenant la fréquence cumulée : on calcule
successivement la fréquence correspondant à la modalité 1, puis aux modalités
1 &2, puis aux modalités 1 &2 &3, etc. En face de la dernière modalité
apparaît la fréquence 100%ou l'effectif total.
Etablissements d'enseignement. France 1994-95 (effectifs)

Le diagramme cumulé privilégie la répartition (ou structure) d'ensemble,


c'est-à-dire une approche relative. Si l'échelle des ordonnées est graduée en
fréquences, il est souhaitable de faire figurer l'effectif total sur le graphique (ici
dans le titre).
Retrouver ce titre sur Numilog.com

Répartition des 71 745établissements


d'enseignement (1° et 2° degré) France 1994-95

Avantages et inconvénients
e Le graphe non cumulé est très simple à réaliser ; il reste lisible, même
avec un grand nombre de modalités en particulier du fait de l'inscription directe
de la légende.
a Le graphique cumulé, privilégie la distribution des fréquences. Du point
de vue technique, il est préférable au diagramme circulaire :
- s'il est également difficile de faire figurer directement les intitulés de
modalités, cet inconvénient est moins grave dans la mesure où la lecture d'une
légende empilée verticalement (pour un tuyau d'orgue) se fait parallèlement aux
aires représentées sur le graphique ;
- ce diagramme permet dans de bonnes conditions de représenter simul-
tanément plusieurs caractères (cf chapitre 4).
Pictogramme
Principe
Encore appelé diagramme figuratif, le pictogramme consiste à remplacer
les tuyaux du diagramme non cumulé par des images plus évocatrices : une
silhouette masculine ou féminine pour une distribution par sexe, un tonneau
pour la production de vin, etc. Cette représentation est très appréciée dans
la presse car elle ouvre une infinité de variantes amusantes ou esthétiques.
Malheureusement, elle est extrêmement dangereuse lorsqu'elle méconnaît la
règle fondamentale énoncée ci-dessus : le cerveau interprète les graphiques en
fonction des surfaces et non des hauteurs.
Retrouver ce titre sur Numilog.com

Exemple
Cediagrammechercheàreprésenter lesventes d'ordinateurs dansunmagasin
spécialisé en 1995et en 1999. Essayez d'estimer les ventes en 1999, sachant que
la valeur en 1995 est 100 millions de francs.

Evolution des ventes d'ordinateurs

Legraphique incite àfournir unchiffre très élevé del'ordre de4fois supérieur.


En réalité, il ne s'est produit qu'un doublement (200 millions en 1999). L'erreur
provient de ce que le changement a été représenté par un doublement de la
hauteur de la figure ; pour conserver les proportions du dessin, la base a été
également doublée. Autotal, la surface a été multipliée par 4 et c'est ce que
retient l'œil.
Usage et limites
a Pour éviter cette erreur, il est envisageable de garder la même base
pour les figurines ; celles-ci sont alors très déformées et l'intérêt esthétique
disparaît. Il vaut mieux conserver la forme, tout en respectant le principe
de proportionnalité des aires. Cela se fait par une simple homothétie : on
multiplie la hauteur et la largeur par (v2r dans l'exemple). Lerésultat est
alors correct, mais purement visuel, car il n'est pas possible de faire figurer une
échelle sur le graphique autrement que par l'ajout des valeurs observées.
Retrouver ce titre sur Numilog.com

Diagramme respectant la proportionnalité des aires

Evolution des ventes d'ordinateurs

a Uneautre solution consiste à représenter le tuyau sous la forme d'un cumul


de figurines de même taille placées côte à côte ou l'une en dessus de l'autre.
Comme il n'est pas possible de fabriquer autant de figurines que de points
de pourcentage, on est amené le plus souvent à découper les pictogrammes et à
arrondir de manière parfois importante les données, ce qui est peu satisfaisant
du point de vue technique.
En résumé, l'usage du pictogramme doit être réservé à des cas très simples,
en respectant le principe de proportionnalité des aires et en ajoutant des
compléments numériques pour pallier l'absence d'échelle.

II.2.2 Variable quantitative discrète


Le tableau d'une variable de ce type est formellement similaire à celui
d'une variable qualitative. Cependant, la représentation graphique, qui utilise
les propriétés mathématiques des variables quantitatives, est très différente.
Diagramme en bâtons
• L'échelle des abscisses doit traduire deux caractéristiques importantes :
—c'est une vraie échelle numérique : l'écart entre valeurs a une signification ;
—les valeurs observées sont ponctuelles et discontinues.
e La représentation par un point ne traduit pas bien la discontinuité, car
l'observateur est tenté de joindre les valeurs consécutives par des segments de
droite. Cela explique qu'on se serve de segments de droites verticaux appelés
bâtons : ils sont théoriquement sans épaisseur (ponctualité des valeurs) et non
reliés les uns aux autres (discontinuité).
X prend kvaleurs différentes xi (i = 1, 2,..., k), defréquences fi : .
Retrouver ce titre sur Numilog.com

Répartition des mères par nombre d'enfants (générations 1940-1944)


nombre d'enfants %
1 20,6
2 38,1
3 23,2
4 9,5
5 4,1
6ou + 4,5
ensemble 100,0

Répartition des mères par nombre d'enfants


(générations 1940-44)

a Ce genre de graphique est simple et lisible. On rencontre souvent un


problème, qui est le positionnement des valeurs extrêmes lorsque celles-ci, en
raison de leur faible effectif, ont été regroupées en une seule classe. Le tracé
est alors doublement incorrect :
- les classes extrêmes semblent anormalement fréquentes en raison du cumul
de plusieurs valeurs discrètes de la variable. Dans l'exemple ci-dessous, la classe
«6 enfants et plus » affiche une fréquence supérieure à celle de la classe 5
enfants, car elle cumule les catégories 6, 7, etc., enfants ;
- la position sur l'abscisse du point est incorrecte, puisque la valeur adoptée
est la valeur minimale, alors que ce devrait être une valeur centrale de la classe
en question (médiane ou moyenne). Il n'existe pas de solution satisfaisante à ce
problème, sauf à s'inspirer des principes de l'histogramme (cf infra).
Retrouver ce titre sur Numilog.com

Courbe cumulative
e La fonction cumulative ou fonction de répartition F(x) se définit par la
proportion (ou le nombre) d'individus dont le caractère a une valeur strictement
inférieure à x.
Appliquons de manière littéraire à notre exemple : -F(4) est la proportion de
mères ayant moins de 4 enfants, c'est-à-dire la somme des proportions de mères
ayant 1, 2 ou 3 enfants.
F{xi) = fi + f2 + •••+ fi —1
Exemple
nombre d'enfants xi fréquence fi fréquence cumulée F(xi )
1 20,6 0
2 38,1 20,6
3 23,2 58,7
4 9,5 81,9
5 4,1 91,4
6 ou + 4,5 95,5
ensemble 100,0 100,0
Représentons par des points la fonction F(x), on obtient :
P1(1 ; 0) ; P2(2 ; f1 = 20,6) ; P3(3 ; f1 + f2 = 20,6 + 38,1 = 56,7), etc.

Points de coordonnées [x, F(x)]


La représentation par des points n'est pas adéquate, parce qu'elle ne rend
pas compte de la discontinuité de F(x). Celle-ci se traduit par un double
phénomène qu'un exemple illustre bien :
Retrouver ce titre sur Numilog.com

Cet ouvrage couvre la totalité du programme officiel de statis-


tiques et probabilités figurant aux concours interne et externe du
CAPES de Sciences économiques et sociales et s'adresse aussi aux
étudiants des premiers cycles.
Ce manuel, destiné à permettre un travail autonome, «à la mai-
son », se caractérise par trois principes : ne pas séparer les techniques
de leur usage, utiliser un minimum deformalisation mathématique et
ne considérer aucune notion comme évidente.
Cela se traduit par le traitement systématique de certaines questions :
► quels sont les motifs logiques qui déterminent le choix de
construire et d'utiliser tel ou tel outil (descriptif ou analytique) ?
► quelles sont les conséquences de ce choix pour un usage raisonné
de cet outil?
Les illustrations ou exemples sont traités dans le moindre détail,
ce qui donne à cet ouvrage le caractère d'un « livre du maître » : non
seulement comprendre mais pouvoirfaire comprendre.
Les nombreux exercices font appel au « vécu »,, utilisent le plus
souventpossible des données économiques et sociologiques d'usage courant
et sont accompagnés d'un corrigé entièrement rédigé.
Maurice Comte est maître de conférences à l'Université Lyon 2,
conseiller scientifique à l'Observatoire universitaire régional de l'in-
sertion professionnelle.
Joël Gaden, PRAGde mathématiques à l'Université Lyon 2, enseigne
également en classe préparatoire à HEC.

www.puf.com
259 FF
Participant d’une démarche de transmission de fictions ou de savoirs rendus difficiles d’accès
par le temps, cette édition numérique redonne vie à une œuvre existant jusqu’alors uniquement
sur un support imprimé, conformément à la loi n° 2012-287 du 1er mars 2012
relative à l’exploitation des Livres Indisponibles du XXe siècle.

Cette édition numérique a été réalisée à partir d’un support physique parfois ancien conservé au
sein des collections de la Bibliothèque nationale de France, notamment au titre du dépôt légal.
Elle peut donc reproduire, au-delà du texte lui-même, des éléments propres à l’exemplaire
qui a servi à la numérisation.

Cette édition numérique a été fabriquée par la société FeniXX au format PDF.

La couverture reproduit celle du livre original conservé au sein des collections


de la Bibliothèque nationale de France, notamment au titre du dépôt légal.

*
La société FeniXX diffuse cette édition numérique en accord avec l’éditeur du livre original,
qui dispose d’une licence exclusive confiée par la Sofia
‒ Société Française des Intérêts des Auteurs de l’Écrit ‒
dans le cadre de la loi n° 2012-287 du 1er mars 2012.

Vous aimerez peut-être aussi