Vous êtes sur la page 1sur 89

(*) Université de Thiès, fatounene.diop@univ-thies.

sn

17 mai 2021
Statistiques descriptives :

Université de Thiès —
UFR Sciences Économiques et Sociales — Département Management des Organisations
Table des matières

1 Introduction à l’utilisation des statistiques en économie et gestion 5


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Historique et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Méthodes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Applications en économie et gestion . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Comptabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 En marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.4 Gestion de la production . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.5 Économie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

I Distributions statistiques à un caractère 8


2 Présenter pour informer 9
2.1 Exemple d’application statistique . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Réaliser une étude statistique . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Quel type de problématique ? . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Choix des données à observer . . . . . . . . . . . . . . . . . . . . 12
2.2.3 Choix de la méthode de recueil des données . . . . . . . . . . . . . 13
2.2.4 Campagne de mesures . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.5 Traitement des données brutes . . . . . . . . . . . . . . . . . . . . 14
2.2.6 Prise de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Communiquer : le vocabulaire du statisticien . . . . . . . . . . . . . . . . . 15
2.3.1 Population, individu, variable statistique et modalité . . . . . . . . 15
2.3.2 Classification des variables statistiques . . . . . . . . . . . . . . . 17
2.3.3 Les premières étapes de la présentation des données . . . . . . . . 17
2.3.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Questionnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1 Les règles de formulations des questions . . . . . . . . . . . . . . . 24
2.4.2 Les types de questions . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1
3 Résumer pour informer : les indicateurs statistiques 28
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Résumer la position des données . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Distributions groupées . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Fréquences et fréquences cumulées . . . . . . . . . . . . . . . . . 30
3.2.3 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.5 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6 Un centre de gravité non robuste : la moyenne arithmétique . . . . 41
3.2.7 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.8 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.9 Moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Résumer la dispersion des données . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 L’étentue et les écarts inter-quantiles . . . . . . . . . . . . . . . . . 46
3.3.2 Le box plot ou la boîte à moustaches . . . . . . . . . . . . . . . . 48
3.3.3 L’écart absolu moyen, la variance et l’écart type . . . . . . . . . . . 49
3.3.4 Les moments centrés et les moments non centrés d’ordre p . . . . . 53
3.3.5 Cœfficient de variation . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Les caractéristiques de forme . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.1 L’asymétrie (ou dissymétrie) . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 L’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Le concept de concentration . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.1 Etude de la concentration par le calcul des agrégats de salaires . . . 58
3.5.2 Notion de concentration . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.3 Étude graphique de la concentration : la courbe de Lorenz . . . . . 62
3.5.4 Résumé de la concentration par un seul indicateur : l’indice de Gini 64

II Séries statistiques à deux caractères 71


4 Séries statistiques à deux caractères et distributions marginales 72
4.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2.1 Présentation des observations sous forme de tableaux statistiques . 72
4.2.2 Représentation graphique pour deux variables quantitatives . . . . . 73
4.2.3 Représentation graphique pour une variable qualitative X et l’autre quantitative Y 73
4.2.4 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . 74
4.2.5 Tableau des fréquences fij . . . . . . . . . . . . . . . . . . . . . . 74
4.3 Les moyennes et les variances marginales . . . . . . . . . . . . . . . . . . 75
4.3.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.3 Distribution marginale de la variable X, moyenne et variance . . . . 75
4.3.4 Distribution marginale de la variable Y, moyenne et variance . . . . 76
4.3.5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Les distributions conditionnelles, les moyennes et variances conditionnelles 76

2
4.4.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4.3 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.5 Indépendance des variables. Covariance . . . . . . . . . . . . . . . . . . . 79
4.5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.6 L’ajustement linéaire. Les moindres carrés . . . . . . . . . . . . . . . . . . 81
4.6.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6.3 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7 La corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.7.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3
Introduction à l’utilisation des
statistiques en économie et gestion

4
Chapitre 1

Introduction à l’utilisation des


statistiques en économie et gestion

Ce cours s’appuie sur des ouvrages reconnus dans la discipline principalement le livre
Statistique pour économistes et gestionnaires, Brigitte Tribout, 2e Ed., Pearson, (2013).

1.1 Introduction
Fréquemment on lit ce genre de phrases dans les journaux et les magazines :
• selon l’enquête nationale sur l’emploi 2015 : le taux de chômage des personnes de 10
ans et plus est de 13, 0% au Sénégal. (Le Soleil, 25 Nov. 2015)
• Selon une enquête de l’ANSD, le PIB annuel est de 3, 6%.
• Le coût moyen d’un spot publicitaire télévisé de 40 secondes lors des matchs de foot-
ball (TVA 18%) au mi-temps est de 573.628 FCFA.
• La Bourse Régionale des Valeurs Mobilières (BRVM) clôture le mois de juin par une
hausse de 3, 90%, à 278, 44 points. De même, l’indice BRVM 10 s’établit à 277,71
points, soit une amélioration de 2,06%. Les tendances ressorties des résultats du pre-
mier trimestre 2015 ont renforcé la confiance des investisseurs. Cette embellie a été
principalement portée par les gains observés sur les titres de capital tels que TOTAL
CI (+59,57%), CROWN SIEM CI (+46,64%), SERVAIR ABIDJAN CI ( +36,36%),
NESTLE CI (+33,33%) et SICABLE CI (+24,26%). Le marché des actions affiche,
sur l’ensemble du mois de juin, 18 335 375 titres échangés pour une valeur totale de
18,34 milliards de Fcfa, soit une hausse de 55,93% par rapport à mai 2015 (11,64
milliards de Fcfa). Le secteur « Services Publics » affiche la plus forte contribution
en valeur à hauteur de 32,24% du montant total des échanges du marché des actions.
(CGF Bourse, LM N ◦ 184-Juillet 2015)
Les chiffres présents dans les phrases ci-dessus (13, 0%, 3, 6%, 3, 90%, 277,71 points,
2,06%, etc.) sont appelés statistiques. Ainsi dans le langage courant, le terme “statistique”
recouvre des données chiffrées telles que les moyennes, les médianes, les pourcentages et
les indices qui nous aident à comprendre l’environnement économique. Cependant, comme
nous le verrons, le champ ou le contenu des statistiques inclut beaucoup plus que des chiffres.

5
De façon plus générale, la Statistique est l’art et la science de collecter, analyser, présenter
et interpréter des données.

1.2 Historique et définition


Aussi loin que l’on remonte dans le temps et dans l’espace (en Chine et en Égypte, par
exemple), les États ont toujours senti le besoin de disposer d’informations sur leurs sujets
ou sur les biens qu’ils possèdent et produisent. Mais les recensements de population et de
ressources, les statistiques (du latin status : état ) sont restées purement descriptives jusqu’au
17ème siècle. Puis s’est développé le calcul des probabilités et des méthodes statistiques
sont apparues en Allemagne, en Angleterre et en France. Beaucoup de scientifiques de tous
ordre ont apporté leur contribution au développement de cette science : PASCAL, HUY-
GENS, BERNOULLI, MOIVRE, LAPLACE, GAUSS, MENDEL, PEARSON, FISCHER
etc.... Actuellement, beaucoup de domaines utilisent les méthodes statistiques ( médecine,
agronomie, sociologie, industrie etc....).

Définition 1.2.1. La Statistique, c’est l’étude des variations observables. C’est une méthode
qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser
et à les interpréter.

1.2.1 Méthodes statistiques


1. 1ère étape :On collecte des données :
• soit de manière exhaustive,
• soit par sondage.
2. 2ème étape : On trie les données que l’on organise en tableaux, diagrammes, etc...
3. 3ème étape : On interprète les résultats : on les compare avec ceux déduits de la
théorie des probabilités.
On pourra donc :
1. évaluer une grandeur statistique comme la moyenne ou la variance (estimateurs, in-
tervalles de confiance).
2. savoir si deux populations sont comparables (tests d’hypothèses).
3. déterminer si deux grandeurs sont liées et de quelle façon ( corrélation, ajustement
analytique). Les conclusions, toujours entachées d’un certain pourcentage d’incerti-
tude, nous permettent alors de prendre une décision.
La statistique s’applique à la plupart des disciplines : agronomie, biologie, démographie,
économie, sociologie, linguistique, psychologie, ...
La section qui suit s’inspire largement du livre Statistique pour l’économie et la gestion,
Anderson et al., 3e Ed., de bœck, (2010).

6
1.3 Applications en économie et gestion
Dans l’environnement économique et commercial actuel, tout le monde a accès à de nom-
breuses informations statistiques. Les dirigeants et les managers qui ont le plus de succès,
sont ceux qui comprennent l’information et savent l’utiliser à bon escient. Voici quelques
utilisations de statistiques dans le domaine économique et commercial.

1.3.1 Comptabilité
Les experts comptables utilisent des procédures d’échantillonnage statistique pour effec-
tuer des opérations d’audit pour le compte de leurs clients.
Par exemple, supposons qu’une entreprise comptable veuille déterminer si le montant
du compte fournisseurs qui apparaît dans le bilan, correspond bien au montant réel. Dans
ce cas, l’expert-comptable sélectionne un sous-ensemble de comptes, appelé échantillons (le
nombre de fournisseurs est très grand). Après avoir réexaminé les comptes de l’échantillon,
l’expert-comptable conclut si le montant des comptes fournisseurs inscrit dans le bilan est
acceptable ou non.

1.3.2 Finance
Les analystes financiers utilisent des informations statistiques diverses pour orienter leurs
recommandations en matière d’investissement.

1.3.3 En marketing
Les scanners électroniques des caisses enregistreuses dans les commerces collectent des
données, utilisées dans de nombreuses applications de recherche en marketing.

1.3.4 Gestion de la production


L’importance accordée de nos jours à la qualité fait de son contrôle une application pri-
mordiale de la statistique, dans la gestion de la production.

1.3.5 Économie
Les économistes fournissent fréquemment des prévisions à propos de certains faits éco-
nomiques futurs. Par exemple, pour prévoir le taux d’inflation, les économistes utilisent des
indicateurs tels que l’indice de prix à la production, le taux de chômage et le taux d’utili-
sation des capacités de production. Souvent ces indicateurs statistiques sont intégrés à des
modèles de prévision qui prévoient le taux d’inflation.

7
Première partie

Distributions statistiques à un caractère

8
Chapitre 2

Présenter pour informer

2.1 Exemple d’application statistique


Arrêt au stand Emerson Fittipaldi a détenu le record du plus jeune champion du monde de
Formule 1 (25 ans et 274 jours) de 1972 à 2005, année où il fut détrôné par Fernando Alonso
(24 ans et 59 jours). Depuis, ce record a été battu deux fois : le pilote britannique Lewis
Hamilton fut sacré en 2008 à 23 ans et 301 jours, et l’allemand Sebastian Vettel, remporta le
titre en 2010 à seulement 23 ans et 135 jours.
Ces champions très précoces sont entourés d’équipes chevronnées. En effet, les facteurs
de succès en F1 sont très nombreux : moteur, châssis, aérodynamisme, pneumatiques, etc.,
mais aussi, bien sûr, pilotage et stratégie de course. Un des éléments importants de la stra-
tégie de course est la gestion des arrêts au stand. Les pit stops pour le ravitaillement en
essence sont en général décidés avant la course, en fonction du circuit et des positions sur
la grille de départ obtenues lors des qualifications. Pour les changements de pneumatiques,
le pilote et l’équipe doivent s’adapter aux conditions météorologiques qui peuvent être très
changeantes. Lors d’un grand prix de Belgique, Ralf Schumacher a démaré avec des pneus
pluie, a fait monter des pneus rainurés adaptés à une piste sèche au 24e tour, pour remettre des
pneus pluie au 25e tour. Quelles que soient les décisions prises, l’opération de changement
de pneumatiques, toujours spectaculaire, se doit d’être extrêmement rapide.
Une écurie dispose de deux équipes (A et B) de techniciens chargés du changement de
pneumatiques. Cette écurie décide d’utiliser l’intersaison pour effectuer des essais. Ainsi,
chaque équipe a répété 100 fois l’opération de changement de pneumatiques et a été chro-
nométrée entre le moment où la voiture s’immobilise au stand et celui où elle repart. Les
tableaux 2.1 et 2.2 donnent les temps réalisés pour cette opération par l’équipe A et l’équipe
B.
L’objectif pour l’écurie est d’analyser et de comparer ces performances, réalisées à l’en-
trainement, pour définir une stratégie de choix d’équipe (A ou B) en course.

9
6,80 7,99 6,09 6,69 3,70 7,59 4,63 6,15 7,89 8,07 5,92 7,98 7,65 5,76 8,63
6,68 5,78 9,27 6,27 9,36 6,25 6,21 9,16 6,12 6,80 8,75 6,94 5,44 5,93 6,14
7,53 6,62 7,87 5,00 5,69 5,60 4,93 4,90 7,72 8,28 8,78 7,61 8,11 9,23 5,98
8,13 5,97 7,34 6,15 6,97 7,81 8,28 4,72 6,09 6,17 6,28 7,22 4,37 6,06 6,59
7,60 5,39 8,42 6,44 5,94 8,42 5,39 5,77 7,91 6,18 6,58 7,14 7,94 9,22 6,68
6,71 6,03 7,11 4,93 4,96 6,35 7,30 6,81 9,92 9,67 8,50 5,59 7,22 6,99 7,77
6,26 7,31 6,92 7,96 7,88 9,67 6,13 8,83 5,49 5,45

TABLE 2.1 – Temps en secondes réalisés lors des 100 essais de l’équipe A

7,83 7,51 6,32 7,42 7,02 7,78 6,97 7,24 7,29 7,19 7,10 6,80 6,92 7,79 7,21
8,12 7,63 6,72 7,95 7,37 8,05 7,35 8,36 7,85 7,05 7,69 7,86 6,67 7,97 7,71
8,36 7,04 7,02 6,83 8,22 8,06 8,19 7,96 7,31 7,10 7,18 7,90 8,03 7,48 7,45
7,61 6,81 7,69 6,93 7,96 7,95 8,36 7,56 6,89 7,91 6,74 6,42 7,44 7,38 8,17
7,57 6,93 7,51 7,79 7,87 6,93 8,07 8,22 7,92 7,70 6,80 7,14 6,72 7,25 7,79
8,01 7,14 6,79 7,47 7,14 7,76 7,85 8,03 7,74 7,21 6,67 7,64 7,27 6,97 7,40
7,24 7,72 7,57 7,49 7,98 8,26 7,64 7,95 7,38 7,67

TABLE 2.2 – Temps en secondes réalisés lors des 100 essais de l’équipe B

Le processus de décision de choix d’une équipe doit ainsi être éclairé par la présentation
des données figurant dans ces deux tableaux.

–>Pour relever le défi


1. Modélisez le déroulement de cette étude en explicitant les étapes de la figure 2.1
ci-après.
2. Représentez graphiquement les données des tableaux 2.1 et 2.2 afin de mettre en
évidence la variabilité des performances des deux équipes dans le but d’élaborer une
stratégie de choix d’équipe en course. Quelle est votre stratégie ?

Les grandes lignes Une étude statistique naît d’un besoin d’information pour alimenter un
processus de décision. Les exemples sont innombrables :
• identifier les populations à risque afin d’optimiser une campagne de prévention,
• connaître l’évolution démographique pour décider des modalités du système de re-
traite,
• prévoir la répartition de la population afin de planifier les futurs quotas de médecins,
• localiser des clients ou des prospects dans le but d’optimiser la ventilation des forces
de ventes,
• etc.
Ce chapitre commence par la description des étapes à suivre pour mener une étude sta-
tistique. Le vocabulaire technique afférent aux concepts de base de la statistique est ensuite
développé. Enfin, quelques conseils généraux relatifs à la présentation des données.

10
2.2 Réaliser une étude statistique
Une étude statistique comprend six étapes (figure 2.1), dont les grands lignes sont décrites
ci-après.

11
Quel type — Choix des —- Choix de — Campagne — Traitement —–
de données la méthode de (présentation,
problématique ? à observer de recueil mesures résumé, etc.)
des données des données
Prise
de
décision

Tous les choix sont guidés par le type de problématique

F IGURE 2.1 – Les six grandes étapes d’une étude statistique.

2.2.1 Quel type de problématique ?


La statistique est un outil d’aide à la décision. Une étude statistique n’a de chances d’être
utile qu’à condition de commencer par cette question : “Quel type de problématique intéresse
le commanditaire de l’étude ?”
Supposons, pour éclairer ce point, qu’un stagiaire soit chargé par le directeur d’un hy-
permarché de mettre en place et de traiter dans son intégralité une enquête de satisfaction
auprès de la clientèle. Ainsi formulée la consigne (d’une enquête de satisfaction) est beau-
coup trop vague. Pour avoir une chance d’obtenir des résultats opérationnels, le stagiaire doit
interviewer le directeur. Envisage-t-il :
• de transformer la configuration générale du magasin,
• de modifier la mise en place des produits dans les rayons,
• d’améliorer l’affichage des informations relatives aux produits,
• de mieux répondre aux attentes des clients en termes de choix des produits, de conseil,
de prix, d’horaires, de temps d’attente, etc. ?

2.2.2 Choix des données à observer


Les réponses doivent être suffisamment précises pour que le stagiaire puisse établir la
liste des variables statistiques sur lesquelles va reposer l’étude. Une variable statistique asso-
cie par exemple à un client son degré de satisfaction sur le choix proposé au rayon boucherie.
Une fois identifié l’objet de l’étude (étudier quoi ?), il faut définir sur quels individus
ou unités statistiques les observations vont être réalisés (étudier qui ?). Un sociologue qui
s’intéresse aux méthodes de recherche d’emploi doit-il interroger des chômeurs, le personnel
de Pôle emploi, des sociétés d’intérim, des associations d’aide à la réinsertion comme les
Missions locales ? Quel que soit son choix, la population concernée (le champ de l’étude
dans le vocabulaire de l’INSEE) doit être clairement délimitée.
La taille de la population est parfois connue, mais le plus souvent, elle ne l’est pas.
Obtenir une estimation fiable de cette taille est l’une des raisons qui poussent à réaliser des
études de marché.

12
2.2.3 Choix de la méthode de recueil des données
Cette étape répond à la question “Comment ?”. Plus précisément, comment recueillir les
données ?
Les cinq principales méthodes de recueil des données.
— Expérimentation : Comme son nom l’indique, l’expérimentation suppose de pou-
voir réaliser des expériences c’est-à-dire de faire varier un paramètre (la variable de
contrôle) et d’observer l’impact de cette variation sur une autre grandeur (la variable
de réponse).
— Réunion de groupe : Elle consiste à réunir les individus pour les interroger. Par
nature, cette méthode est plutôt destinée à recueillir des données qualitatives : des
impressions, des sentiments, des envies, etc. Cette technique est également utilisée
pour déterminer les questions qui doivent apparaître dans un questionnaire, ou bien
pour tester la compréhension d’un questionnaire avant son lancement grandeur na-
ture.
— Observation : Au sens propre du terme, l’observation est la méthode qui consiste par
exemple à filmer les clients d’une librairie. L’objectif est d’identifier d’éventuelles
différences de comportements entre ceux qui terminent leur visite par un achat et
ceux qui quittent la boutique les mains vides. Cette technique d’étude est riche d’en-
seignements, mais ne relève pas à proprement parler de la statistique. Les observa-
tions qui relèvent de la statistique sont des observations structurées (via des grilles
d’observation) ou automatisées (via des compteurs).
— Enquête : L’enquête est certainement la méthode de collecte de données la plus
connue et la plus courante. Elle demande :
• d’élaborer un questionnaire,
• de choisir son mode d’administration (support utilisé pour transmettre le question-
naire et le faire remplir).
Certains ouvrages sont consacrés à la construction de questionnaires. Ils détaillent
en particulier les types de questions (fermés, ouvertes) et les différentes échelles
de mesure associées : dichotomiques (oui, non), à choix multiple (lundi, mardi,
etc.), échelle de Likert (pas du tout d’accord, plutôt pas d’accord, etc.), échelle
numérique (0, 1, 2, etc.), etc.
— Données de seconde main : Ce sont les données que le chargé d’études ne recueille
pas lui-même, mais qu’il recupère à partir de sources existantes. De telles données,
appelées également données secondaires, méritent une attention particulière. En effet,
afficher la source des données numériques de seconde main est importante à plusieurs
titres :
• Raisons déontologiques. Récolter et saisir des données est un travail, et les au-
teurs de ce travail méritent d’être cités.
• Raisons juridiques. Les droits de copie (copyright ) sont réglementés.
• Vérification des sources. L’utilisateur doit pouvoir remonter à la source pour
vérifier l’absence d’erreur de saisie ou de modification volontaire des données.
La vigilance s’impose particulièrement lorsque les données sont récupérées sur
un réseau tel qu’internet.

13
• Obtention de compléments d’informations. Certains travaux demandent d’ac-
céder non seulement au document d’origine, mais également à son auteur afin de
pouvoir contrôler la pertinence des données par rapport aux besoins de la nouvelle
étude.
(A contrario, les données recueillies par le chargé d’études s’appellent des données
primaires).

2.2.4 Campagne de mesures


C’est souvent la phase la plus coûteuse de l’étude notamment si elle nécessite de faire
appel à une équipe d’enquêteurs. Le niveau de formation et de motivation des enquêteurs
influence sensiblement la qualité des données relevées. Les économies effectuées à ce niveau
risquent, en définitive, de s’avérer coûteuses.

Quand recueillir les données La question “Quand relever les données ?” influe elle aussi
sur la qualité et la pertinence des futurs résultats. Les enquêtes par téléphone ont lieu en
général en dehors des heures habituelles de travail pour trouver les personnes à leur domicile,
au risque de les déranger.

Combien d’individus faut-il choisir ? À l’issue de la seconde étape, les limites de la po-
pulation à observer ont été posées. Il reste à définir exactement combien d’individus vont être
sollicités. L’idéal est souvent d’interroger toute la population. Lorsque cela est impossible,
les relevés de données sont faits sur un échantillon. Plusieurs facteurs doivent alors être pris
en compte : la durée et le coût de la collecte mais aussi la précision souhaitée.
Dans les exemples précédemment cités, les individus étaient des personnes. Ce n’est
pas toujours le cas, en particulier dans l’industrie où les contrôles de qualité sont effectués
sur des produits fabriqués. Les individus ou unités statistiques sont alors des textiles, des
composants électroniques, etc.
À la fin de la campagne de mesures, les données vierges de tout traitement sont dispo-
nibles. Ces données s’appellent des données brutes.

2.2.5 Traitement des données brutes


La matière première à partir de laquelle une enquête est exploitée est constituée essen-
tiellement de données numériques. Le produit à fabriquer est de l’information. Une question
doit guider tous les traitements :
Comment traiter les données pour en extraire de l’information utile à la prise de décision ?
Il s’agira de présenter les données sous forme de tableaux et de graphiques, de manière à
faciliter la lecture et l’interprétation des données.
La situation idéale est celle ou la seule présentation des données (sans modification ni perte
de données brutes suffit à prendre des décisions. Dans le chapitre 3, nous présentons le ré-
sumé des données qui s’impose en général lorsque les données sont à la fois nombreuses
et variées. En 2012, par exemple, les trois fonctions publiques françaises (État, collectivités
territoriales, hôpitaux) employaient environ 5,3 millions d’agents. Les études sur les salaires

14
Contraintes (budgétaires)—-> Décision politique—-> Conclusions de l’étude
F IGURE 2.2 – Aucune étude ne produit directement de décision

de ces agents publiées par l’INSEE ne présentent évidemment pas individuellement tous ces
salaires, mais des nombres-résumé (salaires moyens, salaires médians, etc.).
Par définition, le résumé des données entraine une perte de données brutes. Cette perte doit
se faire au profit d’un gain d’information.

2.2.6 Prise de décision


Une méthode de présentation des résultats consiste à rédiger un rapport de synthèse ré-
solument orienté vers la prise de décision (levée des incertitudes et recommandations), ainsi
qu’un rapport détaillé exposant la totalité des résultats, des traitements et des méthodes sta-
tistiques.
La conception des documents est guidée par un souci permanent de produire un outil d’aide
à la décision.
Quelles que soient la qualité et la pertinence de l’étude, in fine, les décisions sont toujours
d’ordre politique, au sens noble du terme. En effet, les décisions se prennent en général dans
le cadre des contraintes budgétaires figure 3.12).
Le domaine de la santé publique offre des exemples probants. Les médecins sont capables
d’estimer la proportion de cancers du sein qui peuvent être diagnostiqués précocement grâce
à une mammographie. La décision de l’âge limite où un tel dépistage doit être rendu, ou non,
systématique appartient aux politiques. Ce dépistage a un coût et le rendre obligatoire pour
toutes les femmes a pour conséquence de ne pas allouer de moyens pour prévenir d’autres
risques.
Aucune étude ne produit directement de décision. La prise de décision est toujours
d’ordre politique.
Le processus de réalisation d’une étude conduit à faire un grand nombre de choix. La
plupart d’entre eux sont à la fois contextuels et dépendants. Ainsi une étude isolée ne répond
pas aux mêmes exigences qu’une étude amenée à être répétée (parfois appelée baromètre ).

2.3 Communiquer : le vocabulaire du statisticien


La maîtrise du vocabulaire technique est indispensable à plusieurs titres :
— progresser dans l’acquisition des méthodes statistiques,
— échanger avec d’autres spécialistes,
— utiliser les logiciels de statistique (XLSTAT, SPHINX, SPSS, SPAAD, SAS, R, EX-
CEL, etc.).

2.3.1 Population, individu, variable statistique et modalité


Sur le terrain, le chargé d’étude observe des personnes, des pièces mécaniques, des ac-
cidents de la route et relève des données. D’un point de vue conceptuel, les objets mathé-

15
matiques manipulés sont des ensembles, leur cardinal, les éléments de ces ensembles et des
applications.
Exemple 2.3.1. On désire étudier les salaires des 8000 employés d’une entreprise.
Questions : qui va-t-on interroger ? que va-ton mesurer ?
Le statisticien doit d’abord préciser l’ensemble sur lequel vont porter les observations
(données étudiées). Cet ensemble est appelé la population statistique (ou champ d’étude).
En Statistique, le terme “population” s’applique à des ensembles de même nature : étu-
diants d’une faculté, parc automobile sénegalais, production d’une usine, poissons d’une
rivière, etc.
Toute la statistique repose sur les définitions ci-après.
Définition 2.3.1. 1. L’ensemble étudié s’appelle une population (c’est un ensemble au
sens mathématique du terme).
2. Les éléments de la population s’appellent des individus ou unités statistiques.
3. Le nombre d’individus ou d’unités statistiques appartenant à la population est appelé
taille ou effectif total.
4. Une variable statistique ou un caractère est une application qui, à chaque individu
de la population, associe une valeur (numérique ou non).
5. Les valeurs que peut prendre une variable statistique s’appellent des modalités. Les
modalités d’un caractère doivent former une partition c’est-à-dire doivent être ex-
haustives et disjointes.
A chaque individu, on doit pouvoir associer une modalité et une seule.
6. Le nombre d’individus qui présentent une modalité de la variable statistique est ap-
pelé effectif de cette modalité.
Exemple 2.3.2. Le caractère sexe a deux modalités : Masculin et Féminin. Le caractère
Situation Matrimoniale a quatre modalités : Marié, Célibataire, Divorcé, Veuf.
Remarque 2.3.1. 1. Une variable statistique (ou un caractère) est une application d’un
ensemble dans un autre. Le vocable de variable n’est pas pertinent, puisqu’il ne
s’agit pas d’une variable (c’est-à-dire l’argument d’une fonction) mais d’une appli-
cation parfaitement définie. L’utilisation du terme variable statistique est cependant,
a priori, plus répandue que celui de caractère.
2. La population est souvent notée Ω (oméga majuscule) et ses éléments sont notés ωi
(oméga minuscule).
3. L’ensemble des modalités est l’image de l’ensemble Ω par l’application X. Cet en-
semble se note X(Ω), comme f (I) désigne l’image d’un intervalle I par une appli-
cation f .
4. La figure ?? représente une variable statistique X. Une telle figure s’appelle un dia-
gramme sagittal - du latin sagitta, qui signifie “flèche”. Par définition, une et une
seule flèche part de chaque ωi .
5. Les termes individu et population sont issus des premiers travaux statistiques qui
furent des travaux de recensement (comptage des hommes d’une armée, d’une contrée,
etc.). cependant un individu peut être également une entreprise, un logement, un jour
ouvrable, etc.

16
2.3.2 Classification des variables statistiques
La classification habituelle distingue deux types et quatre sous-types de variables statis-
tiques. La nature des variables statistiques dépend de la nature de ses modalités, c’est-à-dire
des des valeurs qu’elle peut prendre.
I. Variables qualitatives (ou caractères qualitatifs) grandeur non “mesurable”, à la-
quelle on ne peut pas donner une valeur numérique.
I.1. Variable qualitative nominale. Aucune relation d’ordre ne peut être établie
sur l’ensemble des modalités. Les variables “sexe”, “situation matrimoniale”,
et “langue maternelle” sont qualitatives nominales. Les modalités dune variable
qualitative nominale sont parfois codées numériquement, en affectant par exemple
la valeur 1 à la modalité “masculin” et la valeur 2 à la modalité “féminin”. Ce co-
dage ne transforme pas la nature de la variable, mais facilite la saisie des données.
Calculer la moyenne de masculin et de féminin n’a évidemment pas de sens.
I.2. Variable qualitative ordinale. Une relation d’ordre existe. C’est le cas, par
exemple, d’une variable dont les modalités sont : très bonne, bonne, plutôt bonne,
etc. En effet, cela a du sens de définir l’ordre selon lequel la modalité “très bonne”
est supérieure à “bonne”.
II. Variables quantitatives La grandeur observée est “mesurable”. On peut effec-
tuer des opérations algébrique (addition, multiplication ...) sur un tel caractère.
II.1. Variable quantitative discrète D’un point de vue théorique, une variable quan-
titative est discrète si l’ensemble de ses modalités est dénombrable. D’un point de
vue opérationnel, une variable quantitative est discrète si la valeur de ses modali-
tés relève d’un comptage. Ainsi, on compte un “nombre d’enfants”, un “nombre
de pièces d’un logement”, etc.
II.2. Variable quantitative continue. Théoriquement, une variable quantitative est
continue si l’ensemble de ses modalités est non dénombrable, c’est-à-dire si la
variable peut prendre n’importe quelle valeur numérique dans un intervalle. Très
souvent, les modalités d’une variable continue sont obtenues en utilisant un ins-
trument de mesure (taille d’une personne, diamètre d’un cylindre, longueur d’un
câble).

Remarque 2.3.2. L’identification du type d’une variable statistique n’est pas toujours fon-
damentale en revanche, s’assurer, à chaque étape du traitement des données (graphiques,
calcul de nombres-résumé, etc.), que le travail effectué a du sens est primordial.

2.3.3 Les premières étapes de la présentation des données


Les principales manières de présenter des séries de données portent un nom spécifique.
La signification des termes série brute, série classée, série ordonnée et distribution observée
est présentée ci-après à partir des résultats d’une mini-enquête.

17
TABLE 2.3 – Série brute de la variable statistique “langue maternelle”

Français Bulgare Russe Russe


Dialecte africain Bulgare Roumain
Vietnamien Luxembourgeois Français Français
Dialecte africain Luxembourgeois Arabe Arabe
Français Français Français Français
Français Arabe Espagnol Français
Français Français Français Français
Arabe Arabe Français Français
Dialecte africain Français Turc Français
Français Français Français Roumain
Portugais Français Français Français
Français Français Arabe Arabe
Français Français Roumain Français
Français Français Arabe Français
Français Dialecte africain Français
Français Français Français Français Vietnamien
Turc Bulgare Luxembourgeois Français
Français Français Dialecte africain Français
Luxembourgeois Français Espagnol Français
Dialecte africain Français Français Arabe
Français Français Dialecte africain Roumain
Français Arabe Français Français

Série brute
Définition 2.3.2. La série brute d’une variable statistique est la liste des données telles
qu’elles ont été collectées, c’est-à-dire vierges de tout traitement.

Exemple 2.3.3. Une mini-enquête


Les 87 étudiants d’une promotion ont répondu aux deux questions suivantes :
• Quelle est votre langue maternelle ?
• Combien avez-vous de frères et sœurs ?
Les deux séries brutes correspondantes sont consignées dans les tableaux 2.3 et 2.4.
Les manipulations involontaires sont courantes lors de la saisie informatique des don-
nées. Cette réalité impose :
— de consacrer du temps à vérifier qu’il n’y a pas d’erreur,
— puis de conserver une sauvegarde de la série brute vérifiée.

Série classée et série ordonnée


Pour mieux observer les différentes modalités, le premier traitement consiste à classer les
données par ordre alphabétique (cas de variables qualitatives, tableau 2.5) ou à les ordonner
par ordre croissant ou décroissant (cas des variables quantitatives, tableau 2.6).

18
TABLE 2.4 – Série brute du caractère “nombre de frères et sœurs”

2 2 5 2 3 1 1 1 1 2 1 1 0 2 2
5 1 4 2 2 1 0 2 2 1 2 1 1 2 1
3 1 2 1 0 0 1 3 13 1 0 2 1 1 1
1 6 1 3 1 0 1 5 7 2 1 2 2 3 0
3 2 2 7 14 9 5 4 1 0 1 2 1 3 2
1 2 2 0 4 1 0 1 0 1 1 1

Si les données sont très nombreuses, les séries classées et ordonnées facilitent le repérage
d’éventuelles valeurs aberrantes. Si, par exemple, l’observation 140 apparaît pour le nombre
de frères et sœurs, il convient de vérifier s’il ne s’agit pas de la donnée 14 mal saisie. Le cas
échéant, la valeur doit être supprimée.

Définition 2.3.3. 1. La série classée d’une variable statistique qualitative est la liste
des observations classées par ordre alphabétique.
2. La série ordonnée d’une variable statistique quantitative est la liste des observations
classées par ordre croissant.
Notation : {x(i) ; i = 1 à N}, où (i) représente le rang de l’observation et x(i) désigne
ainsi l’observation qui occupe le rang (i).

19
TABLE 2.5 – Série classée de la variable statistique “langue maternelle”

Arabe Français Français Français


Arabe Français Français Français
Arabe Français Français Français
Arabe Français Français Français
Arabe Français Français Français
Arabe Français Français Français
Arabe Français Français Luxembourgeois
Arabe Français Français Luxembourgeois
Arabe Français Français Luxembourgeois
Arabe Français Français Luxembourgeois
Bulgare Français Français Portugais
Bulgare Français Français Roumain
Bulgare Français Français Roumain
Dialecte africain Français Français Roumain
Dialecte africain Français Français Roumain
Dialecte africain Français Français Russe
Dialecte africain Français Français Russe
Dialecte africain Français Français Turc
Dialecte africain Français Français Turc
Dialecte africain Français Français Vietnamien
Espagnol Français Français Vietnamien
Espagnol Français Français

TABLE 2.6 – Série ordonnée du caractère “nombre de frères et sœurs”

0 1 1 1 2 2 2 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 6
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 9
0 1 1 1 2 2 4 13
0 1 1 1 2 2 4 14
0 1 1 1 2 2 4

Distribution observée des effectifs


Avec seulement 87 données, les tableaux 2.5 et 2.6 sont longs et donc, en général, non
publiés. Un simple travail de comptage permet de présenter (tableaux 2.7 et 2.8) les données
de manière beaucoup plus synthétique.

20
TABLE 2.7 – Distribution observée de la variable statistique “langue maternelle”

Langue Maternelle Effectif


Arabe 10
Bulgare 3
Dialecte africain 7
Espagnol 2
Français 50
Luxembourgeois 4
Portugais 1
Roumain 4
Russe 2
Turc 2
Vietnamien 2
Ensemble 87

TABLE 2.8 – Distribution observée de la variable statistique “nombre de frères et sœurs”

nombre de Effectif
frères et sœurs
0 11
1 33
2 23
3 7
4 3
5 4
6 1
7 2
9 1
13 1
14 1
Ensemble 87

Définition 2.3.4. Une distribution observée des effectifs est l’application qui associe à
chaque modalité d’une variable statistique l’effectif observé correspondant. Cette distribu-
tion est présentée sous la forme soit d’un tableau, soit d’un graphique.

Le tableau 2.8 et la figure ?? sont deux représentations des mêmes données. La figure
a l’avantage de mettre clairement en évidence la dissymétrie de la distribution ainsi que les
modalités non observées.
La distribution observée des effectifs est la manière la plus courte de présenter les don-
nées sans que celles-ci aient subi (sauf erreur involontaire) la moindre modification. Son
usage est donc extrêmement courant.

21
2.3.4 Représentation graphique
La représentation graphique permet d’avoir une vision globale de la série statistique. Elle
permet aussi de comparer deux ou plusieurs séries statistiques en superposant les graphiques.
Le graphique reste assez imprécis, c’est un résumé qu’il faut absolument associer au tableau.
On a différents graphiques selon le type de variable étudiée.
1. Variable qualitative [catégorielle ou ordinale] :

Construction graphique : On représente chaque modalité de la variable par une


surface proportionnelle à l’effectif.
Pour ce faire, les deux principales méthodes sont :
— Graphique à secteurs (ou diagramme à secteurs ou camembert).
Les modalités sont représentées par des secteurs de disque dont l’angle est pro-
portionnel aux fréquences ou effectifs.
Méthodologie : faire une règle de trois en sachant que 100% correspond à 360◦.

αj◦ = 360◦ × fj .
— Graphique à bandes ou diagramme en barres (ou tuyaux d’orgues).
On représente les modalités par des rectangles de base constante. Les hauteurs de
ces rectangles correspondent aux fréquences (ou aux effectifs).
Exemple 2.3.4. Dans une enquête réalisée auprès de 75 personnes, on demande leur
niveau d’appréciation sur une certaine marque de voiture. On dispose d’une échelle à
cinq modalités : Très défavorable (TD), défavorable (D), favorable (F), très favorable
(TF) et moyen (M).
(a) Déterminer la population, l’individu statistique, la variable statistique et sa na-
ture.
(b) Compléter le tableau suivant :

Modalités xi Effectifs (ni ) Fréquence (fi en %)


TD
D 6
F 20
TF 30
M 4
Total 75 100
2. Variable quantitative discrète.
Deux types de graphique :
a) Diagramme en bâtons des fréquences (ou des effectifs).
On peut définir le polygône des fréquences (ou des effectifs) qui a pout but de
préciser l’évolution des effectifs. On le trace en joignant les bouts des bâtons.
b) Diagramme des fréquences cumulées ou courbe cumulative (ou diagramme cu-
mulatif).

22
La courbe cumulative est la représentation graphique de la proportion F (x) des
individus de la population dont le caractère prend une valeur inférieure à x.
C’est une courbe en escaliers représentative de la fonction F définie par :

⎨ 0 si x < x1
$i
F (x) = F = j=1 fj si xi ≤ x < xi+1
⎩ i
1 si x ≥ xp
Cette fonction, appelée fonction cumulative ou fonction de répartition.
Exemple 2.3.5. On a effectué une enquête auprès de 25 familles pour déterminer le
nombre de voitures possédées par les familles d’un quartier d’Abidjan.
(a) Déterminer la population, l’individu statistique, la variable statistique et sa na-
ture.
(b) Compléter le tableau suivant :

Modalités xi Effectifs (ni ) Fréquence (fi en %) Fréquence cumulée (Fi en %)


0 44
1 32
2 16
4 8
Total 100 X
3. Variable quantitative continue.
Pour représenter graphiquement une variable continue regroupée en classes, on dis-
pose de deux outils :
a) Histogramme des fréquences
b) Courbe des fréquences cumulées

Construction de l’histogramme
Définition 2.3.5. L’histogramme est un ensemble de rectangles juxtaposés tel que la
surface de chacun des rectangles soit proportionnelle à la fréquence de chacune de
classes. La longueur de la base de ces rectangles est proportionnelle à l’amplitude
de la classe, notée ai .
Classes d’amplitudes égales Dans le cas où les classes sont d’amplitudes égales
chaque rectangle de l’histogramme aura une hauteur proportionnelle à l’effectif
de chaque classe.
Exemple 2.3.6. Soit la distribution suivante

Classes Effectifs
[10,20[ 15
[20,30[ 20
[30,40[ 10
[40,50[ 25
[50,60[ 5
Total 75

23
Classes d’amplitudes inégales Dans ce cas il faut construire des rectangles dont
la hauteur est proportionnelle à la densité, ce qui permet d’assurer une surface
proportionnelle à l’effectif.
La densité (ou l’effectif corrigé) assciée à chaque classe est définie par :
ni fi
di = où di =
ai ai
où ai est l’amplitude de la classe d’effectif ni .
Exemple 2.3.7. On désire étudier le revenu de l’ensemble des ménages français
(20 milions). (
(a) Déterminer la population, l’individu statistique, la variable statistique et sa
nature.
(b) Compléter le tableau suivant :

Modalités xi (en euros) Effectifs (ni ) Fréquence (fi en %) Fréquence cumulée (Fi en %)
[0,1600[ 45
[1600,2400[ 80
[2400,3200[ 100
Total 100 X

Le diagramme “tige et feuille”


Lorsque la taille de la population étudiée n’est pas trop élevée (inférieure à la centaine), il
est intéressant d’utiliser la représentation en diagramme “tige et feuille” due à J. W. Tukey.
Ce diagramme tient à la fois du tableau et de la représentation graphique et donne une vision
d’ensemble des données sans perdre l’information numérique valeur par valeur.

Représentation en diagramme “tige et feuille” On distingue deux parties pour tout nombre :
les chiffres de plus “faible poids”, la feuille, et les chiffres de plus “haut poids”, la tige.

2.4 Questionnaire
Il y a plusieurs façons de récolter des données, tels que des grilles d’observations, des ex-
périences, des appareils d’enregistrements et même des recherches bibliographiques mais la
plus utilisée est sans aucune doute le questionnaire. Dans cette section, nous verrons d’abord
les 5 qualités à retenir afin de construire un questionnaire fiable et ensuite les différents types
de question pouvant en faire partie.

2.4.1 Les règles de formulations des questions


Pour construire un questionnaire viable donnant des résultats fiables, il existe 5 qualités
nécessaires pour construire des questions efficaces.

24
Claire : Les questions doivent être précises, ne contenir aucun terme vague tel que des
acronymes (FTQ, REER) et être les plus courtes possibles. Combien de cigarettes
fumez-vous ?
Complète : Elles doivent contenir toute l’information incluant le choix de réponses.
Parmi les choix suivants, quel est votre couleur préférée ?
Neutre : Les questions ne suggèrent aucune réponse au répondant. Selon des spécia-
listes en nutrition, il est crucial de bien déjeuner. Déjeunez-vous ?
Non-menaçante : Les questions ne portent pas sur des sujets personnels, privés ou dé-
licats. Avez-vous une maîtresse ?
Pertinente : Les questions portent sur le sujet de l’étude. Pour une étude portant sur les
jeux vidéos, on pose une question sur les animaux domestiques.

2.4.2 Les types de questions


Les questionnaires traditionnels contiennent surtout des questions à choix de réponses
mais il existe différents types de questions. D’abord il existe deux catégories, les questions
ouvertes et les questions fermées.
1. D’abord, les questions ouvertes permettent au répondant de développer sur le sujet.
C’est le type de question idéale pour récolter des opinions. Que pensez-vous de la
hausse des frais de scolarité ?
2. Ensuite, les questions fermées restreignent les répondants à quelques choix seulement
(a) Une question à réponse brève est une question où l’on répond sur une petite
ligne.
(b) Une question dichotomique est une question ayant 2 choix de réponses seule-
ment comme des vrai ou faux, des oui ou non.
(c) Une question à choix multiples est une question où l’on propose plusieurs ré-
ponses mais le répondante peut qu’en choisir une.

2.5 Exercices
Exercice 2.5.1: Manipuler les formules, les notations

1. Soit P une population et T une variable statistique définie sur P. Comment notez-vous
l’ensemble des modalités de T ?
2. Comment se note, dans le cas général, une population ? Comment se notent les élé-
ments de cette population ?
3. Réalisez un diagramme sagittal qui met en évidence les concepts suivants : popula-
tion, individu, variable statistique, ensemble des modalités, modalités. Indiquez sur
votre graphique les notations habituelles.
4. Comment se note une série ordonnée de N observations ?

25
Exercice 2.5.2: Manipuler les idées, les définitions

1. Comment s’appellent les valeurs que peut prendre un caractère ? Ces valeurs sont-
elles forcément des nombres ?
2. Donnez un synonyme du terme variable statistique. Pourquoi ce vocable de variable
statistique est-il discutable ?
3. Quelle est la définition d’une variable statistique ?
4. Donnez un synonyme d’unité statistique.
5. À quoi reconnaît-on qu’une variable statistique est qualitative ? quantitative ?
6. Comment fait-on la distinction entre un caractère qualitatif nominal et un caractère
qualitatif ordinal ? Comment savoir si une variable statistique quantitative est dis-
crète ?
7. Élaborez quatre exemples de variables statistiques (une de chaque type) en définissant
explicitement la population (choisissez quatre populations différentes), la variable,
ses modalités et en faisant le diagramme sagittal correspondant.
8. Qu’est-ce qu’une application ?
9. Soit X la variable “nombre de buts marqués”. Décrivez une population telle que X
soit une variable définie sur cette population.
10. On considère la population des 30 unités urbaines françaises de plus de 200 000
habitants. Définissez sur cette population deux variables statistiques.
11. Qu’est-ce qu’une série brute ?
12. Quelle est la différence entre une série classée et une série ordonnée ?
13. la distribution observée des effectifs est une application. Quels éléments associe-t-
elle ?
14. Que voit-on mieux sur une distribution observée que sur une série brute ?
15. Qu’est-ce qui motive une étude statistique ?
16. Quelles sont les grandes étapes d’une étude statistique ?
17. Citez cinq méthodes de recueil des données. Imaginez une situation adaptée à chaque
méthode.
18. Le recueil des données par expérimentation fait appel à une variable de contrôle.
Qu’est-ce qu’une variable de contrôle ? Illustrez votre réponse par un exemple.
19. De quoi disposez-vous à la fin de la campagne de mesure ?
20. Quelle est la question récurrente qui guide tous les traitements de données ?
21. Quelle est la fonction première d’une représentation graphique ?
22. Donnez deux exemples montrant de manière très convaincante qu’il y a des situations
dans lesquelles vous êtes contraint de travailler à partir d’un échantillon.
23. Pourquoi la statistique inférentielle fait-elle appel au calcul des probabilités ?

26
35

30

25

20

Série1

15

10

0
0 1 2 3 4 5 6 7 9 13 14

27
Chapitre 3

Résumer pour informer : les indicateurs


statistiques

3.1 Introduction
L’objectif du recueil et du traitement de données est de fournir des informations utiles à la
prise de décision. Cependant, la présentation des données brutes sous forme de tableaux et de
graphiques (chapitre 1) ne suffit pas toujours à alimenter de manière pertinente le processus
de décision.
Bien souvent, les données sont à la fois nombreuses et variées, et leur synthèse s’impose.
Ainsi, le relevé du salaire de 400 individus peut conduire à observer 400 valeurs différentes.
Dans cette situation, la distribution des salaires est résumée en groupant les observations
par classes et/ou en calculant des nombres-résumé tels que le salaire moyen, le salaire
minimum, le salaire médian, etc.

Remarque 3.1.1. Les nombres-résumé sont également appelés indicateurs, paramètres ou


caractéristiques.

Selon leur fonction, c’est-à-dire la question à laquelle ils répondent, les nombres-résumé
se répartissent en trois familles.
• Les paramètres de position, comme la moyenne ou la médiane, répondent, de ma-
nière quantitative et résumée, à la question “Où se situe (se positionne) la série de
données ?”

F IGURE 3.1 – Trois problématiques de résumé.

Répondre de manière quantitative et résumée à 3 questions


Où se situent les données Comment les données Comment la somme des
sont-elles réparties données est-elle répartie
3 familles de nombres-résumé suivant leur fonction
Paramètres de position Indicateurs de dispersion Caractéristiques de
concentration

28
TABLE 3.1 – Distributions groupées du nombre d’enfants par familles (en milliers)

1975 1982 1990 1999 2008


0 enfant 4 876 5 420 6 484 7 371 8 225
1 enfant 3 333 3 548 3 667 3 672 3 821
2 enfants 2 665 3 118 3 345 3 296 3 449
3 enfants 1 293 1 325 1 349 1 283 1 241
4 enfants et plus 1 009 708 546 474 396
Total familles 13 176 14 119 15 391 16 096 17 132

TABLE 3.2 – Distributions groupées du nombre d’enfants par familles (en milliers)
Champ : Familles en France métropolitaine, enfants de 0 à 24 ans.
Source : Tableaux de l’économie française (TEF) 2004-2005, p. 29 et RP 2008 exploitations
complémentaires.

• Les indicateurs de dispersion caractérisent numériquement la manière dont les ob-


servations s’écartent les unes des autres, ou montrent comment elles s’écartent d’un
nombre de référence (par exemple, de la moyenne de la distribution). L’écart type est
un exemple de paramètre de dispersion, dont la construction sera détaillée plus loin.
• Les caractéristiques de concentration mesurent le degré d’inégalité dans la répartition
de la somme des observations lorsque cette somme a un sens. Ainsi, pour une dis-
tribution de salaires, le résumé de la répartition de la masse salariale fait appel à des
méthodes distinctes de celles utilisées pour résumer la répartition des salaires.
Ce chapitre montre, pour ces trois familles d’indicateurs, dans quels contextes ceux-ci sont
pertinents.

3.2 Résumer la position des données


Les distributions groupées ne sont pas à proprement parler des indicateurs, mais sont
aussi des outils de résumé de la position des données. Ces distributions débutent donc l’ex-
posé des différentes réponses quantitatives à la question “Où se situent les données ?”

3.2.1 Distributions groupées


Une distribution groupée se construit à partir de la série brute ou de la distribution obser-
vée (chapitre 1) en réunissant dans la même classe plusieurs modalités. Les deux exemples
qui suivent montrent l’intérêt de tels regroupement des données.

Exemple 3.2.1. Familles suivant le nombre d’enfants


Tel qu’il est diffusé par l’INSEE, le tableau 3.2 est un résumé de la distribution obser-
vée du nombre d’enfants, puisqu’il ne fait pas apparaître les modalités 4, 5, 6, etc., qui ont
été regroupées. La raison de ce regroupement est le faible effectif observé des familles com-
portant plus de 4 enfants ; l’expression queue de distribution est employée pour évoquer ces
observations extrêmes. Les données ainsi publiées sont adaptées à l’étude de la structure de

29
F IGURE 3.2 – Cinq distributions groupées du nombre d’enfants par famille (en milliers).
0 enfant 1 enfant 2 enfants 3 enfants 4 enfants et +

546 474 396


708
1009
1283 1241
1349
1325
1293

3449
3296
3345
3118
2665

3821
3672
3667
3548
3333

7371 8225
6484
4876 5420

1975 1982 1990 1999 2008

la majorité des familles. En revanche, pour analyser l’évolution de la structure des familles
nombreuses, il conviendrait de regrouper les modalités 0, 1, 2 et 3 enfants, puis de pré-
senter exhaustivement les effectifs des modalités supérieures. La “perte” de données brutes
est donc ici consentie pour faciliter l’interprétation des données relatives à la majorité des
familles et, par la même occasion, au profit d’un gain de place.

3.2.2 Fréquences et fréquences cumulées


Le calcul de fréquences et de fréquences cumulées est un moyen classique pour résumer
une distribution observée.
Le tableau 3.3 reprend uniquement pour la campagne 2008, les données du tableau 3.2
relatives aux familles. Cette année-là, 8 225 000 familles n’avaient pas d’enfant. Le calcul
du rapport 8 225/17 132=0,480 est souvent spontané. Cet indicateur est la fréquence de
la modalité 0. Par construction, c’est un nombre sans unité qui peut donc s’exprimer en
pourcentage.
Dans le même ordre idée, la somme des fréquences (simples) conduits aux fréquences
cumulées de la dernière colonne du tableau 3.3. Ainsi, 70,3 % des familles avaient moins de
deux enfants en 2008.

TABLE 3.3 – Effectifs, fréquences et fréquences cumulées des familles suivant le nombre
d’enfants en 2008)

30
Modalités xi Effectifs ni Fréquences fi en % Fréquences cumulées F (xi ) en %
en milliers
0 enfant 8 225 48,0 48,0
1 enfant 3 821 22,3 70,3
2 enfants 3 449 20,1 90,4
3 enfants 1 241 7,2 97,7
4 enfants et plus 396 2,3 100,0
Ensemble 17 132 100,0

Définition 3.2.1. 1. La fréquence (simple) d’une modalité xi , notée fi , est égale à la


proportion d’individus associés à cette modalité. Elle est donc égale à l’effectif de
cette modalité divisé par l’effectif total de la population.
2. La fréquence cumulée croissante d’une modalité xi est égale à la proportion d’indi-
vidus associés aux modalités inférieures ou égales à xi . Notation : F (xi ).
3. La fréquence cumulée décroissante d’une modalité xi est égale à la proportion d’in-
dividus associés aux modalités supérieures ou égales à xi .

Les trois sous-sections qui suivent traitent des paramètres de tendance centrale (ou de
position centrale ).

3.2.3 Le mode
Définition 3.2.2. Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les
individus sont les plus représentés.

Le terme mode vient du français à la mode, qui signifie “là où il y a du monde”. C’est
dans ce sens que le mode est un centre d’activité.

Calcul du mode
Variable discrète : modalité dont l’effectif est le plus élevé (ou plus grande fréquence
relative).
Variable continue : on cherche d’abord la classe ayant la plus grande densité : c’est
la classe modale. Le mode peur ensuite être défini (par exemple comme le centre de
cette classe).

Remarque 3.2.1. — Pour une variable continue, en général on ne donne que la classe
modale.
— Une série peut avoir plusieurs modes (en présence de maxima locaux de fréquence
ou densiéselon le type de variable) ; on parle de série plurimodale.

Les distributions observées des logements selon le type d’immeuble, dans les quatre
départements d’outre-mer (tableau 3.4), sont issues du recensement de 2008. Ces données
vont servir à introduire la notion de mode.

31
F IGURE 3.3 – Nombre de logements selon le type d’immeuble dans les DOM en 2008.

Nombre de logements selon le type d'immeuble dans les


DOM en 2008.
Maison ou immeuble en dur Maison ou immeuble en bois Case traditionnelle Habitation de fortune

241262
11575
Réunion
22182
2633

45428
10432
Guyane
2940
2712

147894
5326
Martinique
1493
2617

143374
8440
Guadeloupe
5311
1613

TABLE 3.4 – Distributions observées des logements selon le type d’immeuble en 2008
Exemple 3.2.2 (Les logements selon le type d’immeuble dans les départements d’outre-mer).
Guadeloupe Martinique Guyane Réunion
Habitation de fortune 1 613 2 617 2 712 2 633
Case traditionnelle 5 311 1 493 2 940 22 182
Maison ou immeuble en bois 8 440 5 326 10 432 11 575
Maison ou immeuble en dur 143 374 147 894 45 428 241 262
Ensemble 158 738 157 330 61 512 277 652
Source : Tableaux de l’économie française (TEF) 2001-2002, p. 15, Division recensement
de la population INSEE.
La lecture du tableau 3.4 et, de manière encore plus immédiate, l’observation de la figure
3.3 montrent que dans les quatre départements, les logements les plus nombreux sont les
maisons ou immeubles en dur. En langage technique : la modalité “maison ou immeuble en
dur ” est le mode des quatre distributions.

Chercher le rectangle le plus haut du diagramme en bâtons permet de repérer graphique-


ment le mode (figure 3.3).

32
Dans le cas où les données sont regroupées en classes d’amplitudes inégales, la solution
consiste à rechercher la classe modale qui tient compte des amplitudes des classes.

Définition 3.2.3. La densité d’observations d’une classe est égale au rapport fréquence (de
la classe) sur amplitude (de la classe).
La classe modale est la classe de la distribution groupée qui a la densité d’observations
la plus élevée.

Le tableau 3.5 présente les calculs de la densité pour l’année 2010. Les fréquences de
chaque classe sont obtenues en divisant l’effectif correspondant par l’effectif total (66 024).
Les amplitudes de classe sont égales à la différence entre la borne supérieure et la borne
inférieure de la classe (la dernière classe est supposée fermée à 80 ans). Enfin, la densité
d’observations est obtenue en calculant, pour chaque classe, le rapport fréquence/amplitude.

TABLE 3.5 – Densité d’observations des personnes incarcérées selon l’âge en France en
2010
Effectif Fréquence Amplitude Densité d’ob-
servations
De 16 ans à moins de 18 ans 607 607/66 024 2 0,005
De 18 ans à moins de 21 ans 4 883 0,074 3 0,025
De 21 ans à moins de 25 ans 11 438 0,173 4 0,043
De 25 ans à moins de 30 ans 13 399 0,203 5 0,041
De 30 ans à moins de 40 ans 17 146 0,260 10 0,026
De 40 ans à moins de 50 ans 10 874 0,165 10 0,016
De 50 ans à moins de 60 ans 5 321 0,081 10 0,008
60 ans ou plus 2 356 0,036 20 0,002
Ensemble 66 024

3.2.4 La médiane
Définition 3.2.4. La médiane est la valeur de la série (signifie une modalité) qui partage la
série en deux sous-ensembles de même effectif (ou de même fréquence).

Détermination de la médiane : les données sont observées de manière brute (série sta-
tistique ou données ponctuelles), le plus souvent une variable discrète .
La médiane est un centre de position lorsque les données quantitatives sont rangées par
ordre croissant. La détermination de la médiane est réalisée de façon différenciée en fonction
de la parité (paire ou impaire) de la taille de la série de données. L’exemple met en exergue
les raisons de cette distribution.
Le tableau 3.6 présente deux séries ordonnées suivant la densité de population au kilo-
mètre carré. Le rang central pour la série de l’Union européenne à 15 est le 8e rang. En effet,
7 pays ont un rang précédant celui du Portugal et 7 pays ont un rang suivant celui du Por-
tugal. La densité correspondante de 113 habitants au kilomètre carré est appelée la densité
médiane.

33
Exemple 3.2.3. En avril 2004, dix nouveaux pays sont entrés dans l’Union européenne.
Cette fois, la population de pays étant de taille dix, il n’y a pas à proprement parler de rang
central, mais deux pays qui occupent des rangs pseudo-centraux : la Slovénie et la Hongie.

TABLE 3.6 – Densité de population dans l’Union européenne à 15 et à 25

Union européenne à 15 Densité par Rang 10 nouveaux pays Densité par ha- Rang
Année 2003 habitant au Année 2004 bitant au km2
km2
Finlande 15 1 Estonie 31 1
Suède 20 2 Lettonie 36 2
Irlande 57 3 Lituanie 54 3
Espagne 82 4 Chypre 97 4
Grèce 83 5 Slovénie 99 5
Autriche 98 6 Hongrie 109 6
France métropolitaine 108 7 Slovaquie 110 7
Portugal 113 8 Pologne 119 8
Danemark 125 9 République tchèque 129 9
Italie 190 10 Malte 1 246 10
Luxembourg 193 11
Allemagne 231 12
Royaume-Uni 242 13
Belgique 341 14
Pays-Bas 397 15
Source : Tableaux de l’économie française (TEF), INSEE 2004-2005, p.11, d’après 2003,
fiche de données sur la population mondiale, Population référence bureau (PRB),
www.prb.org.
Dans cette situation, la médiane est la demi-somme (ou la moyenne)des densités de ces
deux pays (99 et 109) : la densité médiane est alors de 104 habitants au kilomètre carré
(tableau 3.6).
Définition 3.2.5. La médiane se détermine uniquement à partir de la distribution ordonnée.
1. Si le nombre N d’observations est impair, la médiane est l’observation qui occupe le
rang central de la série : Mé = x( N+1 ) .
2

2. Si le nombre N d’observations est pair, la médiane est la demi-somme des deux


observations qui occupent les deux rangs pseudo-centraux :
x( N ) + x( N +1)
Mé = 2 2
.
2
La notation x(i) signifie l’observation qui occupe le rang (i). La formule Mé = x( N+1 ) se
2
lie ainsi : “la médiane est égale à l’observation qui occupe le rang ( N 2+1 ).
L’île de Malte a une densité de 1 246 habitants au kilomètre carré, soit 40 fois plus que
la densité de la population en Estonie (rang 1) et environ 10 fois plus que la densité de la
République tchèque, pays classé au rang immédiatement inférieur.

34
Robustesse de la médiane Même si la densité de population de Malte était encore beau-
coup plus élevée, la médiane de la série resterait de 104 habitants au kilomètre carré. Ce
constat traduit en fait une propriété fondamentale de cet indicateur : la médiane n’est pas
influencée par les valeurs extrêmes de la série qu’elle résume. En particulier, si des valeurs
aberrantes sont saisies par erreur, par exemple 12 460 au lieu de 1 246, la médiane n’en est
pas affectée.

Proposition 3.2.1 (Robustesse de la médiane). La médiane est un indicateur dit robuste, car
de nombreuses observations peuvent varier sans que la médiane soit modifiée. Autrement dit,
la médiane résiste (ne “bouge” pas) à de fortes variations des données. 1

La robustesse de la médiane est très intéressante pour résumer la position des distribu-
tions qui, par nature, comportent des écarts importants entre les valeurs les plus faibles et
les plus élevées de la série. Le patrimoine, par exemple, est une variable qui ne prend au-
cune valeur négative, mais qui peut, en revanche, présenter des observations très élevées. La
médiane permet de “neutraliser” l’asymétrie de cette distribution.
Ainsi, résumer une distribution de patrimoines par le patrimoine médian est, a priori,
plus pertinent que de résumer cette distribution par le patrimoine moyen. En effet, la valeur
numérique du patrimoine moyen, contrairement à celle du patrimoine médian, dépend des
valeurs des plus grands patrimoines, détenus par quelques individus seulement.

Interprétation de la médiane : médiane et fréquences cumulées L’utilisation du terme


de médiane n’est pertinente que si la fréquence cumulée de celle-ci est très proche de 50%.
Les deux exemples qui suivent illustrent ce point.

1. À la limite, toutes les observations strictement inférieures à la médiane et toutes celles strictement supé-
rieures à la médiane peuvent changer sans la faire varier.

35
Exemple 3.2.4. La figure ?? présente les revenus salariaux médians des salariés du secteur
privé et semi-public de 25 à 55 ans selon la catégorie professionnelle.

36
F IGURE 3.4 – Revenus salariaux médians des salariés du secteur privé et semi-public,
France, année 2008.

Quel est l’intérêt d’avoir la médiane plutôt que la moyenne ? L’utilisation du salaire
moyen comme nombre-résumé conduirait à des contestations sur la représentativité d’un tel
paramètre. En effet, une critique facile consiste à dire que le salaire moyen des cadres est
trop influencé par les très hauts salaires de quelques dirigeants pour pouvoir le comparer
autres autres catégories socioprofessionnelles. Le choix du salaire médian comme indicateur
de position des revenus salariaux est ici tout à fait judicieux, puisqu’il s’agit d’un indicateur
robuste.

Exemple 3.2.5 (Médiane de la distribution des familles suivant le nombre d’enfants). La dé-
termination de la médiane de la distribution des familles suivant le nombre d’enfants impose
ici de calculer les effectifs cumulés des modalités (tableau 3.7).

37
TABLE 3.7 – Effectifs cumulés du nombre d’enfants par famille en 2008

Modalités Effectifs ni en milliers Fréquences Effectifs cumulés Ni F.C.C. Fi en %


fi en%
0 enfant 8 225 48 1 à 8 225 000 48
1 enfant 3 821 22 8 225 001 à 12 046 000 70
2 enfants 3 449 20 12 046 000 à 15 495 000 90
3 enfants 1 241 7 15 495 000 à 16 736 000 97
4 enfants et plus 396 3 16 736 000 à 17 132 000 100
Ensemble 17 132 100

Méthode 1 : Effectifs cumulés


Par définition, la médiane est la demi-somme des observations qui occupent les rangs
8 566 000 (17 132 000/2) et 8 566 001. D’après les effectifs cumulés du tableau 3.7, c’est
l’observation “1” qui occupe ces deux rangs. Autrement dit, “1” est la médiane de la distri-
bution du nombre d’enfants.
Méthode 2 : Fréquences cummulées F (Me) = 12 = 50% or 48 < 50 < 70 donc F (0) <
F (Me) < F (1) ainsi Me = 1.

Cela veut-il dire que 50 % des familles ont un nombre d’enfants inférieur ou égal à 1 ?
D’après la dernière colonne du tableau 3.7, la fréquence cumulée de l’observation “1” est
de 12 046 000/17 132 000, soit 70 %. En fait, “1” est loin d’occuper uniquement la place
centrale, “1” occupe en fait 3 821 000 rangs, d’où le résultat.

Que convient-il de faire ? Bien que l’observation “1” soit la médiane, dire seulement que
70 % des familles ont 0 ou 1 enfant est judicieux. De nombreux logiciels calculent la médiane
d’une série de données, mais. . . aucun logiciel ne fait les commentaires sur la pertinence de
l’utilisation du terme de médiane.

Pour assurer une bonne communication de l’information : utiliser le terme de médiane


seulement après avoir vérifié que la fréquence cumulée correspondante est très proche de
50 %.

Détermination de la médiane : les données sont regroupées (cas continu)

Exemple 3.2.6 (Exemple du revenu des ménages).

3.2.5 Quantile
Généralisation de la notion de médiane : les quantiles

Définition 3.2.6. Un quantile d’ordre α (pour (0, 1)) noté Qα est la valeur xi du caractère
observé qui partage la série en deux-ensembles ; une proportion α se situe en dessous de Qα
et une proportion 1 − α au dessus strictement de Qα .

38
Comme 50 % des observations occupent un rang qui précède celui occupé par la médiane,
cet indicateur s’appelle également le quantile d’ordre 50 %.
Le quantile d’ordre 10 %, appelé premier décile est noté D1 , est tel que 10 % des
observations occupent un rang qui suit celui de D1 . D’une manière générale :
Les familles des quantiles sont :
— Les centiles notés C1 (quantile d’ordre 1 %), C2 , . . . , C98 , C99 (quantile
d’ordre 99 %).*
— Les déciles notés D1 (quantile d’ordre 10 %), D2 , . . . , D8 , D9 (quantile
d’ordre 90 %).
— Les quartiles notés Q1 (quantile d’ordre 25 % Q1 = Q25% ), Q2 = Me
(quantile d’ordre 50 %), Q3 (quantile d’ordre 75 % Q3 = Q75% ).
— Le quantile d’ordre α% est toujours égal à la première observation (de la
série ordonnée) dont la fréquence cumulée est supérieure ou égale à α%
c’est-à-dire F (Qα ) = α.

Remarque 3.2.2. 1. La remarque sur l’utilisation du terme médiane s’applique à tous


les quantiles. Pour assurer une bonne communication de l’information, la recom-
mandation est, par exemple, d’employer le terme de premier décile (D1 ) seulement
après avoir vérifié que sa fréquence cumulée observée est très proche de la fréquence
“théorique” de 10%.
2. En général, l’utilisation des quantiles ne pose pas de problème de fréquence cumu-
lée pour les variables dont les observations sont nombreuses et variées. Les données
issues de variables quantitatives continues présentent souvent ces deux caractéris-
tiques. Lorsque les données sont nombreuses et peu variées, la prudence s’impose ;
ce cas de figure survient en particulier pour les variables quantitatives discrètes.
3. C50 , D5 et Q2 désignent tous trois la médiane.

Calcul des quantiles


— Les quantiles se calculent de manière similaire à la médiane.
— Ainsi pour des données regroupées (en classes) on a : si Qα ∈]xi ; xi+1 [

α − Fi
Qα = xi + (xi+1 − xi ) .
Fi+1 − Fi
Exemple 3.2.7. La représentation des salariés d’une entreprise en fonction de la prime de
fin d’années est la suivante :

39
Prime en F ni fi en % Fi en %
[0; 1000[ 18 2,1 2,1
[1000; 2000[ 44 5,1 7,2
[2000; 3000[ 112 13 20,2
[3000; 3500[ 120 14 34,2
[3500; 4000[ 138 16 50,2
[4000; 4500[ 164 19,1 69,3
[4500; 5000[ 106 12,3 81,6
[5000; 6000[ 98 11,4 93
[6000; 7000[ 52 6 99
[7000; 8000[ 8 1 100
Total 860 100 X
Calculons le quantile d’ordre 25% : Q1 = Q25% .
On utilise le tableau des F.C.C.
Q1 ∈]3000; 3500[
25 − 20, 2
Q1 = 3000 + (3500 − 3000) × = 3171, 43 F
34, 2 − 20, 2
25 % des employés ont une prime de fin d’année inférieure à 3171,43 F.
Q2 ∈]3500; 4000[ car les F.C.C. dépassent 50 %.
50 − 34, 2
Q2 = 3500 + (4000 − 3500) × = 3993, 75 F
50, 2 − 34, 2
50 % des employés ont une prime de fin d’année inférieure à 3993,75 F.
Q3 ∈]4500; 5000[ car les F.C.C. dépassent 75 %.
75 − 69, 3
Q3 = 4500 + (5000 − 4500) ×
81, 6 − 69, 3
75 % des employés ont une prime de fin d’année inférieure à Q3 F.
L’exemple suivant constitue une illustration classique d’utilisation des quantiles.
Exemple 3.2.8 (Niveau de vie des retraités). Le champ couvert par les données du tableau
3.8 est celui des personnes retraitées en France métropolitaine dans un ménage ordinaire
dont la personne de référence n’est pas étudiante. Le revenu déclaré du ménage est positif
ou nul. En 2008, 10 % des retraités ont un niveau de vie inférieur à 11 410 e. En queue de
distribution, les 5 % de retraités les plus aisés ont un niveau de vie supérieur à 45 350 e.
Le tableau 3.8 résume 12 960 000 niveaux de vie par l’utilisation de (seulement) 10
indicateurs de position. Le tableau présente une distribution groupée. Les classes de niveaux
de vie ont des amplitudes inégales, mais, par construction, correspondent chacune à 10 %
des effectifs (à l’exception de la dernière classe qui correspond à 5 % des effectifs).
L’amplitude de classe s’obtient en utilisant deux déciles successifs. Par exemple, 10 %
des retraités bénéficient d’un niveau de vie compris entre 21 000 e et 23 800 e, les 10
% suivants ont un niveau de vie compris entre 23 800 e et 28 320 e. Les niveaux de vie
minimum et maximum n’étant pas spécifiés, l’amplitude de la première classe et celle de la
dernière classe ne sont pas connues. La figure ... montre que l’amplitude de l’avant-dernière
classe est sensiblement plus grande que celle des classes précédentes, puisqu’elle comporte
des niveaux de vie allant de 36 470 e à 45 350 e.

40
TABLE 3.8 – Distribution groupée par déciles des niveaux de vie annuels
Individus retraités, année 2008
D1 11 410
D2 13 590
D3 15 370
D4 16 930
D5 18 770
D6 21 000
D7 23 800
D8 28 320
D9 36 470
C95 45 350
Nombre d’individus (en milliers) 12 960
Source : INSEE-DGI, Enquêtes revenus fiscaux et sociaux rétropolées 1996 à 2004,
INSEE-DGFiP-Cnaf-Cnav-CCMSA, Enquêtes revenus fiscaux et sociaux 2005 à 2008.

Deux conceptions de l’idée de centre d’une distribution ont été présentées :


— le mode en tant que centre d’activité,
— la médiane en tant que centre de rang.
La moyenne arithmétique est une troisième manière de formaliser l’idée de centre.

3.2.6 Un centre de gravité non robuste : la moyenne arithmétique


La moyenne arithmétique est sans doute le paramètre le plus connu. Elle est obtenue en
faisant la somme des observations et en divisant cette somme par le nombre d’observations.
Formellement :
Définition 3.2.7. La moyenne arithmétique d’une variable X, pour laquelle N observations
xi ont été relevées, est définie par :
N
1 % 1
m= xi = (x1 + x2 + · · · + xN ) .
N i=1 N

Remarque 3.2.3. 1. Pour une distribution observée {(xj ; nj ) ; j = 1 à k}, où nj est


$
l’effectif de la modalité xj et kj=1 nj = N, la moyenne est égale à :
k k
1 % %
m= nj xj = fj xj ,
N j=1 j=1

où fj est la fréquence de la modalité xj .


2. Si les données sont regroupées en classes, les xi ne sont pas observées. Ces valeurs
sont alors remplacées par les centres de classe, notés ci pour i = 1, · · · , p.
3. Si plusieurs variables sont en jeu, par exemple X et Y , la moyenne de X est notée
mX et celle de Y est notée mY .

41
4. En statistique inférentielle, on fera la distinction entre la moyenne mX de X cal-
culée sur toute la population de taille N et la moyenne, notée x̄n , calculée sur un
échantillon de taille n < N.

Non-robustesse, somme des écarts à la moyenne Une seule très mauvaise note peut sen-
siblement baisser la moyenne du semestre ...
Proposition 3.2.2 (Absence de robustesse de la moyenne). La moyenne arithmétique n’est
pas un indicateur robuste, car une seule valeur, en particulier aberrante, peut déplacer sen-
siblement la moyenne.
Peu d’individus calculent la moyenne des valeurs 8 et 12 en faisant l’opération 8+12 2
. En
effet, la valeur 10 est calculée car cette dernière est telle que 10-8=2 et 10-12=-2. Autrement
dit, la moyenne est telle que les écarts positifs entre les observations (8 et 12)et leur moyenne
compensent exactement les écarts négatifs entre les observations et leur moyenne. Cette
propriété est toujours vraie (même si la distribution est dissymétrique) car :
N
% N
% N
%
(xi − m) = xi − m = Nm − Nm = 0. (3.1)
i=1 i=1 i=1
Proposition 3.2.3. La somme des écarts entre toutes les observations d’une série et leur
moyenne arithmétique est toujours nulle.
Autrement dit, la moyenne arithmétique peut être interprétée comme le point d’équilibre
de la série. La détermination graphique de la moyenne est particulièrement simple lorsque la
série est symétrique : la moyenne est l’abscisse correspondant à l’axe de symétrie.

Calcul de la moyenne arithmétique par agrégation


Proposition 3.2.4. Soit une population de taille N étudiée suivant une variable statistique
X et composée de k sous-populations disjointes, de tailles connues (n1 , n2 , · · · , nk ) et de
moyennes connues (m1 , m2 , · · · , mk ).
La moyenne de X sur toute la population vaut alors :
k
n1 m1 + n2 m2 + · · · + nk mk %
m= = fj mj
n1 + n2 + · · · + nk j=1
nj
avec fj = N
pour j = 1, . . . , k.
Exemple 3.2.9. Le tableau 3.9 consigne les salaires mensuels nets moyens des trois catégo-
ries (A, B, C) d’agents titulaires des services civils de l’État pour les années 2007 et 2008,
ainsi que les parts de chaque catégorie.
La question est de déterminer pour les deux années le salaire mensuel net moyen de
l’ensemble de ces fonctionnaires titulaires.
La population des titulaires est composée de trois sous-populations. Pour chacune d’elles,
le salaire moyen et la fréquence sont connus, d’où, d’après la proposition 3.2.4 :
m = fA mA + fB mB + fC mC .
En 2007 : m2007 = 0, 616 · 2590 + 0, 186 · 2109 + 0, 198 · 1637 = 2312.
En 2008 : m2008 = 0, 642 · 2656 + 0, 191 · 2150 + 0, 167 · 1720 = 2403.

42
TABLE 3.9 – Salaires mensuels nets moyens des agents des services civils de l’État

Fréquences en pourcentage Salaires mensuels nets moyens (e)


2007 2008 2007 2008
Catégorie A 61,6 64,2 2 590 2 656
Catégorie B 18,6 19,1 2 109 2 150
Catégorie C 19,8 16,7 1 637 1 720
Titulaires A+B+C 100 100 ? ?
Champ : agents des services civils de l’État en France métropolitaine. Source : INSEE,
fichiers de paie des agents de l’État, www.insee.fr.

Moyenne et somme des observations

La somme des observations d’une série est égale au


produit de la moyenne arithmétique m par le nombre
d’observations N.
N N
1 % %
En effet, par définition : m = xi . D’où l’on déduit : xi = N · m.
N i=1 i=1
Cette propriété très simple a des conséquences intéressantes. D’après les résultats de
l’exemple 3.2.9, en 2008, le salaire annuel net moyen était de 2 403 e multiplié par douze,
soit 28 836 e. Le nombre d’agents était d’environ 1,6 million. Cela signifie qu’en 2008, la
masse salariale annuelle (nette) totale de ces agents était de 1 600 000 × 28 836, soit 46,1
MDe.
Du point de vue du fonctionnaire, pour se situer par rapport à ses collègues, la connais-
sance du salaire moyen est beaucoup moins intéressante que la connaissance du salaire mé-
dian. En revanche, du point de vue de l’État, connaître le salaire moyen signifie connaître la
masse salariale totale, ce qui constitue une information importante en terme de budget.

Transformation linéaire d’une variable statistique

Définition 3.2.8. Soit X une variable statistique dont les N observations sont notées xi .
L’écriture Y = aX + b, où a et b sont deux constantes, signifie que, pour tout i, les observa-
tions de la variable Y sont yi = axi + b.

La moyenne de Y est égale à :


N N N N
1 % 1 % 1 % 1 % 1
mY = yi = (axi + b) = a xi + b = amX + Nb = amX + b.
N i=1 N i=1 N i=1 N i=1 N

On en déduit la propriété suivante :

Proposition 3.2.5 (Linéarité de la moyenne arithmétique). Soit X et Y deux variables sta-


tistiques. Si Y = aX + b, alors mY = amX + b.

43
Cette propriété a des applications pratiques très utiles. En 2009, tous les titulaires de la
fonction publique ont bénéficié d’une augmentation de 1, 1%. Hors effet de structure (c’est-
à-dire, entre autres, des promotions et de l’ancienneté), le salaire moyen de 2009 est alors
égal au salaire moyen de 2008 multiplié par 1, 011. Par conséquent, la masse salariale 2009
sera égale à la masse salariale 2008 multipliée par 1, 011. Cette augmentation de 1, 1% coûte
donc 507 Me à l’État (sans parler des charges).

Moyenne d’une somme de variables statistiques

Définition 3.2.9. Soit X et Y deux variables statistiques définies sur la mm̂e population.
Pour chaque individu i, l’observation xi de X et l’observation yi de Y sont relevées. L’écri-
ture Z = X + Y signifie que, pour tout i : zi = xi + yi .

La définition implique alors :


N N N N
1 % 1 % 1 % 1 %
mZ = zi = (xi + yi ) = xi + yi = mX + mY .
N i=1 N i=1 N i=1 N i=1

Cette remarque connduit à formuler la proposition suivante :

Proposition 3.2.6 (Additivité de la moyenne arithmétique). Soit X, Y et Z trois variables


statistiques. Si Z = X + Y , alors mZ = mX + mY .

Le revenu disponible d’un ménage est égal à la somme de sa consommation et de son


épargne. L’application de la propriété ci-dessus permet de conclure que le revenu disponible
moyen de l’ensemble des ménages est égal à la somme de la consommation moyenne et de
l’épargne moyenne de l’ensemble des ménages.

Remarque
Il est souvent commode d’utiliser un changement de variable pour faciliter le

3.2.7 Moyenne géométrique


Exemple 3.2.10. Une action en bourse a évolué à la hausse de 10% l’année 1, puis a diminué
de 5% l’année 2 et de 5% l’année 3.
Quel est le taux moyen (noté tmoy ) d’évolution de cette action sur ces trois années ?

Définition 3.2.10. Soit la série statistique x1 , · · · , xp d’effectif n1 , · · · , np alors la moyenne


& n '1/n
géométrique notée en général x̄G est définie par : x̄G = xn1 1 × · · · × xp p où n = n1 +
· · · + np .

3.2.8 Moyenne harmonique


Elle permet de calculer des moyennes de ratios.

44
Exemple 3.2.11. Un coureur monte une côte de 1 km à la vitesse de 10 km/h et descend cette
même côte à la vitesse de 30 km/h.
Question : Quelle est la vitesse moyenne du coureur ?

Définition 3.2.11. Soit la série statistique x1 , · · · , xp d’effectif n1 , · · · , np alors la moyenne


n
harmonique notée en général x̄G est définie par : x̄H = n1 +···+ np où n = n1 + · · · + np .
x1 xp

3.2.9 Moyenne quadratique


Des situations existent où le chargé d’études, le financier, l’économiste, doit construire
un paramètre de position ad hoc permettant de résoudre le problème spécifique de synthèse
d’informations auquel il est confronté.
Un indicateur de position est construit pour répondre de manière quantitative et
résumée à la question “Où se situe la série de données ?” Par conséquent, reprocher
à un indicateur de position de ne pas donner d’information sur la dispersion de la
série est une critique inappropriée.

3.3 Résumer la dispersion des données


Il est possible que deux variables statistiques aient la même valeur centrale mais soient
complètement différentes du point de vue de la concentration ou de la dispersion des valeurs
observées autour de cette valeur centrale. Il est donc nécessaire de trouver des mesures per-
mettant d’apprécier la dispersion d’une série statistique ou d’une distribution observée. En
particulier, nous étudierons
1. l’étendue
2. les écarts et les intervalles interquantiles
3. les écarts absolus (moyen et médian)
4. les moments (écart-type, variance, etc.)
5. le cœfficient de variation

Exemple 3.3.1. Une série de 100 dépenses dont la moyenne est de 154 e correspond à une
dépense totale de 15 400 e. Par exemple, une dépense moyenne de 154 e peut s’obtenir en :
— dépensant 100 fois 154 e.
— ou en dépensant 99 fois 1 e et 1 fois 15 301 e.
La première série est caractérisée par une absence de dispersion, puisque toutes les ob-
servations sont les mêmes. En revanche, affirmer si la deuxième série a, ou non, une forte
dispersion est difficile, puisque 99 observations sur 100 sont égales et que seule une ob-
servation est très différente. Le problème est donc de construire des indicateurs numériques
permettant de quantifier cette dispersion.

La construction d’un paramètre de dispersion peut être abordée de deux manières (figure
3.5) :
— en cherchant à mesurer comment des paramètres de position s’écartent les uns des
autres,

45
F IGURE 3.5 – Modes de construction et familles d’indicateurs de dispersion

Deux questions pour deux modes de construction d’indicateurs de dispersion

Comment les paramètres de Comment les observations sont-


position s’écartent-ils les uns elles réparties par rapport à un
des autres nombre de référence ?

2 familles d’indicateurs de dispersion

— Étendue — Écarts absolus moyen et


— Écarts absolus inter- médian
déciles — Variance
— Écarts relatifs inter- — Écart type
déciles

— en cherchant à mesurer comment les observations s’écartent d’un “point” de réfé-


rence.
Deux grandes familles d’indicateurs de dispersion peuvent être ainsi distinguées. (voir figure
3.5).

3.3.1 L’étentue et les écarts inter-quantiles


L’étentue
Dans le désert, la différence entre la température maximale et la température minimale
peut atteindre 60◦ dans la même journée. Cet écart de 60◦ s’appelle l’amplitude thermique ;
le concept équivalent dans une série statistique est la notion d’étendue.
Définition 3.3.1. L’étendue d’une série est la différence entre le maximum et le minimum de
la série.
Ce paramètre a les défauts de ses qualités. C’est un indicateur très simple à déterminer
et à interpréter, mais qui ne tient compte que des deux observations extrêmes, susceptibles
d’être des données aberrantes. Pour pallier cet inconvénient, une idée consiste à “éliminer
” de la mesure de dispersion une certaine proportion d’observations aux extrémités de la
distribution (appelées queues de distribution ).

Les écarts et les intervalles inter-quantiles


Ainsi, l’écart absolu inter-déciles D9 − D1 écarte les 10 % d’observations les plus petites
et les 10 % d’observations les plus grandes. Ce paramètre donne ainsi une mesure de la
dispersion qui concerne les 80 % d’observations centrales (au sens de la médiane, c’est-à-
dire en termes de rang).

46
L’écart absolu inter-centiles C99 − C1 n’écarte quant à lui que 1 % à gauche et 1 % à
droite de la distribution.
Dans le même ordre d’idée, une solution alternative consiste à calculer non pas la diffé-
rence D9 − D1 , mais l’écart relatif de la forme D9 /D1 .

Définition 3.3.2. 1. Un écart absolu inter-quantiles est une différence entre deux quan-
tiles (déciles, quartiles, centiles).
2. Un écart relatif inter-quantiles est un rapport entre deux quantiles (déciles, quar-
tiles, centiles).
3. L’intervalle interquartile est l’intervalle [Q1 , Q3 [ qui contient 50% des observations.
4. L’intervalle interdécile est l’intervalle [D1 , D9 [ qui contient 80% des observations.
5. L’intervalle intercentile est l’intervalle [C1 , C99 [ qui contient 98% des observations.

Ces écarts permettent de mesurer la dispersion de la série autour de la médiane. Plus ces
écarts sont grands et plus la série est dispersée. Du fait que l’on ne tienne pas compte des
observations faibles ou élevées, ces caractéristiques sont moins sensibles aux fluctuations de
l’échantillon que l’étendue.

Remarque 3.3.1. 1. L’indicateur Q3 − Q1 s’appelle l’écart absolu inter-quartiles. Il


est noté IQR par certains logiciels.
2. Les écarts absolus inter-quantiles les plus utilisés sont : C99 −C1 , D9 −D1 , Q3 −Q1 .
3. Les écarts relatif ou rapports inter-quantiles les plus utilisés sont : D9 /D1 et Q3 /Q1 .
4. L’indicateur relatif QMé
3 −Q1
est également couramment utilisé.

Les distributions de salaires constituent un domaine typique d’utilisation des déciles


comme paramètres de position. Logiquement, il en va de même pour l’utilisation des écarts
absolus ou relatifs inter-déciles traités dans l’exemple ci-après.

Exemple 3.3.2. Salaires dans les métiers du commerce


Le champ couvert par les données du tableau 3.10 est celui des salariés en équivalent
temps plein dans le secteur du commerce.

Comparaison de l’évolution de la carrière des cadres à celle des ouvriers La borne


inférieure des 10% d’ouvriers les mieux payés vaut 1, 6 fois la borne supérieure des 10%
d’ouvriers les moins bien payés, contre un rapport de 2, 9 chez les cadres. Ainsi, plus la ca-
tégorie professionnelle s’élève, plus l’écart relatif inter-décile augmente. Ce résultat donne
une mesure quantitative du fait que l’évolution de carrière des cadres est plus marquée que
celle des ouvriers.
La conclusion est la même en utilisant l’écart absolu inter-déciles. Celui-ci s’élève à
47389 euros pour les cadres, contre 366 euros pour les ouvriers.

47
Ensemble Cadres* Professions intermédiaires Employés Ouvriers
D1 13 279 24 524 15 387 12 792 13 301
Q1 14 542 30 743 17 883 13 654 14 556
D5 17 123 38 690 21 430 14 915 16 377
Q3 22 893 50 730 26 060 16 875 18 790
D9 35 296 71 913 32 803 19 871 21 667
D9-D1 22 017 47 389 17 416 7 079 8 366
D9/D1 2,7 2,9 2,1 1,6 1,6

TABLE 3.10 – Quantiles des salaires annuels nets dans le secteur du commerce par catégories
socioprofessionnelles (CSP), année 2008
Champs : France métropolitaine, salariés en équivalent temps plein du secteur du commerce
*Sont inclus dans les cadres les chefs d’entreprise salariés. Source : INSEE, DADS (Décla-
ration annuelles de données sociales) 2008 définitif (exploitation au 1/12).

Comparaison de l’évolution de la carrière des employés à celle des ouvriers En disper-


sion absolue, c’est-à-dire mesurée par l’écart absolu inter-déciles, les salaires des employés
sont moins dispersés que ceux des ouvriers. En revanche, la mesure relative est la même chez
les employés que chez les ouvriers.
Ce constat montre la complémentarité des deux indicateurs ainsi que la difficulté à définir
la dispersion d’une série.

Par exemple, la qualité d’un produit est un concept complexe et fondamentalement qua-
litatif, à ne pas confondre avec des indicateurs de qualité censés donner une mesure quantita-
tive des “symptômes” de la qualité. De même, le concept de dispersion est difficile à définir
et se distingue des indicateurs de dispersion, qui sont des tentatives pour résumer de manière
quantitative ce concept.
Les indicateurs qui viennent d’être examinés s’appuient sur des écarts absolus ou relatifs
entre deux paramètres de position (le minimum et le maximum, ou deux quantiles particu-
liers).

3.3.2 Le box plot ou la boîte à moustaches


Crée par John Wilder Tukey (1915-2000), le box plot, également appelé boîte à mous-
taches, est une représentation graphique qui réunit plusieurs paramètres de position d’une
variable quantitative. Les limites de la boîte (figure 2.15) sont le premier et le troisième
quartile. À l’intérieur de la boîte figure la médiane. Les moustaches sont tracées (en gé-
néral) jusqu’aux valeurs extrêmes, à concurrence de 1,5 fois l’écart absolu inter-quartiles.
Les points au-delà des moustaches sont qualifiés d’atypiques (parfois marqués par des asté-
risques).
Le box plot représente de nombreux écarts inter-quantiles (largeur de la boîte, longueur

48
h (cm)
155 160 165 170 175 180 185 190
F IGURE 3.6 – Box plot ou boîte à moustaches

des moustaches, etc.) et permet ainsi de visualiser la dispersion de la série. Son observation
met également en évidence la symétrie ou la non-symétrie de la série (médiane au centre de
la boîte, moustaches symétriques).
Le box plot permet de repérer les points atypiques, voire aberrants, d’une distribution,
mais également de comparer les valeurs d’une même variable saisies sur des populations de
tailles différentes (en superposant plusieurs box plots ).

Exemple 3.3.3. Le tableau suivant donne le salaire mensuel de départ d’un échantillon de
12 diplômés d’une école de commerce.

Diplômé Salaire de départ Diplômé Salaire de départ

1 3450 7 3490

2 3550 8 3730

3 3650 9 3540

4 3480 10 3925

5 3355 11 3520

6 3310 12 3480

La sous-section suivante traite d’indicateurs de dispersion construits différemment (fi-


gure 2.14).

3.3.3 L’écart absolu moyen, la variance et l’écart type


L’objectif est de construire des indicateurs de dispersion qui mesurent comment les ob-
servations d’une série s’écartent d’une valeur de référence. Les questions et les réponses qui
permettent d’effectuer cette construction sont détaillées à partir de l’exemple 3.11.

Exemple 3.3.4. Dispersion des âges d’un groupe de 20 personnes

49
La première colonne du tableau 3.11 consigne la série ordonnée des âges de 20 per-
sonnes.

TABLE 3.11 – Séries des âges et construction d’indicateurs de dispersion

Série ordonnée Série des écarts Série des écarts Série des carrés Série des écarts
des âges (1) entre les obser- en valeur abso- des écarts entre en valeur abso-
vations et leur lue entre les ob- les observations et lue entre les ob-
moyenne (2) servations et leur leur moyenne (4) servations et leur
moyenne (3) médiane (5)
xi yi = xi − mX zi = |xi − mX | wi = (xi − mX )2 ti = |xi − Me|
30 -17,9 17,9 320,41 17,5
36 -11,9 11,9 141,61 11,5
41 -6,9 6,9 47,61 6,5
42 -5,9 5,9 34,81 5,5
42 -5,9 5,9 34,81 5,5
44 -3,9 3,9 15,21 3,5
46 -1,9 1,9 3,61 1,5
47 -0,9 0,9 0,81 0,5
47 -0,9 0,9 0,81 0,5
47 -0,9 0,9 0,81 0,5
48 0,1 0,1 0,01 0,5
49 1,1 1,1 1,21 1,5
50 2,1 2,1 4,41 2,5
52 4,1 4,1 16,81 4,5
52 4,1 4,1 16,81 4,5
54 6,1 6,1 37,21 6,5
55 7,1 7,1 50,41 7,5
57 9,1 9,1 82,81 9,5
58 10,1 10,1 102,01 10,5
61 13,1 13,1 171,61 13,5
mX = 47, 9 mY = 0 mZ = 5, 7 mw = 54, 19 mT = 5, 7

50
Comment choisir un nombre de référence ? L’idée est de choisir un nombre qui a du sens
par rapport à la série des âges, par exemple un paramètre de position comme la moyenne ou
la médiane. Choisissons l’âge moyen, qui est ici de 47,9 ans (de la même façon, l’âge médian
peut être retenu).

Comment mesurer la manière dont les âges s’écartent de la moyenne de 47,9 ans ?
L’idée la plus immédiate consiste, pour chaque observation xi , à calculer l’écart yi = xi −
mX comme indiqué dans la colonne (2). Ce faisant, une série de 20 écarts est obtenue. Or,
l’objectif n’est pas de donner 20 mesures de la dispersion, mais une seule.

Comment résumer par un seul nombre la position de ces 20 mesures de dispersion


Choisir la moyenne arithmétique de ces écarts n’est pas une bonne idée, puisque celle-ci est
nulle par la relation (3.1). Il y a au moins trois possibilités pour résoudre le problème :
• calculer les écarts en valeur absolue entre les observations et leur moyenne [colonne
(3)].
• calculer le carré des écarts entre les observations et leur moyenne [colonne (4)].
• calculer les écarts en valeur absolue entre les observations et leur médiane [colonne
(5)].
Il convient à nouveau de résumer en termes de position ces trois séries de 20 indicateurs
de dispersion. Le choix de la moyenne ne pose maintenant plus de problème.
N N
1 % 1 %
La moyenne mZ = zi = |xi − mX | est égale à 5,7 et s’appelle l’écart
N i=1 N i=1
absolu moyen.
N N
1 % 1 %
La moyenne mW = wi = (xi − mX )2 vaut 54,2 et s’appelle la variance.
N i=1 N i=1
N N
1 % 1 %
La moyenne mT = zi = |xi − Me| est égale à 5,7 et s’appelle l’écart
N i=1 N i=1
absolu médian.
Il convient d’examiner l’unité de la variance avant de l’interpréter. Les observations xi
sont en années, l’âge moyen est en années, chaque différence xi − mX est donc exprimée en
années. En élevant ces écarts au carré, le résultat est exprimé en années au carré. La variance
est donc de 54,19 ans au carré, ce qui n’a pas une interprétation concrète. La racine carrée
de la variance permet de revenir à un indicateur exprimé dans la même unité que la série
d’origine.
L’écart type vaut 7,4 dans l’exemple.

Définition 3.3.3. Soit {xi , i = 1 à N} une série de N observations d’une variable X.


N
1 %
1. L’écart absolu moyen, noté emX , est défini par : emX = |xi − mX |.
N i=1
N
1 %
2. L’écart absolu médian, noté eM e , est défini par : eM e = |xi − mX |.
N i=1

51
N
1 %
3. La variance, notée σ ou V ar(X), est définie par : σ =
2 2
(xi − mX )2 .
N i=1
(
) N
)1 %
4. L’écart type, notée σ, est définie par : σ = * (xi − mX )2 .
N i=1

Remarque 3.3.2. 1. Pour une distribution observée {(xj ; nj ) ; j = 1 à k}, où nj est


$
l’effectif de la modalité xj et kj=1 nj = N, la variance est égale à :

N
1 %
2
σ = nj (xi − mX )2 .
N i=1

2. En faisant figurer N à l’intérieur du signe somme, la formule précédente s’écrit :


N
% N
%
nj 2
2
σ = (xi − mX ) = fj (xi − mX )2 ,
i=1
N i=1

où fj est la fréquence de la modalité xj .


3. L’écart absolu moyen, noté emX , est défini par :
N N
1 % %
emX = ni |xi − mX | = fi |xi − mX |.
N i=1 i=1

4. L’écart absolu médian, noté eM e , est défini par :


N N
1 % %
eM e = ni |xi − mX | = fi |xi − mX |.
N i=1 i=1

5. En statistique inférentielle, la distinction est faite entre la moyenne mX de X cal-


culée sur toute la population de taille N et la moyenne, notée x̄n , calculée sur un
échantillon de taille n < N.
n
1%
6. De la même manière, sont notés sn = 2
(xi − x̄n )2 la variance de X calculée
n
( i=1
) n
)1 %
sur un échantillon de taille n et sn = * (xi − x̄n )2 l’écart-type de X calculé
n i=1
sur ce même échantillon de taille n.

Pour toute distribution statistique, on a :

eM e ≤ ex̄ ≤ σ

52
xi (modalités) 2 4 7 12 15 Somme

ni (effectifs) 4 2 5 7 2

ni xi

|xi − x̄|

ni |xi − x̄|
Exemple 3.3.5.
|xi − Me|

ni |xi − Me|

(xi − x̄)

ni (xi − x̄)2

ni x2i

Interprétation conjointe de la moyenne et de l’écart-type


Proposition 3.3.1 (Inégalité de Bienaymé-Tchebychev (IBT)). Pour toute série d’observa-
tions de moyenne m, d’écart-type σ et pour tout nombre réel k supérieur à 1, l’intervalle
[m − kσ; m + kσ] contient une proportion d’observations au moins égale à 1 − 1/k 2 .

Le plus simple est de choisir une valeur entière pour k. En prenant k = 2 avec m = 47, 9
et σ = 7, 4 de l’exemple des âges :

3.3.4 Les moments centrés et les moments non centrés d’ordre p


Les moments non centrés d’ordre p
Soit la distribution statistique (xi , ni ) où i ∈ {1, . . . , r}. On appelle moment non centré
d’ordre p de la variable statistique X, la quantité définie par :
r r
1 % %
mp = ni xpi avec N = ni
N i=1 i=1

que l’on peut écrire de la façon suivante si l’on utilise les fréquences :
r
% ni
mp = fi xpi avec fi = .
i=1
N

53
Les moments centrés d’ordre p
Soit la distribution statistique (xi , ni ) où i ∈ {1, . . . , r}. On appelle moment centré (sur
la moyenne arithmétique) d’ordre p de la variable statistique X, la quantité définie par :
r r
1 % & 'p %
µp = ni xi − X̄ avec N= ni
N i=1 i=1

que l’on peut écrire de la façon suivante si l’on utilise les fréquences :
r
% & 'p ni
µp = fi xi − X̄ avec fi = .
i=1
N

On peut démontrer que :

µ2 = m2 − m21
µ3 = m3 − 3m1 m2 + 2m31
µ4 = m4 − 4m1 m3 + 6m21 m2 − 3m41 .

Le moment centré d’ordre 1 est toujours nul (µ1 = 0) et le moment centré d’ordre 2 est en
fait la variance (µ2 = s2X ).

3.3.5 Cœfficient de variation


Exemple 3.3.6. — Soit x la série statistique de 4 produits en Francs : 100 F, 200 F, 300
F et 400 F.
— Soit y la série statistique de 4 produits en euros : 15 e, 30 e, 45 eet 60 e.
— Intuitivement, ces deux séries sont dispersées de la même manière. Or σx = 111, 8F
et σy = 16, 8 e.
— Conclusion : Pour comparer les deux séries qui ne sont pas dans la même unité, il
faut transformer les caractéristiques de dispersion.

Cœfficient de variation
Le cœfficient de variation est un paramètre de dispersion qualifié de relatif. En effet, ce
paramètre rapporte la valeur de l’écart type à celle de la moyenne de la série.
σx
CV =

c’est le pourcentage (%) de variation par rapport à la moyenne, il est sans unité.
σx 111, 8
CV1 = = = 0, 45
x̄ 250
et
σy 16, 8
CV2 = = = 0, 45
ȳ 37, 5

54
Interprétation
— Si CV est inférieur à 30% alors on peut accepter que la moyenne draine avec elle
beaucoup d’observations. Elle représente bien la variable. (On dit que la distribution
est homogène.
— Si CV est supérieur ou égal à 30%, alors la moyenne n’est pas significative. Au
contraire cela indique l’existence de groupes homogènes opposés entre eux. (On dit
que la distribution est hétérogène.

3.4 Les caractéristiques de forme


Les différents indicateurs d’asymétrie et d’aplatissement permettent en premier lieu la
comparaison entre les distributions statistiques :
• l’asymétrie d’une distribution peut être approchée par une comparaison entre le mode,
la médiane et la moyenne arithmétique. On distingue trois types de distributions :
— les distributions dissymétriques à gauche : mode < médiane < moyenne ;
— les distributions symétriques : mode = médiane = moyenne ;
— les distributions dissymétriques à droite : mode > médiane > moyenne.
On peut se rendre compte du caractère symétrique ou non d’une distribution en ana-
lysant le diagramme en bâtons, l’histogramme des effectifs. L’examen de la boîte à
moustaches permet d’avoir une idée de la symétrie de la distribution selon que la
boîte et les moustaches sont symétriques ou, au contraire, de plus petite amplitude à
gauche (asymétrie à gauche) ou à droite (asymétrie à droite).
• l’aplatissement peut être approché par l’étude des observations aux alentours du mode :
plus le nombre d’individus ayant une valeur proche du mode de la distribution est
élevé, plus la courbe sera concentrée et plus l’aplatissement sera faible.

3.4.1 L’asymétrie (ou dissymétrie)


Une seconde approche de la mesure de l’asymétrie est réalisée grâce à la notion de mo-
ment centré. Les indicateurs sont ceux de Pearson et de Fisher.
• Le cœfficient d’asymétrie de Pearson
µ23
AP =
µ32
où µ est le moment centré sur la moyenne arithmétique. Ce cœfficient s’écrit d’une
façon plus simple en utilisant les moments non centés.
Si AP est nul, alors la distribution est symétrique. Si Ap est positif, alors il y a asy-
métrie.
• Le cœfficient d’asymétrie de Fisher C’est la racine carrée du cœfficient de Pearson :
,
+ µ23 µ3
AF = AP = 3
= 3.
µ2 σ
Lorsqu’il est calculé directement, il est possible d’écrire que :

55
— Si AF = 0, la distribution est symétrique ;
— Si AF > 0, la distribution est étalée vers la droite (biais positif).
— Si AF < 0, la distribution est étalée vers la gauche (biais négatif).
Le cœfficient de Yule Il est défini par :

(Q3 − Q2 ) − (Q2 − Q1 )
CD =
Q3 − Q1
Q1 , Q2 , Q3 sont des quartiles.
CD est comparé à 0.
— Si CD = 0, la distribution est symétrique ;
— Si CD > 0, la distribution est étalée vers la droite (biais positif).
— Si CD < 0, la distribution est étalée vers la gauche (biais négatif).

3.4.2 L’aplatissement
On utilise le moment centré d’ordre 4 et la variance de la distribution statistique pour
avoir l’indicateur d’aplatissement.
• Le cœfficient d’aplatissement de Pearson
µ4
APP =
µ22
où µ est le moment centré sur la moyenne arithmétique.
On sait également que : µ22 = (σ 2 )2 = σ 4 .
Le cœfficient prend donc aussi la forme suivante :
µ4
APP =
σ4
— Si APP = 3 alors la distribution est dite “normale” (courbe “en cloche” de Gauss)
ou mésokurtique.
— Si AP > 3, alors la distribution est dite moins aplatie que la “normale” (distribu-
tion hypernormale) ou leptokurtique.
— Si AP < 3, alors la distribution est dite plus aplatie que la “normale” (distribution
hyponormale) ou platykurtique .
• Le cœfficient d’aplatissement de Fisher
µ4
APF = − 3.
µ22

— Si APF = 0, alors la distribution est dite “normale” ou mésokurtique.


— Si APF > 0, alors la distribution est dite plus aplatie que la “normale” ou platy-
kurtique.
— Si APF < 0, alors la distribution est dite moins aplatie que la “normale” ou
leptokurtique.

56
3.5 Le concept de concentration
Six questions générales nous intéressent.

Quelle est la différence entre l’étude de la dispersion et celle de la concentration ? Les


paramètres de dispersion étudiés à la section 2 donnent une mesure quantitative et résumée
de la manière dont les observations d’une variable (figure 2.19) sont réparties. Par exemple,
l’écart type d’une distribution de salaires donne une mesure synthétique desécarts entre les
salaires de chaque individu et le salaire moyen de l’ensemble de la population.
L’étude de la concentration d’une distribution de salaires consiste à mettre en évidence la
manière dont des groupes d’individus (classés par salaires croissants) disposent de telle ou
telle part du salaire total.
Dispersion— Concerne la répartition des observations d’une variable
Concentration—-
Concerne la répartition de la SOMME des observations d’une variable

Une dispersion forte implique-t-elle une concentration faible ? La concentration n’est


pas l’inverse de la dispersion. En effet, si les salaires sont très dispersés, alors une faible
proportion d’individus peut bénéficier d’une part importante de la masse salariale totale.
Autrement dit, une proportion réduite d’individus peut “concentrer” une forte proportion du
total des salaires, ce qui correspond à une concentration également élevée.

L’étude de la concentration est-elle toujours possible ? La question de ’étude de la


concentration se pose uniquement pour les variables quantitatives (car il faut pouvoir classer
les observations par ordre croissant) et lorsque le cumul, c’est-à-dire la somme des observa-
tions de la variable, a un sens concret.
Ainsi, dans le cas d’une population de personnes étudiées suivant leur taille, classer les
individus par classes de tailles croissantes est possible. Par exemple, ceux dont la taille est
comprise entre 150 cm et 160 cm, puis ceux qui ont une taille comprise entre 160 cm et 170
cm. En revanche, l’addition des tailles de tous les individus de la population n’a pas de sens.
Chercher à savoir quelle part du total des tailles est associée aux personnes qui mesurent
entre 160 cm et 170 cm n’a donc pas de sens.

En quoi l’étude de la concentration est-elle intéressante ? Les raisons qui conduisent à


étudier la concentration dépendent du contexte :
• Chercher quelle part de salariés se partage quelle part de la masse salariale revient à
s’interroger sur le caractère égalitaire ou non de la distribution des richesses. Il en va
de même pour des patrimoines.
• Calculer la part de clients qui génère telle ou telle part de chiffre d’affaires est utile
pour définir des orientations stratégiques.
• Connaître la part de clients à l’origine de telle ou telle proportion de réclamations
permet d’orienter le travail du service qualité.
• Etc.

57
Qu’est-ce que le principe de de Pareto ou la “loi” des 80-20 ? Le qualiticien Joseph
Juran a attribué en 1954 à l’économiste italien Vilfredo Pareto (1848-1923) l’observation
suivant laquelle environ 80 % des effets sont le produit de 20 % des causes (par exemple, 80
% des réclamations sont générées par 20 % des clients). Le terme de “loi” est excessif dans
la mesure où ce phénomène empirique ne s’observe que dans certains domaines. C’est ainsi
dans le domaine de la répartition des richesses de plusieurs pays que Vilfredo Pareto a fait
cette constatation.

Quelles sont les principales méthodes de résumé de la concentration ? Les trois princi-
pales sont présentées ci-après. Ces trois approches sont complémentaires et l’une ou l’autre
peut suffire selon les besoins.

TABLE 3.12 – Trois approches de la concentration.


Résumé par un ensemble de parts ⇒ Calcul des agrégats

Résumé graphique ⇒ Courbe de Lorenz

Résumé par un seul indicateur ⇒ Indice de Gini

3.5.1 Etude de la concentration par le calcul des agrégats de salaires


L’exemple 3.5.1 explicite les méthodes de calcul appliquées à la concentration des sa-
laires dans les entreprises du secteur privé (France).

Exemple 3.5.1 (Salaires dans les entreprises du secteur privé, années 1975 et 2005). Les
trois premières colonnes du tableau 3.13 se lisent de la manière suivante : en 1975, les 20 %
d’individus aux salaires les plus bas gagnaient entre 7 333 e et 8 596 e par an ; les 20 %
d’individus aux salaires les plus élevés gagnaient entre 21 515 e et 50 545 e par an. Pour
mettre en évidence la concentration, un premier moyen consiste à calculer, à partir des trois
premières colonnes du tableau 3.13, la part du salaire total distribuée à chacune des cinq
classes de salariés.

TABLE 3.13 – Classes de salaires dans les entreprises du secteur privé en France (valeurs
estimées), année 1975.

58
Proportion de Borne inférieure Borne supé- Estimation du Part de la
salariés en % du salaire rieure du salaire salaire moyen masse sala-
de la classe riale en % :
agrégats de
salaires en %

(1) (2) (3) (4) (5)

20 7 333 8 596 7 965 9,4

20 8 596 11 111 9 853 11,6

20 11 111 14 691 12 901 15,2

20 14 691 21 515 18 103 21,3

20 21 515 50 545 36 030 42,5

Ensemble 16 970 100

Définition 3.5.1 (Les valeurs globales). Soit une série statistique comportant n observations
ordonnées dans un tableau statistique (xi ; ni ), présentant r modalités.
— La masse (ou agrégat ou valeur globale) associée à la modalité xi d’effectif ni est la
quantité définie par : ni x$ i.
p
— La masse totale : S = i=1 ni xi (appelée masse salariale totale dans le cas des
salaires).
— La part de la masse totale (ou masse relative ou valeur globale relative) associée à
la modalité xi , notée qi , est la quantité définie par : qi = !pni xni i xi .
i=1
— Les masses relatives cumulées croissantes (ou valeurs $i globales relatives cumulées
croissantes) sont notées Qi et définies par : Qi = k=1 qk .

Médiale
La médiale est une médiane calculée relativement aux valeurs globales relatives (au lieu
des fréquences). Elle est notée Mle.

3.5.2 Notion de concentration


Elle se comprend facilement sur un exemple. Considérons la distribution des salariés
d’une entreprise.
Les salariés sont divisés en n classes : la ième classe [bi , bi+1 [ a pour centre xi et pour
effectif ni . On note Fi la F.C.C. de bi+1 : c’est la proportion de salariés dont le salaire est
strictement plus petit que bi+1 .
On note Qi la proportion de masse salariale représentée par les salariés dont le salaire
est strictement plus petit que bi+1 .

59
Une série statistique est dite concentrée si une faible proportion des individus observés
possède une forte proportion des valeurs globales.

Exemple 3.5.2. Si 30% des salariés reçoivent 80 % de la masse salariale, alors on dit que
la distribution est fortement concentrée ; elle est dite inégalaire.

Exemple 3.5.3. Pour une autre série statistique représentant le salaire, si 33% des salariés
reçoivent 30 % de la masse salariale, alors on dit que la distribution est peu concentrée ;
elle est dite égalaire (l’écart entre la médiale et la médiane est faible).

Propriété 3.5.1. La comparaison des valeurs de la médiale et de la médiane constitue une


mesure de concentration.
On a toujours : Mle > Me.

Ecart de concentration
L’écart de concentration est le rapport de l’écart entre la médiale et la médiane à l’éten-
due. On le note E. Il permet de mesurer la concentration.
∆ Mle − Me
E= =
W xmax − xmin
0 < E < 1.
E est d’autant plus grand que la concentration est forte. La distribution est égalitaire si
la concentration est faible.
Soit N la taille inconnue de la population. L’effectif de chaque classe est égal à 0, 2 × N.
La masse salariale des 20 % de salariés les moins bien rémunérés est donc égale à : (0, 2 ×
N) × 7965 e.
Pour la même raison, la masse salariale totale, c’est-à-dire celle des 100 % d’indivi-
dus, vaut : (1 × N) × 16970 e. La part de la masse salariale totale détenue par les 20 %
d’individus de la première classe est donc de :

(0, 2 × N) × 7965 0, 2 × 7965


= = 9, 4%.
(1 × N) × 16970 16970

Le calcul est effectué de la même manière pour les autres classes [tableau 3.13, colonne (5)].
Ainsi, l’agrégat de la dernière classe est de 42,5 %. Autrement dit, les 20 % d’individus les
mieux payés se partagent 42,5 % de la masse salariale de l’ensemble des salariés.
Le tableau 3.14 présente la distribution classée des salaires pour l’année 2005. Le même
raisonnement conduit aux calculs des parts de la masse salariale détenues par chaque classe
de salariés.

TABLE 3.14 – Classes de salaires dans les entreprises du secteur privé en France (valeurs
estimées), année 2005.

60
Proportion de Borne inférieure Borne supé- Estimation du Part de la
salariés en % du salaire rieure du salaire salaire moyen masse sala-
de la classe riale en % :
agrégats de
salaires en %

(1) (2) (3) (4) (5)

20 11 000 12 8946 11 947 11,2

20 12 894 15 555 14 225 13,3

20 15 555 19 098 17 327 16,2

20 19 098 25 818 22 458 21,1

20 25 818 55 600 40 709 38,2

Ensemble 21 333 100

Le tableau 3.15, construit à partir des résultats des deux tableaux précédents, permet de
comparer la concentration des salaires de l’année 1975 à celle de 2005.

TABLE 3.15 – Comparaison des agrégats de salaires des années 1975 et 2005.

Proportion de Part de la masse Part de la masse


salariés en % salariale en % salariale en %
en 1975 en 2005

20 9,4 11,2

20 11,6 13,3

20 15,2 16,2

20 21,3 21,1

20 42,5 38,2

Ensemble 100 100

Ainsi, en 1975, les 20 % de salariés du secteur privé les moins bien payés se partageaient 9,4
% de la masse salariale totale. Cette part est plus importante en 2005, puisqu’elle est de 11,2
%. Pour les trois premières classes, l’évolution est comparable : pour la même proportion

61
d’individus, la part qu’ils se partagent augmente. En revanche, pour les 20 % de plus hauts
salaires, la part diminue de 42,5 % à 38,2 %.
L’observation du tableau 3.15 permet donc de conclure à une diminution de la concen-
tration des salaires entre 1975 et 2005. La répartition de 2005 est moins inégalitaire que
celle de 1975.
Si l’objectif était de connaître l’évolution quantitative des inégalités entre 1975 et 2005,
alors le calcul des agrégats qui vient d’être réalisé est pertinent. En revanche, si l’objectif
est de disposer d’un outil graphique qui permette de conclure en un coup d’œil au sens de
l’évolution des inégalités, alors l’étude doit être complétée par la construction de la courbe
de Lorenz.

3.5.3 Étude graphique de la concentration : la courbe de Lorenz


Le tableau 3.16 est construit par cumul des résultats du tableau 3.15.

TABLE 3.16 – Agrégats cumulés de salaires, années 1975 et 2005.

Proportion cumulée Part cumulée de la masse sa- Part cumulée de la masse sa-
de salariés en % lariale en % en 1975 (agré- lariale en % en 2005 (agré-
(fréquence cumulée) gat cumulé de salaires) gat cumulé de salaires)

20 9,4 11,2

40 21,0 24,5

60 36,2 40,8

80 57,5 61,8

100 100 100

la lecture du tableau 3.16 montre qu’en 1975, les 80 % des salariés les moins bien payés se
partageaient 57,5 % de la masse salariale totale et que cette part a augmentée, pour s’élever
à 61,8 % en 2005.
La figure ?? est construite en portant en abscisse les proportions cumulées de salariés
(fréquences cumulées) et en ordonnée les parts cumulées de la masse salariale (agrégats
cumulés). Les courbes représentées pour les années 1975 et 2005 s’appellent des courbes de
Lorenz.

Comment interpréter une courbe de Lorenz ? Par construction, la courbe de Lorenz est
située entre la diagonale du carré et une courbe qui suit le contour du triangle inférieur
délimité par l’axe horizontal, la diagonale et l’axe vertical au niveau d’abscisse 100 %
(figure ??).
En effet, un cas théorique extrême est celui où tous les salariés perçoivent exactement le
même salaire. Cette situation conduit à une répartition où 2 % des individus se partagent 2

62
63
% de la masse salariale, 20 % des individus se partagent 20 % de la masse salariale, etc.
Cette répartition totalement égalitaire correspond à la diagonale du carré.
A l’opposé, le deuxième cas théorique caricatural est celui où un seul individu perçoit la
totalité de la masse salariale. Dans ce cas, 10 %, 20 %,..., 99.99 % des individus ont 0 % de
la masse salariale et la courbe suit l’axe horizontal jusqu’à l’abscisse 100 %, puis rejoint
(en suivant la verticale) le point de coordonnées (100 % ;100 %).
Plus la courbe de Lorenz est proche de la diagonale, plus la répartition de la variable
traitée est égalitaire. Ainsi, l’observation des courbes de Lorenz pour les années 1975 et
2005 conduit à la même conclusion qu’à la sous-section 3.5 : la concentration des salaires
en 2005 est moins forte que celle de 1975.

Quel est l’intérêt d’une courbe de Lorenz ? Un graphique proposant une seule courbe
de Lorenz n’a pas d’intérêt. En effet, déterminer visuellement si la courbe est proche ou non
de la diagonale égalitaire n’est guère possible. En revanche, si deux courbes de Lorenz sont
présentées sur la même figure, alors la comparaison des deux situations est immédiate.

Qu’est-ce que la médiale ? La médiale est le salaire (l’observation de la variable statis-


tique dans le cas général) qui partage en deux la masse salariale (la somme des observations
dans le cas général). D’après la figure ??, pour l’année 1975, la médiale correspond à une
proportion cumulée de salariés d’environ 70 %. D’après le tableau 3.13, la médiale est ainsi
environ égale à 14691+21515
2
= 18103 e. Ainsi en 1975, les 70 % de salariés qui gagnent
moins de 18 103 e se partagent la moitié de la masse salariale, tout comme les 30 % de
salariés qui gagnent plus de 18 103 e.
Les éléments sont en place pour construire un indicateur qui résume la concentration
par un seul nombre, appelé indice de Gini.

3.5.4 Résumé de la concentration par un seul indicateur : l’indice de


Gini
Le calcul de l’indice de Gini repose sur la position de la courbe de Lorenz.

Calcul de l’indice de Gini Plus la courbe est proche de la diagonale, plus la répartition
est égalitaire. L’idée est donc de calculer l’aire de la surface située entre la courbe de Lorenz
et la première diagonale. Cette surface s’appelle la surface de concentration.
Toujours par construction, l’aire de concentration varie entre les valeurs 0 (cas d’une ré-
partition totalement égalitaire) et 0,5 (aire du triangle inférieur dans le cas d’une répartition
totalement inégalitaire).
De manière à obtenir un indicateur compris entre 0 et 1, l’indice de Gini est défini comme
suit.
Définition 3.5.2. 1. La surface de concentration est la surface située entre la courbe de
Lorenz et la première diagonale.
2. L’indice de Gini est égal à deux fois l’aire de concentration. Plus l’indice est proche
de 0, plus la répartition est égalitaire. Compris entre 0 et 1, il est souvent expriméen
pourcentage.

64
Le calcul de l’indice de Gini repose sur le fait que l’aire de concentration est égale à
l’aire du triangle inférieur (égale à 0,5 par construction) diminuée de l’aire de la surface
située sous la courbe de Lorenz. Cette dernière est égale à la somme des aires des trapèzes
(3.7).

Méthode des triangles (Calcul de IGini )


p−1
%
IGini = (Fj Gj+1 − Fj+1 Gj )
j=1

Méthode des trapèzes (Calcul de IGini )


- p−1
.
%
IGini = 1 − (f1 G1 ) + fj (Gj−1 + Gj )
j=2

avec p le nombre de classes.

F IGURE 3.7 – Calcul de l’indice de Gini, année 1975.

65
1
$ (b+B)·h
Avec les notations de la figure 3.7, l’aire de chaque trapèze est égale à 2
− 2
.
L’indice de Gini s’obtient en multipliant le résultat par 2 :
%
IG = 1 − (b + B) · h,

où la somme s’applique à tous les trapèzes apparaissant figure 3.7.


Pour l’année 1975, l’indice de Gini se calcule comme suit :

IG = 1 − (0 + 0, 094) × 0, 20 + (0, 094 + 0, 21) × 0, 20 + (0, 21 + 0, 362) × 0, 20 +


+(0, 362 + 0, 575) × 0, 20 + (0, 575 + 1) × 0, 20.

Soit IG = 0, 304.
Les valeurs sont ici arrondies. En faisant les calculs avec une plus grande précision (à
l’aide d’un tableur, par exemple), les résultats sont :
• Indice de Gini des salaires en 1975 : 0,303.

66
• Indice de Gini des salaires en 2005 : 0,247.
L’évolution de l’indice de Gini montre également que la concentration des salaires est
plus faible en 2005 qu’en 1975.

Quel est l’intérêt de l’indice de Gini ? L’intérêt d’un unique nombre de résumé est tou-
jours le même : faciliter la comparaison entre de nombreuses situations (différents pays)
et/ou faciliter la mesure de l’évolution entre de nombreuses dates. Ainsi, la

Exemple 3.5.4. On étudie les salaires de 50 employés d’une entreprise.

xi (en euros) ni centres (ci ) fi en % Fi en % ni ci gi en % Gi en %

[600,1200[ 15

[1200,1800[ 25

[1800,2100[ 10

Total 50

1. Calculer la médiane et la médiale. Signification.


2. Calculer la mesure de concentration.
3. Construire sur un repère orthonormé la courbe de concentration et estimer l’indice
de concentration de GINI. Interprétation.

Le cas de Rola-Cola

Exemple 3.5.5. Nous allons présenter le cas Rola-Cola de Bowerman & O’Connell (1984).
Le département Marketing de Rola-Cola souhaite étudier les attitudes et les préférences
des consommateurs envers Rola-Cola et une boisson concurrente appelée Koka-Cola. Une
enquête a donc été réalisée en faisant passer un test de goût à des clients choisis au hasard
et en leur posant ensuite les quatre questions suivantes :

Question 1 : Quelle boisson préférez-vous ?


Rola-Cola Koka-Cola
Question 2 : Avez-vous déjà acheté Rola-Cola ?
Oui Non
Question 3 : Entourez la réponse décrivant au mieux votre réaction à la phrase :
“J’aime mes boissons au Cola sucrées”
1 : D’accord 2 : Je ne suis pas sur 3 : Pas d’accord
Question 4 : Combien de litres de boisson au Cola votre famille a-t-elle consommés
au cours du mois dernier ?

67
Les questions furent posées à quarante personnes choisies au hasard dans un centre com-
mercial de banlieue. Les réponses de ces personnes sont données dans le tableau 2.1.
Numéro Boisson préfé- Achat Goût pour le Consommation
de l’in- rée préalable sucre du boisson au
terviewé cola
1 koka-cola non D’accord 4
2 rola-cola oui Je ne suis pas sûr 8
3 koka-cola non Pas d’accord 2
4 rola-cola oui Je ne suis pas sûr 10
5 rola-cola non D’accord 7
6 rola-cola oui Pas d’accord 6
7 koka-cola non D’accord 4
8 rola-cola non D’accord 3
9 koka-cola non Je ne suis pas sûr 3
10 rola-cola non D’accord 5
11 rola-cola oui Je ne suis pas sûr 7
12 rola-cola oui Pas d’accord 13
13 rola-cola oui D’accord 6
14 koka-cola non D’accord 2
1. Etude de la Question 1 : “Quelle boisson préférez-vous ?”
a) Déterminer les effectifs et les fréquences des modalités de la Question 1.
b) Présenter les résultats sous forme de diagrammes en bâtons verticaux puis hori-
zontaux, et de diagrammes circulaires.
c) Construire un intervalle de confiance à 95 % de la proportion π de personnes
préférant Rola-Cola au niveau de toute la population.
d) Combien de personnes faudrait-il interroger pour obtenir un intervalle de confiance
à 95 % de la proportion π ayant une largeur égale à 0.04 ?
2. Etude de la Question 4 : “Combien de litres de boisson au cola votre famille a-t-elle
consommés au cours du mois dernier ?”
a) Donner un résumé statistique des réponses à la question 4 : moyenne, variance,
écart-type, minimum, maximum, médiane, quartile inférieur, quartile supérieur.
b) Représenter la boîte à moustaches associée aux données.
c) Construire un histogramme associé aux données. Y superposer la densité de la
loi normale ayant pour paramètres la moyenne et l’écart-type estimés à l’aide de
l’échantillon.
d) Étudier la normalité de la consommation mensuelle de boisson au cola en utili-
sant le test du khi-deux ou le test de Shapiro-Wilks.
e) Donner un intervalle de confiance à 95 % de la consommation moyenne µ de
toute la population.

68
f) On suppose que la consommation moyenne habituelle de boisson au cola au ni-
veau de la population est de 5 litres/mois. Les résultats de l’enquête sont-ils com-
patibles avec cette hypothèse ? g) On suppose qu’une campagne publicitaire en
faveur des boissons au cola a précédé l’enquête. La campagne publicitaire a-t-
elle été efficace, sous l’hypothèse de la question f) ?
3. Etude du niveau de consommation de boissons au cola en fonction de la boisson
préférée :
a) Donner des résumés statistiques des réponses à la question 4 pour deux groupes
séparés : 1) ceux qui préfèrent Rola-Cola et 2) ceux qui préfèrent Koka-Cola.
b) Représenter graphiquement les deux groupes à l’aide des boîtes à moustaches
multiples.
c) Les variances des deux sous-populations peuvent-elles être considérées comme
égales ?
d) La consommation mensuelle de boissons au cola dépend-elle de la boisson pré-
férée ?
e) La consommation mensuelle moyenne de toutes les personnes préférant Rola-
Cola est-elle supérieure à la consommation mensuelle moyenne de toutes les per-
sonnes préférant Kola-Cola ?
4. Y-a-t-il une liaison entre la boisson préférée et le goût pour le sucre ?
5. Y-a-t-il une liaison entre la boisson préférée et l’achat préalable de Rola-Cola ?
6. Reprendre la Question 3 en étudiant la consommation mensuelle de chips en fonction
de la boisson préférée.
7. Représenter graphiquement la consommation de chips en fonction de la consomma-
tion de boissons au cola. Noter de manière distincte la boisson préférée. Donner
l’équation de la droite des moindres carrés pour les personnes préférant Rola-Cola
et tracer cette droite. Faire de même pour les personnes préférant Koka-Cola.
8. Rola-Cola n’est pas satisfaite de sa campagne de promotion actuelle du Rola-Cola
et souhaite préparer une nouvelle campagne. Le département Marketing a développé
deux options :
Campagne 1 : cette campagne utilise des coupons de réduction et des annonces à
la télévision pour encourager les consommateurs à essayer Rola-Cola pour la
première fois.
Campagne 2 : cette campagne utilise des annonces à la télévision et à la radio
basées sur le slogan “Rola-Cola, le cola le moins sucré !”
Quelle est la campagne que vous choisiriez ?
9. Ray’s Potato Chips, le fabricant bien connu de patates chips, souhaite lancer une
campagne de promotion avec Rola-Cola ou bien Koka-Cola. Rola-Cola, espérant
convaincre Ray’s Potato Chips qu’il devrait s’associer avec lui dans sa campagne
de promotion, affirme que les consommateurs de Rola-Cola boivent plus de bois-
sons au cola que ceux de Koka-Cola. Les responsables de Rola-Cola pensent que
s’ils sont capables de prouver cette affirmation (avec seulement une petite chance

69
d’erreur), alors ils pourront convaincre Ray’s Potato Chips de mener une campagne
jointe avec Rola-Cola, puisque les personnes buvant de grandes quantités de bois-
sons au cola sont aussi, très vraisemblablement, de gros mangeurs de patate chips.
Si vous travailliez pour Ray’s Potato Chips, et si on vous présentait tous les résultats
statistiques de Rola-Cola, ceux-ci auraient-ils suffisamment de signification pratique
pour vous convaincre de lancer une campagne de promotion jointe avec Rola-Cola ?

70
Deuxième partie

Séries statistiques à deux caractères

71
Chapitre 4

Séries statistiques à deux caractères et


distributions marginales

4.1 Objectifs
— Dans les fiches précédentes, nous avons étudié les distributions statistiques à une
seule variable (ou caractère).
— Très souvent, dans une population, il est nécessaire d’étudier des distributions pour
lesquelles les individus sont décrits selon deux ou plusieurs variables.
— Nous nous limiterons à l’étude des distributions à deux variables.
— Les distributions sont représentées dans des tableaux à double entrée. Lorsque les
deux variables sont quantitatives, il est possible de représenter les individus par des
points dans un système d’axe. Ces points étant représentés sur un graphique, il est
possible de réaliser des ajustements par des courbes en utilisant des méthodes du
type moindres carrés, d’étudier des liaisons et des corrélations entre deux variables.
— Lorsque l’une des variables est le temps on obtient la représentation de séries dites
“chronologiques”. L’analyse de ces séries a pour but essentiel des prévisions, par
exemple sur le volume des ventes d’un produit dans quelques mois ou trimestres.

4.2 L’essentiel à savoir


4.2.1 Présentation des observations sous forme de tableaux statistiques
Supposons que dans une population les individus sont décrits selon deux caractères qua-
litatifs C et K.
C présente p modalités C1 , C2 , . . . , Ci , . . . , Cp .
K présente q modalités K1 , K2 , . . . , Kj , . . . , Kq .

Exemple 4.2.1. C : couleur des yeux


C1 : bleu C2 : vert C3 : brun etc.
K : Facteur rhésus
K1 : A+ K2 : B − K3 : O + etc.

72
Si les caractères sont quantitatifs discrets, les variables sont plutôt notées X et Y, et les
différentes modalités de X sont notées :
x1 , x2 , . . . , xi , . . . , xp .
Les différentes modalités de Y sont notées :
y1 , y2 , . . . , yj , . . . , yq .
Si les caractères sont quantitatifs et continus, les modalités sont en général regroupées
par classes et la description sera identique à celle décrite ci-après pour des caractères discrets
(les valeurs de xi , ou yj , sont remplacées par des classes définies par leur origine et leur
extrémité).
Désignons par nij le nombre “d’unités statistiques” ou “individus” qui présentent à la
fois la modalité Ci et la modalité Kj (ou pour lesquelles X = xi et Y = yj ) :
— ni. est le nombre d’individus pour lesquels X = xi ;
— n.j est le nombre d’individus pour lesquels Y = yj .


❍❍ Y
y1 y2 ... yj ... yq Total
X ❍❍ ❍
x1 n11 n12 n1j n1q n1.

x2 n21 n22 n2j n2q n2.


.. ..
. .

xi ni1 ni2 nij niq ni.


.. ..
. .

xp np1 np2 npj npq np.

Total n.1 n.2 n.j n.q n..

4.2.2 Représentation graphique pour deux variables quantitatives


Nuage de points : À l’individu “i” on associe le point Mi de coordonnées (xi , yi ).

4.2.3 Représentation graphique pour une variable qualitative X et l’autre


quantitative Y
À chaque modalité du carctère qualitatif X on associe une représentation graphique clas-
sique de la distribution de la variable Y (histogramme, diagramme en bâtons, etc).
On peut ensuite superposer ces diagrammes.

73
4.2.4 Distributions marginales
Distribution marginale de X
Dans le tableau précédent la colonne “Total” donne la distribution des individus selon le
caractère X uniquement.
Cette distribution est la distribution marginale de X.

Valeurs de X x1 x2 ... xi ... xp Total

Effectifs n1. n2. ... ni. ... np. n..

ni. = nombre d’individus pour lesquels X = xi .


= somme des éléments de la ligne i.
= ni1 + ni2 + · · · + nij + · · · + niq
q
% %
= nij = nij .
j=1 j

Distribution marginale de Y
Dans le tableau donnant la distribution des couples (xi , yj ) la ligne “Total” donne la dis-
tribution de la variable Y indépendamment des valeurs de X, c’est la distribution marginale
de Y.

Valeurs de Y y1 y2 ... yj ... yq Total

Effectifs n.1 n.2 ... n.j ... n.q n..

n.j = nombre d’individus pour lesquels Y = yj .


= somme des éléments de la colonne j.
= n1j + n2j + · · · + nij + · · · + npj
p
% %
= nij = nij .
i=1 i

4.2.5 Tableau des fréquences fij


On peut remplacer dans le tableau à double entrée les effectifs nij par les fréquences :
nij nij
fij = ou fij = × 100%
n n
ni. n.j
fi. = ou f.j =
n n

74
On vérifie : / 0
% % %
fij = fi. = 1 (ou 100%) .
i j i

4.3 Les moyennes et les variances marginales


4.3.1 Objectifs
— Les distributions statistiques à deux variables X et Y sont présentées sous forme de
tableaux à deux dimensions, ou encore sous forme de matrice en en langage mathé-
matique.
— Dans la section précédente, il a été présenté les distributions marginales qui sont
définies comme les distributions de l’une des variables indépendamment de l’autre.
— Il est donc possible d’étudier séparément les deux variables X et Y à une dimen-
sion, d’en faire les représentationsgraphiques habituelles et de calculer différentes
caractéristiques algébriques telles que la moyenne, la variance, la médiane, etc.

4.3.2 L’essentiel à savoir


Les principales caractéristiques statistiques d’une variable sont la moyenne et la variance.
Les distributions marginales sont fournies par les marges du tableau (nij ) à deux dimensions,
première et dernière colonne pour la distribution de la variable X, première et dernière ligne
pour la distribution de la variable Y (ces distributions ont été présentées dans la fiche précé-
dente).

4.3.3 Distribution marginale de la variable X, moyenne et variance

X=x x1 x2 ··· xi ··· xp Total

ni. n1. n2. ··· ni. ··· np. n..


Moyenne de X :
$
n1. x1 + n2. x2 + · · · + ni. xi + · · · + np. xp i ni. xi
x̄ = =
$ n n
i fi. xi
=
n
Variance de X :
1% %
σx2 = ni. (xi − x̄)2 = fi. (xi − x̄)2 .
n

75
4.3.4 Distribution marginale de la variable Y, moyenne et variance

Y =y y1 y2 ··· yi ··· yp Total


Moyenne de Y :
ni. n1. n2. ··· ni. ··· np. n..
$
n1. y1 + n2. y2 + · · · + ni. yi + · · · + np. yp i ni. yi
ȳ = =
$ n n
i fi. yi
=
n
Variance de Y :
1% %
σy2 = ni. (yi − ȳ)2 = fi. (yi − ȳ)2 .
n

4.3.5 Compléments
Caractères qualitatifs C et K
nij , est le nombre d’individus qui présentent la modalité Ci du caractère C et la modalité
Kj du caractère K.
Il est possible de calculer les marges, c’est-à-dire les ni. et les n.j , de faire des représen-
tations graphiques, mais il n’est pas possible de faire des calculs de moyenne.

Variables quantitatives regroupées par classes


Supposons que nij représente le nombre d’individus dont le poids X est compris entre
70 et 80 kg et la taille Y entre 1, 70 et 1, 80 mètres ; on prend pour les calculs les centres des
classes, c’est-à-dire :
xi = 75 et yj = 1, 75

Moments non centrés d’ordre p et q

p q
1 %%
mrs = nij xri yjs .
n i=1 j=1

4.4 Les distributions conditionnelles, les moyennes et va-


riances conditionnelles
4.4.1 Objectifs
— Les distributions statistiques à deux variables X et Y sont présentées sous forme de
tableaux à double entrée (tableaux de contingence).

76
— Dans la section précédente, il a été étudié la distribution de l’une des variables indé-
pendamment de l’autre. On a obtenu ce qu’on appelle la distribution marginale de X
et la distribution marginale de Y .
— Ces distributions marginales ne prennent en compte que les “marges” du tableau, les
autres lignes et colonnes du tableau permettent de définir les distributions condition-
nelles. C’est-à-dire que la modalité de l’une des variables étant fixée, on étudie la
distribution de l’autre variable.
Exemple 4.4.1. Distribution de Y conditionnée par X = xi ou distribution de Y sachant
que X = xi .

4.4.2 L’essentiel à savoir


Distribution conditionnelle de Y conditionnée par X = xi
Elle s’obtient en utilisant la ième ligne du tableau de contingence (voir section).

Y y1 y2 ··· yj ··· yq Total

Effectifs ni1 ni2 ··· nij ··· niq ni.

La moyenne de Y conditionnée par X = xi est :


q
1 % ni1 y1 + ni2 y2 + · · · + niq yq
ȳi = nij yj =
ni. j=1 ni.

La variance de Y conditionnée par X = xi est :


q
1 %
Vi (y) = nij (yj − ȳi )2 .
ni. j=1

L’indice “i” étant fixé, seul l’indice “j” correspondant à la variable Y varie. Les calculs et les
présentations graphiques sont les même que pour les distributions à une seule variable.
Puisqu’à chaque valeur de “i” correspond une distribution conditionnelle il y a p distri-
butions de Y conditionnées par X.

Distribution conditionnelle de X conditionnée par Y = yj


Elle s’obtient en utilisant la jème colonne du tableau de contingence (voir section).

X x1 x2 ··· xi ··· xp Total

Effectifs n1j n2j ··· nij ··· npj n.j

La moyenne de X conditionnée par Y = yj est :


p
1 % n1j x1 + n2j x2 + · · · + npj xp
x̄j = nij xi =
n.j i=1 n.j

77
La variance de X conditionnée par Y = yj est :
p
1 %
Vj (X) = nij (xi − x̄j )2 .
n.j i=1

Il existe q distributions de X conditionnées par Y .

4.4.3 Compléments
Distributions données avec les fréquences relatives
Au lieu des effectifs ou fréquences absolues, il est possible de donner les distributions
avec les fréquences relatives c’est-à-dire :
nij nij
fij = = au lieu de nij ,
n.. n
ni. ni.
fi. = = au lieu de ni. ,
n.. n
n.j n.j
f.j = = au lieu de n.j ,
n.. n
nij
fji = est la fréquence conditionnelle de Y = yj conditionnée par X = xi .
ni.

La moyenne de Y sachant que X = xi est ȳi :


% 1 nij 2 %
ȳi = yj = fji yj
j
ni. j

La variance de Y sachant que X = xi est Vi (y) :


%
Vi (Y ) = fji (yj − ȳi )2 .
j

nij
De même : fij = n.j
est la fréquence conditionnelle de X = xi conditionnée par Y = yj .

La moyenne de X sachant que Y = yj est x̄j :


% 1 nij 2 % j
x̄j = xi = fi xi
i
n.j i

La variance de X sachant que Y = yj est Vj (x) :


% j
Vj (X) = fi (xi − x̄j )2 .
i

78
4.5 Indépendance des variables. Covariance
4.5.1 Objectifs
— Nous avons présenté dans les sections précédentes les distributions à deux variables.
Tout d’abord, sous forme d’un tableau à double entrée dit de contingence puis ensuite
les distributions marginales et conditionnelles. L’étude se poursuit généralement par
la recherche de liaison entre les deux variables.
— Ces deux variables peuvent être totalement indépendantes l’une de l’autre comme,
par exemple, la taille et la réussite à un examen pour un candidat.
— Ces deux variables peuvent être ou paraître liées par une relation fonctionnelle
comme c’est le cas, pour certaines grandeurs en physique, les deux variables sont
totalement dépendantes.
— Entre les deux situations précédentes il peut exister une proximité ou une dépen-
dance plus ou moins marquée entre ces deux variables. On peut utiliser une quantité
qui s’appelle le chi-deux pour mesurer cette proximité.
— Lorsque la dépendance est plutôt de type “linéaire”, la covariance et la corrélation
sont des caractéristiques algébriques qui permettent de mesurer cette dépendance li-
néaire.

4.5.2 L’essentiel à savoir


Indépendance des variables
Définition 4.5.1. Lorsque les fréquences observées pour les distributions conditionnelles
sont toutes identiques, ce qui veut dire que la distribution de Y sachant que X = xi est
identique à celle de Y sachant que X = x2 ,... etc, alors X et Y sont indépendantes.
De même la distribution de X sachant que Y = y1 est identique à celle de X sachant
que Y = y2 ,... etc .

Exemple : indépendance de deux variables



❍❍ Y
y1 y2 y3 y4 y5 ni.
X ❍❍❍
x1 10 40 70 50 20 190

x2 20 80 140 100 40 380

x3 25 100 175 125 50 475

n.j 55 220 385 275 110 1045

Dans ce tableau :
n11 10 n21 20 10 n31 25 10
= ; = = ; = = .
n1. 190 n2. 380 190 n3. 475 190

79
nij
ni.
ne dépend que de j et est indépendant de i donc de X, et plus généralement si X et Y
sont indépendants si :
n1j n2j nij npj
= = ... = = ... = .
n1. n2. ni. np.
$
nij nij n.j
= $i = ⇐⇒ nij .n.. = ni. n.j
ni. i ni. n..
n n
⇐⇒ niji. = nni... × n.j..
⇐⇒ fij = fi. .f.j

Pour que les variables X et Y soient indéppendantes, il faut que cette relation soit vérifiée
pour tous les couples i et j.

Covariance de deux variables X et Y


Si les couples d’observations (xi , yi ) sont tous distincts :
1% 1%
Cov(X, Y ) = (xi − x̄) (yi − ȳ) = xi yi − x̄ȳ
n n
Les tableaux de contingence font apparaître que le couple (xi , yi ) est observé nij fois, dans
ce cas, l’expression de la covariance devient :
1% 1%
Cov(X, Y ) = nij (xi − x̄) (yi − ȳ) = nij xi yi − x̄ȳ
n n

La covariance mesure la dépendance linéaire


La covariance permet d’apprécier si deux variables X et Y ont tendance à être liées
linéairement. L’inconvénient est que son interprétation est difficile car sa valeur dépend du
choix des unités sur X ou sur Y . Pour cette raison, il est préférable d’utiliser le cœfficient de
corrélation linéaire.

Le chi-deux : χ2

& ni. n.j '2


% % nij −
χ2 = ni. n.j
n
.
i j n

Si les caractères X et Y sont indépendants le “chi-deux” est nul et plus le chi-deux est élevé
plus la dépendance entre X et Y est forte.
Le chi-deux mesure l’écart entre le tableau des effectifs observés et des effectifs théo-
riques et c’est cette mesure qui est utilisée en analyse factorielle des correspondances pour
mesurer les proximités entre deux lignes ou deux colonnes d’un tableau de contingence. Par
exemple, les lignes i et k représentent la distribution des individus i et k selon les q modalités
de l’autre caractère. Plus le chi-deux est élevé, plus les individus son t dissemblables.

80
Si les deux lignes sont proportionnelles, le chi-deux est égal à zéro et les individus i et k
peuvent être “confondus”.
q & ni. n.j '2
% nij −
2 2 n
d χ (i, k) = ni. n.j .
j=1 n

Écart du chi-deux entre deux lignes ou deux individus issus d’un tableau de contingence.

4.6 L’ajustement linéaire. Les moindres carrés


4.6.1 Objectifs
— En étudiant simultanément deux variables quantitatives X et Y sur des individus, il
est habituel de rechercher si ces variables sont liées.
— Deux variables X et Y peuvent être liées par une relation fonctionnelle du type
y = f (x). Pour l’individu i, la valeur de yi est entièrement déterminée dès lors que
xi est connue.
— Par exemple, si x est le rayon d’une sphère et y son volume, y = 43 πx3 .
— Deux variables X et Y peuvent aussi être totalement indépendantes. Par exemple,
la note de mathématiques obtenue au baccalauréat et la taille d’un candidat.
— Entre ces deux situations extrêmes, indépendance et dépendance totale, il existe très
souvent une dépendance partielle entre deux variables. Cette situation se rencontre
très souvent en économie, en médecine et pour d’autres sciences. Si l’on représente
graphiquement l’ensemble des ponts (xi , Yi ) sur un système d’axe, la forme du nuage
de points peut inviter à ajuster une droite, une parabole, une courbe exponentielle, une
courbe puissance, pour représenter le mieux possible la dépendance.
— Ces courbes peuvent être obtenues graphiquement ou encore par une méthode algé-
brique dont la plus connue s’appelle la méthode des moindres carrés.
— C’est le mathématicien français Adrien Marie Legendre qui inventa la méthode en
1806. Cette méthode est l’instrument principale des économètres pour spécifier les
modèles.

4.6.2 L’essentiel à savoir


Représentation et ajustement graphique
Ajustement par une droite par la méthode des moindres carrés
(Droite des moindres carrés de y en x : y = ax + b.) On observe simultanément les
variables X et Y sur n individus, on trace l’ensemble des points Mi de coordonnées xi et yi ,
et on veut ajuster une droite d’équation y = ax + b qui passe au “plus près des points Mi ”.
La méthode des moindres carrés pour obtenir les paramètres a et b de la droite y = ax+ b
est la suivante :

81
Soit ŷi le point d’abscisse xi qui sera situé sur la droite :

ŷi = axi + b
ei = yi − ŷi
3i situé sur la droite.
ei mesure l’écart entre le point observé Mi et le point M
La méthode des moindres carrés consiste à déterminer la droite, donc les valeurs de a et
b qui rendent minimum la quantité :
n
% n
%
g(a, b) = e2i = (yi − axi − b)2 .
i=1 i=1

Autrement dit, on cherche a et b qui minimisent l’expression ci-dessus.

Droite de régression des moindres carrés ordinaires (MCO)


La droite qui minimisent la somme des carrés des résidus s’appelle la droite de régression
des moindres carrés ordinaires (MCO).
Pour trouver le minimum de la fonction à deux variables g(a, b) définie ci-dessus, il faut
chercher les valeurs de a et b qui annulent simultanément les dérivées partielles de g par
rapport à a et b (qui correspondent à un minimum). La résolution de ce système d’équations
conduit à trois réssultats.

Proposition 4.6.1. La droite de régression de Y en X d’équation ŷ = ax + b est telle que :


1. La moyenne des valeurs ajustées de Y est égale à la moyenne des valeurs observées
de Y : n n
1% 1%
ŷi = yi .
n i=1 n i=1

2. La pente a est égale à la covariance de (X, Y ) divisée par la variance de X :

Cov(X, Y ) 1%
a= avec Cov(X, Y ) = (xi − x̄) (yi − ȳ)
V ar(X) n

3. La droite de régression des MCO passe par le point moyen G de coordonnées (x̄, ȳ),
c’est-à-dire :
ȳ = a · x̄ + b d’où b = ȳ − a · x̄.
b est l’ordonnée à l’origine.

4.6.3 Compléments
Droites des moindres carrés de x en y : x = a′ y + b′
Elle s’obtient en minimisant la somme des carrés des écarts parallèlement à l’axe des
abscisses.

82
Il suffit d’échanger x et y dans les formules qui donnent a et b pour obtenir a′ et b′ , ainsi
la droite a pour équation :
1 b′
x = a′ y + b′ ou : y = x −
a′ a′
Cov(X, Y )
aa′ = et : b′ = x̄ − a′ ȳ.
V ar(Y )

Ajustement linéaire par changement de variable


De nombreux ajustements peuvent se ramener à des ajustements linéaires par des chan-
gements de variables.

Exemple 4.6.1.
y = bax , x > 0, y > 0, a > 0, b > 0.
En prenant le logarithme népérien de chaque membre il vient :

ln y = ln b + x ln a.

En posant : Y = ln y, ln a = A, ln b = B

Y = Ax + B.

On peut obtenir par les moindres carrés A et B et en déduire ensuite a et b par les relations :

a = eA , b = eB .

Généralisation de la méthode des moindres carrés


Par la méthode des moindres carrés, on peut ajuster une fonction qui dépend de plus de
deux paramètres.
Si l’on veut ajuster une parabole d’équation y = ax2 + bx + c.
Soit ŷi le point d’abscisse xi , situé sur la parabole :

ŷi = ax2i + bxi + c.

On applique la méthode des moindres carrés en minimisant :


% % %& '2
e2i = (yi − ŷi )2 = yi − ax2i − bxi − c = g(a, b, c)

a, b, c sont solutions du système d’équations




⎪ ∂g(a,b,c)

⎪ =0

⎪ ∂a

∂g(a,b,c)
⎪ ∂b
=0





⎩ ∂g(a,b,c) = 0
∂c

83
Cette méthode peut se généraliser pour ajuster une courbe polynomiale de degré quelconque,
avec éventuellement l’utilisation d’un ordinateur en raison de la taille des calculs.
L’économétrie consiste à relier par des équations des variables. Il existe rarement une
fonction mathématique qui s’ajuste parfaitement aux données disponibles. Par les moindres
carrés, il est toujours possible d’adapter un type de fonction ou d’équation qui s’approche le
plus possible des données observées.
Bien entendu l’ajustement ne présente d’intérêt que si les fonctions ou équations obtenues
correspondent à une réalité économique.

4.7 La corrélation
4.7.1 Objectifs
— Soit un ensemble de couples (xi , yi ) où xi et yi sont les valeurs des variables X et Y
observées sur l’individu no i. Il est toujours possible d’ajuster une droite au nuage de
points (xi , yi ), par la méthode des moindres carrés.
— Toutefois, pour que cette représentation ait un intérêt, il faut qu’elle représente assez
fidèlement le nuage de points. Autrement dit, il faut que les points observés ne
soient pas trop dispersés autour de la droite obtenue.
— Pour mesurer la qualité de l’ajustement ou le degré de dépendance linéaire entre
deux variables X et Y , la caractéristique algébrique la plus utilisée est le cœfficient
de corrélation linéaire.
— L’interprétation d’une dépendance linéaire mise en évidence par une corrélation est
délicate, elle n’implique pas que l’une des variables ait une influence sur l’autre.
Il peut s’agir d’une simple coïncidence, ou d’un ensemble de facteurs qui agissent
simultanément sur les deux. On veillera à ne pas confondre corrélation et causalité.
— Karl Pearson (1896) a apporté une importante contribution à la notion de corrélation.

4.7.2 L’essentiel à savoir


Définition du cœfficient de corrélation linéaire r
La formule la plus utilisée pour les calculs est la suivante :
$
(xi − x̄) (yi − ȳ)
r = 5$ 5$
2
(xi − x̄) · (yi − ȳ)2
$
xi yi − nx̄ȳ
r = +$ 2 +$
xi − nx̄2 · yi2 − nȳ 2

En divisant le numérateur et le dénominateur par n il vient :

Cov(X, Y )
r=
σX σY
r est un nombre sans dimension, donc indépendant des unités de mesure.

84
La pente des droites de régression et le cœfficient de corrélation sont de même signe

Cov(X, Y )
a= 2
σX
Cov(X, Y ) Cov(X, Y ) σX σX
r= = 2
· =a .
σX σY σX σY σY
On pourrait aussi remarquer que r et a ont le même numérateur et les dénominateurs sont
positifs donc a et r sont de même signe.
Remarque 4.7.1. Si on ajuste par les moindres carrés la droite de x en y on obtient :
1 b′
x = a′ y + b′ ⇐⇒ y = x −
a′ a′
Cov(X, Y )
a′ =
σY2
a′ et r sont aussi de même signe.
Ceci veut dire que si les variables X et Y ont tendance à évoluer dans le même sens la
pente a est positive et r est positif (liaison positive).
Par contre, si les variables ont tendance à évoluer ensens contraire : la pente a est
négative et r est négatif (liaison négative).

r mesure la qualité de l’ajustement


On démontre que :

−1 ≤ r ≤ +1 ⇐⇒ 0 ≤ r 2 ≤ 1
Si r = +1 ou r = −1, les points (xi , yi ) sont rigoureusement alignés et pour tout individu
“i”, la valeur de l’une des variables étant connue, l’autre peut être déterminée précisément
par la relation yi = axi + b. Cette propriété peut être utilisée pour certains phénomènes
en sciences physiques, on peut mesurer par exemple la température en repérant la hauteur
d’un liquide dans un tube, puisque celle-ci est liée linéairement à la température (principe de
certains thermomètres).
La corrélation linéaire est rarement aussi parfaite pour des variables observées en écono-
mie, en médecine, et dans de nombreuses autres sciences. La corrélation linéaire est d’autant
plus forte que r est proche de 1 ou de −1 où ce qui revient au même r 2 proche de 1.
On vérifie que :
r 2 = aa′
r 2 s’appelle le cœfficient de détermination
Il vérifie
Variance des ŷi
r2 = avec ŷi = axi + b
Variance des yi
$
2 (ŷi − ȳ)2 /n
r =$
(yi − ȳ)2 /n

85
D’une façon générale en économétrie, ŷ peut représenter toute équation qui s’ajuste à un
ensemble d’observations et le cœfficient de détermination mesure la “qualité” de l’ajus-
tement mathématique obtenu. Les observations sont d’autant moins dispersées autour de
la courbe ajustée que le r 2 est proche de 1. Si le r 2 est égal à 1, les points observés sont tous
sur la courbe ajustée.

86
Liste des tableaux

2.1 Temps en secondes réalisés lors des 100 essais de l’équipe A . . . . . . . . 10


2.2 Temps en secondes réalisés lors des 100 essais de l’équipe B . . . . . . . . 10
2.3 Série brute de la variable statistique “langue maternelle” . . . . . . . . . . 18
2.4 Série brute du caractère “nombre de frères et sœurs” . . . . . . . . . . . . . 19
2.5 Série classée de la variable statistique “langue maternelle” . . . . . . . . . 20
2.6 Série ordonnée du caractère “nombre de frères et sœurs” . . . . . . . . . . 20
2.7 Distribution observée de la variable statistique “langue maternelle” . . . . . 21
2.8 Distribution observée de la variable statistique “nombre de frères et sœurs” 21

3.1 Distributions groupées du nombre d’enfants par familles (en milliers) . . . 29


3.2 Distributions groupées du nombre d’enfants par familles (en milliers) . . . 29
3.3 Effectifs, fréquences et fréquences cumulées des familles suivant le nombre d’enfants en 2008) 30
3.4 Distributions observées des logements selon le type d’immeuble en 2008 . . 32
3.5 Densité d’observations des personnes incarcérées selon l’âge en France en 2010 33
3.6 Densité de population dans l’Union européenne à 15 et à 25 . . . . . . . . . 34
3.7 Effectifs cumulés du nombre d’enfants par famille en 2008 . . . . . . . . . 38
3.8 Distribution groupée par déciles des niveaux de vie annuels . . . . . . . . . 41
3.9 Salaires mensuels nets moyens des agents des services civils de l’État . . . 43
3.10 Quantiles des salaires annuels nets dans le secteur du commerce par catégories socioprofessionnelles
3.11 Séries des âges et construction d’indicateurs de dispersion . . . . . . . . . 50
3.12 Trois approches de la concentration. . . . . . . . . . . . . . . . . . . . . . 58
3.13 Classes de salaires dans les entreprises du secteur privé en France (valeurs estimées), année 1975. 58
3.14 Classes de salaires dans les entreprises du secteur privé en France (valeurs estimées), année 2005. 60
3.15 Comparaison des agrégats de salaires des années 1975 et 2005. . . . . . . . 61
3.16 Agrégats cumulés de salaires, années 1975 et 2005. . . . . . . . . . . . . . 62

87
Table des figures

2.1 Les six grandes étapes d’une étude statistique. . . . . . . . . . . . . . . . . 12


2.2 Aucune étude ne produit directement de décision . . . . . . . . . . . . . . 15

3.1 Trois problématiques de résumé. . . . . . . . . . . . . . . . . . . . . . . . 28


3.2 Cinq distributions groupées du nombre d’enfants par famille (en milliers). . 30
3.3 Nombre de logements selon le type d’immeuble dans les DOM en 2008. . . 32
3.4 Revenus salariaux médians des salariés du secteur privé et semi-public, France, année 2008. 36
3.5 Modes de construction et familles d’indicateurs de dispersion . . . . . . . . 46
3.6 Box plot ou boîte à moustaches . . . . . . . . . . . . . . . . . . . . . . . . 49
3.7 Calcul de l’indice de Gini, année 1975. . . . . . . . . . . . . . . . . . . . . 65

88

Vous aimerez peut-être aussi