Académique Documents
Professionnel Documents
Culture Documents
sn
17 mai 2021
Statistiques descriptives :
Université de Thiès —
UFR Sciences Économiques et Sociales — Département Management des Organisations
Table des matières
1
3 Résumer pour informer : les indicateurs statistiques 28
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Résumer la position des données . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Distributions groupées . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Fréquences et fréquences cumulées . . . . . . . . . . . . . . . . . 30
3.2.3 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.5 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6 Un centre de gravité non robuste : la moyenne arithmétique . . . . 41
3.2.7 Moyenne géométrique . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.8 Moyenne harmonique . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.9 Moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Résumer la dispersion des données . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 L’étentue et les écarts inter-quantiles . . . . . . . . . . . . . . . . . 46
3.3.2 Le box plot ou la boîte à moustaches . . . . . . . . . . . . . . . . 48
3.3.3 L’écart absolu moyen, la variance et l’écart type . . . . . . . . . . . 49
3.3.4 Les moments centrés et les moments non centrés d’ordre p . . . . . 53
3.3.5 Cœfficient de variation . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Les caractéristiques de forme . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.1 L’asymétrie (ou dissymétrie) . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 L’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Le concept de concentration . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5.1 Etude de la concentration par le calcul des agrégats de salaires . . . 58
3.5.2 Notion de concentration . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.3 Étude graphique de la concentration : la courbe de Lorenz . . . . . 62
3.5.4 Résumé de la concentration par un seul indicateur : l’indice de Gini 64
2
4.4.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.4.3 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.5 Indépendance des variables. Covariance . . . . . . . . . . . . . . . . . . . 79
4.5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.6 L’ajustement linéaire. Les moindres carrés . . . . . . . . . . . . . . . . . . 81
4.6.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6.3 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7 La corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.7.2 L’essentiel à savoir . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3
Introduction à l’utilisation des
statistiques en économie et gestion
4
Chapitre 1
Ce cours s’appuie sur des ouvrages reconnus dans la discipline principalement le livre
Statistique pour économistes et gestionnaires, Brigitte Tribout, 2e Ed., Pearson, (2013).
1.1 Introduction
Fréquemment on lit ce genre de phrases dans les journaux et les magazines :
• selon l’enquête nationale sur l’emploi 2015 : le taux de chômage des personnes de 10
ans et plus est de 13, 0% au Sénégal. (Le Soleil, 25 Nov. 2015)
• Selon une enquête de l’ANSD, le PIB annuel est de 3, 6%.
• Le coût moyen d’un spot publicitaire télévisé de 40 secondes lors des matchs de foot-
ball (TVA 18%) au mi-temps est de 573.628 FCFA.
• La Bourse Régionale des Valeurs Mobilières (BRVM) clôture le mois de juin par une
hausse de 3, 90%, à 278, 44 points. De même, l’indice BRVM 10 s’établit à 277,71
points, soit une amélioration de 2,06%. Les tendances ressorties des résultats du pre-
mier trimestre 2015 ont renforcé la confiance des investisseurs. Cette embellie a été
principalement portée par les gains observés sur les titres de capital tels que TOTAL
CI (+59,57%), CROWN SIEM CI (+46,64%), SERVAIR ABIDJAN CI ( +36,36%),
NESTLE CI (+33,33%) et SICABLE CI (+24,26%). Le marché des actions affiche,
sur l’ensemble du mois de juin, 18 335 375 titres échangés pour une valeur totale de
18,34 milliards de Fcfa, soit une hausse de 55,93% par rapport à mai 2015 (11,64
milliards de Fcfa). Le secteur « Services Publics » affiche la plus forte contribution
en valeur à hauteur de 32,24% du montant total des échanges du marché des actions.
(CGF Bourse, LM N ◦ 184-Juillet 2015)
Les chiffres présents dans les phrases ci-dessus (13, 0%, 3, 6%, 3, 90%, 277,71 points,
2,06%, etc.) sont appelés statistiques. Ainsi dans le langage courant, le terme “statistique”
recouvre des données chiffrées telles que les moyennes, les médianes, les pourcentages et
les indices qui nous aident à comprendre l’environnement économique. Cependant, comme
nous le verrons, le champ ou le contenu des statistiques inclut beaucoup plus que des chiffres.
5
De façon plus générale, la Statistique est l’art et la science de collecter, analyser, présenter
et interpréter des données.
Définition 1.2.1. La Statistique, c’est l’étude des variations observables. C’est une méthode
qui consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser
et à les interpréter.
6
1.3 Applications en économie et gestion
Dans l’environnement économique et commercial actuel, tout le monde a accès à de nom-
breuses informations statistiques. Les dirigeants et les managers qui ont le plus de succès,
sont ceux qui comprennent l’information et savent l’utiliser à bon escient. Voici quelques
utilisations de statistiques dans le domaine économique et commercial.
1.3.1 Comptabilité
Les experts comptables utilisent des procédures d’échantillonnage statistique pour effec-
tuer des opérations d’audit pour le compte de leurs clients.
Par exemple, supposons qu’une entreprise comptable veuille déterminer si le montant
du compte fournisseurs qui apparaît dans le bilan, correspond bien au montant réel. Dans
ce cas, l’expert-comptable sélectionne un sous-ensemble de comptes, appelé échantillons (le
nombre de fournisseurs est très grand). Après avoir réexaminé les comptes de l’échantillon,
l’expert-comptable conclut si le montant des comptes fournisseurs inscrit dans le bilan est
acceptable ou non.
1.3.2 Finance
Les analystes financiers utilisent des informations statistiques diverses pour orienter leurs
recommandations en matière d’investissement.
1.3.3 En marketing
Les scanners électroniques des caisses enregistreuses dans les commerces collectent des
données, utilisées dans de nombreuses applications de recherche en marketing.
1.3.5 Économie
Les économistes fournissent fréquemment des prévisions à propos de certains faits éco-
nomiques futurs. Par exemple, pour prévoir le taux d’inflation, les économistes utilisent des
indicateurs tels que l’indice de prix à la production, le taux de chômage et le taux d’utili-
sation des capacités de production. Souvent ces indicateurs statistiques sont intégrés à des
modèles de prévision qui prévoient le taux d’inflation.
7
Première partie
8
Chapitre 2
9
6,80 7,99 6,09 6,69 3,70 7,59 4,63 6,15 7,89 8,07 5,92 7,98 7,65 5,76 8,63
6,68 5,78 9,27 6,27 9,36 6,25 6,21 9,16 6,12 6,80 8,75 6,94 5,44 5,93 6,14
7,53 6,62 7,87 5,00 5,69 5,60 4,93 4,90 7,72 8,28 8,78 7,61 8,11 9,23 5,98
8,13 5,97 7,34 6,15 6,97 7,81 8,28 4,72 6,09 6,17 6,28 7,22 4,37 6,06 6,59
7,60 5,39 8,42 6,44 5,94 8,42 5,39 5,77 7,91 6,18 6,58 7,14 7,94 9,22 6,68
6,71 6,03 7,11 4,93 4,96 6,35 7,30 6,81 9,92 9,67 8,50 5,59 7,22 6,99 7,77
6,26 7,31 6,92 7,96 7,88 9,67 6,13 8,83 5,49 5,45
TABLE 2.1 – Temps en secondes réalisés lors des 100 essais de l’équipe A
7,83 7,51 6,32 7,42 7,02 7,78 6,97 7,24 7,29 7,19 7,10 6,80 6,92 7,79 7,21
8,12 7,63 6,72 7,95 7,37 8,05 7,35 8,36 7,85 7,05 7,69 7,86 6,67 7,97 7,71
8,36 7,04 7,02 6,83 8,22 8,06 8,19 7,96 7,31 7,10 7,18 7,90 8,03 7,48 7,45
7,61 6,81 7,69 6,93 7,96 7,95 8,36 7,56 6,89 7,91 6,74 6,42 7,44 7,38 8,17
7,57 6,93 7,51 7,79 7,87 6,93 8,07 8,22 7,92 7,70 6,80 7,14 6,72 7,25 7,79
8,01 7,14 6,79 7,47 7,14 7,76 7,85 8,03 7,74 7,21 6,67 7,64 7,27 6,97 7,40
7,24 7,72 7,57 7,49 7,98 8,26 7,64 7,95 7,38 7,67
TABLE 2.2 – Temps en secondes réalisés lors des 100 essais de l’équipe B
Le processus de décision de choix d’une équipe doit ainsi être éclairé par la présentation
des données figurant dans ces deux tableaux.
Les grandes lignes Une étude statistique naît d’un besoin d’information pour alimenter un
processus de décision. Les exemples sont innombrables :
• identifier les populations à risque afin d’optimiser une campagne de prévention,
• connaître l’évolution démographique pour décider des modalités du système de re-
traite,
• prévoir la répartition de la population afin de planifier les futurs quotas de médecins,
• localiser des clients ou des prospects dans le but d’optimiser la ventilation des forces
de ventes,
• etc.
Ce chapitre commence par la description des étapes à suivre pour mener une étude sta-
tistique. Le vocabulaire technique afférent aux concepts de base de la statistique est ensuite
développé. Enfin, quelques conseils généraux relatifs à la présentation des données.
10
2.2 Réaliser une étude statistique
Une étude statistique comprend six étapes (figure 2.1), dont les grands lignes sont décrites
ci-après.
11
Quel type — Choix des —- Choix de — Campagne — Traitement —–
de données la méthode de (présentation,
problématique ? à observer de recueil mesures résumé, etc.)
des données des données
Prise
de
décision
12
2.2.3 Choix de la méthode de recueil des données
Cette étape répond à la question “Comment ?”. Plus précisément, comment recueillir les
données ?
Les cinq principales méthodes de recueil des données.
— Expérimentation : Comme son nom l’indique, l’expérimentation suppose de pou-
voir réaliser des expériences c’est-à-dire de faire varier un paramètre (la variable de
contrôle) et d’observer l’impact de cette variation sur une autre grandeur (la variable
de réponse).
— Réunion de groupe : Elle consiste à réunir les individus pour les interroger. Par
nature, cette méthode est plutôt destinée à recueillir des données qualitatives : des
impressions, des sentiments, des envies, etc. Cette technique est également utilisée
pour déterminer les questions qui doivent apparaître dans un questionnaire, ou bien
pour tester la compréhension d’un questionnaire avant son lancement grandeur na-
ture.
— Observation : Au sens propre du terme, l’observation est la méthode qui consiste par
exemple à filmer les clients d’une librairie. L’objectif est d’identifier d’éventuelles
différences de comportements entre ceux qui terminent leur visite par un achat et
ceux qui quittent la boutique les mains vides. Cette technique d’étude est riche d’en-
seignements, mais ne relève pas à proprement parler de la statistique. Les observa-
tions qui relèvent de la statistique sont des observations structurées (via des grilles
d’observation) ou automatisées (via des compteurs).
— Enquête : L’enquête est certainement la méthode de collecte de données la plus
connue et la plus courante. Elle demande :
• d’élaborer un questionnaire,
• de choisir son mode d’administration (support utilisé pour transmettre le question-
naire et le faire remplir).
Certains ouvrages sont consacrés à la construction de questionnaires. Ils détaillent
en particulier les types de questions (fermés, ouvertes) et les différentes échelles
de mesure associées : dichotomiques (oui, non), à choix multiple (lundi, mardi,
etc.), échelle de Likert (pas du tout d’accord, plutôt pas d’accord, etc.), échelle
numérique (0, 1, 2, etc.), etc.
— Données de seconde main : Ce sont les données que le chargé d’études ne recueille
pas lui-même, mais qu’il recupère à partir de sources existantes. De telles données,
appelées également données secondaires, méritent une attention particulière. En effet,
afficher la source des données numériques de seconde main est importante à plusieurs
titres :
• Raisons déontologiques. Récolter et saisir des données est un travail, et les au-
teurs de ce travail méritent d’être cités.
• Raisons juridiques. Les droits de copie (copyright ) sont réglementés.
• Vérification des sources. L’utilisateur doit pouvoir remonter à la source pour
vérifier l’absence d’erreur de saisie ou de modification volontaire des données.
La vigilance s’impose particulièrement lorsque les données sont récupérées sur
un réseau tel qu’internet.
13
• Obtention de compléments d’informations. Certains travaux demandent d’ac-
céder non seulement au document d’origine, mais également à son auteur afin de
pouvoir contrôler la pertinence des données par rapport aux besoins de la nouvelle
étude.
(A contrario, les données recueillies par le chargé d’études s’appellent des données
primaires).
Quand recueillir les données La question “Quand relever les données ?” influe elle aussi
sur la qualité et la pertinence des futurs résultats. Les enquêtes par téléphone ont lieu en
général en dehors des heures habituelles de travail pour trouver les personnes à leur domicile,
au risque de les déranger.
Combien d’individus faut-il choisir ? À l’issue de la seconde étape, les limites de la po-
pulation à observer ont été posées. Il reste à définir exactement combien d’individus vont être
sollicités. L’idéal est souvent d’interroger toute la population. Lorsque cela est impossible,
les relevés de données sont faits sur un échantillon. Plusieurs facteurs doivent alors être pris
en compte : la durée et le coût de la collecte mais aussi la précision souhaitée.
Dans les exemples précédemment cités, les individus étaient des personnes. Ce n’est
pas toujours le cas, en particulier dans l’industrie où les contrôles de qualité sont effectués
sur des produits fabriqués. Les individus ou unités statistiques sont alors des textiles, des
composants électroniques, etc.
À la fin de la campagne de mesures, les données vierges de tout traitement sont dispo-
nibles. Ces données s’appellent des données brutes.
14
Contraintes (budgétaires)—-> Décision politique—-> Conclusions de l’étude
F IGURE 2.2 – Aucune étude ne produit directement de décision
de ces agents publiées par l’INSEE ne présentent évidemment pas individuellement tous ces
salaires, mais des nombres-résumé (salaires moyens, salaires médians, etc.).
Par définition, le résumé des données entraine une perte de données brutes. Cette perte doit
se faire au profit d’un gain d’information.
15
matiques manipulés sont des ensembles, leur cardinal, les éléments de ces ensembles et des
applications.
Exemple 2.3.1. On désire étudier les salaires des 8000 employés d’une entreprise.
Questions : qui va-t-on interroger ? que va-ton mesurer ?
Le statisticien doit d’abord préciser l’ensemble sur lequel vont porter les observations
(données étudiées). Cet ensemble est appelé la population statistique (ou champ d’étude).
En Statistique, le terme “population” s’applique à des ensembles de même nature : étu-
diants d’une faculté, parc automobile sénegalais, production d’une usine, poissons d’une
rivière, etc.
Toute la statistique repose sur les définitions ci-après.
Définition 2.3.1. 1. L’ensemble étudié s’appelle une population (c’est un ensemble au
sens mathématique du terme).
2. Les éléments de la population s’appellent des individus ou unités statistiques.
3. Le nombre d’individus ou d’unités statistiques appartenant à la population est appelé
taille ou effectif total.
4. Une variable statistique ou un caractère est une application qui, à chaque individu
de la population, associe une valeur (numérique ou non).
5. Les valeurs que peut prendre une variable statistique s’appellent des modalités. Les
modalités d’un caractère doivent former une partition c’est-à-dire doivent être ex-
haustives et disjointes.
A chaque individu, on doit pouvoir associer une modalité et une seule.
6. Le nombre d’individus qui présentent une modalité de la variable statistique est ap-
pelé effectif de cette modalité.
Exemple 2.3.2. Le caractère sexe a deux modalités : Masculin et Féminin. Le caractère
Situation Matrimoniale a quatre modalités : Marié, Célibataire, Divorcé, Veuf.
Remarque 2.3.1. 1. Une variable statistique (ou un caractère) est une application d’un
ensemble dans un autre. Le vocable de variable n’est pas pertinent, puisqu’il ne
s’agit pas d’une variable (c’est-à-dire l’argument d’une fonction) mais d’une appli-
cation parfaitement définie. L’utilisation du terme variable statistique est cependant,
a priori, plus répandue que celui de caractère.
2. La population est souvent notée Ω (oméga majuscule) et ses éléments sont notés ωi
(oméga minuscule).
3. L’ensemble des modalités est l’image de l’ensemble Ω par l’application X. Cet en-
semble se note X(Ω), comme f (I) désigne l’image d’un intervalle I par une appli-
cation f .
4. La figure ?? représente une variable statistique X. Une telle figure s’appelle un dia-
gramme sagittal - du latin sagitta, qui signifie “flèche”. Par définition, une et une
seule flèche part de chaque ωi .
5. Les termes individu et population sont issus des premiers travaux statistiques qui
furent des travaux de recensement (comptage des hommes d’une armée, d’une contrée,
etc.). cependant un individu peut être également une entreprise, un logement, un jour
ouvrable, etc.
16
2.3.2 Classification des variables statistiques
La classification habituelle distingue deux types et quatre sous-types de variables statis-
tiques. La nature des variables statistiques dépend de la nature de ses modalités, c’est-à-dire
des des valeurs qu’elle peut prendre.
I. Variables qualitatives (ou caractères qualitatifs) grandeur non “mesurable”, à la-
quelle on ne peut pas donner une valeur numérique.
I.1. Variable qualitative nominale. Aucune relation d’ordre ne peut être établie
sur l’ensemble des modalités. Les variables “sexe”, “situation matrimoniale”,
et “langue maternelle” sont qualitatives nominales. Les modalités dune variable
qualitative nominale sont parfois codées numériquement, en affectant par exemple
la valeur 1 à la modalité “masculin” et la valeur 2 à la modalité “féminin”. Ce co-
dage ne transforme pas la nature de la variable, mais facilite la saisie des données.
Calculer la moyenne de masculin et de féminin n’a évidemment pas de sens.
I.2. Variable qualitative ordinale. Une relation d’ordre existe. C’est le cas, par
exemple, d’une variable dont les modalités sont : très bonne, bonne, plutôt bonne,
etc. En effet, cela a du sens de définir l’ordre selon lequel la modalité “très bonne”
est supérieure à “bonne”.
II. Variables quantitatives La grandeur observée est “mesurable”. On peut effec-
tuer des opérations algébrique (addition, multiplication ...) sur un tel caractère.
II.1. Variable quantitative discrète D’un point de vue théorique, une variable quan-
titative est discrète si l’ensemble de ses modalités est dénombrable. D’un point de
vue opérationnel, une variable quantitative est discrète si la valeur de ses modali-
tés relève d’un comptage. Ainsi, on compte un “nombre d’enfants”, un “nombre
de pièces d’un logement”, etc.
II.2. Variable quantitative continue. Théoriquement, une variable quantitative est
continue si l’ensemble de ses modalités est non dénombrable, c’est-à-dire si la
variable peut prendre n’importe quelle valeur numérique dans un intervalle. Très
souvent, les modalités d’une variable continue sont obtenues en utilisant un ins-
trument de mesure (taille d’une personne, diamètre d’un cylindre, longueur d’un
câble).
Remarque 2.3.2. L’identification du type d’une variable statistique n’est pas toujours fon-
damentale en revanche, s’assurer, à chaque étape du traitement des données (graphiques,
calcul de nombres-résumé, etc.), que le travail effectué a du sens est primordial.
17
TABLE 2.3 – Série brute de la variable statistique “langue maternelle”
Série brute
Définition 2.3.2. La série brute d’une variable statistique est la liste des données telles
qu’elles ont été collectées, c’est-à-dire vierges de tout traitement.
18
TABLE 2.4 – Série brute du caractère “nombre de frères et sœurs”
2 2 5 2 3 1 1 1 1 2 1 1 0 2 2
5 1 4 2 2 1 0 2 2 1 2 1 1 2 1
3 1 2 1 0 0 1 3 13 1 0 2 1 1 1
1 6 1 3 1 0 1 5 7 2 1 2 2 3 0
3 2 2 7 14 9 5 4 1 0 1 2 1 3 2
1 2 2 0 4 1 0 1 0 1 1 1
Si les données sont très nombreuses, les séries classées et ordonnées facilitent le repérage
d’éventuelles valeurs aberrantes. Si, par exemple, l’observation 140 apparaît pour le nombre
de frères et sœurs, il convient de vérifier s’il ne s’agit pas de la donnée 14 mal saisie. Le cas
échéant, la valeur doit être supprimée.
Définition 2.3.3. 1. La série classée d’une variable statistique qualitative est la liste
des observations classées par ordre alphabétique.
2. La série ordonnée d’une variable statistique quantitative est la liste des observations
classées par ordre croissant.
Notation : {x(i) ; i = 1 à N}, où (i) représente le rang de l’observation et x(i) désigne
ainsi l’observation qui occupe le rang (i).
19
TABLE 2.5 – Série classée de la variable statistique “langue maternelle”
0 1 1 1 2 2 2 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 5
0 1 1 1 2 2 3 6
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 7
0 1 1 1 2 2 3 9
0 1 1 1 2 2 4 13
0 1 1 1 2 2 4 14
0 1 1 1 2 2 4
20
TABLE 2.7 – Distribution observée de la variable statistique “langue maternelle”
nombre de Effectif
frères et sœurs
0 11
1 33
2 23
3 7
4 3
5 4
6 1
7 2
9 1
13 1
14 1
Ensemble 87
Définition 2.3.4. Une distribution observée des effectifs est l’application qui associe à
chaque modalité d’une variable statistique l’effectif observé correspondant. Cette distribu-
tion est présentée sous la forme soit d’un tableau, soit d’un graphique.
Le tableau 2.8 et la figure ?? sont deux représentations des mêmes données. La figure
a l’avantage de mettre clairement en évidence la dissymétrie de la distribution ainsi que les
modalités non observées.
La distribution observée des effectifs est la manière la plus courte de présenter les don-
nées sans que celles-ci aient subi (sauf erreur involontaire) la moindre modification. Son
usage est donc extrêmement courant.
21
2.3.4 Représentation graphique
La représentation graphique permet d’avoir une vision globale de la série statistique. Elle
permet aussi de comparer deux ou plusieurs séries statistiques en superposant les graphiques.
Le graphique reste assez imprécis, c’est un résumé qu’il faut absolument associer au tableau.
On a différents graphiques selon le type de variable étudiée.
1. Variable qualitative [catégorielle ou ordinale] :
αj◦ = 360◦ × fj .
— Graphique à bandes ou diagramme en barres (ou tuyaux d’orgues).
On représente les modalités par des rectangles de base constante. Les hauteurs de
ces rectangles correspondent aux fréquences (ou aux effectifs).
Exemple 2.3.4. Dans une enquête réalisée auprès de 75 personnes, on demande leur
niveau d’appréciation sur une certaine marque de voiture. On dispose d’une échelle à
cinq modalités : Très défavorable (TD), défavorable (D), favorable (F), très favorable
(TF) et moyen (M).
(a) Déterminer la population, l’individu statistique, la variable statistique et sa na-
ture.
(b) Compléter le tableau suivant :
22
La courbe cumulative est la représentation graphique de la proportion F (x) des
individus de la population dont le caractère prend une valeur inférieure à x.
C’est une courbe en escaliers représentative de la fonction F définie par :
⎧
⎨ 0 si x < x1
$i
F (x) = F = j=1 fj si xi ≤ x < xi+1
⎩ i
1 si x ≥ xp
Cette fonction, appelée fonction cumulative ou fonction de répartition.
Exemple 2.3.5. On a effectué une enquête auprès de 25 familles pour déterminer le
nombre de voitures possédées par les familles d’un quartier d’Abidjan.
(a) Déterminer la population, l’individu statistique, la variable statistique et sa na-
ture.
(b) Compléter le tableau suivant :
Construction de l’histogramme
Définition 2.3.5. L’histogramme est un ensemble de rectangles juxtaposés tel que la
surface de chacun des rectangles soit proportionnelle à la fréquence de chacune de
classes. La longueur de la base de ces rectangles est proportionnelle à l’amplitude
de la classe, notée ai .
Classes d’amplitudes égales Dans le cas où les classes sont d’amplitudes égales
chaque rectangle de l’histogramme aura une hauteur proportionnelle à l’effectif
de chaque classe.
Exemple 2.3.6. Soit la distribution suivante
Classes Effectifs
[10,20[ 15
[20,30[ 20
[30,40[ 10
[40,50[ 25
[50,60[ 5
Total 75
23
Classes d’amplitudes inégales Dans ce cas il faut construire des rectangles dont
la hauteur est proportionnelle à la densité, ce qui permet d’assurer une surface
proportionnelle à l’effectif.
La densité (ou l’effectif corrigé) assciée à chaque classe est définie par :
ni fi
di = où di =
ai ai
où ai est l’amplitude de la classe d’effectif ni .
Exemple 2.3.7. On désire étudier le revenu de l’ensemble des ménages français
(20 milions). (
(a) Déterminer la population, l’individu statistique, la variable statistique et sa
nature.
(b) Compléter le tableau suivant :
Modalités xi (en euros) Effectifs (ni ) Fréquence (fi en %) Fréquence cumulée (Fi en %)
[0,1600[ 45
[1600,2400[ 80
[2400,3200[ 100
Total 100 X
Représentation en diagramme “tige et feuille” On distingue deux parties pour tout nombre :
les chiffres de plus “faible poids”, la feuille, et les chiffres de plus “haut poids”, la tige.
2.4 Questionnaire
Il y a plusieurs façons de récolter des données, tels que des grilles d’observations, des ex-
périences, des appareils d’enregistrements et même des recherches bibliographiques mais la
plus utilisée est sans aucune doute le questionnaire. Dans cette section, nous verrons d’abord
les 5 qualités à retenir afin de construire un questionnaire fiable et ensuite les différents types
de question pouvant en faire partie.
24
Claire : Les questions doivent être précises, ne contenir aucun terme vague tel que des
acronymes (FTQ, REER) et être les plus courtes possibles. Combien de cigarettes
fumez-vous ?
Complète : Elles doivent contenir toute l’information incluant le choix de réponses.
Parmi les choix suivants, quel est votre couleur préférée ?
Neutre : Les questions ne suggèrent aucune réponse au répondant. Selon des spécia-
listes en nutrition, il est crucial de bien déjeuner. Déjeunez-vous ?
Non-menaçante : Les questions ne portent pas sur des sujets personnels, privés ou dé-
licats. Avez-vous une maîtresse ?
Pertinente : Les questions portent sur le sujet de l’étude. Pour une étude portant sur les
jeux vidéos, on pose une question sur les animaux domestiques.
2.5 Exercices
Exercice 2.5.1: Manipuler les formules, les notations
1. Soit P une population et T une variable statistique définie sur P. Comment notez-vous
l’ensemble des modalités de T ?
2. Comment se note, dans le cas général, une population ? Comment se notent les élé-
ments de cette population ?
3. Réalisez un diagramme sagittal qui met en évidence les concepts suivants : popula-
tion, individu, variable statistique, ensemble des modalités, modalités. Indiquez sur
votre graphique les notations habituelles.
4. Comment se note une série ordonnée de N observations ?
25
Exercice 2.5.2: Manipuler les idées, les définitions
1. Comment s’appellent les valeurs que peut prendre un caractère ? Ces valeurs sont-
elles forcément des nombres ?
2. Donnez un synonyme du terme variable statistique. Pourquoi ce vocable de variable
statistique est-il discutable ?
3. Quelle est la définition d’une variable statistique ?
4. Donnez un synonyme d’unité statistique.
5. À quoi reconnaît-on qu’une variable statistique est qualitative ? quantitative ?
6. Comment fait-on la distinction entre un caractère qualitatif nominal et un caractère
qualitatif ordinal ? Comment savoir si une variable statistique quantitative est dis-
crète ?
7. Élaborez quatre exemples de variables statistiques (une de chaque type) en définissant
explicitement la population (choisissez quatre populations différentes), la variable,
ses modalités et en faisant le diagramme sagittal correspondant.
8. Qu’est-ce qu’une application ?
9. Soit X la variable “nombre de buts marqués”. Décrivez une population telle que X
soit une variable définie sur cette population.
10. On considère la population des 30 unités urbaines françaises de plus de 200 000
habitants. Définissez sur cette population deux variables statistiques.
11. Qu’est-ce qu’une série brute ?
12. Quelle est la différence entre une série classée et une série ordonnée ?
13. la distribution observée des effectifs est une application. Quels éléments associe-t-
elle ?
14. Que voit-on mieux sur une distribution observée que sur une série brute ?
15. Qu’est-ce qui motive une étude statistique ?
16. Quelles sont les grandes étapes d’une étude statistique ?
17. Citez cinq méthodes de recueil des données. Imaginez une situation adaptée à chaque
méthode.
18. Le recueil des données par expérimentation fait appel à une variable de contrôle.
Qu’est-ce qu’une variable de contrôle ? Illustrez votre réponse par un exemple.
19. De quoi disposez-vous à la fin de la campagne de mesure ?
20. Quelle est la question récurrente qui guide tous les traitements de données ?
21. Quelle est la fonction première d’une représentation graphique ?
22. Donnez deux exemples montrant de manière très convaincante qu’il y a des situations
dans lesquelles vous êtes contraint de travailler à partir d’un échantillon.
23. Pourquoi la statistique inférentielle fait-elle appel au calcul des probabilités ?
26
35
30
25
20
Série1
15
10
0
0 1 2 3 4 5 6 7 9 13 14
27
Chapitre 3
3.1 Introduction
L’objectif du recueil et du traitement de données est de fournir des informations utiles à la
prise de décision. Cependant, la présentation des données brutes sous forme de tableaux et de
graphiques (chapitre 1) ne suffit pas toujours à alimenter de manière pertinente le processus
de décision.
Bien souvent, les données sont à la fois nombreuses et variées, et leur synthèse s’impose.
Ainsi, le relevé du salaire de 400 individus peut conduire à observer 400 valeurs différentes.
Dans cette situation, la distribution des salaires est résumée en groupant les observations
par classes et/ou en calculant des nombres-résumé tels que le salaire moyen, le salaire
minimum, le salaire médian, etc.
Selon leur fonction, c’est-à-dire la question à laquelle ils répondent, les nombres-résumé
se répartissent en trois familles.
• Les paramètres de position, comme la moyenne ou la médiane, répondent, de ma-
nière quantitative et résumée, à la question “Où se situe (se positionne) la série de
données ?”
28
TABLE 3.1 – Distributions groupées du nombre d’enfants par familles (en milliers)
TABLE 3.2 – Distributions groupées du nombre d’enfants par familles (en milliers)
Champ : Familles en France métropolitaine, enfants de 0 à 24 ans.
Source : Tableaux de l’économie française (TEF) 2004-2005, p. 29 et RP 2008 exploitations
complémentaires.
29
F IGURE 3.2 – Cinq distributions groupées du nombre d’enfants par famille (en milliers).
0 enfant 1 enfant 2 enfants 3 enfants 4 enfants et +
3449
3296
3345
3118
2665
3821
3672
3667
3548
3333
7371 8225
6484
4876 5420
la majorité des familles. En revanche, pour analyser l’évolution de la structure des familles
nombreuses, il conviendrait de regrouper les modalités 0, 1, 2 et 3 enfants, puis de pré-
senter exhaustivement les effectifs des modalités supérieures. La “perte” de données brutes
est donc ici consentie pour faciliter l’interprétation des données relatives à la majorité des
familles et, par la même occasion, au profit d’un gain de place.
TABLE 3.3 – Effectifs, fréquences et fréquences cumulées des familles suivant le nombre
d’enfants en 2008)
30
Modalités xi Effectifs ni Fréquences fi en % Fréquences cumulées F (xi ) en %
en milliers
0 enfant 8 225 48,0 48,0
1 enfant 3 821 22,3 70,3
2 enfants 3 449 20,1 90,4
3 enfants 1 241 7,2 97,7
4 enfants et plus 396 2,3 100,0
Ensemble 17 132 100,0
Les trois sous-sections qui suivent traitent des paramètres de tendance centrale (ou de
position centrale ).
3.2.3 Le mode
Définition 3.2.2. Le mode (ou classe modale) est la valeur (ou la classe) pour laquelle les
individus sont les plus représentés.
Le terme mode vient du français à la mode, qui signifie “là où il y a du monde”. C’est
dans ce sens que le mode est un centre d’activité.
Calcul du mode
Variable discrète : modalité dont l’effectif est le plus élevé (ou plus grande fréquence
relative).
Variable continue : on cherche d’abord la classe ayant la plus grande densité : c’est
la classe modale. Le mode peur ensuite être défini (par exemple comme le centre de
cette classe).
Remarque 3.2.1. — Pour une variable continue, en général on ne donne que la classe
modale.
— Une série peut avoir plusieurs modes (en présence de maxima locaux de fréquence
ou densiéselon le type de variable) ; on parle de série plurimodale.
Les distributions observées des logements selon le type d’immeuble, dans les quatre
départements d’outre-mer (tableau 3.4), sont issues du recensement de 2008. Ces données
vont servir à introduire la notion de mode.
31
F IGURE 3.3 – Nombre de logements selon le type d’immeuble dans les DOM en 2008.
241262
11575
Réunion
22182
2633
45428
10432
Guyane
2940
2712
147894
5326
Martinique
1493
2617
143374
8440
Guadeloupe
5311
1613
TABLE 3.4 – Distributions observées des logements selon le type d’immeuble en 2008
Exemple 3.2.2 (Les logements selon le type d’immeuble dans les départements d’outre-mer).
Guadeloupe Martinique Guyane Réunion
Habitation de fortune 1 613 2 617 2 712 2 633
Case traditionnelle 5 311 1 493 2 940 22 182
Maison ou immeuble en bois 8 440 5 326 10 432 11 575
Maison ou immeuble en dur 143 374 147 894 45 428 241 262
Ensemble 158 738 157 330 61 512 277 652
Source : Tableaux de l’économie française (TEF) 2001-2002, p. 15, Division recensement
de la population INSEE.
La lecture du tableau 3.4 et, de manière encore plus immédiate, l’observation de la figure
3.3 montrent que dans les quatre départements, les logements les plus nombreux sont les
maisons ou immeubles en dur. En langage technique : la modalité “maison ou immeuble en
dur ” est le mode des quatre distributions.
32
Dans le cas où les données sont regroupées en classes d’amplitudes inégales, la solution
consiste à rechercher la classe modale qui tient compte des amplitudes des classes.
Définition 3.2.3. La densité d’observations d’une classe est égale au rapport fréquence (de
la classe) sur amplitude (de la classe).
La classe modale est la classe de la distribution groupée qui a la densité d’observations
la plus élevée.
Le tableau 3.5 présente les calculs de la densité pour l’année 2010. Les fréquences de
chaque classe sont obtenues en divisant l’effectif correspondant par l’effectif total (66 024).
Les amplitudes de classe sont égales à la différence entre la borne supérieure et la borne
inférieure de la classe (la dernière classe est supposée fermée à 80 ans). Enfin, la densité
d’observations est obtenue en calculant, pour chaque classe, le rapport fréquence/amplitude.
TABLE 3.5 – Densité d’observations des personnes incarcérées selon l’âge en France en
2010
Effectif Fréquence Amplitude Densité d’ob-
servations
De 16 ans à moins de 18 ans 607 607/66 024 2 0,005
De 18 ans à moins de 21 ans 4 883 0,074 3 0,025
De 21 ans à moins de 25 ans 11 438 0,173 4 0,043
De 25 ans à moins de 30 ans 13 399 0,203 5 0,041
De 30 ans à moins de 40 ans 17 146 0,260 10 0,026
De 40 ans à moins de 50 ans 10 874 0,165 10 0,016
De 50 ans à moins de 60 ans 5 321 0,081 10 0,008
60 ans ou plus 2 356 0,036 20 0,002
Ensemble 66 024
3.2.4 La médiane
Définition 3.2.4. La médiane est la valeur de la série (signifie une modalité) qui partage la
série en deux sous-ensembles de même effectif (ou de même fréquence).
Détermination de la médiane : les données sont observées de manière brute (série sta-
tistique ou données ponctuelles), le plus souvent une variable discrète .
La médiane est un centre de position lorsque les données quantitatives sont rangées par
ordre croissant. La détermination de la médiane est réalisée de façon différenciée en fonction
de la parité (paire ou impaire) de la taille de la série de données. L’exemple met en exergue
les raisons de cette distribution.
Le tableau 3.6 présente deux séries ordonnées suivant la densité de population au kilo-
mètre carré. Le rang central pour la série de l’Union européenne à 15 est le 8e rang. En effet,
7 pays ont un rang précédant celui du Portugal et 7 pays ont un rang suivant celui du Por-
tugal. La densité correspondante de 113 habitants au kilomètre carré est appelée la densité
médiane.
33
Exemple 3.2.3. En avril 2004, dix nouveaux pays sont entrés dans l’Union européenne.
Cette fois, la population de pays étant de taille dix, il n’y a pas à proprement parler de rang
central, mais deux pays qui occupent des rangs pseudo-centraux : la Slovénie et la Hongie.
Union européenne à 15 Densité par Rang 10 nouveaux pays Densité par ha- Rang
Année 2003 habitant au Année 2004 bitant au km2
km2
Finlande 15 1 Estonie 31 1
Suède 20 2 Lettonie 36 2
Irlande 57 3 Lituanie 54 3
Espagne 82 4 Chypre 97 4
Grèce 83 5 Slovénie 99 5
Autriche 98 6 Hongrie 109 6
France métropolitaine 108 7 Slovaquie 110 7
Portugal 113 8 Pologne 119 8
Danemark 125 9 République tchèque 129 9
Italie 190 10 Malte 1 246 10
Luxembourg 193 11
Allemagne 231 12
Royaume-Uni 242 13
Belgique 341 14
Pays-Bas 397 15
Source : Tableaux de l’économie française (TEF), INSEE 2004-2005, p.11, d’après 2003,
fiche de données sur la population mondiale, Population référence bureau (PRB),
www.prb.org.
Dans cette situation, la médiane est la demi-somme (ou la moyenne)des densités de ces
deux pays (99 et 109) : la densité médiane est alors de 104 habitants au kilomètre carré
(tableau 3.6).
Définition 3.2.5. La médiane se détermine uniquement à partir de la distribution ordonnée.
1. Si le nombre N d’observations est impair, la médiane est l’observation qui occupe le
rang central de la série : Mé = x( N+1 ) .
2
34
Robustesse de la médiane Même si la densité de population de Malte était encore beau-
coup plus élevée, la médiane de la série resterait de 104 habitants au kilomètre carré. Ce
constat traduit en fait une propriété fondamentale de cet indicateur : la médiane n’est pas
influencée par les valeurs extrêmes de la série qu’elle résume. En particulier, si des valeurs
aberrantes sont saisies par erreur, par exemple 12 460 au lieu de 1 246, la médiane n’en est
pas affectée.
Proposition 3.2.1 (Robustesse de la médiane). La médiane est un indicateur dit robuste, car
de nombreuses observations peuvent varier sans que la médiane soit modifiée. Autrement dit,
la médiane résiste (ne “bouge” pas) à de fortes variations des données. 1
La robustesse de la médiane est très intéressante pour résumer la position des distribu-
tions qui, par nature, comportent des écarts importants entre les valeurs les plus faibles et
les plus élevées de la série. Le patrimoine, par exemple, est une variable qui ne prend au-
cune valeur négative, mais qui peut, en revanche, présenter des observations très élevées. La
médiane permet de “neutraliser” l’asymétrie de cette distribution.
Ainsi, résumer une distribution de patrimoines par le patrimoine médian est, a priori,
plus pertinent que de résumer cette distribution par le patrimoine moyen. En effet, la valeur
numérique du patrimoine moyen, contrairement à celle du patrimoine médian, dépend des
valeurs des plus grands patrimoines, détenus par quelques individus seulement.
1. À la limite, toutes les observations strictement inférieures à la médiane et toutes celles strictement supé-
rieures à la médiane peuvent changer sans la faire varier.
35
Exemple 3.2.4. La figure ?? présente les revenus salariaux médians des salariés du secteur
privé et semi-public de 25 à 55 ans selon la catégorie professionnelle.
36
F IGURE 3.4 – Revenus salariaux médians des salariés du secteur privé et semi-public,
France, année 2008.
Quel est l’intérêt d’avoir la médiane plutôt que la moyenne ? L’utilisation du salaire
moyen comme nombre-résumé conduirait à des contestations sur la représentativité d’un tel
paramètre. En effet, une critique facile consiste à dire que le salaire moyen des cadres est
trop influencé par les très hauts salaires de quelques dirigeants pour pouvoir le comparer
autres autres catégories socioprofessionnelles. Le choix du salaire médian comme indicateur
de position des revenus salariaux est ici tout à fait judicieux, puisqu’il s’agit d’un indicateur
robuste.
Exemple 3.2.5 (Médiane de la distribution des familles suivant le nombre d’enfants). La dé-
termination de la médiane de la distribution des familles suivant le nombre d’enfants impose
ici de calculer les effectifs cumulés des modalités (tableau 3.7).
37
TABLE 3.7 – Effectifs cumulés du nombre d’enfants par famille en 2008
Cela veut-il dire que 50 % des familles ont un nombre d’enfants inférieur ou égal à 1 ?
D’après la dernière colonne du tableau 3.7, la fréquence cumulée de l’observation “1” est
de 12 046 000/17 132 000, soit 70 %. En fait, “1” est loin d’occuper uniquement la place
centrale, “1” occupe en fait 3 821 000 rangs, d’où le résultat.
Que convient-il de faire ? Bien que l’observation “1” soit la médiane, dire seulement que
70 % des familles ont 0 ou 1 enfant est judicieux. De nombreux logiciels calculent la médiane
d’une série de données, mais. . . aucun logiciel ne fait les commentaires sur la pertinence de
l’utilisation du terme de médiane.
3.2.5 Quantile
Généralisation de la notion de médiane : les quantiles
Définition 3.2.6. Un quantile d’ordre α (pour (0, 1)) noté Qα est la valeur xi du caractère
observé qui partage la série en deux-ensembles ; une proportion α se situe en dessous de Qα
et une proportion 1 − α au dessus strictement de Qα .
38
Comme 50 % des observations occupent un rang qui précède celui occupé par la médiane,
cet indicateur s’appelle également le quantile d’ordre 50 %.
Le quantile d’ordre 10 %, appelé premier décile est noté D1 , est tel que 10 % des
observations occupent un rang qui suit celui de D1 . D’une manière générale :
Les familles des quantiles sont :
— Les centiles notés C1 (quantile d’ordre 1 %), C2 , . . . , C98 , C99 (quantile
d’ordre 99 %).*
— Les déciles notés D1 (quantile d’ordre 10 %), D2 , . . . , D8 , D9 (quantile
d’ordre 90 %).
— Les quartiles notés Q1 (quantile d’ordre 25 % Q1 = Q25% ), Q2 = Me
(quantile d’ordre 50 %), Q3 (quantile d’ordre 75 % Q3 = Q75% ).
— Le quantile d’ordre α% est toujours égal à la première observation (de la
série ordonnée) dont la fréquence cumulée est supérieure ou égale à α%
c’est-à-dire F (Qα ) = α.
α − Fi
Qα = xi + (xi+1 − xi ) .
Fi+1 − Fi
Exemple 3.2.7. La représentation des salariés d’une entreprise en fonction de la prime de
fin d’années est la suivante :
39
Prime en F ni fi en % Fi en %
[0; 1000[ 18 2,1 2,1
[1000; 2000[ 44 5,1 7,2
[2000; 3000[ 112 13 20,2
[3000; 3500[ 120 14 34,2
[3500; 4000[ 138 16 50,2
[4000; 4500[ 164 19,1 69,3
[4500; 5000[ 106 12,3 81,6
[5000; 6000[ 98 11,4 93
[6000; 7000[ 52 6 99
[7000; 8000[ 8 1 100
Total 860 100 X
Calculons le quantile d’ordre 25% : Q1 = Q25% .
On utilise le tableau des F.C.C.
Q1 ∈]3000; 3500[
25 − 20, 2
Q1 = 3000 + (3500 − 3000) × = 3171, 43 F
34, 2 − 20, 2
25 % des employés ont une prime de fin d’année inférieure à 3171,43 F.
Q2 ∈]3500; 4000[ car les F.C.C. dépassent 50 %.
50 − 34, 2
Q2 = 3500 + (4000 − 3500) × = 3993, 75 F
50, 2 − 34, 2
50 % des employés ont une prime de fin d’année inférieure à 3993,75 F.
Q3 ∈]4500; 5000[ car les F.C.C. dépassent 75 %.
75 − 69, 3
Q3 = 4500 + (5000 − 4500) ×
81, 6 − 69, 3
75 % des employés ont une prime de fin d’année inférieure à Q3 F.
L’exemple suivant constitue une illustration classique d’utilisation des quantiles.
Exemple 3.2.8 (Niveau de vie des retraités). Le champ couvert par les données du tableau
3.8 est celui des personnes retraitées en France métropolitaine dans un ménage ordinaire
dont la personne de référence n’est pas étudiante. Le revenu déclaré du ménage est positif
ou nul. En 2008, 10 % des retraités ont un niveau de vie inférieur à 11 410 e. En queue de
distribution, les 5 % de retraités les plus aisés ont un niveau de vie supérieur à 45 350 e.
Le tableau 3.8 résume 12 960 000 niveaux de vie par l’utilisation de (seulement) 10
indicateurs de position. Le tableau présente une distribution groupée. Les classes de niveaux
de vie ont des amplitudes inégales, mais, par construction, correspondent chacune à 10 %
des effectifs (à l’exception de la dernière classe qui correspond à 5 % des effectifs).
L’amplitude de classe s’obtient en utilisant deux déciles successifs. Par exemple, 10 %
des retraités bénéficient d’un niveau de vie compris entre 21 000 e et 23 800 e, les 10
% suivants ont un niveau de vie compris entre 23 800 e et 28 320 e. Les niveaux de vie
minimum et maximum n’étant pas spécifiés, l’amplitude de la première classe et celle de la
dernière classe ne sont pas connues. La figure ... montre que l’amplitude de l’avant-dernière
classe est sensiblement plus grande que celle des classes précédentes, puisqu’elle comporte
des niveaux de vie allant de 36 470 e à 45 350 e.
40
TABLE 3.8 – Distribution groupée par déciles des niveaux de vie annuels
Individus retraités, année 2008
D1 11 410
D2 13 590
D3 15 370
D4 16 930
D5 18 770
D6 21 000
D7 23 800
D8 28 320
D9 36 470
C95 45 350
Nombre d’individus (en milliers) 12 960
Source : INSEE-DGI, Enquêtes revenus fiscaux et sociaux rétropolées 1996 à 2004,
INSEE-DGFiP-Cnaf-Cnav-CCMSA, Enquêtes revenus fiscaux et sociaux 2005 à 2008.
41
4. En statistique inférentielle, on fera la distinction entre la moyenne mX de X cal-
culée sur toute la population de taille N et la moyenne, notée x̄n , calculée sur un
échantillon de taille n < N.
Non-robustesse, somme des écarts à la moyenne Une seule très mauvaise note peut sen-
siblement baisser la moyenne du semestre ...
Proposition 3.2.2 (Absence de robustesse de la moyenne). La moyenne arithmétique n’est
pas un indicateur robuste, car une seule valeur, en particulier aberrante, peut déplacer sen-
siblement la moyenne.
Peu d’individus calculent la moyenne des valeurs 8 et 12 en faisant l’opération 8+12 2
. En
effet, la valeur 10 est calculée car cette dernière est telle que 10-8=2 et 10-12=-2. Autrement
dit, la moyenne est telle que les écarts positifs entre les observations (8 et 12)et leur moyenne
compensent exactement les écarts négatifs entre les observations et leur moyenne. Cette
propriété est toujours vraie (même si la distribution est dissymétrique) car :
N
% N
% N
%
(xi − m) = xi − m = Nm − Nm = 0. (3.1)
i=1 i=1 i=1
Proposition 3.2.3. La somme des écarts entre toutes les observations d’une série et leur
moyenne arithmétique est toujours nulle.
Autrement dit, la moyenne arithmétique peut être interprétée comme le point d’équilibre
de la série. La détermination graphique de la moyenne est particulièrement simple lorsque la
série est symétrique : la moyenne est l’abscisse correspondant à l’axe de symétrie.
42
TABLE 3.9 – Salaires mensuels nets moyens des agents des services civils de l’État
Définition 3.2.8. Soit X une variable statistique dont les N observations sont notées xi .
L’écriture Y = aX + b, où a et b sont deux constantes, signifie que, pour tout i, les observa-
tions de la variable Y sont yi = axi + b.
43
Cette propriété a des applications pratiques très utiles. En 2009, tous les titulaires de la
fonction publique ont bénéficié d’une augmentation de 1, 1%. Hors effet de structure (c’est-
à-dire, entre autres, des promotions et de l’ancienneté), le salaire moyen de 2009 est alors
égal au salaire moyen de 2008 multiplié par 1, 011. Par conséquent, la masse salariale 2009
sera égale à la masse salariale 2008 multipliée par 1, 011. Cette augmentation de 1, 1% coûte
donc 507 Me à l’État (sans parler des charges).
Définition 3.2.9. Soit X et Y deux variables statistiques définies sur la mm̂e population.
Pour chaque individu i, l’observation xi de X et l’observation yi de Y sont relevées. L’écri-
ture Z = X + Y signifie que, pour tout i : zi = xi + yi .
Remarque
Il est souvent commode d’utiliser un changement de variable pour faciliter le
44
Exemple 3.2.11. Un coureur monte une côte de 1 km à la vitesse de 10 km/h et descend cette
même côte à la vitesse de 30 km/h.
Question : Quelle est la vitesse moyenne du coureur ?
Exemple 3.3.1. Une série de 100 dépenses dont la moyenne est de 154 e correspond à une
dépense totale de 15 400 e. Par exemple, une dépense moyenne de 154 e peut s’obtenir en :
— dépensant 100 fois 154 e.
— ou en dépensant 99 fois 1 e et 1 fois 15 301 e.
La première série est caractérisée par une absence de dispersion, puisque toutes les ob-
servations sont les mêmes. En revanche, affirmer si la deuxième série a, ou non, une forte
dispersion est difficile, puisque 99 observations sur 100 sont égales et que seule une ob-
servation est très différente. Le problème est donc de construire des indicateurs numériques
permettant de quantifier cette dispersion.
La construction d’un paramètre de dispersion peut être abordée de deux manières (figure
3.5) :
— en cherchant à mesurer comment des paramètres de position s’écartent les uns des
autres,
45
F IGURE 3.5 – Modes de construction et familles d’indicateurs de dispersion
46
L’écart absolu inter-centiles C99 − C1 n’écarte quant à lui que 1 % à gauche et 1 % à
droite de la distribution.
Dans le même ordre d’idée, une solution alternative consiste à calculer non pas la diffé-
rence D9 − D1 , mais l’écart relatif de la forme D9 /D1 .
Définition 3.3.2. 1. Un écart absolu inter-quantiles est une différence entre deux quan-
tiles (déciles, quartiles, centiles).
2. Un écart relatif inter-quantiles est un rapport entre deux quantiles (déciles, quar-
tiles, centiles).
3. L’intervalle interquartile est l’intervalle [Q1 , Q3 [ qui contient 50% des observations.
4. L’intervalle interdécile est l’intervalle [D1 , D9 [ qui contient 80% des observations.
5. L’intervalle intercentile est l’intervalle [C1 , C99 [ qui contient 98% des observations.
Ces écarts permettent de mesurer la dispersion de la série autour de la médiane. Plus ces
écarts sont grands et plus la série est dispersée. Du fait que l’on ne tienne pas compte des
observations faibles ou élevées, ces caractéristiques sont moins sensibles aux fluctuations de
l’échantillon que l’étendue.
47
Ensemble Cadres* Professions intermédiaires Employés Ouvriers
D1 13 279 24 524 15 387 12 792 13 301
Q1 14 542 30 743 17 883 13 654 14 556
D5 17 123 38 690 21 430 14 915 16 377
Q3 22 893 50 730 26 060 16 875 18 790
D9 35 296 71 913 32 803 19 871 21 667
D9-D1 22 017 47 389 17 416 7 079 8 366
D9/D1 2,7 2,9 2,1 1,6 1,6
TABLE 3.10 – Quantiles des salaires annuels nets dans le secteur du commerce par catégories
socioprofessionnelles (CSP), année 2008
Champs : France métropolitaine, salariés en équivalent temps plein du secteur du commerce
*Sont inclus dans les cadres les chefs d’entreprise salariés. Source : INSEE, DADS (Décla-
ration annuelles de données sociales) 2008 définitif (exploitation au 1/12).
Par exemple, la qualité d’un produit est un concept complexe et fondamentalement qua-
litatif, à ne pas confondre avec des indicateurs de qualité censés donner une mesure quantita-
tive des “symptômes” de la qualité. De même, le concept de dispersion est difficile à définir
et se distingue des indicateurs de dispersion, qui sont des tentatives pour résumer de manière
quantitative ce concept.
Les indicateurs qui viennent d’être examinés s’appuient sur des écarts absolus ou relatifs
entre deux paramètres de position (le minimum et le maximum, ou deux quantiles particu-
liers).
48
h (cm)
155 160 165 170 175 180 185 190
F IGURE 3.6 – Box plot ou boîte à moustaches
des moustaches, etc.) et permet ainsi de visualiser la dispersion de la série. Son observation
met également en évidence la symétrie ou la non-symétrie de la série (médiane au centre de
la boîte, moustaches symétriques).
Le box plot permet de repérer les points atypiques, voire aberrants, d’une distribution,
mais également de comparer les valeurs d’une même variable saisies sur des populations de
tailles différentes (en superposant plusieurs box plots ).
Exemple 3.3.3. Le tableau suivant donne le salaire mensuel de départ d’un échantillon de
12 diplômés d’une école de commerce.
1 3450 7 3490
2 3550 8 3730
3 3650 9 3540
4 3480 10 3925
5 3355 11 3520
6 3310 12 3480
49
La première colonne du tableau 3.11 consigne la série ordonnée des âges de 20 per-
sonnes.
Série ordonnée Série des écarts Série des écarts Série des carrés Série des écarts
des âges (1) entre les obser- en valeur abso- des écarts entre en valeur abso-
vations et leur lue entre les ob- les observations et lue entre les ob-
moyenne (2) servations et leur leur moyenne (4) servations et leur
moyenne (3) médiane (5)
xi yi = xi − mX zi = |xi − mX | wi = (xi − mX )2 ti = |xi − Me|
30 -17,9 17,9 320,41 17,5
36 -11,9 11,9 141,61 11,5
41 -6,9 6,9 47,61 6,5
42 -5,9 5,9 34,81 5,5
42 -5,9 5,9 34,81 5,5
44 -3,9 3,9 15,21 3,5
46 -1,9 1,9 3,61 1,5
47 -0,9 0,9 0,81 0,5
47 -0,9 0,9 0,81 0,5
47 -0,9 0,9 0,81 0,5
48 0,1 0,1 0,01 0,5
49 1,1 1,1 1,21 1,5
50 2,1 2,1 4,41 2,5
52 4,1 4,1 16,81 4,5
52 4,1 4,1 16,81 4,5
54 6,1 6,1 37,21 6,5
55 7,1 7,1 50,41 7,5
57 9,1 9,1 82,81 9,5
58 10,1 10,1 102,01 10,5
61 13,1 13,1 171,61 13,5
mX = 47, 9 mY = 0 mZ = 5, 7 mw = 54, 19 mT = 5, 7
50
Comment choisir un nombre de référence ? L’idée est de choisir un nombre qui a du sens
par rapport à la série des âges, par exemple un paramètre de position comme la moyenne ou
la médiane. Choisissons l’âge moyen, qui est ici de 47,9 ans (de la même façon, l’âge médian
peut être retenu).
Comment mesurer la manière dont les âges s’écartent de la moyenne de 47,9 ans ?
L’idée la plus immédiate consiste, pour chaque observation xi , à calculer l’écart yi = xi −
mX comme indiqué dans la colonne (2). Ce faisant, une série de 20 écarts est obtenue. Or,
l’objectif n’est pas de donner 20 mesures de la dispersion, mais une seule.
51
N
1 %
3. La variance, notée σ ou V ar(X), est définie par : σ =
2 2
(xi − mX )2 .
N i=1
(
) N
)1 %
4. L’écart type, notée σ, est définie par : σ = * (xi − mX )2 .
N i=1
N
1 %
2
σ = nj (xi − mX )2 .
N i=1
eM e ≤ ex̄ ≤ σ
52
xi (modalités) 2 4 7 12 15 Somme
ni (effectifs) 4 2 5 7 2
ni xi
|xi − x̄|
ni |xi − x̄|
Exemple 3.3.5.
|xi − Me|
ni |xi − Me|
(xi − x̄)
ni (xi − x̄)2
ni x2i
Le plus simple est de choisir une valeur entière pour k. En prenant k = 2 avec m = 47, 9
et σ = 7, 4 de l’exemple des âges :
que l’on peut écrire de la façon suivante si l’on utilise les fréquences :
r
% ni
mp = fi xpi avec fi = .
i=1
N
53
Les moments centrés d’ordre p
Soit la distribution statistique (xi , ni ) où i ∈ {1, . . . , r}. On appelle moment centré (sur
la moyenne arithmétique) d’ordre p de la variable statistique X, la quantité définie par :
r r
1 % & 'p %
µp = ni xi − X̄ avec N= ni
N i=1 i=1
que l’on peut écrire de la façon suivante si l’on utilise les fréquences :
r
% & 'p ni
µp = fi xi − X̄ avec fi = .
i=1
N
µ2 = m2 − m21
µ3 = m3 − 3m1 m2 + 2m31
µ4 = m4 − 4m1 m3 + 6m21 m2 − 3m41 .
Le moment centré d’ordre 1 est toujours nul (µ1 = 0) et le moment centré d’ordre 2 est en
fait la variance (µ2 = s2X ).
Cœfficient de variation
Le cœfficient de variation est un paramètre de dispersion qualifié de relatif. En effet, ce
paramètre rapporte la valeur de l’écart type à celle de la moyenne de la série.
σx
CV =
x̄
c’est le pourcentage (%) de variation par rapport à la moyenne, il est sans unité.
σx 111, 8
CV1 = = = 0, 45
x̄ 250
et
σy 16, 8
CV2 = = = 0, 45
ȳ 37, 5
54
Interprétation
— Si CV est inférieur à 30% alors on peut accepter que la moyenne draine avec elle
beaucoup d’observations. Elle représente bien la variable. (On dit que la distribution
est homogène.
— Si CV est supérieur ou égal à 30%, alors la moyenne n’est pas significative. Au
contraire cela indique l’existence de groupes homogènes opposés entre eux. (On dit
que la distribution est hétérogène.
55
— Si AF = 0, la distribution est symétrique ;
— Si AF > 0, la distribution est étalée vers la droite (biais positif).
— Si AF < 0, la distribution est étalée vers la gauche (biais négatif).
Le cœfficient de Yule Il est défini par :
(Q3 − Q2 ) − (Q2 − Q1 )
CD =
Q3 − Q1
Q1 , Q2 , Q3 sont des quartiles.
CD est comparé à 0.
— Si CD = 0, la distribution est symétrique ;
— Si CD > 0, la distribution est étalée vers la droite (biais positif).
— Si CD < 0, la distribution est étalée vers la gauche (biais négatif).
3.4.2 L’aplatissement
On utilise le moment centré d’ordre 4 et la variance de la distribution statistique pour
avoir l’indicateur d’aplatissement.
• Le cœfficient d’aplatissement de Pearson
µ4
APP =
µ22
où µ est le moment centré sur la moyenne arithmétique.
On sait également que : µ22 = (σ 2 )2 = σ 4 .
Le cœfficient prend donc aussi la forme suivante :
µ4
APP =
σ4
— Si APP = 3 alors la distribution est dite “normale” (courbe “en cloche” de Gauss)
ou mésokurtique.
— Si AP > 3, alors la distribution est dite moins aplatie que la “normale” (distribu-
tion hypernormale) ou leptokurtique.
— Si AP < 3, alors la distribution est dite plus aplatie que la “normale” (distribution
hyponormale) ou platykurtique .
• Le cœfficient d’aplatissement de Fisher
µ4
APF = − 3.
µ22
56
3.5 Le concept de concentration
Six questions générales nous intéressent.
57
Qu’est-ce que le principe de de Pareto ou la “loi” des 80-20 ? Le qualiticien Joseph
Juran a attribué en 1954 à l’économiste italien Vilfredo Pareto (1848-1923) l’observation
suivant laquelle environ 80 % des effets sont le produit de 20 % des causes (par exemple, 80
% des réclamations sont générées par 20 % des clients). Le terme de “loi” est excessif dans
la mesure où ce phénomène empirique ne s’observe que dans certains domaines. C’est ainsi
dans le domaine de la répartition des richesses de plusieurs pays que Vilfredo Pareto a fait
cette constatation.
Quelles sont les principales méthodes de résumé de la concentration ? Les trois princi-
pales sont présentées ci-après. Ces trois approches sont complémentaires et l’une ou l’autre
peut suffire selon les besoins.
Exemple 3.5.1 (Salaires dans les entreprises du secteur privé, années 1975 et 2005). Les
trois premières colonnes du tableau 3.13 se lisent de la manière suivante : en 1975, les 20 %
d’individus aux salaires les plus bas gagnaient entre 7 333 e et 8 596 e par an ; les 20 %
d’individus aux salaires les plus élevés gagnaient entre 21 515 e et 50 545 e par an. Pour
mettre en évidence la concentration, un premier moyen consiste à calculer, à partir des trois
premières colonnes du tableau 3.13, la part du salaire total distribuée à chacune des cinq
classes de salariés.
TABLE 3.13 – Classes de salaires dans les entreprises du secteur privé en France (valeurs
estimées), année 1975.
58
Proportion de Borne inférieure Borne supé- Estimation du Part de la
salariés en % du salaire rieure du salaire salaire moyen masse sala-
de la classe riale en % :
agrégats de
salaires en %
Définition 3.5.1 (Les valeurs globales). Soit une série statistique comportant n observations
ordonnées dans un tableau statistique (xi ; ni ), présentant r modalités.
— La masse (ou agrégat ou valeur globale) associée à la modalité xi d’effectif ni est la
quantité définie par : ni x$ i.
p
— La masse totale : S = i=1 ni xi (appelée masse salariale totale dans le cas des
salaires).
— La part de la masse totale (ou masse relative ou valeur globale relative) associée à
la modalité xi , notée qi , est la quantité définie par : qi = !pni xni i xi .
i=1
— Les masses relatives cumulées croissantes (ou valeurs $i globales relatives cumulées
croissantes) sont notées Qi et définies par : Qi = k=1 qk .
Médiale
La médiale est une médiane calculée relativement aux valeurs globales relatives (au lieu
des fréquences). Elle est notée Mle.
59
Une série statistique est dite concentrée si une faible proportion des individus observés
possède une forte proportion des valeurs globales.
Exemple 3.5.2. Si 30% des salariés reçoivent 80 % de la masse salariale, alors on dit que
la distribution est fortement concentrée ; elle est dite inégalaire.
Exemple 3.5.3. Pour une autre série statistique représentant le salaire, si 33% des salariés
reçoivent 30 % de la masse salariale, alors on dit que la distribution est peu concentrée ;
elle est dite égalaire (l’écart entre la médiale et la médiane est faible).
Ecart de concentration
L’écart de concentration est le rapport de l’écart entre la médiale et la médiane à l’éten-
due. On le note E. Il permet de mesurer la concentration.
∆ Mle − Me
E= =
W xmax − xmin
0 < E < 1.
E est d’autant plus grand que la concentration est forte. La distribution est égalitaire si
la concentration est faible.
Soit N la taille inconnue de la population. L’effectif de chaque classe est égal à 0, 2 × N.
La masse salariale des 20 % de salariés les moins bien rémunérés est donc égale à : (0, 2 ×
N) × 7965 e.
Pour la même raison, la masse salariale totale, c’est-à-dire celle des 100 % d’indivi-
dus, vaut : (1 × N) × 16970 e. La part de la masse salariale totale détenue par les 20 %
d’individus de la première classe est donc de :
Le calcul est effectué de la même manière pour les autres classes [tableau 3.13, colonne (5)].
Ainsi, l’agrégat de la dernière classe est de 42,5 %. Autrement dit, les 20 % d’individus les
mieux payés se partagent 42,5 % de la masse salariale de l’ensemble des salariés.
Le tableau 3.14 présente la distribution classée des salaires pour l’année 2005. Le même
raisonnement conduit aux calculs des parts de la masse salariale détenues par chaque classe
de salariés.
TABLE 3.14 – Classes de salaires dans les entreprises du secteur privé en France (valeurs
estimées), année 2005.
60
Proportion de Borne inférieure Borne supé- Estimation du Part de la
salariés en % du salaire rieure du salaire salaire moyen masse sala-
de la classe riale en % :
agrégats de
salaires en %
Le tableau 3.15, construit à partir des résultats des deux tableaux précédents, permet de
comparer la concentration des salaires de l’année 1975 à celle de 2005.
TABLE 3.15 – Comparaison des agrégats de salaires des années 1975 et 2005.
20 9,4 11,2
20 11,6 13,3
20 15,2 16,2
20 21,3 21,1
20 42,5 38,2
Ainsi, en 1975, les 20 % de salariés du secteur privé les moins bien payés se partageaient 9,4
% de la masse salariale totale. Cette part est plus importante en 2005, puisqu’elle est de 11,2
%. Pour les trois premières classes, l’évolution est comparable : pour la même proportion
61
d’individus, la part qu’ils se partagent augmente. En revanche, pour les 20 % de plus hauts
salaires, la part diminue de 42,5 % à 38,2 %.
L’observation du tableau 3.15 permet donc de conclure à une diminution de la concen-
tration des salaires entre 1975 et 2005. La répartition de 2005 est moins inégalitaire que
celle de 1975.
Si l’objectif était de connaître l’évolution quantitative des inégalités entre 1975 et 2005,
alors le calcul des agrégats qui vient d’être réalisé est pertinent. En revanche, si l’objectif
est de disposer d’un outil graphique qui permette de conclure en un coup d’œil au sens de
l’évolution des inégalités, alors l’étude doit être complétée par la construction de la courbe
de Lorenz.
Proportion cumulée Part cumulée de la masse sa- Part cumulée de la masse sa-
de salariés en % lariale en % en 1975 (agré- lariale en % en 2005 (agré-
(fréquence cumulée) gat cumulé de salaires) gat cumulé de salaires)
20 9,4 11,2
40 21,0 24,5
60 36,2 40,8
80 57,5 61,8
la lecture du tableau 3.16 montre qu’en 1975, les 80 % des salariés les moins bien payés se
partageaient 57,5 % de la masse salariale totale et que cette part a augmentée, pour s’élever
à 61,8 % en 2005.
La figure ?? est construite en portant en abscisse les proportions cumulées de salariés
(fréquences cumulées) et en ordonnée les parts cumulées de la masse salariale (agrégats
cumulés). Les courbes représentées pour les années 1975 et 2005 s’appellent des courbes de
Lorenz.
Comment interpréter une courbe de Lorenz ? Par construction, la courbe de Lorenz est
située entre la diagonale du carré et une courbe qui suit le contour du triangle inférieur
délimité par l’axe horizontal, la diagonale et l’axe vertical au niveau d’abscisse 100 %
(figure ??).
En effet, un cas théorique extrême est celui où tous les salariés perçoivent exactement le
même salaire. Cette situation conduit à une répartition où 2 % des individus se partagent 2
62
63
% de la masse salariale, 20 % des individus se partagent 20 % de la masse salariale, etc.
Cette répartition totalement égalitaire correspond à la diagonale du carré.
A l’opposé, le deuxième cas théorique caricatural est celui où un seul individu perçoit la
totalité de la masse salariale. Dans ce cas, 10 %, 20 %,..., 99.99 % des individus ont 0 % de
la masse salariale et la courbe suit l’axe horizontal jusqu’à l’abscisse 100 %, puis rejoint
(en suivant la verticale) le point de coordonnées (100 % ;100 %).
Plus la courbe de Lorenz est proche de la diagonale, plus la répartition de la variable
traitée est égalitaire. Ainsi, l’observation des courbes de Lorenz pour les années 1975 et
2005 conduit à la même conclusion qu’à la sous-section 3.5 : la concentration des salaires
en 2005 est moins forte que celle de 1975.
Quel est l’intérêt d’une courbe de Lorenz ? Un graphique proposant une seule courbe
de Lorenz n’a pas d’intérêt. En effet, déterminer visuellement si la courbe est proche ou non
de la diagonale égalitaire n’est guère possible. En revanche, si deux courbes de Lorenz sont
présentées sur la même figure, alors la comparaison des deux situations est immédiate.
Calcul de l’indice de Gini Plus la courbe est proche de la diagonale, plus la répartition
est égalitaire. L’idée est donc de calculer l’aire de la surface située entre la courbe de Lorenz
et la première diagonale. Cette surface s’appelle la surface de concentration.
Toujours par construction, l’aire de concentration varie entre les valeurs 0 (cas d’une ré-
partition totalement égalitaire) et 0,5 (aire du triangle inférieur dans le cas d’une répartition
totalement inégalitaire).
De manière à obtenir un indicateur compris entre 0 et 1, l’indice de Gini est défini comme
suit.
Définition 3.5.2. 1. La surface de concentration est la surface située entre la courbe de
Lorenz et la première diagonale.
2. L’indice de Gini est égal à deux fois l’aire de concentration. Plus l’indice est proche
de 0, plus la répartition est égalitaire. Compris entre 0 et 1, il est souvent expriméen
pourcentage.
64
Le calcul de l’indice de Gini repose sur le fait que l’aire de concentration est égale à
l’aire du triangle inférieur (égale à 0,5 par construction) diminuée de l’aire de la surface
située sous la courbe de Lorenz. Cette dernière est égale à la somme des aires des trapèzes
(3.7).
65
1
$ (b+B)·h
Avec les notations de la figure 3.7, l’aire de chaque trapèze est égale à 2
− 2
.
L’indice de Gini s’obtient en multipliant le résultat par 2 :
%
IG = 1 − (b + B) · h,
Soit IG = 0, 304.
Les valeurs sont ici arrondies. En faisant les calculs avec une plus grande précision (à
l’aide d’un tableur, par exemple), les résultats sont :
• Indice de Gini des salaires en 1975 : 0,303.
66
• Indice de Gini des salaires en 2005 : 0,247.
L’évolution de l’indice de Gini montre également que la concentration des salaires est
plus faible en 2005 qu’en 1975.
Quel est l’intérêt de l’indice de Gini ? L’intérêt d’un unique nombre de résumé est tou-
jours le même : faciliter la comparaison entre de nombreuses situations (différents pays)
et/ou faciliter la mesure de l’évolution entre de nombreuses dates. Ainsi, la
[600,1200[ 15
[1200,1800[ 25
[1800,2100[ 10
Total 50
Le cas de Rola-Cola
Exemple 3.5.5. Nous allons présenter le cas Rola-Cola de Bowerman & O’Connell (1984).
Le département Marketing de Rola-Cola souhaite étudier les attitudes et les préférences
des consommateurs envers Rola-Cola et une boisson concurrente appelée Koka-Cola. Une
enquête a donc été réalisée en faisant passer un test de goût à des clients choisis au hasard
et en leur posant ensuite les quatre questions suivantes :
67
Les questions furent posées à quarante personnes choisies au hasard dans un centre com-
mercial de banlieue. Les réponses de ces personnes sont données dans le tableau 2.1.
Numéro Boisson préfé- Achat Goût pour le Consommation
de l’in- rée préalable sucre du boisson au
terviewé cola
1 koka-cola non D’accord 4
2 rola-cola oui Je ne suis pas sûr 8
3 koka-cola non Pas d’accord 2
4 rola-cola oui Je ne suis pas sûr 10
5 rola-cola non D’accord 7
6 rola-cola oui Pas d’accord 6
7 koka-cola non D’accord 4
8 rola-cola non D’accord 3
9 koka-cola non Je ne suis pas sûr 3
10 rola-cola non D’accord 5
11 rola-cola oui Je ne suis pas sûr 7
12 rola-cola oui Pas d’accord 13
13 rola-cola oui D’accord 6
14 koka-cola non D’accord 2
1. Etude de la Question 1 : “Quelle boisson préférez-vous ?”
a) Déterminer les effectifs et les fréquences des modalités de la Question 1.
b) Présenter les résultats sous forme de diagrammes en bâtons verticaux puis hori-
zontaux, et de diagrammes circulaires.
c) Construire un intervalle de confiance à 95 % de la proportion π de personnes
préférant Rola-Cola au niveau de toute la population.
d) Combien de personnes faudrait-il interroger pour obtenir un intervalle de confiance
à 95 % de la proportion π ayant une largeur égale à 0.04 ?
2. Etude de la Question 4 : “Combien de litres de boisson au cola votre famille a-t-elle
consommés au cours du mois dernier ?”
a) Donner un résumé statistique des réponses à la question 4 : moyenne, variance,
écart-type, minimum, maximum, médiane, quartile inférieur, quartile supérieur.
b) Représenter la boîte à moustaches associée aux données.
c) Construire un histogramme associé aux données. Y superposer la densité de la
loi normale ayant pour paramètres la moyenne et l’écart-type estimés à l’aide de
l’échantillon.
d) Étudier la normalité de la consommation mensuelle de boisson au cola en utili-
sant le test du khi-deux ou le test de Shapiro-Wilks.
e) Donner un intervalle de confiance à 95 % de la consommation moyenne µ de
toute la population.
68
f) On suppose que la consommation moyenne habituelle de boisson au cola au ni-
veau de la population est de 5 litres/mois. Les résultats de l’enquête sont-ils com-
patibles avec cette hypothèse ? g) On suppose qu’une campagne publicitaire en
faveur des boissons au cola a précédé l’enquête. La campagne publicitaire a-t-
elle été efficace, sous l’hypothèse de la question f) ?
3. Etude du niveau de consommation de boissons au cola en fonction de la boisson
préférée :
a) Donner des résumés statistiques des réponses à la question 4 pour deux groupes
séparés : 1) ceux qui préfèrent Rola-Cola et 2) ceux qui préfèrent Koka-Cola.
b) Représenter graphiquement les deux groupes à l’aide des boîtes à moustaches
multiples.
c) Les variances des deux sous-populations peuvent-elles être considérées comme
égales ?
d) La consommation mensuelle de boissons au cola dépend-elle de la boisson pré-
férée ?
e) La consommation mensuelle moyenne de toutes les personnes préférant Rola-
Cola est-elle supérieure à la consommation mensuelle moyenne de toutes les per-
sonnes préférant Kola-Cola ?
4. Y-a-t-il une liaison entre la boisson préférée et le goût pour le sucre ?
5. Y-a-t-il une liaison entre la boisson préférée et l’achat préalable de Rola-Cola ?
6. Reprendre la Question 3 en étudiant la consommation mensuelle de chips en fonction
de la boisson préférée.
7. Représenter graphiquement la consommation de chips en fonction de la consomma-
tion de boissons au cola. Noter de manière distincte la boisson préférée. Donner
l’équation de la droite des moindres carrés pour les personnes préférant Rola-Cola
et tracer cette droite. Faire de même pour les personnes préférant Koka-Cola.
8. Rola-Cola n’est pas satisfaite de sa campagne de promotion actuelle du Rola-Cola
et souhaite préparer une nouvelle campagne. Le département Marketing a développé
deux options :
Campagne 1 : cette campagne utilise des coupons de réduction et des annonces à
la télévision pour encourager les consommateurs à essayer Rola-Cola pour la
première fois.
Campagne 2 : cette campagne utilise des annonces à la télévision et à la radio
basées sur le slogan “Rola-Cola, le cola le moins sucré !”
Quelle est la campagne que vous choisiriez ?
9. Ray’s Potato Chips, le fabricant bien connu de patates chips, souhaite lancer une
campagne de promotion avec Rola-Cola ou bien Koka-Cola. Rola-Cola, espérant
convaincre Ray’s Potato Chips qu’il devrait s’associer avec lui dans sa campagne
de promotion, affirme que les consommateurs de Rola-Cola boivent plus de bois-
sons au cola que ceux de Koka-Cola. Les responsables de Rola-Cola pensent que
s’ils sont capables de prouver cette affirmation (avec seulement une petite chance
69
d’erreur), alors ils pourront convaincre Ray’s Potato Chips de mener une campagne
jointe avec Rola-Cola, puisque les personnes buvant de grandes quantités de bois-
sons au cola sont aussi, très vraisemblablement, de gros mangeurs de patate chips.
Si vous travailliez pour Ray’s Potato Chips, et si on vous présentait tous les résultats
statistiques de Rola-Cola, ceux-ci auraient-ils suffisamment de signification pratique
pour vous convaincre de lancer une campagne de promotion jointe avec Rola-Cola ?
70
Deuxième partie
71
Chapitre 4
4.1 Objectifs
— Dans les fiches précédentes, nous avons étudié les distributions statistiques à une
seule variable (ou caractère).
— Très souvent, dans une population, il est nécessaire d’étudier des distributions pour
lesquelles les individus sont décrits selon deux ou plusieurs variables.
— Nous nous limiterons à l’étude des distributions à deux variables.
— Les distributions sont représentées dans des tableaux à double entrée. Lorsque les
deux variables sont quantitatives, il est possible de représenter les individus par des
points dans un système d’axe. Ces points étant représentés sur un graphique, il est
possible de réaliser des ajustements par des courbes en utilisant des méthodes du
type moindres carrés, d’étudier des liaisons et des corrélations entre deux variables.
— Lorsque l’une des variables est le temps on obtient la représentation de séries dites
“chronologiques”. L’analyse de ces séries a pour but essentiel des prévisions, par
exemple sur le volume des ventes d’un produit dans quelques mois ou trimestres.
72
Si les caractères sont quantitatifs discrets, les variables sont plutôt notées X et Y, et les
différentes modalités de X sont notées :
x1 , x2 , . . . , xi , . . . , xp .
Les différentes modalités de Y sont notées :
y1 , y2 , . . . , yj , . . . , yq .
Si les caractères sont quantitatifs et continus, les modalités sont en général regroupées
par classes et la description sera identique à celle décrite ci-après pour des caractères discrets
(les valeurs de xi , ou yj , sont remplacées par des classes définies par leur origine et leur
extrémité).
Désignons par nij le nombre “d’unités statistiques” ou “individus” qui présentent à la
fois la modalité Ci et la modalité Kj (ou pour lesquelles X = xi et Y = yj ) :
— ni. est le nombre d’individus pour lesquels X = xi ;
— n.j est le nombre d’individus pour lesquels Y = yj .
❍
❍❍ Y
y1 y2 ... yj ... yq Total
X ❍❍ ❍
x1 n11 n12 n1j n1q n1.
73
4.2.4 Distributions marginales
Distribution marginale de X
Dans le tableau précédent la colonne “Total” donne la distribution des individus selon le
caractère X uniquement.
Cette distribution est la distribution marginale de X.
Distribution marginale de Y
Dans le tableau donnant la distribution des couples (xi , yj ) la ligne “Total” donne la dis-
tribution de la variable Y indépendamment des valeurs de X, c’est la distribution marginale
de Y.
74
On vérifie : / 0
% % %
fij = fi. = 1 (ou 100%) .
i j i
75
4.3.4 Distribution marginale de la variable Y, moyenne et variance
4.3.5 Compléments
Caractères qualitatifs C et K
nij , est le nombre d’individus qui présentent la modalité Ci du caractère C et la modalité
Kj du caractère K.
Il est possible de calculer les marges, c’est-à-dire les ni. et les n.j , de faire des représen-
tations graphiques, mais il n’est pas possible de faire des calculs de moyenne.
p q
1 %%
mrs = nij xri yjs .
n i=1 j=1
76
— Dans la section précédente, il a été étudié la distribution de l’une des variables indé-
pendamment de l’autre. On a obtenu ce qu’on appelle la distribution marginale de X
et la distribution marginale de Y .
— Ces distributions marginales ne prennent en compte que les “marges” du tableau, les
autres lignes et colonnes du tableau permettent de définir les distributions condition-
nelles. C’est-à-dire que la modalité de l’une des variables étant fixée, on étudie la
distribution de l’autre variable.
Exemple 4.4.1. Distribution de Y conditionnée par X = xi ou distribution de Y sachant
que X = xi .
L’indice “i” étant fixé, seul l’indice “j” correspondant à la variable Y varie. Les calculs et les
présentations graphiques sont les même que pour les distributions à une seule variable.
Puisqu’à chaque valeur de “i” correspond une distribution conditionnelle il y a p distri-
butions de Y conditionnées par X.
77
La variance de X conditionnée par Y = yj est :
p
1 %
Vj (X) = nij (xi − x̄j )2 .
n.j i=1
4.4.3 Compléments
Distributions données avec les fréquences relatives
Au lieu des effectifs ou fréquences absolues, il est possible de donner les distributions
avec les fréquences relatives c’est-à-dire :
nij nij
fij = = au lieu de nij ,
n.. n
ni. ni.
fi. = = au lieu de ni. ,
n.. n
n.j n.j
f.j = = au lieu de n.j ,
n.. n
nij
fji = est la fréquence conditionnelle de Y = yj conditionnée par X = xi .
ni.
nij
De même : fij = n.j
est la fréquence conditionnelle de X = xi conditionnée par Y = yj .
78
4.5 Indépendance des variables. Covariance
4.5.1 Objectifs
— Nous avons présenté dans les sections précédentes les distributions à deux variables.
Tout d’abord, sous forme d’un tableau à double entrée dit de contingence puis ensuite
les distributions marginales et conditionnelles. L’étude se poursuit généralement par
la recherche de liaison entre les deux variables.
— Ces deux variables peuvent être totalement indépendantes l’une de l’autre comme,
par exemple, la taille et la réussite à un examen pour un candidat.
— Ces deux variables peuvent être ou paraître liées par une relation fonctionnelle
comme c’est le cas, pour certaines grandeurs en physique, les deux variables sont
totalement dépendantes.
— Entre les deux situations précédentes il peut exister une proximité ou une dépen-
dance plus ou moins marquée entre ces deux variables. On peut utiliser une quantité
qui s’appelle le chi-deux pour mesurer cette proximité.
— Lorsque la dépendance est plutôt de type “linéaire”, la covariance et la corrélation
sont des caractéristiques algébriques qui permettent de mesurer cette dépendance li-
néaire.
Dans ce tableau :
n11 10 n21 20 10 n31 25 10
= ; = = ; = = .
n1. 190 n2. 380 190 n3. 475 190
79
nij
ni.
ne dépend que de j et est indépendant de i donc de X, et plus généralement si X et Y
sont indépendants si :
n1j n2j nij npj
= = ... = = ... = .
n1. n2. ni. np.
$
nij nij n.j
= $i = ⇐⇒ nij .n.. = ni. n.j
ni. i ni. n..
n n
⇐⇒ niji. = nni... × n.j..
⇐⇒ fij = fi. .f.j
Pour que les variables X et Y soient indéppendantes, il faut que cette relation soit vérifiée
pour tous les couples i et j.
Le chi-deux : χ2
Si les caractères X et Y sont indépendants le “chi-deux” est nul et plus le chi-deux est élevé
plus la dépendance entre X et Y est forte.
Le chi-deux mesure l’écart entre le tableau des effectifs observés et des effectifs théo-
riques et c’est cette mesure qui est utilisée en analyse factorielle des correspondances pour
mesurer les proximités entre deux lignes ou deux colonnes d’un tableau de contingence. Par
exemple, les lignes i et k représentent la distribution des individus i et k selon les q modalités
de l’autre caractère. Plus le chi-deux est élevé, plus les individus son t dissemblables.
80
Si les deux lignes sont proportionnelles, le chi-deux est égal à zéro et les individus i et k
peuvent être “confondus”.
q & ni. n.j '2
% nij −
2 2 n
d χ (i, k) = ni. n.j .
j=1 n
Écart du chi-deux entre deux lignes ou deux individus issus d’un tableau de contingence.
81
Soit ŷi le point d’abscisse xi qui sera situé sur la droite :
ŷi = axi + b
ei = yi − ŷi
3i situé sur la droite.
ei mesure l’écart entre le point observé Mi et le point M
La méthode des moindres carrés consiste à déterminer la droite, donc les valeurs de a et
b qui rendent minimum la quantité :
n
% n
%
g(a, b) = e2i = (yi − axi − b)2 .
i=1 i=1
Cov(X, Y ) 1%
a= avec Cov(X, Y ) = (xi − x̄) (yi − ȳ)
V ar(X) n
3. La droite de régression des MCO passe par le point moyen G de coordonnées (x̄, ȳ),
c’est-à-dire :
ȳ = a · x̄ + b d’où b = ȳ − a · x̄.
b est l’ordonnée à l’origine.
4.6.3 Compléments
Droites des moindres carrés de x en y : x = a′ y + b′
Elle s’obtient en minimisant la somme des carrés des écarts parallèlement à l’axe des
abscisses.
82
Il suffit d’échanger x et y dans les formules qui donnent a et b pour obtenir a′ et b′ , ainsi
la droite a pour équation :
1 b′
x = a′ y + b′ ou : y = x −
a′ a′
Cov(X, Y )
aa′ = et : b′ = x̄ − a′ ȳ.
V ar(Y )
Exemple 4.6.1.
y = bax , x > 0, y > 0, a > 0, b > 0.
En prenant le logarithme népérien de chaque membre il vient :
ln y = ln b + x ln a.
En posant : Y = ln y, ln a = A, ln b = B
Y = Ax + B.
On peut obtenir par les moindres carrés A et B et en déduire ensuite a et b par les relations :
a = eA , b = eB .
83
Cette méthode peut se généraliser pour ajuster une courbe polynomiale de degré quelconque,
avec éventuellement l’utilisation d’un ordinateur en raison de la taille des calculs.
L’économétrie consiste à relier par des équations des variables. Il existe rarement une
fonction mathématique qui s’ajuste parfaitement aux données disponibles. Par les moindres
carrés, il est toujours possible d’adapter un type de fonction ou d’équation qui s’approche le
plus possible des données observées.
Bien entendu l’ajustement ne présente d’intérêt que si les fonctions ou équations obtenues
correspondent à une réalité économique.
4.7 La corrélation
4.7.1 Objectifs
— Soit un ensemble de couples (xi , yi ) où xi et yi sont les valeurs des variables X et Y
observées sur l’individu no i. Il est toujours possible d’ajuster une droite au nuage de
points (xi , yi ), par la méthode des moindres carrés.
— Toutefois, pour que cette représentation ait un intérêt, il faut qu’elle représente assez
fidèlement le nuage de points. Autrement dit, il faut que les points observés ne
soient pas trop dispersés autour de la droite obtenue.
— Pour mesurer la qualité de l’ajustement ou le degré de dépendance linéaire entre
deux variables X et Y , la caractéristique algébrique la plus utilisée est le cœfficient
de corrélation linéaire.
— L’interprétation d’une dépendance linéaire mise en évidence par une corrélation est
délicate, elle n’implique pas que l’une des variables ait une influence sur l’autre.
Il peut s’agir d’une simple coïncidence, ou d’un ensemble de facteurs qui agissent
simultanément sur les deux. On veillera à ne pas confondre corrélation et causalité.
— Karl Pearson (1896) a apporté une importante contribution à la notion de corrélation.
Cov(X, Y )
r=
σX σY
r est un nombre sans dimension, donc indépendant des unités de mesure.
84
La pente des droites de régression et le cœfficient de corrélation sont de même signe
Cov(X, Y )
a= 2
σX
Cov(X, Y ) Cov(X, Y ) σX σX
r= = 2
· =a .
σX σY σX σY σY
On pourrait aussi remarquer que r et a ont le même numérateur et les dénominateurs sont
positifs donc a et r sont de même signe.
Remarque 4.7.1. Si on ajuste par les moindres carrés la droite de x en y on obtient :
1 b′
x = a′ y + b′ ⇐⇒ y = x −
a′ a′
Cov(X, Y )
a′ =
σY2
a′ et r sont aussi de même signe.
Ceci veut dire que si les variables X et Y ont tendance à évoluer dans le même sens la
pente a est positive et r est positif (liaison positive).
Par contre, si les variables ont tendance à évoluer ensens contraire : la pente a est
négative et r est négatif (liaison négative).
−1 ≤ r ≤ +1 ⇐⇒ 0 ≤ r 2 ≤ 1
Si r = +1 ou r = −1, les points (xi , yi ) sont rigoureusement alignés et pour tout individu
“i”, la valeur de l’une des variables étant connue, l’autre peut être déterminée précisément
par la relation yi = axi + b. Cette propriété peut être utilisée pour certains phénomènes
en sciences physiques, on peut mesurer par exemple la température en repérant la hauteur
d’un liquide dans un tube, puisque celle-ci est liée linéairement à la température (principe de
certains thermomètres).
La corrélation linéaire est rarement aussi parfaite pour des variables observées en écono-
mie, en médecine, et dans de nombreuses autres sciences. La corrélation linéaire est d’autant
plus forte que r est proche de 1 ou de −1 où ce qui revient au même r 2 proche de 1.
On vérifie que :
r 2 = aa′
r 2 s’appelle le cœfficient de détermination
Il vérifie
Variance des ŷi
r2 = avec ŷi = axi + b
Variance des yi
$
2 (ŷi − ȳ)2 /n
r =$
(yi − ȳ)2 /n
85
D’une façon générale en économétrie, ŷ peut représenter toute équation qui s’ajuste à un
ensemble d’observations et le cœfficient de détermination mesure la “qualité” de l’ajus-
tement mathématique obtenu. Les observations sont d’autant moins dispersées autour de
la courbe ajustée que le r 2 est proche de 1. Si le r 2 est égal à 1, les points observés sont tous
sur la courbe ajustée.
86
Liste des tableaux
87
Table des figures
88