Vous êtes sur la page 1sur 35

CHAPITRE 1 : STATISTIQUE DESCRIPTIVE À

UNE VARIABLE
1 Rappels mathématiques
1.1 Ordre de priorité des opérations
a. Les puissances et racines
b. Les multiplications et divisions
c. Les additions et soustractions

EXEMPLE : 8*7+3 - 4/2² =

Si le calcul contient des parenthèses (ou crochets), il faut en priorité effectuer les opérations dans les
parenthèses.

EXEMPLES :

a) 5+2*[(3-1) * (2³-4)] =

b) (3-2²)² - 3 + 2 * 4²/8 =

c) 2 * (4 2 + 5) − 6 + 3 * 23 =

STATISTIQUES 1 J. Wilfart
1.2 La sommation
n

 Xi = X
i =1
1 + X2 + … + Xn

EXEMPLE 1

Soit les résultats suivants : 17, 15, 18, 19, 16, 20, 12

a) X1 =

b) X3 =

c) A l'aide du signe ∑, exprimer la somme de ces résultats et calculer le résultat.

EXEMPLE 2

Soit l'inventaire des livres d'une librairie

N° de série Collection Nombre de livres Prix unitaire (en €)


(i) (ni) (xi)

1 Marabout 35 4,5

2 Larousse 17 5,1

3 Livre de poche 41 8

4 Presse Pocket 23 4,7

5 Dunod 14 12,5

6 Lafont 8 10

a) n5 =

b) x3 =

c) A l'aide du signe ∑, exprimer le nombre total des livres et calculer le résultat.

d) Si nous voulons exprimer la valeur totale des livres (en €) :

STATISTIQUES 2 J. Wilfart
2 Introduction
2.1 Définition : statistique
Science qui se propose de rassembler, d'ordonner, de représenter et d'étudier pour en tirer des
conclusions, les données numériques se rapportant à des phénomènes collectifs.

2.2 Plan du cours


Trois thèmes seront abordés dans ce cours1 :
A. La statistique descriptive

▪ Rassemble – ordonne – représente


▪ Dégage les caractéristiques essentielles d'une série d'observations
▪ Donne une image concise et simplifiée de la réalité

La première forme de statistique descriptive a été le recensement à l'époque des grandes civilisations de
l'Antiquité, où l'on s'intéressait à la liste des hommes, des professions et des biens.

B. Les probabilités

La théorie des probabilités modélise une situation aléatoire.


▪ Quelle est la probabilité que je tire parmi un jeu de 52 cartes l'as de cœur ?
▪ Je lance deux dés non-pipés, quelle est la probabilité d'obtenir 10 ?

Les premiers jeux de hasard marquent le début de l'histoire des probabilités, ils datent de l'époque
de l'Homo Sapiens. Le plus ancien dé, fabriqué en terre cuite, fut découvert au nord de l'Irak, il date
du troisième millénaire avant J.-C.. En Occident, c'est à Venise qu'on trouve des traces des premiers
jeux de cartes (le tarot) en 1377.

Les jeux de hasard furent à l'origine des premiers travaux des mathématiciens sur les probabilités.
En Occident, les premiers écrits à ce sujet viennent d'Italie (Cardano et Galilée - XVIIème siècle).
C'est en France, avec Pascal et Fermat (XVIIème siècle également) que la théorie des probabilités va
véritablement prendre forme.

1
Ouvrage de référence : "STATISTIQUE, économie – gestion - sciences – médecine", Thomas H.
Wonnacott et Ronald J. Wonnacott, Economica, Paris 1995.

STATISTIQUES 3 J. Wilfart
C. La statistique inférentielle

Elle est complémentaire à la statistique descriptive, car le but de la plupart des recherches est
d'estimer un certain nombre de paramètres caractérisant la population associée à l'échantillon
traité.

En statistique inférentielle, on formulera des hypothèses sur les paramètres d'une population, Ces
hypothèses seront ensuite testées sur la base d'observations faites sur un échantillon représentatif
de cette population.

2.3 Notions fondamentales


2.3.1 Population et recensement
Population : ensemble des éléments auxquels se rapporte une recherche statistique donnée.
Individu : être observé.
Une population est donc un ensemble d'individus.
Recensement : Etude faite auprès de tous les individus de la population.

2.3.2 Echantillon et sondage


Echantillon : groupe restreint d'individus extraits de la population
Sondage : Etude menée auprès d'un échantillon provenant de la population que l'on désire
étudier.

EXEMPLES
1) Etude de la rémunération des 1000 membres d'une association professionnelle.
a. Population ou échantillon ?
b. Individu :

2) Etude de la cylindrée des voitures mises en circulation en Belgique en 2000.


a. Population ou échantillon ?
b. Individu :

2.3.3 Variables
1. Définition
Caractéristique de l'individu que l'on désire étudier.

EXEMPLE : La rémunération des employés, la cylindrée des voitures le poids des femmes, la
taille des entreprises, la couleur des yeux, la nationalité, …

STATISTIQUES 4 J. Wilfart
2. Classification des variables
• Variable qualitative et variable quantitative
Une variable est dite quantitative lorsque ses valeurs possibles sont des nombres
(quantité). Sinon, elle est dite qualitative (qualité). On donne le nom de modalités à
ces valeurs.

EXEMPLES
1) "Quelle est la couleur des voitures parquées devant la cathédrale ?"
a. Variable :
b. Modalités :
2) "Combien d'enfants avez-vous ?"
a. Variable :
b. Modalités :
• Types de variables quantitatives
▪ Variable quantitative discrète : ne prend qu'un nombre limité de valeurs
▪ Variable quantitative continue : prend ses valeurs dans un intervalle fini ou
infini

EXEMPLES
Variable quantitative discrète ou continue ?
1) Le nombre d'enfants dans une famille :
2) Le nombre de langues parlées par une personne :
3) La taille d'une personne :
4) Le temps mis par le TGV entre Paris Bruxelles :

2.3.4 Unités de mesure


L'intensité de la variable qui se trouve à des niveaux différents chez tous les individus qui
constituent la population est appréciée avec la même unité de mesure (seconde, centimètre,
nombre pur, dollars, euros, …)

EXEMPLES
1) Etude de la taille des arbres dans la forêt de Soignes :
2) Etude des chiffres d'affaire des commerces du Namurois :
3) Etude de la taille des familles en Wallonie :

STATISTIQUES 5 J. Wilfart
3 Etude d'une population selon un caractère quantitatif
3.1 Présentation des données recueillies
Le premier travail du statisticien est la collecte de données. Une fois ces données récoltées, il faut les
mettre sous forme lisible et manipulable afin de tirer des conclusions.

Pour mieux comprendre, observons le traitement des données suivantes.

1) Première situation
Afin de se faire une idée de l'âge des employés d'une entreprise, on a relevé au hasard 100
fiches individuelles et noté les âges suivants :
24 30 27 31 32 33 32 35 28 33

29 28 29 32 36 31 38 30 32 39

33 30 34 31 29 32 26 40 33 26

31 36 27 33 31 31 40 30 36 30

26 35 32 30 32 34 30 27 31 31

32 32 32 33 29 24 31 28 33 28

29 32 33 28 32 34 33 29 33 31

33 34 25 33 32 30 32 34 37 31

37 31 34 31 29 32 37 31 27 30

27 38 32 35 34 25 26 35 32 32

Cette présentation ne facilite pas l'analyse de ces données. Il faut donc établir un tableau de
classement que l'on appelle encore tableau recensé.
Les limites des âges sont 24 ans minimum et 40 ans maximum. Nous allons donc comptabiliser
les âges, chaque âge sera une modalité.
Pour chaque modalité, on détermine le nombre d'observations appelé l'effectif de la modalité.

STATISTIQUES 6 J. Wilfart
Fréquence Fréquence
Fréquence
cumulée en cumulée en
Age Effectif relative en
Décompte % %
Xi Ri %
(croissante) (décroissante)
fi
gi gi'

24 II 2 2% 2% 100%
25 II 2 2% 4% 98%

26 IIII 4 4% 8% 96%
27 IIIII 5 5% 13% 92%

28 IIIII 5 5% 18% 87%

29 IIIII II 7 7% 25% 82%

30 IIIII IIII 9 9% 34% 75%

31 IIIII IIII IIII 14 14% 48% 66%

32 IIIII IIIII IIIII III 18 18% 66% 52%

33 IIIII IIIII II 12 12% 78% 34%


34 IIIII II 7 7% 85% 22%

35 IIII 4 4% 89% 15%

36 III 3 3% 92% 11%

37 III 3 3% 95% 8%

38 II 2 2% 97% 5%

39 I 1 1% 98% 3%

40 II 2 2% 100% 2%

TOTAL n=100 100%

Notations
• Xi = ième modalité
• Ri = effectif de la ième modalité
• n = effectif total
• fi = fréquence de la ième modalité. C'est le rapport de l'effectif de la ième modalité à
l'effectif total :

STATISTIQUES 7 J. Wilfart
f = R i
i n

• gi = fréquence cumulée croissante de la ième modalité, c'est la somme des


fréquences de cette modalité et de toutes celles qui la précèdent. Elle indique
combien d'observations au total ont une valeur plus petite ou égale à la valeur de la
ième modalité

• gi' = fréquence cumulée décroissante de la ième modalité, c'est la somme des


fréquences de cette modalité et de toutes celles qui la suivent. Elle indique combien
d'observations au total ont une valeur plus grande ou égale à la valeur de la ième
modalité
Nous pouvons tirer, par exemple, les conclusions suivantes du tableau recensé :
▪ Pourcentage des employés âgés de 32 ans :

▪ Proportion des employés ayant moins de 29 ans :

▪ Part des employés ayant plus de 36 ans :

2) Deuxième situation
Afin de se faire une idée du chiffre d'affaire d'une société, on a relevé les chiffres d'affaire en
milliers d'euros de ses 200 succursales :
68 71 67 70 67 80 60 79 72 79 73 70 72 71 65 75 75 70 73 82

74 73 79 73 68 75 70 76 76 90 77 60 72 67 77 82 68 76 83 84

73 68 72 76 79 67 77 66 82 82 71 67 74 89 69 77 77 70 73 77

74 78 80 64 74 78 69 78 71 68 74 67 80 83 68 75 80 65 70 75

79 72 81 69 67 67 69 74 63 71 69 77 69 73 73 80 62 71 77 65

74 60 78 83 75 65 72 68 67 73 79 61 66 70 63 75 75 80 72 67

82 73 69 78 76 69 66 65 75 72 62 88 68 78 72 81 69 68 65 75

70 63 90 78 84 68 78 78 70 76 72 76 80 71 73 74 70 84 74 73

71 71 83 63 75 68 71 75 67 79 73 61 79 69 77 72 67 70 73 68

73 72 80 65 83 62 71 67 83 79 71 70 68 70 67 81 77 65 65 68

Nous pourrions, comme dans le cas précédent, créer un tableau ordonné de ces résultats mais
ce travail serait long et fastidieux car il y a beaucoup de valeurs différentes.
Nous pouvons par contre regrouper les données en classes représentées sous forme
d'intervalles.

STATISTIQUES 8 J. Wilfart
Démarche pour construire des classes
• Calculer l'étendue du tableau correspondant à la différence entre la plus grande et la
plus petite valeur du tableau, noté E
• Déterminer l'amplitude de chaque classe, noté A.
Ayant choisi le nombre de classes, noté C, compris généralement entre 5 et 20, nous
pouvons calculer :
2
A = E/C
• Les limites des classes ne doivent, si possible, pas coïncider avec les données réellement
observées

Notations
• Li = Limite inférieure de la classe i
• Li+1 = Limite supérieure de la classe i
• Ci = Centre de la classe càd valeur correspondante au milieu de cette classe

Remarque
Il existe une formule (formule de Sturge) pour calculer le nombre de classes (nc) à prendre :

nc ~ 1 + 3,322log10n

Illustrons par notre exemple :


▪ Etendue : 90 – 60 = 30
▪ Amplitude : Pour une amplitude de classe égale à 3, nous obtenons 10 classes
▪ Limites de classes : 59,5 ; 62,5 ; 65,5 ; …Ce qui implique que nous aurons 11 classes
au lieu de 10

2
Si nous connaissons l’amplitude de classe, nous pouvons déterminer le nombre de classes par la formule : C = E/A

STATISTIQUES 9 J. Wilfart
Tableau recensé
Fréquence Fréquence
Fréquence
cumulée en cumulée en
Centre Effectif relative en
Classe % %
Ci Ri %
(croissante) (décroissante)
fi
gi gi'

[59,5 ; 62,5[ 61 8 4,00% 4,00% 100,00%


[62,5 ; 65,5[ 64 14 7,00% 11,00% 96,00%
[65,5 ; 68,5[ 67 31 15,50% 26,50% 89,00%
[68,5 ; 71,5[ 70 35 17,50% 44,00% 73,50%
[71,5 ; 74,5[ 73 36 18,00% 62,00% 56,00%
[74,5 ; 77,5[ 76 29 14,50% 76,50% 38,00%
[77,5 ; 80,5[ 79 26 13,00% 89,50% 23,50%
[80,5 ; 83,5[ 82 14 7,00% 96,50% 10,50%
[83,5 ; 86,5[ 85 3 1,50% 98,00% 3,50%
[86,5 ; 89,5[ 88 2 1,00% 99,00% 2,00%
[89,5 ; 92,5[ 91 2 1,00% 100,00% 1,00%

TOTAL n=200

A partir de ce tableau, nous pouvons tirer quelques conclusions :


▪ Pourcentage de succursales ayant un chiffre d'affaire avoisinant les 73 000€ :

▪ Proportion de succursales ayant un chiffre d'affaire inférieur à 77 000€ :

▪ Part de succursales ayant un chiffre d'affaire d’au moins 80 500€ :

STATISTIQUES 10 J. Wilfart
3) Troisième situation, les séries chronologiques
Jusqu'à présent, dans toutes les séries, nous notions la répartition de l'effectif d'une population
entre les différentes valeurs possibles de la variable.
Pour certains caractères, il est plus intéressant d'en noter la répartition au cours du temps. Le
temps est alors la véritable variable, et l'on considère les valeurs prises par le caractère étudié
comme une fonction du temps.
Prenons par exemple l'évolution de la population du continent européen (URSS comprise) :

Population (en
Année millions)

1000 47

1340 -

1400 65

1650 103
1750 114

1850 274
1900 423

1950 576

1960 593

1970 702

1975 728

1980 687

1990 734

Ce nouveau type de série est une série chronologique.


Ces séries sont utilisées en économie (chiffre d'affaire, production, achat de matières premières,
…). Elles permettent de prévoir les valeurs probables de la variable pour l'année suivante, le
siècle suivant, et de prendre, si besoin est, les mesures utiles en temps voulu (augmentation de
la capacité de production d'une usine, …).

STATISTIQUES 11 J. Wilfart
3.2 Représentation graphique des données
Outre la présentation des données en tableau, nous pouvons envisager des représentations graphiques.
Un graphique est moins précis qu'un tableau mais il permet de voir plus rapidement certains traits
essentiels de la série étudiée.
Pour qu'un graphique soit utilisable, il est nécessaire de bien préciser les grandeurs portées sur les axes
et les unités de mesure choisies.
Voici une définition de quelques représentations possibles.

3.2.1 Diagramme en bâtonnets des effectifs ou des fréquences


On porte en abscisse les modalités/centres de classes et en ordonnée les effectifs ou les
fréquences. Chaque classe est représentée par un segment vertical de longueur proportionnelle
à l'effectif ou à la fréquence de celle-ci.

3.2.2 Polygone des effectifs ou des fréquences


S'obtient à partir du diagramme précédent, en traçant la ligne brisée joignant les extrémités des
segments verticaux.

STATISTIQUES 12 J. Wilfart
3.2.3 Histogramme des effectifs ou des fréquences
Dans le cas de classes de même amplitude, on procède de la même manière que pour le
diagramme en bâtonnets, mais on remplace les traits verticaux par des rectangles :

• dont la base représente l'amplitude de la classe


• dont l'aire représente l'effectif ou la fréquence de la classe, une aire unité ayant été fixée
!!! L'aire du rectangle doit être proportionnelle à l'effectif ou à la fréquence de la classe !!!
Pour obtenir le polygone des effectifs ou des fréquences, on tracera la ligne brisée joignant le
milieu des extrémités des rectangles.

3.2.4 Diagramme en pyramide


C'est un histogramme placé horizontalement et généralement centré.
Dans certaines situations où le même caractère est étudié pour deux populations parallèles, ce
type de représentation est plus claire que la superposition de deux histogrammes.
On procède alors généralement comme suit :

• On porte en ordonnée les classes


• On porte en abscisse, de part et d'autre de l'axe des ordonnées, les effectifs des classes
Un diagramme bien connu de ce type est la pyramide des âges où les deux populations
parallèles sont d'une part les hommes et d'autre part les femmes.

3.2.5 Secteur de disque


Diagramme réalisé dans un cercle, on partage le cercle en quartiers tels que l'aire de chaque
quartier soit proportionnelle à l'effectif ou à la fréquence de la classe correspondante.
Ce type de diagramme donne une vision globale de l'importance des différentes classes.

STATISTIQUES 13 J. Wilfart
3.2.6 Polygone des fréquences cumulées
On porte en abscisse les limites de classe et en ordonnée les fréquences cumulées. On joint les
points ainsi obtenus par des segments.

3.2.7 Remarque
• Lorsque l'on dispose d'une représentation graphique, il faut être prudent avant de tirer des
conclusions. Il faut être attentif à l'origine des axes, l'échelle utilisée et si l'on utilise des
aires, bien veiller à ce qu'elles soient proportionnelles aux effectifs des classes.
• Veillez à toujours accompagner le graphique des titres aux axes (ou d’une légende) avec les
unités de mesure et d’un titre principal.

STATISTIQUES 14 J. Wilfart
4 Exercices
1. Une enquête relative au nombre de contraventions mensuelles récoltées par des automobilistes
a conduit aux nombres suivants :

Nombre de contraventions Nombre de conducteurs


Xi Ri
0 6

1 13

2 9

3 18

4 4

5 11

6 2

7 10

8 77

a. Déterminer la variable étudiée et donner ses valeurs

b. Donner le type de cette variable

c. Compléter le tableau en donnant les fréquences et fréquences cumulées

d. Quel pourcentage de conducteurs ont un nombre de contraventions ≤ à 5 ?

e. Construire le diagramme en bâtonnets

f. Construire le polygone des fréquences cumulées

STATISTIQUES 15 J. Wilfart
2. Résultats du recensement de la population française.
Distribution des couples en fonction de leurs nombres d'enfants.

Nombre de
Nombre d'enfants
couples
Xi
Ri
0 2 675 700

1 1 906 100

2 1 368 900

3 743 400

4 361 500

5 269 400

a. Déterminer la variable étudiée et donner ses valeurs

b. Donner le type de cette variable

c. Calculer les fréquences et fréquences cumulées

d. Quel pourcentage de familles n'ont pas plus d'un enfant ?

e. Quel part de familles ont 3 ou 4 enfants

f. Construire le diagramme en bâtonnets

g. Construire le polygone des fréquences cumulées

STATISTIQUES 16 J. Wilfart
5 Caractéristiques des séries statistiques
Une des préoccupations des statisticiens lorsqu’ils se trouvent en présence des résultats d’une enquête
est d’en déterminer les grandes « tendances ».

On distingue 3 types de caractéristiques :

1. Les caractéristiques de tendance centrale : elles permettent d’obtenir une idée de l’ordre de
grandeur des valeurs constituant la série et indiquent également la position où semblent se
rassembler les valeurs de la série. Elles s’expriment dans la même unité que la variable.

2. Les caractéristiques de dispersion : elles qualifient les fluctuations des valeurs observées autour
de la valeur centrale. Elles permettent d’apprécier l’étalement de la série.

3. Les caractéristiques de forme : elles donnent une idée de la symétrie et de l’aplatissement d’une
distribution.

5.1 Les paramètres de position


5.1.1 Moyenne arithmétique
1. Calcul de la moyenne avec les données brutes

3
Moyenne = =

En employant le sigle de la somme, on peut écrire la formule :

EXEMPLE
1 1 5 6 20 20 sont les notes d’étudiants (sur 20). Donner et interpréter la moyenne.
Moyenne = …………..
Interprétation : ………….

3
La moyenne peut également se noter μ

STATISTIQUES 17 J. Wilfart
2. Calcul de la moyenne avec le tableau ordonné (variable discrète)

Répartition des accidents selon le nombre de victimes

Xi Ri

1 40

2 15

3 6

4 3

5 3

La moyenne se calcule de la façon suivante :

En employant le sigle de la somme, on peut écrire la formule

3. Calcul de la moyenne avec le tableau ordonné (variable continue)

Répartition des professeurs selon l’âge

AGE (en ans) Nombre de professeurs

[25 ;30[ 2

[30 ;35[ 4

[35 ;40[ 9

[40 ;45[ 12

[45 ;50[ 8

[50 ;55[ 3

[55 ;60[ 2

STATISTIQUES 18 J. Wilfart
La moyenne se calcule de la façon suivante :

En employant le sigle de la somme, on peut écrire la formule : (idem que la précédente sauf que
l’on remplace …)

5.1.2 Mode
Le mode ou classe modale est la valeur de la variable ou classe dont l’effectif est le plus
important.
Une série peut être unimodale (un seul mode), bimodale (deux modes) ou multimodales (plus
de deux modes).
Sur un histogramme, le mode est représenté par le plus haut rectangle et sur le diagramme en
bâtonnets, par le bâtonnet le plus haut.

EXEMPLE 1
Donner et interpréter le mode de la série :
Répartition des accidents selon le nombre de victimes.
Nombre de victimes 1 2 3 4 5
Nombre d’accidents 40 15 6 3 3

Mode = …………………
Interprétation : ………………………..
EXEMPLE 2
Donner et interpréter le mode de la série :
Répartition des professeurs selon l’âge
AGE (en ans) Nombre de professeurs
[25 ;30[ 2
[30 ;35[ 4
[35 ;40[ 9
[40 ;45[ 12
[45 ;50[ 8
[50 ;55[ 3
[55 ;60[ 2
Mode = …………………
Interprétation : ………………………..

STATISTIQUES 19 J. Wilfart
EXEMPLE 3
Quel est le mode de la série : 2, 3, 4, 4, 5, 5, 5, 6, 7, 8, 8, 8, 9 ? (âge d’élèves)

5.1.3 Médiane
La médiane est la valeur de la variable qui divise une série de données ordonnées en deux
parties égales, chacune comprenant le même nombre de données.

1. Calcul de la médiane dans le cas de variables discrètes


1. Ordonner les données
2. Déterminer le nombre total de la série statistique
3. Si ce nombre est impair, la médiane est la valeur de la donnée centrale de la série, celle
située à la (n+1)/2 place
Si ce nombre est pair, la médiane est la moyenne des valeurs des deux données centrales,
celles de part et d’autre de la valeur à la (n+1)/2 place

EXEMPLES
1. Donner et interpréter la médiane de la série : 1 1 5 20 20 (notes sur 20 d’une classe
d’étudiants)
Médiane :
Interprétation :
2. Donner et interpréter la médiane de la série : 1 1 5 6 20 20 (notes sur 20 d’une classe
d’étudiants)
Médiane :
Interprétation :
3. Donner et interpréter la médiane de la série
Répartition de 21 ménages selon le nombre de téléviseurs du ménage
Xi 1 2 3 4

Ri 7 6 5 3

Médiane :
Interprétation :

REMARQUE : Dans le cas d’un tableau ordonné, on utilisera la colonne des effectifs cumulés.

STATISTIQUES 20 J. Wilfart
2. Calcul de la médiane dans le cas de variables continues

• Graphiquement, à partir du polygone des fréquences cumulées, la médiane est l’abscisse du


point dont l’ordonnée correspond à 50%
• Par calcul :
1. Rechercher la classe [Li, Li+1[ contenant la fréquence cumulée de 50%
2. Calculer la médiane par une règle de trois en comparant l’amplitude de la classe et
la variation de fréquence cumulée des limites de cette classe. On arrive alors au
calcul suivant :

EXEMPLE
Répartition des professeurs selon l’âge
AGE (en ans) Nombre de professeurs
[25 ;30[ 2
[30 ;35[ 4
[35 ;40[ 9
[40 ;45[ 12
[45 ;50[ 8
[50 ;55[ 3
[55 ;60[ 2
Calculer et interpréter la médiane.

STATISTIQUES 21 J. Wilfart
5.1.4 Les quantiles
Les quantiles sont des caractéristiques de position puisqu’ils correspondent à des valeurs de
la variable statistique qui partagent la série ordonnée en 4, 10, 100 parties.

• Les quartiles : ils partagent en 4. Ils sont donc 3 : Q1, Q2 Q3


• Les déciles : ils partagent en 10. Ils sont donc 9 : D1, D2, …, D9
• Les centiles : ils partagent en 100. Ils sont donc 99 : C1, C2, …, C99

Envisageons le cas des quartiles pour une variable continue. Les formules s’adaptent donc à :

REMARQUE : Pour chaque formule, il faut rechercher la classe [Li, Li+1[ contenant la fréquence
cumulée respectivement de 25%, 50%, 75%

EXEMPLE
Reprendre l’exemple de la page 22 : calculer et interpréter les trois quartiles.

5.1.5 Valeur centrale la plus appropriée


Chaque problème est différent et nous amène à réfléchir si une valeur centrale est préférable à
une autre.

En choisissant une mesure de tendance centrale qui vous est favorable, vous pouvez tromper
des gens à l'aide de statistiques. En fait, cela se fait couramment.

Exemple 1 : Comment présenter mon 8/20 ?


Décidément, je n'ai pas de chance !
• L'interrogation de statistique n'a pas été terrible : 8/20. Comment annoncer cela à mes parents?
Dans l'ensemble il faut dire que ce n'était pas fameux. Nous sommes 10 en classe et les résultats
sont catastrophiques !
Pensez donc. Le petit génie a bien sûr fait 19, mais à part cela il y avait un 10, quatre 9 et trois 2.
D'accord, le mode est 9/20 et la médiane est également 9/20. Mais si je calcule la moyenne, je
trouve 7,9/20.

STATISTIQUES 22 J. Wilfart
Je dirai donc à Papa que j'ai au-dessus de la moyenne.
• Encore un 8. Mais cette fois les notes sont : 2, 3, 4, 5, 7, 8 (moi), 9, 9, 18 et 19 (le génie).
J'ai calculé la moyenne, mais cette fois elle est de 8,4; je suis en dessous de la moyenne; et le
mode est 9. Heureusement, il n'y en a que 4 qui ont mieux réussi que moi et les 5 autres sont
après.
Je dirai donc à Papa que je suis au-dessus de la médiane.
• Décidément, je n'ai pas de chance. Je suis abonné au 8/20. C'est sûrement la faute du prof!
Cette fois les questions étaient tellement dures qu'il y en a 3 qui ont eu 7/20 ! Les autres ont
obtenu 19 (toujours le même), 18,12,11,10 et 2 (c'est aussi toujours le même)
J'ai calculé la moyenne ; cela fait 10,1. Pas de chance, je suis en dessous. Et cette fois il y en a 5
qui ont plus que moi ! Ça ne va plus l'histoire de la médiane ! Heureusement grâce aux trois
copains, le mode est 7.
Je dirai cette fois à Papa que je suis au-dessus du mode.
(J'espère qu'il ne comprend rien aux différences entre moyenne, médiane et mode !)

Exemple 2 – Comparaison de la moyenne et de la médiane


Examinons les ensembles de données suivants qui représentent le nombre de buts comptés par
3 joueurs en 11 parties de baseball.
• Résultats de Noémie : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3
Moyenne = 22 ÷ 11 = 2
Médiane = 2
• Résultats de Jeremy : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4
Moyenne = 23 ÷ 11 = 2,1
Médiane = 2
• Résultats d’Alexandre : 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 14
Moyenne = 33 ÷ 11 = 3
Médiane = 2
Les trois ensembles de données ci-dessus sont identiques, à l'exception des dernières valeurs
d'observation (3, 4 et 14).
La médiane ne change pas, parce qu'elle ne dépend que de la valeur d'observation
intermédiaire. La moyenne change, cependant, parce qu'elle dépend de la valeur moyenne de
toutes les observations. Par conséquent, dans l'exemple ci-dessus, lorsque la dernière valeur de
la dernière observation augmente, la moyenne en fait autant.
Dans le troisième ensemble de données, la valeur de 14 diffère grandement de toutes les autres
valeurs. Quand une observation est très différente de toutes les autres observations incluses
dans un ensemble de données, on l'appelle une valeur aberrante. La moyenne est la mesure de
la tendance centrale la plus influencée par les valeurs aberrantes.

STATISTIQUES 23 J. Wilfart
Il peut parfois y avoir des valeurs aberrantes en raison d'une erreur ou d'une déformation
délibérée de l'information. Si tel est le cas, on devrait exclure les valeurs aberrantes de la
mesure de tendance centrale. Dans d'autres cas, les valeurs aberrantes montrent la mesure
dans laquelle une valeur peut différer, et cela pourrait constituer un élément d'information très
utile.
Exemple 3 – Comparaison de la moyenne et de la médiane
Quand on renvoie dans les journaux aux prix des maisons, on y cite habituellement le prix
médian. Pourquoi utilise-t-on cette mesure, plutôt que la moyenne ?
Il y a beaucoup de maisons à prix modérés, mais il y en a aussi qui sont coûteuses et quelques-
unes qui sont très chères. Leur prix moyen pourrait être assez élevé, puisqu'il inclut les prix des
maisons plus coûteuses. La médiane donne une valeur plus exacte et réaliste des prix auxquels
la plupart des gens sont confrontés.
En résumé, la médiane est le nombre au centre d'une distribution. La médiane est utile
lorsqu'une distribution est déxaxée (ou déséquilibrée), parce qu'elle n'est aucunement
influencée par des valeurs aberrantes.
Exemple 4 – Comparaison de la moyenne et de la médiane
Supposons que vous postulez un emploi de comptable dans plusieurs grandes entreprises et que
vous voulez vous faire une idée du montant d'argent qu'il vous serait possible d'espérer gagner
en cinq ans en joignant les rangs de l'une d'elles en particulier. Examinons les salaires des
comptables de chaque entreprise cinq ans après leur engagement.
Un seul salaire très élevé pourrait accroître le salaire moyen, ce qui risquerait de ne pas refléter
un salaire typique versé à l'intérieur de l'entreprise. D'un autre côté, la moitié des comptables y
gagnent le salaire médian ou moins et l'autre moitié, le salaire médian ou plus. La mesure de
tendance centrale qui vous donnerait une meilleure idée d'un salaire typique serait donc la
médiane.

STATISTIQUES 24 J. Wilfart
5.1.6 Exercices
1. On a observé la germination de 80 lots de 10 semences. Les résultats sont les suivants :

Semences germées Lots


0 6
1 20
2 28
3 12
4 8
5 6

a. Donner le nom et le type de la variable


b. Calculer et interpréter la moyenne, le mode et la médiane de la série

2. Soit la répartition du nombre de livres lus par un groupe d’étudiants au cours des trois derniers
mois.

Nombre de livres lus 0 1 2 3


Nombre d’étudiants 56 26 21 9

a. Donner le nom et le type de la variable


b. Combien y-a-t-il de données dans cette série ?
c. Quel pourcentage d’étudiants ont lu 2 livres ou plus ?
d. Calculer et interpréter la moyenne, le mode et la médiane de la série

3. Calculer et interpréter la moyenne, le mode et la médiane de la série :


a. Le nombre de calendriers vendus en une journée par 7 personnes : 7 8 6 9 6 36 10
b. Le nombre des spectateurs à chacune des six représentations d’une pièce : 724 802
715 825 650 790

STATISTIQUES 25 J. Wilfart
4. La répartition des salaires d’employés dans une entreprise donne le tableau suivant :

Salaire (en €) Nombre de personnes


[750 ;1000[ 5
[1000 ;1250[ 17
[1250 ;1500[ 25
[1500 ;1750[ 13
[1750 ;2000[ 5
[2000 ;2250[ 2

a. Donner le nom et le type de la variable


b. Quel pourcentage de personnes ont un salaire inférieur à 1500€ ?
c. Calculer et interpréter la moyenne, le mode et la médiane de la série.

5. La répartition des dépôts suivant leur importance dans un établissement bancaire au 31


décembre est la suivante :

Capitaux Effectifs
0 – 4000 7200
4000 – 100 000 4300
100 000 – 250 000 1410
250 000 – 500 000 994
500 000 – 750 000 666
750 000 – 1 000 000 430

Calculer et interpréter les trois valeurs centrales de la série.

6. Le tableau ci-dessous indique les montants en euros de 40 prêts personnels auprès d’une
société de prêt au consommateur.

Montant Nombre de prêts


300 – 700 13
700 – 1100 11
1100 – 1500 6
1500 – 1900 5
1900 – 2300 3
2300 – 2700 1
2700 - 3100 1

Calculer et interpréter la moyenne, le mode et la médiane de la série.

STATISTIQUES 26 J. Wilfart
5.2 Mesures de dispersion
Ils permettent de déterminer la plus ou moins grande homogénéité des observations d’une série
statistique.
Ont-elles tendance à se concentrer autour du centre de distribution ? Ou plutôt à se disperser ?
Dans le 1er cas, on parlera de valeurs homogènes, dans le second cas, de valeurs hétérogènes.
Nous utiliserons la moyenne (et non le mode ou la médiane) comme point de référence à partir
duquel on mesure les écarts car c’est la valeur qui prend en compte toutes les données.

5.2.1 Etendue
L’étendue est la différence entre la plus grande et la plus petite des valeurs de la variable
étudiée.
Elle se note E et peut se formuler :
Reprenons un exemple précédent et calculons l’étendue :

5.2.2 L’écart interquartile ou l’étendue interquartile


L’écart interquartile ou l’étendue interquartile est la différence entre le premier quartile (Q1) et
le troisième (Q3).
Il se note EI et se formule : Q3 – Q1
Interprétation : Il représente l’étendue de la distribution sur laquelle se trouve concentrées au
moins 50% des éléments dont les valeurs de X sont les plus proches de la médiane.
Reprenons un exemple précédent et calculons l’étendue interquartile :
• EI :
• Interprétation :

5.2.3 La variance et l’écart-type


En statistique, la variance est une mesure de la dispersion des valeurs d'un échantillon par
rapport à la moyenne.
Elle exprime la moyenne des carrés des écarts à la moyenne arithmétique. Elle est
exprimée en unités au carré.
Elle est d’autant plus grande que les valeurs sont étalées.
Il est noté var(X) pour une variable X.
En employant le sigle de la somme, on peut écrire la formule :
• Dans le cas des données brutes :

STATISTIQUES 27 J. Wilfart
• Dans le cas de tableaux ordonnés (sans classe):

• Dans le cas de tableaux ordonnés (avec classe) :

Pour travailler avec les mêmes unités, nous allons calculer la racine carrée de la
variance.
L’écart-type est la racine carrée de la variance et sera donc exprimé dans la même
unité que le caractère étudié.
On le note σ(X) pour une variable X

Exemple de deux échantillons ayant la même moyenne mais des écarts types différents
illustrant l'écart type comme mesure de la dispersion autour de la moyenne. La série
« rouge » est plus homogène que celle « bleue »
Interprétation : Généralement, on retrouvera la plupart des données d’une série
statistique entre la moyenne moins un écart-type et la moyenne plus un écart type.

4
https://fr.wikipedia.org/wiki/%C3%89cart_type (23/08/2019)

STATISTIQUES 28 J. Wilfart
5

En général,
• 68,3 % des valeurs se situent entre μ – σ et μ + σ
• 95,5 % des valeurs se situent entre μ – 2σ et μ + 2σ
• 99,7 % des valeurs se situent entre μ – 3σ et μ + 3σ
Reprenons un exemple précédent et calculons :
• La variance :

• L’écart-type :

• Interprétation :

5.2.4 Le coefficient de variation


Si on dispose de deux échantillons que l’on souhaite comparer au niveau de la dispersion, il sera
très utile de calculer une autre mesure de dispersion, le coefficient de variation.

Le coefficient de variation CV est défini comme le rapport entre l’écart-type et la moyenne


arithmétique d’un ensemble d’observations, souvent exprimé en pourcents.

Il est indépendant de l’unité de mesure des observations, c’est un nombre pur.

CV = σ(X) / X̅

Interprétation :

Le coefficient de variation permet d'apprécier la représentativité de la moyenne arithmétique


par rapport à I'ensemble des observations. La moyenne sera d'autant plus « exacte » que les
observations ne seront pas trop dispersées autour d'elle.

5
https://slideplayer.fr/slide/461963/

STATISTIQUES 29 J. Wilfart
II donne une très bonne idée du degré d'homogénéité d'une distribution. Plus le coefficient est
faible (inférieur à 15%), plus la série est homogène.

II permet aussi de comparer les dispersions de séries d'observations qui ne sont pas exprimées
dans les mêmes unités ou des séries ayant des moyennes différentes.

EXEMPLE:

D'après un sondage auprès de deux entreprises situées I'une en Belgique, I'autre aux USA
(monnaies différentes I), les moyennes arithmétiques et les écart-types des salaires versés sont
les suivants :

Entreprise belge Entreprise américaine


X̅ 1115€ $1550
σ(X) 223€ $400
CV 20% 25.8%

La distribution des salaires est donc un peu plus homogène dans l’entreprise belge que dans
l’entreprise américaine.

5.2.5 Exercices
1. La compagnie TEHOU a révélé les chiffres des absences de ses employés syndiqués pour le mois
dernier
Nombre de jours d’absence Nombre d’employés
0 36
1 42
2 20
3 11
4 3
5 2
12 1
▪ Calculez l’étendue, l’écart-type et le coefficient de variation ; interprétez ces mesures
▪ Calculez la proportion des employés ayant manqué plus de 2 jours de travail
2. Voici, relevées au cours des jours ouvrables de l'année 20XX, les recettes d'un grossiste
Recettes (€) Nombre de jours
0≤X<4 8
4≤X<8 24
8 ≤ X < 12 210
12 ≤ X < 16 42
16 ≤ X < 20 16
Calculez la médiane et l’écart interquartile ; interprétez ces paramètres.

STATISTIQUES 30 J. Wilfart
3. La taille moyenne des jeunes de 18 ans est de 168 cm avec un écart-type de 14 cm ; leur poids
moyen est de 66 kg avec un écart-type de 8 kg. La taille varie-t-elle plus que le poids ?
4. Une usine belge produit des poutres de différentes longueurs. La production journalière est
répartie comme suit.
Longueur (m) [0, 2[ [2, 4[ [4, 6[ [6, 8[ [8, 10[
Nb de poutres 10 20 30 25 15
▪ Calculez le mode, l’écart-type et le coefficient de variation ; Interprétez-les
▪ Comparez la variabilité entre cette usine belge et une usine anglaise pour laquelle on a
obtenu une moyenne de 6,5 yards et un écart-type de 1,9 yards
5. On a mesuré la taille des étudiants de deux classes.
Taille (m) Nb étudiants Nb étudiants
(classe A) (classe B)
[1.5, 1.6[ 3 10
[1.6, 1.7[ 6 1
[1.7, 1.8[ 12 0
[1.8, 1.9[ 2 0
[1.9, 2[ 1 13
Calculez leur coefficient de variation et interprétez leur résultat.

5.3 Paramètres de forme


5.3.1 Le coefficient d’asymétrie
Une distribution est symétrique si les valeurs de la variable statistique sont également
dispersées de part et d’autre d’une valeur centrale. Dans ce cas, la moyenne, la médiane et le
mode sont confondus.
Il existe différentes manières de caractériser et de mesurer la dissymétrie. Karl Pearson a
proposé de définir un coefficient de dissymétrie basé sur les écarts entre les mesures de
tendance centrale.

Sa valeur est généralement comprise entre -1 et +1 et est interprétée comme suit :

1. Si le coefficient Sk est nul, il s’agit d’une distribution parfaitement symétrique. Les


valeurs sont également distribuées de part et d’autre de la valeur centrale.
On observe que la moyenne = mode = médiane.

STATISTIQUES 31 J. Wilfart
6

2. Si le coefficient Sk est inférieur à 0, la distribution est du côté inférieur et donne un


étalement vers la gauche
Dans ce cas, moyenne < médiane < mode

3. Si le coefficient Sk est supérieur à 0, la distribution est du côté supérieur et donne un


étalement vers la droite
Dans ce cas, moyenne > médiane > mode

6
https://slideplayer.com/slide/10844259/ (23/08/2019)
7
http://grasland.script.univ-paris-diderot.fr/Go152/Stat3/stat3.htm

STATISTIQUES 32 J. Wilfart
Reprenons un exemple précédent et calculons :
• Le coefficient Sk :

• Interprétation :

5.3.2 Le coefficient d’aplatissement


Les mesures d'aplatissement font partie des mesures qui caractérisent la forme d'une
distribution. Elles caractérisent le degré d'aplatissement de la distribution par rapport à
l'aplatissement de la distribution normale. Il est alors utile de pouvoir mesurer si la forme de la
distribution présente une déviation par rapport à l'aplatissement de la distribution normale. Une
distribution est platicurtique ou hyponormale si la courbe est plus aplatie que la courbe
normale; elle est leptocurtique ou hypernormale si la courbe est plus pointue que la courbe
normale.

Plusieurs coefficients permettent de mesurer l’aplatissement. Citons celui de Pearson :

1. b2 > 3 : courbe leptocurtique ou hypernormale

2. b2 = 3 courbe normale

3. b2 < 3 courbe platicurtique ou hyponormale

STATISTIQUES 33 J. Wilfart
5.3.3 Exercices
Soit la taille de 210 étudiants :
Xi Ri
[155; 160[ 5
[160; 165[ 23
[165; 170[ 42
[170; 175[ 68
[175; 180[ 47
[180; 185[ 21
[185; 190[ 4
Calculez les paramètres de forme et interprétez leur résultat.

6 Exercices récapitulatifs
1. Au poste de péage, on compte le nombre de voitures se présentant sur une période de 5mn. Sur
100 observations de 5mn, on obtient les résultats suivants :

Nombre de 1 2 3 4 5 6 7 8 9 10 11 12
voitures
Nombre 2 8 14 20 19 15 9 6 2 3 1 1
d’observations

1) Déterminer la variable étudiée et le type de la variable


2) Construire la table des fréquences et des fréquences cumulées
3) Quelle proportion représentent les observations dont le nombre de voitures est inférieur à
6?
4) Tracer le diagramme en bâtons en fréquences de la série du nombre de voitures.
5) Calculer les 3 valeurs centrales et l’écart-type de cette série et interpréter.
6) Déterminer les quartiles et interpréter.

2. Dans une petite localité, on a relevé le nombre de pièces par appartement


Nombre de pièces 1 2 3 4 5 6 7
Nombre d’appartements 48 72 96 64 39 25 3

1) Déterminer la variable étudiée et le type de la variable


2) Construire la table des fréquences et des fréquences cumulées
3) Quelle proportion représentent les appartements dont le nombre de pièces est supérieur à
6?
4) Tracer le polygone des fréquences cumulées de la série du nombre de voitures.
5) Calculer les 3 valeurs centrales et l’écart interquartile de cette série et interpréter.

STATISTIQUES 34 J. Wilfart
6) Déterminer les paramètres de forme et interpréter.

3. Le tableau ci-dessous donne les valeurs en milliers d'euros de 40 biens immobiliers en 2017 et
en 2019.
Les résultats obtenus sont les suivants :
Xi [50 ; 100[ [100 ; 150[ [150 ; 200[ [200 ; 300[ [300 ; 500[
Effectif en 2017 3 6 16 13 2
Effectif en 2019 4 6 17 9 4

1) Déterminer la variable étudiée et le type de la variable


2) Construire la table des fréquences et des fréquences cumulées
3) Quelle proportion représentent les biens immobiliers de moins de 200 000 €?
4) Tracer le polygone des fréquences cumulées de la série 2017.
5) Calculer les 3 valeurs centrales et l’écart type de cette série et interpréter chacun d’eux
6) Interpréter comparativement les résultats en 5)
7) Déterminer les paramètres de forme et interpréter.

STATISTIQUES 35 J. Wilfart

Vous aimerez peut-être aussi