Académique Documents
Professionnel Documents
Culture Documents
1
PARTIE 2 : STATISTIQUE.
2
Chapitre 1 : Description des séries statistiques à une variable.
1.1. Introduction.
On considère ici une variable statistique unique, notée X. L'objectif est d'exposer les outils
élémentaires, adaptées à la nature de X, permettant de présenter cette variable de façon synthétique,
d'en faire une représentation graphique appropriée et d'en résumer les principales caractéristiques.
Nous présenterons successivement le cas d'une variable quantitative discrète, puis celui d'une
variable quantitative continue, enfin le cas d'une variable qualitative.
On introduit tout d'abord la notion de tableau statistique, façon synthétique de présenter les données
après leur rangement par ordre croissant. Ce tableau fait intervenir les notions assez élémentaires
d'effectif, de fréquence (ou pourcentage), d'effectif cumulé et de fréquence cumulée. Les
représentations graphiques usuelles de ces variables sont le diagramme en bâtons (pour positionner
les observations) et le diagramme cumulatif (pour les quantités cumulées). Enfin, les
caractéristiques numériques permettant de résumer une variable quantitative discrète sont soit de
tendance centrale (médiane et moyenne), soit de dispersion (variance et écart-type).
Fréquences Pourcentage
Effectifs ni
fi pi (%)
Catégorie 1 𝑛 𝑓 𝑝
𝑛
Catégorie i 𝑛 𝑓 = 𝑝 = 100 × 𝑓
𝑛
Catégorie m 𝑛 𝑓 𝑝
Total 𝑛= 𝑛 𝑓 =1 𝑝 = 100
Exemple 1.1. : On a noté le nombre d’ouvriers travaillant sur un chantier de construction d’un
module de salle de classe. Les données sont listées ci-dessous (il s'agit de données fictives).
Maçon (7) ; Ferrailleur (5) ; Coffreur (3) ; Fouilleur (10) ; Electricien (3) ; Plombier (2) ; Peintre
(6) ; Soudeur (4).
3
Tableau 1.2 : Tableau statistique avec valeurs observées, effectifs, fréquences et pourcentage.
Fréquences Pourcentage
Catégorie Effectifs ni
fi pi (%)
Coffreur 3 0.075 7.5
Electricien 3 0.075 7.5
Ferrailleur 5 0.125 12.5
Fouilleur 10 0.250 25.0
Maçon 7 0.175 17.5
Peintre 6 0.150 15.0
Plombier 2 0.050 5.0
Soudeur 4 0.100 10.0
Total 40 1 100
Tableau 1.3 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Effectifs Fréquences Pourcentage Effectifs Fréquences
cumulés
ni fi pi (%) cumulés ni cumulées fi
pi (%)
Catégorie 1 𝑛 𝑓 𝑝 𝑛 𝑓 𝑝
𝑛
𝑓 =
Catégorie i 𝑛 𝑛 𝑝 = 100 × 𝑓 𝑛 = 𝑛 𝑓 = 𝑓 𝑝 = 𝑝
Catégorie m 𝑛 𝑓 𝑝 𝑛 =𝑛 𝑓 =1 𝑝 = 100
𝑛
𝑓 =1
Total 𝑝 = 100 - - -
= 𝑛
Exemple 1.2 : On a noté le comportement des 30 élèves d’une salle de cours. Les données sont
listées ci-dessous (il s'agit de données fictives).
Tableau 1.4 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Effectifs Fréquences Pourcentage Effectifs Fréquences
cumulés
ni fi pi (%) cumulés ni cumulées fi
pi (%)
Excellent 5
Très bon 12
Bon 10
Mauvais 2
Très
1
mauvais
Total 30
Dans le tableau 1.4, le caractère « comportement » est ordinal parce que la modalité « Excellent » est
meilleure que la modalité « Très bon », etc. On n’y trouve un certain ordre naturel, mais celui-ci est limité
4
par le fait que nous ne savons pas dans quelle mesure le comportement « Excellent » est meilleur que le
comportement « Très bon ».
1.2.2. Cas des variables quantitatives
Cas d'une variable quantitative discrète
En général, on appelle variable quantitative discrète une variable quantitative ne prenant que des
valeurs entières (plus rarement décimales). Le nombre de valeurs distinctes d'une telle variable est
habituellement assez faible (sauf exception, moins d'une vingtaine). Citons, par exemple, le nombre
d'enfants dans une population de familles, le nombre d'années d'études après le bac dans une
population d'étudiants. . .
Tableau 1.5. : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentage
Fréquences Pourcentage Effectifs Fréquences
Effectifs ni cumulés
fi pi (%) cumulés ni cumulées fi
pi (%)
Catégorie 1 𝑛 𝑓 𝑝 𝑛 𝑓 𝑝
𝑛
𝑓 =
Catégorie i 𝑛 𝑛 𝑝 = 100 × 𝑓 𝑛 = 𝑛 𝑓 = 𝑓 𝑝 = 𝑝
Catégorie m 𝑛 𝑓 𝑝 𝑛 =𝑛 𝑓 =1 𝑝 = 100
Total 𝑛= 𝑛 𝑓 =1 𝑝 = 100 - - -
Exemple 1.3. : On a noté l'âge (arrondi à l'année près) des 16 étudiants d'une école d’ingénieurs. Les
données sont listées ci-dessous (il s'agit de données fictives).
29 25 25 25 29 31 31 32 31 30 32 33 34 24 29 31
o Le tableau statistique
Les observations ci-dessus ne sont pas présentées de façon commode. Ainsi, la première d'entre
elles, 29, figure au total 3 fois dans la liste. L'idée est de ne la faire figurer qu'une seule fois, en
précisant qu'elle y est répliquée 3 fois. Si, en plus de n'être pas répétées, les différentes observations
sont rangées par ordre croissant, les résultats seront bien plus commodes à lire. C'est ce que l'on fait
lorsqu'on présente les données sous forme de tableau statistique.
On appelle donc tableau statistique un tableau dont la première colonne comporte l'ensemble des r
observations distinctes de la variable X. Ces observations sont rangées par ordre croissant et non
répétées ; nous les noterons {xi ; i = 1, ……. r}. Dans une seconde colonne, on dispose, en face de
chaque valeur xi, le nombre de réplications qui lui sont associées. Ces réplications sont appelées
effectifs et notées ni (ainsi, ni = 3 lorsque xi = 29 : à l'observation 29 est associé l'effectif 3,
autrement dit la valeur 29 a été observée 3 fois). Les effectifs ni sont souvent remplacés par les
quantités 𝑓 = , appelées fréquences, souvent exprimées en pourcentages, c'est-à-dire multipliées
par 100 (ici, n désigne le nombre total d'observations : 𝑛 = ∑ 𝑛 = 16; toujours pour xi = 29,
𝑓 = = 0.1875 = 18.75%)
𝑁 = 𝑛 ;𝐹 = 𝑓
5
Autrement dit, Ni représente le nombre d'observations inférieures ou égales à xi et Fi leur fréquence
(ou leur pourcentage si l'on considère 100 Fi). On notera que Nr = n et Fr = 1 (bien comprendre
pourquoi en se reportant au Tableau 1.6).
o Illustration
Dans le tableau 1.6, on a calculé, sur les données présentées dans l'Exemple 1, les effectifs, les
effectifs cumulés, les pourcentages et les pourcentages cumulés. Il est conseillé au lecteur de
reprendre les calculs pour bien en comprendre le principe.
Tableau 1.6 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
xi ni Ni fi pi (%) Fi Pi (%)
24 1 1 0.0625 6.25 0.0625 6.25
25 3 4 0.1875 18.75 0.2500 25.00
29 3 7 0.1875 18.75 0.4375 43.75
30 1 8 0.0625 6.25 0.5000 50.00
31 4 12 0.2500 25.00 0.7500 75.00
32 2 14 0.1250 12.50 0.8750 87.50
33 1 15 0.0625 6.25 0.9375 93.75
34 1 16 0.0625 6.25 1.000 100
Total 16 - 1 100 - -
Tableau 1.7 : Tableau statistique avec valeurs observées, effectifs, effectifs cumulés, fréquences et
fréquences cumulées puis pourcentages et pourcentages cumulés.
Pourcentag Pourcentage
Fréquences Fréquences
Classe Centre ci Effectifs ni e cumulés
fi cumulées fi
pi (%) pi (%)
[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑓 𝑝 𝑓 𝑝
𝑛
𝑓 = 𝑝
[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑛 𝑓 = 𝑓 𝑝 = 𝑝
= 100 × 𝑓
[𝑏 ; 𝑏 [ 𝑐 𝑛 𝑓 𝑝 𝑓 =1 𝑝 = 100
𝑓 =1 𝑝
Total - 𝑛= 𝑛 - -
= 100
Remarque 2. Dans la pratique, on utilise plutôt les pourcentages que les fréquences. Ensuite, il est
rare de présenter à la fois les effectifs et les pourcentages (qui fournissent, pratiquement, la même
information). On choisit donc entre les deux ensembles de quantités. Si l'on souhaite disposer des
cumuls, on choisit de même entre effectifs cumulés et pourcentages cumulés.
Le choix entre effectifs (respectivement effectifs cumulés) et pourcentages (respectivement
pourcentages cumulés) est très empirique. Il semble naturel de choisir les effectifs lorsque l'effectif
6
total n est faible et les pourcentages lorsqu'il est plus important. La limite approximative de 100
paraît, dans ces conditions, assez raisonnable.
QUELQUES CONVENTIONS
Chiffres significatifs
Les résultats statistiques provenant de calculs parfois réalisés à l’aide de microordinateurs
s’expriment sous formes de nombre d’une grande précision. Il n’est pas rare de trouver des résultats
avec trois ou quatre décimales. Une telle précision dégage un caractère de scientificité qui éteint
toute critique, alors qu’il ne s’agit que d’une précision illusoire qui n’apporte aucune information.
La précision des observations est telle que généralement les résultats sont donnés avec une seule
décimale.
On appelle chiffres significatifs d’un nombre les chiffres exacts constituant ce nombre : 5,32 a trois
chiffres significatifs. La précision du résultat ne doit pas être supérieure à la précision des
observations. Le résultat final d’un calcul ne peut avoir plus de chiffres significatifs que le nombre
ayant le plus petit nombre de chiffres significatifs.
Exemple : 45.2 x 65.324 = 2 952.6
Attention, ce n’est pas le cas pour les calculs intermédiaires où tous les chiffres doivent être
impérativement conservés.
Les pourcentages sont beaucoup utilisés dans les calculs statistiques. En général, compte tenu de la
précision des données, le résultat final sera fourni avec une seule décimale.
𝑛 = 𝑛 𝑎𝑣𝑒𝑐 𝑖 ∈ [1; 𝑘]
𝑛= 𝑛 = 𝑛 = 𝑛
(𝑥 + 𝑦 ) = 𝑥 + 𝑦
𝑎𝑥 = 𝑎 𝑥
7
𝑎 = 𝑘𝑎, 𝑎 étant un constante.
o Autres relations
8
La fréquence est le plus souvent présentée en pourcentage. Les fréquences permettent de comparer
les structures selon le caractère étudié de populations d’effectifs différents. Le calcul des fréquences
permet d’éliminer l’effet de taille ; on énonce les jugements du type relativement plus ou
relativement moins.
Les fréquences cumulées sont considérées comme les valeurs en des points connus d’une fonction
de distribution F(x).
Le choix des représentations graphiques dépend pour une large part du type du caractère statistique :
caractère qualitatif, variable statistique discrète, variable statistique continue.
Les cartogrammes représentent les variations d’une grandeur sur un territoire géographique en
assignant à chaque zone ses caractéristiques. Pour cela, on utilise des fonds de cartes pour
représenter les variables. Il existe deux grandes catégories de cartogrammes. Dans la première
catégorie, les surfaces de chaque unité géographique sont hachurées ou coloriées ; dans la seconde
catégorie, les phénomènes sont représentés par des surfaces centrées sur les unités géographiques et
proportionnelles aux effectifs étudiés.
Le diagramme en tuyaux d’orgue ou en barres est constitué d’une suite de rectangles dont les
hauteurs sont proportionnelles à l’effectif (ou à la fréquence) de la variable et dont les bases sont
identiques. La représentation peut être horizontale ou verticale.
9
Le diagramme en secteurs ou en « camembert » visualise la part relative des catégories de la
variable sur une population. Le cercle représente l’ensemble de la population, les différentes
modalités seront représentées par des secteurs dont la surface est proportionnelle aux effectifs ou
aux fréquences. Une telle représentation n’est significative que si le total des fréquences est de 100
%. Un demi-cercle peut jouer le même rôle.
La représentation en secteurs visualise bien l’importance relative des différentes modalités. Cette
représentation permet, pour des comparaisons dans le temps et dans l’espace, de rendre sensible les
différences en valeur absolue. Les aires des cercles seront proportionnelles aux effectifs de chacune
des populations. C’est-à-dire :
𝜋𝑟 𝐴 𝑟 𝐴
= 𝑎𝑢𝑡𝑟𝑒𝑚𝑒𝑛𝑡 𝑑𝑖𝑡 =
𝜋𝑟 𝐴 𝑟 𝐴
1.3.2. Variable quantitative
Dans certains cas, la représentation peut faire appel aux représentations décrites ci-dessus. Deux
représentations graphiques retiendront plus particulièrement notre attention : la courbe cumulative
des fréquences et l’histogramme. Les nuages constituent une représentation où les modalités sont en
abscisses et les effectifs ou les fréquences en ordonnées.
La répartition en classes des données n´nécessite de définir a priori le nombre de classes J et donc
l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes de même
amplitude. Cependant, ils existent des formules qui nous permettent d’établir le nombre de classes
et l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
La règle de Sturge : 𝐽 = 1 + 3.3𝑙𝑜𝑔 (𝑛)
10
La règle de Yule : 𝐽 = 2.5 √𝑛
L’intervalle de classe est obtenu ensuite de la manière suivante : longueur de l’intervalle = (xmax −
xmin)/J, où xmax (resp. xmin) désigne la plus grande (resp. la plus petite) valeur observée.
Remarque 1.2 Il faut arrondir le nombre de classe J à l’entier le plus proche. Par commodité, on
peut aussi arrondir la valeur obtenue de l’intervalle de classe. A partir de la plus petite valeur
observée, on obtient les bornes de classes en additionnant successivement l’intervalle de classe
(l’amplitude).
o Histogramme.
Deux représentations graphiques retiendront plus particulièrement notre attention : l’histogramme et
la courbe cumulative des fréquences.
L’histogramme est réservé aux séries groupées en classes. Pour visualiser l’importance relative des
classes, on préfère les représenter par des surfaces en construisant un histogramme. L’histogramme
est une représentation graphique de la distribution des effectifs ou des fréquences d’une variable
statistique continue ou considérée comme telle. À chaque classe de valeurs en abscisses, on fait
correspondre un rectangle dont l’aire est proportionnelle à l’effectif de la classe (ou à la fréquence) :
en abscisse l’amplitude de la classe, en ordonnée l’effectif (ou la fréquence) par unité d’amplitude.
Soit une distribution {]𝑏 ; 𝑏 [; 𝑛 } d’une variable statistique continue, pour chaque classe,
l’histogramme associe un rectangle de :
largeur 𝑎 = 𝑏 − 𝑏 et
hauteur ℎ =
Il permet de représenter sous forme de courbe, la distribution des fréquences absolues ou relatives.
Il est obtenu en joignant, par des segments de droite, les milieux des côtés supérieurs de chaque
rectangle de l’histogramme. Pour fermer ce polygone, on ajoute à chaque extrémité une classe de
fréquence nulle.
La courbe cumulative des effectifs (ou des fréquences) représente graphiquement la fonction
cumulative ou fonction de répartition définie par F(xi ) = Fi . La courbe cumulative des effectifs (ou
des fréquences) s’obtient en joignant les points d’abscisse : la borne supérieure de la classe, et
d’ordonnée : l’effectif cumulé croissant correspondant.
11
Courbes de fréquences cumulées
Courbe cumulative croissante : on joint les points ayant pour abscisses la limite supérieure des
classes et pour ordonnées les fréquences cumulées croissantes correspondant à la classe considérée
(pour le premier point, on porte la valeur 0). Elle donne le nombre d’observations inférieures à une
valeur quelconque de la série.
Courbe cumulative décroissante : la construction de cette courbe est analogue à la précédente. Les
points ont pour abscisses, les limites inférieures des classes et pour ordonnées, les fréquences
cumulées décroissantes (pour le dernier point, la valeur est 0). Elle donne le nombre d’observations
supérieures à une valeur quelconque de la série.
Autres modes de représentations graphiques
On définit des diagrammes à secteurs circulaires et des diagrammes à rectangles horizontaux. Le
diagramme à secteurs circulaires consiste en un cercle découpé en secteurs circulaires ; l’aire de
chaque secteur, représentant la proportion des différentes composantes d’un tout, est
proportionnelle aux fréquences, relatives ou absolues. Le diagramme à rectangles horizontaux est
défini de façon analogue.
Un autre mode de représentation est la boîte à moustaches ou box-plot
o Le diagramme en feuilles
On décompose une donnée numérique en deux parties :
- la tige qui comprend le premier ou les deux premiers chiffres,
- la feuille qui comprend les autres chiffres.
On écrit les tiges les unes sous les autres et en regard de chaque tige, les feuilles correspondantes ;
tiges et feuilles sont séparées par un trait vertical.
12
Pour une même population, le graphique triangulaire permet, le cas échéant, de grouper les
individus selon leur profil dans les 3 variables complémentaires retenues. Sur plusieurs dates, il
permet de montrer l'évolution des profils. Il est, en ce sens, assez proche du graphique polaire ou
radar.
13
Chapitre 2 : Mesures de tendance centrale.
2.0. Introduction.
Les paramètres de tendance centrale ou ≪ mesures de tendance centrale ≫ sont des grandeurs
susceptibles de représenter au mieux un ensemble de données. L'appellation ≪ mesure de tendance
centrale ≫ vient du fait que ces paramètres donnent une idée de ce qui se passe au centre d'une
distribution, d'un ensemble de données.
Ainsi, on appelle caractéristique de tendance centrale, une fonction des observations dont la valeur
est comprise entre les valeurs extrêmes de la série et qui donne une mesure du milieu ou du centre
de l’ensemble des observations.
2.1. Le mode
Noté Mo, il correspond à la valeur qui apparait le plus souvent dans une distribution, autrement la
valeur qui à la fréquence (absolue ou relative) la plus élevée. S'il s'agit de données non groupées, la
valeur modale est clairement identifiable. Par contre, si l'on est en présence de données groupées en
classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus : on parlera
alors de classe modale.
Attention ! Le mode est la seule mesure centrale qui peut être relevée et utilisée aussi bien pour des
données qualitatives que quantitatives.
Exemple 2.1 : En relevant les notes à un examen d'une classe de 28 élèves, on obtient la série
suivante :
S1 : 9-11-13-5-8-14-6-12-5-10-16-3-12-13-8-13-8-7-13-13-9-17-10-13-6-13-7-14 qui triée devient
S1 : 3-3-5-5-6-6-7-7-8-8-8-9-9-10-10-11-12-12-13-13-13-13-13-13-14-14-16-17 à partir de laquelle
on peut dresser le tableau de fréquences et l'histogramme suivants :
14
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 0
3 2
4 0
5 2
6 2
7 2
8 3
9 2
10 2
11 1
12 2
13 6
14 2
15 0
16 1
17 1
18 0
19 0
20 0
La note ≪ 13 ≫ apparait 6 fois. Elle est, avec une fréquence relative de (6/28)x100 = 21,4 % la
note la plus représentée de la distribution. Le mode Mo est donc ici égal à 13.
Exemple 2.2 : Examinons les notes obtenues au même examen par la classe voisine composée de 30
élèves :
S2 : 9-11-2-10-5-8-14-6-12-5-10-16-3-12-10-18-7-13-7-7-13-11-9-17-10-7-6-10-7-17 qui une fois
triée devient :
S2 : 2-3-5-5-6-6-7-7-7-7-7-8-9-9-10-10-10-10-10-11-11-12-12-13-13-14-16-17-17-18
On obtient des lors le tableau de fréquences et l'histogramme suivants :
15
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 1
3 1
4 0
5 2
6 2
7 5
8 1
9 2
10 5
11 2
12 2
13 2
14 1
15 0
16 1
17 2
18 1
19 0
20 0
Dans ce cas-ci, deux modalités présentent les fréquences les plus élevées : les notes ≪7≫ et ≪10≫
avec toutes deux une fréquence relative de 16,6 % (5 occurrences chacune). La distribution
comporte ici deux modes, Mo1 = 7 et Mo2 = 10. On parle alors de distribution bimodale.
Exemple 2.3 : Dans une troisième classe, composée de 23 élèves, les notes obtenues au même
examen sont les suivantes :
S3 : 3-12-16-5-3-7-10-7-16-5-11-13-11-9-13-9-10-12-8-15-15-8-19 qui une fois triée devient :
S3 : 3-3-5-5-7-7-8-8-9-9-10-10-11-11-12-12-13-13-15-15-16-16-19
On obtient par le fait le tableau de fréquences et l'histogramme suivants :
16
Effectifs
Fréquences
Note (Fréquences absolues
relatives
ou Occurrences)
0 0
1 0
2 0
3 2
4 0
5 2
6 0
7 2
8 2
9 2
10 2
11 2
12 2
13 2
14 0
15 2
16 2
17 0
18 0
19 2
20 0
Plutôt que de parler de distribution multimodale (à plusieurs modes) on parlera davantage ici de
distribution amodale (sans réel mode). Dans cet exemple, le mode est une mesure non-significative.
C'est souvent le cas lorsque l'on est en présence d'une distribution contenant peu de résultats. Le
mode n'est évidemment pas suffisant pour caractériser et résumer une distribution. Il l'est encore
moins pour comparer et différencier des distributions. Deux distributions peuvent en effet avoir le
même mode avec cependant des allures, et donc des caractéristiques, totalement différentes. On a
donc inventé d'autres paramètres, d'autres mesures susceptibles de mieux caractériser et/ou
différencier des distributions. C'est le cas de la médiane.
2.2. La médiane
Etymologiquement ≪ médiane ≫ signifie milieu, et c'est bien de ça dont il s'agit car la médiane est
réellement le milieu d'une distribution. Notée Me, la médiane correspond à la valeur de la
distribution qui partage l'effectif total en deux sous-effectifs de même taille de telle sorte que l'on
puisse dire que 50 % des individus d'une population sont caractérisés par une valeur supérieure à
celle de la médiane et que 50 % des individus de cette même population ont une valeur inférieure à
la médiane.
Exemple : La médiane des revenus pour une population donnée correspond à la valeur du revenu
pour laquelle on a 50 % de ladite population dont le revenu est supérieur à cette valeur et 50 % dont
le revenu est inférieur. On parle alors de revenu médian.
Attention ! Contrairement au mode, la médiane est une mesure centrale qui ne peut être
calculée et utilisée que pour des variables quantitatives, continues ou discrètes.
17
Si le mode, pour être révélé, ne nécessite aucun calcul mais simplement de l'observation, la médiane
impose quant à elle, un certain nombre de manipulations voire de calcul pour sa mesure.
Reprenons pour ce faire l'exemple relatif aux notes relevées lors d'un même examen dans
différentes classes en ne retenant que deux séries :
18
• Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en
deux effectifs égaux. Le rang central étant égal à [(n+1)/2]. C'est le cas dans la série de notes de la
classe 3 composée de 23 valeurs. La médiane se situe au niveau du 12e rang et sa valeur est lue
directement en face de ce 12e rang, dans notre Me = 10
19
La médiane de données groupées est également calculable ou plutôt estimable par interpolation. La
médiane est à trouver et à estimer dans le classe ou se situe le rang divisant en deux parties égales la
population.
Exemple : en regroupant les valeurs de la série de notes de la classe 3 en 4 groupes on obtient
l'organisation suivante :
Pour chaque classe (ou groupe) on connait la fréquence absolue ou relative que l'on cumule pour
repérer plus facilement la classe ou le groupe devant contenir la médiane. Dans notre exemple, la
classe contenant la note médiane est la classe [de 10 à 14] car c'est celle qui contient la fréquence
cumulée 50 %. Connaissant n= 23 impair, on sait que la médiane correspond au rang 12 qui se situe
bien dans la classe [de 10 à 14]. Le rapport des différences effectif médian (12) – borne inferieure
de la classe médiane (10) à borne supérieure de la classe médiane (18) – borne inferieure de la
classe médiane (10) nous donne le rapport à appliquer aux valeurs pour trouver la note médiane :
(12-10)/(18-10) = 2/8 = 0,25 pour les effectifs. Pour la valeur médiane, on connait l'amplitude de la
classe médiane (14-10 = 4). Il nous reste donc à trouver la différence entre la médiane (Vm) et la
borne inferieure de la classe de valeurs médiane (10). Cette différence est appelée x. A l'aide du
rapport (0,25) calcule précédemment, on peut écrire :
𝑉 − 10 𝑥
= 0.25 𝑖𝑚𝑝𝑙𝑖𝑞𝑢𝑒 = 0.25 𝑐𝑒 𝑞𝑢𝑖 𝑑𝑜𝑛𝑛𝑒 𝑥 = 1
14 − 10 4
20
La médiane Me est donc égale a la borne inferieure de la classe médiane + x soit 10 + 1 = 11.
2.3. La moyenne
La moyenne constitue un autre paramètre de tendance centrale fondamental mais non suffisant pour
Caractériser une distribution. Complémentaire du mode et surtout de la médiane, la moyenne
constitue à n'en point douter, la mesure la plus calculée et la plus utilisée lors de la description de
séries statistiques.
Il existe plusieurs types de moyennes, chacun adapte à des situations précises :
Dénomination Notation courante
Moyenne arithmétique 𝑥̅
Moyenne géométrique ̅
𝐺 𝑜𝑢 𝑥
Moyenne harmonique 𝐻 𝑜𝑢 𝑥
Moyenne quadratique 𝑄 𝑜𝑢 𝑥
Moyenne glissante -
21
celle-ci. La moyenne de la distribution est alors calculée à partir des valeurs centrales des classes
pondérées par leurs effectifs respectifs.
Exemple :
Classe Borne inf. Borne sup. Centre de classe Fréquence absolue f.X
1 2.50 5.00 3.75 67 67x3.75=251.25
2 5.01 7.50 6.25 461 461x6.25=2881.25
3 7.51 10.00 8.75 326 326x8.75=2852.68
4 10.01 12.50 11.25 116 116x11.25=1305.06
5 12.51 26.50 19.50 41 41x19.50=799.50
Total 1011 8090
8090
𝑥̅ = = 8.00 €/𝑚2
1011
2.3.2. La moyenne géométrique :
Sa définition purement mathématique est un peu rébarbative mais son utilité est grande comme
nous allons le démontrer.
La moyenne géométrique de n valeurs positives xi est la racine nième du produit de ces valeurs.
Notée 𝐺̅ ou 𝑥 , elle s'écrit :
𝐺̅ = 𝑥
La moyenne géométrique est un instrument permettant de calculer des taux moyens, notamment des
taux moyens annuels. Son utilisation n’a un sens que si les valeurs ont un caractère multiplicatif.
2.3.3. La moyenne harmonique :
On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des domaines
où ils existent des liens de proportionnalité inverse.
Exemples :
Pour une distance donnée, le temps de trajet est d’autant plus court que la vitesse est élevée.
Un loyer dans le parc prive est d'autant plus élevé que la taille ou la surface du logement est
petite.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmétique des
inverses desdites valeurs. C'est un peu compliqué comme définition ! Voilà ce que ça donne sous
une forme mathématique :
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dénominateur
change. C'est le cas du calcul de la vitesse moyenne parcourue dans un trajet aller/retour, la vitesse
étant la valeur représentée par distance / temps.
22
2.3.5. La moyenne glissante ou moyenne mobile
La moyenne glissante, ou moyenne mobile trouve son application dans l'analyse des séries
temporelles de données en permettant la suppression des fluctuations de façon à en souligner les
tendances sur le long terme.
Cette moyenne est dite mobile parce qu'elle est recalculée de façon perpétuelle, des lors qu'une
nouvelle donnée intègre la série en venant remplacer la plus ancienne, modifiant ainsi la date de
référence. Cette façon de faire tend à lisser le phénomène étudié en noyant les valeurs extrêmes
dans une masse de données davantage représentative d'une tendance moyenne.
D'une façon générale, la moyenne glissante s'écrit :
23
Chapitre 3 : Mesure de dispersion et de forme.
3.1. Introduction.
On appelle caractéristique de dispersion, une fonction des observations dont la valeur rend compte
de l’étalement des valeurs observées autour de leur tendance centrale.
iii) de connaitre les limites d'une distribution en vue de son éventuelle discrétisation
Les quartiles se déterminent de la même façon que la médiane et nécessitent, comme pour cette
dernière, que les valeurs de la distribution aient été au préalable classées par ordre croissant. Il suffit
alors de cumuler les fréquences (absolues ou relatives) et de se positionner à l'endroit ou résident les
seuils Q1 = 25%, Q2 = 50 % et Q3= 75 % et de lire les valeurs correspondantes de la distribution.
De façon visuelle et approximative, il est toujours possible d'utiliser, après l'avoir tracée, la courbe
des fréquences cumulées comme suit :
De la même manière, et dans le but de préciser et d'affiner encore l'analyse de la dispersion d'une
distribution, on peut faire appel aux notions de déciles et de centiles. Le principe demeure le même
que pour les quartiles à la différence que la population est ici divisée respectivement en 10 et 100
sous-populations d'égal effectifs.
Grace aux quartiles (comme aux déciles) il devient possible d'améliorer la description et l'analyse
de la dispersion d'une distribution et de comparer de façon plus sure et plus pertinente deux
distributions entre elles ou bien encore la distribution d'une même population à deux dates
25
différentes pour une même variable, en rappelant que la mesure de dispersion qui nous intéresse
n'est pas nécessairement le quartile (qui n'est pas une mesure de dispersion) mais l 'intervalle
interquartile , c'est-à-dire la différence entre le troisième quartile (Q3) et le premier quartile (Q1).
3.2.5.1. Variance. La variance mesure la dispersion des valeurs observées autour de la moyenne.
Cas 1 : n données non réparties en classes.
Plus précisément, la variance est la moyenne quadratique des écarts à la moyenne, et s'exprime
sous la forme :
1
𝑠 = (𝑥 − 𝑥̅ )
𝑛
encore une fois en supposant l'équipondération des mesures.
3.2.5.2. Variance corrigée. La variance corrigée, notée 𝑠 utilisée dans les procédures
inférentielles, est calculée de la même manière mais le dénominateur est alors (n-1). Ceci se justifie
par le fait que l'on peut montrer que la variance standard (variance de l'échantillon de taille n), à
la différence de la moyenne, est un mauvais estimateur de la variance de population, et l'on enlève
par conséquent un degré de liberté au dénominateur.
1
𝑠 = (𝑥 − 𝑥̅ )
𝑛−1
3.2.5.3. Écart-type. L'écart-type σx est simplement la racine carrée de la variance et s'exprime dans
la même unité que la variable mesurée. De même que la moyenne, l'écart-type est lui aussi dans une
certaine mesure sensible aux valeurs extrêmes, contrairement à l'intervalle interquartile.
3.2.5.4. Écart-type corrigé. A l'image de la variance corrigée, dans les procédures à visée
inférentielle, on utilisera de préférence l'écart-type corrigé sx, qui est calculé avec un dénominateur
égal à (n-1) et qui est un estimateur non biaisé de l'écart-type de population.
26
3.2.5.5. Propriétés et utilité
L’écart-type s caractérise la dispersion d’une série de valeurs. Plus s est petit, plus les
données sont regroupées autour de la moyenne arithmétique x et plus la population est
homogène ; cependant avant de conclure, il faut faire attention à l’ordre de grandeur des
données. Autrement dit,
– Un écart-type faible signifie que les valeurs sont relativement concentrées autour de
la moyenne et que la population regroupe des individus aux caractéristiques
relativement homogène.
– A contrario, un écart-type élevé est révélateur de valeurs très dispersées autour de
la moyenne et d'une population hétérogène.
La variance tient compte de toutes les données, c’est la meilleure caractéristique de
dispersion (nombreuses applications en statistique).
Son unité est celle de la variable à laquelle il se rapporte. Si la variable étudiée est
exprimée en euro (€), l'unité de l'écart-type sera l'euro.
L’écart-type permet de trouver le pourcentage de la population appartenant à un intervalle
centré sur l’espérance mathématique.
Dans les conditions statistiques idéales c'est-à-dire celle d'une population parfaitement bien
distribuée autour des paramètres centraux, on sait que :
[𝑥̅ − 𝜎; 𝑥̅ + 𝜎] Contient 68.3 % de l'ensemble des individus de la distribution.
[𝑥̅ − 2𝜎; 𝑥̅ + 2𝜎] Contient 95.5 % de l'ensemble des individus de la distribution.
[𝑥̅ − 3𝜎; 𝑥̅ + 3𝜎] Contient 99.7 % de l'ensemble des individus de la distribution.
L'examen du positionnement des fractiles (e.g. les quartiles, ou pour plus de précision les déciles)
permet également de vérifier l'aspect de la distribution, et ses éventuelles asymétries (locales ou
globale). D'autre part, la présence de deux modes indique que la distribution est bimodale (ou
multimodale s'il y a plus de deux modes relatifs). La distribution peut demeurer « symétrique »
27
lorsque les deux modes sont égaux, mais la présence d'un mode relatif traduit généralement une
distribution relativement asymétrique.
Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est
symétrique, négatifs si la distribution est allongée à gauche, et positifs si la distribution est allongée
à droite.
𝛿 =𝛾 −3
Selon la valeur de ces coefficients, on peut donner quelques caractéristiques sur la forme de la
distribution :
si γ2 > 3, la distribution est moins aplatie qu’une distribution gaussienne donc nous avons
une courbe leptokurtique,
si γ2 < 3, la distribution est plus aplatie qu’une distribution gaussienne donc nous avons une
courbe platykurtique, puis
si γ2 = 3, la distribution est plus aplatie qu’une distribution gaussienne donc nous avons une
courbe mésokurtique.
NB : Ces deux coefficients sont principalement utilisés pour vérifier qu’une distribution est proche
d’une distribution normale (loi de Laplace-Gauss) ; en effet, pour une telle loi, le coefficient
d’aplatissement est égal à 3 et le coefficient d’asymétrie vaut 0.
28