Vous êtes sur la page 1sur 12

Chapitre 3 : Mesures de tendance centrale et de dispersion

Introduction

Un ensemble de données peut contenir de nombreuses variables et observations. Cependant, nous ne


sommes pas toujours intéressés par chacune des valeurs mesurées mais plutôt par un résumé qui
interprète l’ensemble des données.

Exemple : Supposant quelqu’un de Beni-Mellal planifie une vacance à Marrakech durant le mois de
Décembre. Parmi ces préparations pour une bonne vacance, il s’interroge sur les conditions
climatiques qui règnent au niveau de la région de Marrakech ;

Pour le mois de décembre de l’année précédente, les températures maximales journalières sont
comme suit :

22, 24, 21, 22, 25, 26, 25, 24, 23, 25, 25, 26, 27, 25, 26,
25, 26, 27, 27, 28, 29, 29, 29, 28, 30, 29, 30, 31, 30, 28, 29.

Comment tirer des conclusions sur ces données ?

L'examen des valeurs individuelles nous donne une idée sur les températures que l'on peut ressentir
à Marrakech, sur la moyenne de ces 31 valeurs (22 + 24 + · · · + 28 + 29) / 31 = 26,48, et sur les
températures minimale et maximale qui sont respectivement 21 et 31. Donc, résumer 31 valeurs
individuelles avec seulement trois chiffres (26,48, 21 et 31) fournira suffisamment d'informations pour
planifier les vacances.

Dans ce chapitre nous nous concentrons sur des concepts statistiques importantes qui résument les
données ; Ces concepts sont les mesures de tendance centrale et de la variabilité (dispersion).

3.1 Mesures de la tendance centrale

Faire des comparaisons avec la moyenne est une tendance humain naturel. Par exemple, un étudiant
qui a obtenu la note 40 % dans un examen sera heureux si la note moyenne da la classe est 25 %.
Cependant, il sera triste si la note moyenne de la classe est 90 % même s’il obtiendra 70 %. Autres
exemples dans la vie quotidienne qui utilisent le concept de la valeur moyenne, par exemple la
longueur corporelle moyenne, la température moyenne au mois de juillet au niveau d’une région
donnée, la vitesse moyenne dans la 71e édition du championnat du monde formula 1….

On appelle les fonctions statistiques qui décrivent la moyenne ou le centre des données, les
paramètres de position ou les mesures de la tendance central
3.1.1 Moyenne arithmétique

La moyenne arithmétique est l'une des mesures les plus intuitives de la tendance centrale.

Supposons qu'une variable de taille n se compose des valeurs x1, x2,. . . , xn.

la moyenne arithmétique de ces données est définie comme :

𝒏
𝟏
̅=
𝒙 ∑ 𝒙𝒊
𝒏
𝒊=𝟏

̅ d’une variable continue dont les données sont groupées sous forme des classes
Pour calculer 𝒙
(intervalles), nous avons besoin de passer par le tableau des fréquences suivant :

Intervalles a 1 = e0 − e1 a 2 = e1 − e2 … ak = ek−1 − ek
Fréquence absolue nj n1 n2 nk
Fréquence relative fj f1 f2 fk

Noté que a1, a2, . . . , ak sont les K intervalles où chaque intervalle aj ( j = 1, 2, . . . , k) contient nj
observations :

∑ 𝒏𝒋 = 𝒏
𝒋=𝟏

𝒌
La fréquence relative de la classe j est : fj=nj/n et ∑ 𝒇𝒋 = 𝟏 .
𝒋=𝟏

La valeur moyenne de la classe j est défini par mj=(ej-1+ej) /2

𝒌 𝒌
𝟏
La moyenne arithmétique pondérée : 𝒙
̅= ∑
𝒏
𝒏 𝒋 𝒎𝒋 = ∑ 𝒇 𝒋 𝒎𝒋 .
𝒋=𝟏 𝒋=𝟏

Exemple :

On considère à nouveau l’exemple où quelqu’un s’interroge sur la température au niveau de la région


de Marrakech durant le mois de Décembre. Les mesures sont :

22, 24, 21, 22, 25, 26, 25, 24, 23, 25, 25, 26, 27, 25, 26,
25, 26, 27, 27, 28, 29, 29, 29, 28, 30, 29, 30, 31, 30, 28, 29.

Donc la moyenne arithmétique est :

22 + 24 + 21 + ⋯ + 28 + 29
𝑥̅ = = 26.48°C
31
Supposons que les données sont résumées en catégories comme suit :

Intervalles < 20 (20 − 25] (25, 30] (30, 35] > 35


Fréquence absolue n1 = 0 n2 = 12 n3 = 18 n4 = 1 n5 = 0
Fréquence relative f1 = 0 f2 = 12/31 f3 = 18/31 f4 = 1/31 f5 = 0

Donc la moyenne arithmétique pondérée est :

𝒌
12 18 1
̅ = ∑ 𝒇 𝒋 𝒎𝒋 = 0 +
𝒙 . 22,5 + . 27,5 + .32,5 + 0 ≈ 25.7
31 31 31
𝒋=𝟏

Remarque :

Les résultats de la moyenne ( 26.48 ) et de la moyenne pondérée (25.7 ) se diffèrent. Et cela s’explique
par le fait que nous utilisons le milieu de chaque classe comme une approximation de la moyenne au
sein de la classe, tout en supposant que les valeurs sont uniformément distribuées dans chaque
intervalle, la chose qui n’est pas toujours valable.

Si nous avons des connaissances sur la moyenne dans chaque classe, comme dans cet exemple, nous
obtiendrons le résultat correct comme suit :

𝑘
12 18 1
̅ = ∑ 𝑓𝑗 𝑥̅𝑗 = 0 +
𝒙 . 23.83333 + . 28 + .32.5 + 0 = 26.48387
31 31 31
𝑗=1

Cependant, la moyenne pondérée est destinée à estimer la moyenne arithmétique dans les situations
où les données disponibles sont groupées. Généralement, elle est utilisée pour obtenir une
approximation de la vraie moyenne.

3.1.2 Médiane et Quantiles

La médiane

La médiane est un indicateur de tendance centrale (plus robuste que la moyenne empirique) qui divise
la population en deux parties qui ont le même nombre d’individus. Autrement dit, elle sépare
l’échantillon en deux parties égales.

On considère les n observations x1, x2, . . . , xn classer dans un ordre croissant x(1) ≤ x(2) ≤ · · · ≤ x(n)

𝑛+1
𝑥( ) 𝑆𝑖 𝑛 𝑒𝑠𝑡 𝑖𝑚𝑝𝑎𝑖𝑟
2
La médiane (𝑥̃0,5 ) 𝑥̃0,5 = {1 𝑛 𝑛
2
(𝑥 (2 ) + 𝑥 (2 + 1)) 𝑆𝑖 𝑛 𝑒𝑠𝑡 𝑝𝑎𝑖𝑟

Exemple :
En considère toujours l’exemple précèdent de la température au niveau de la région de Marrakech
durant le mois de Décembre.

Les 31 valeurs sont mises dans un ordre croissant comme suit :

21 22 22 23 24 24 25 25 25 25 25 25 26 26 26 26
27 27 27 28 28 28 29 29 29 29 29 30 30 30 31

Puisque nous avons n=31 donc :


𝑥̃0,5 = 𝑥((𝑛 + 1)/2) = 𝑥((31 + 1)/2) = 𝑥(16) = 26

Si par exemple une valeur est manquée, nous aurons n=30 et par conséquent :
𝑥̃0,5 = 1/2(𝑥(30/2) + 𝑥(30/2 + 1) = 1/2(26 + 26) = 26

Dans le cas des données groupées, on peut calculer la médiane si on suppose que les valeurs dans
chaque intervalle sont distribuées d’une façon égale.

Soient K1, K2, …, Kk des classes (groupes) avec leurs observation sont respectivement n1, n2,…, nk. On
cherche à déterminer quelle classe parmi les k classes qui constitue la classe médiane ; la classe qui
inclue la médiane.

On définit la classe médiane par Km, donc :


𝑚−1 𝑚
∑ 𝑓𝑗 < 0.5 et ∑ 𝑓𝑗 ≥ 0.5
𝑗=1 𝑗=1

Aussi bien on peut déterminer la médiane par :


𝑚−1
0.5 − ∑ 𝑓𝑗
𝑗=1
𝑥̃0,5 = 𝑒𝑚−1 + 𝑑𝑚
𝑓𝑚
Avec 𝑒𝑚−1 et 𝑑𝑚 sont respectivement la limite inférieure et l’étendue de la classe Km.

Exemple :

Intervalles < 20 (20 − 25] (25, 30] (30, 35] > 35


𝑛𝑗 n1 = 0 n2 = 12 n3 = 18 n4 = 1 n5 = 0
𝑓𝑗 𝑓1 = 0 𝑓2 = 12/31 𝑓3 = 18/31 𝑓4 = 1/31 𝑓5 = 0

∑ 𝑓𝑗 0 12/31 30/31 1 1
Pour la 3éme classe (m=3) nous avons :
𝑚−1 𝑚
∑ 𝑓𝑗 = 12/31 < 0.5 et ∑ 𝑓𝑗 = 30/31 ≥ 0.5
𝑗=1 𝑗=1

On peut par la suite calculer la médiane :


𝑚−1
0.5 − ∑ 𝑓𝑗
𝑗=1
𝑥̃0,5 = 𝑒𝑚−1 + 𝑑𝑚
𝑓𝑚
12
0.5 −
𝑥̃0,5 = 25 + 31 . 5
18
31
𝑥̃0,5 ≈ 25.97

Remarque :

Comparaison de la moyenne avec la médiane. Dans les exemples ci-dessus, la moyenne et la médiane
se sont révélées assez similaires. Et cela grâce à la distribution symétrique des données autour du
centre.

Un exemple similaire est donné sur la figure 3.1a: nous voyons que la moyenne et la médiane sont ici
similaires car la distribution des observations est symétrique autour du centre. Si nous avons des
données décalées (Fig. 3.1b), alors la moyenne et la médiane peuvent se différer. Si les données ont
plus d'un centre, comme dans la figure 3.1c, ni la médiane ni la moyenne n'ont d'interprétations
significatives. Si nous avons des valeurs aberrantes (Fig. 3.1d), il est sage d'utiliser la médiane car la
moyenne est sensible aux valeurs aberrantes.

Ces exemples montrent qu'en fonction de la situation d'intérêt (problématique), la moyenne, la


médiane, les deux ou aucun d'entre eux peuvent être utiles.
Figure : La moyenne arithmétique et la médiane pour différentes données

Les quantiles

Les quantiles les plus utilisés sont les quartiles et les déciles. Les quartiles divisent les observations en
4 parties (Q25%, Q50%, Q75%).

Les déciles divisent l’ensemble des observations en 10 parties : Q10%, Q20%, . ).

Méthode :
Pour trouver Q1 (Q25%) et Q3 (Q75%), je prends respectivement les valeurs de termes de rangs :
N/4 et 3N/4 si ceux si sont des entiers, ou de leurs arrondis à l’entier supérieur dans le cas contraire.
Exemple :

Soit la série suivante :

Notes 5 8 9 10 11 12 14 16 18
Effectif 1 2 6 7 5 4 3 2 1
Fréquences cumulées 1 3 9 16 21 25 28 30 31

𝑛+1
N = 31, N étant impair donc la médiane sera la valeur de rang
2
= 16, ainsi Me= 10
31 3×31
4
= 7,75 ….et…. 4 = 23,25

Donc je prendrais pour les premiers et troisièmes quartiles les valeurs de rang 8 et 24

Q1=9 et Q3= 12

Dans le cas d’une répartition en classes il faut faire un polygone des effectifs cumulés croissants (ou
des fréquences cumulées croissantes), Q1 (Q25%) et Q3 (Q75%), seront les abscisses des points
d’intersection entre le polygone et les horizontales d’équation

𝑁 3𝑁
𝑦= 4
et 𝑦 = 4
(ou 𝑦 = 0,25 et 𝑦 = 0,75 ).

Mode et classe modale

Le mode d’une série statistique est la valeur la plus fréquente. Dans le cas d’une répartition en classe
la classe la plus fréquente sera dite modale.

Dans notre exemple ci-dessus le mode est 10

Paramètres de dispersion.

Exemple 1:

On considère les deux séries de données suivantes :

A 99 100 101

B 1 100 199

Elles ont une moyenne arithmétique ( 𝑥̅ ) et une médiane (𝑥̃0,5 ) égale à 100. Cependant elles diffèrent
profondément.

Il apparaît que la deuxième série est beaucoup plus dispersée que la première. Il est donc nécessaire
d’évaluer cette dispersion autour d’une valeur centrale.
Exemple 2:

Supposons trois étudiants Nabil, Fatima et Karim arrivent à la classe de lecture à des temps (minutes)
différents :

Semaine 1 2 3 4 5 6 7 8 9 10
Nabil 0 0 0 0 0 0 0 0 0 0
Fatima -10 +10 -10 +10 -10 +10 -10 +10 -10 +10
Karim 3 5 6 2 4 6 8 4 5 7

- On observe que Nabil toujours arrive au temps exact ;

- Fatima arrive parfois (+10 min) tard, par fois (-10 min) tôt ;

- La moyenne arithmétique pour les deux est la même (0 min), donc en moyenne ils arrivent
tous les deux au temps exact ; Cette interprétation n’est pas correcte !!

- La différence entre les deux étudiants c’est la variabilité dans les temps d’arrivés qui ne
peuvent être mesurer ni par la moyenne ni par la médiane.

- Pour cette raison, il faut introduire les mesures de dispersion.

- Donc la connaissance des deux paramètres, la tendance centrale et de la dispersion, peut


apporter une comparaison nuancée (plus précise) entre les différents temps d’arrivés ;

Par exemple, on considère le troisième étudiant Karim qui est toujours en retard, cependant,
en moyenne il arrive tard, son comportement est plus prévisible que celui de Fatima.

La tendance centrale et la dispersion sont tous les deux nécessaires pour donner une
comparaison équitable et juste.

Les indicateurs de dispersions permettent de mesurer comment les données se répartissent.

On peut définir deux types de mesure de dispersions :

- Les mesures définies par la distance entre deux valeurs représentatives de la distribution
(étendue, intervalle interquartile).
- Les mesures calculées en fonction de la déviation par rapport à une valeur centrale.

On dispose d’une population de N individus, et on observe x1, x2, …, xn les valeurs d’une variable
quantitative discrète X pour ces individus.
Etendu

L’étendu d’une série statistique est une mesure de dispersion. Elle est définie par l’écart entre sa plus
grande valeur et sa plus petite :

E= xn - x1

Intervalle interquartile (écart interquartile)

- L’intervalle interquartile est la différence entre le troisième (Q75%) et le premier quartile (Q25%) :

Q75% - Q25%

- On peut remarquer que cet intervalle contient 50% des données ;

- Un premier moyen de mesurer la dispersion des données autour de la moyenne est l’écart moyen
absolu

Exemple : En considère toujours l’exemple précèdent de la température au niveau de la région de


Marrakech durant le mois de Décembre.

Trouver les quartiles Q25% , Q75% , l’intervalle interquartiles et l’étendue.

Q25%= 25

Q75%= 29

Q75% - Q25%=4

- Signifie que 50% des valeurs sont comprises entre 25 et 29.

Etendue : E = 31 − 21 = 10 ◦C

- Signifie que la température varie au plus (max) par 10°C.

Boite à moustache (diagramme en boite)

- Est une représentation graphique (boxplot). Elle est nommée ainsi parce que sa représentation
fait vaguement penser à des moustaches.

- D’un seul coup d’œil, je peux voir 5 paramètres de position, me faire une idée concernant
l’intervalle interquartile.
Exemple :

Entre deux traits verticaux (Min, Q1, Q2, Q3 et Max) il y a environ 25 % de l’effectif.

Ecart absolu moyen par rapport à la moyenne

Soit une série de n nombres x1, x2, …, xn. On appelle écart absolu moyen de la série par rapport à la
moyenne, le nombre :

̅ par Me, on définit de même l‘écart absolu moyen de la série par rapport
Remarque : En remplaçant 𝒙
à la médiane.

Variance et Écart-type

- La variance de la variable quantitative X, notée par Var(X), est, par définition, la moyenne
arithmétique des carrés des écarts à la moyenne arithmétique :

Cette formule peut également se réécrire sous la forme :

K désigne le nombre des valeurs distinctes, fi est la fréquence relative de xi.

Si les données sont regroupées dans p classes, Ci étant le centre de classe :

- L’écart-type de la variable X, noté par σX, est, par définition, la racine carrée de la variance de cette
variable :
Exemple :

On considère l’exemple ou nous avons évalué le temps d’arrivé à la salle de lecture pour trois étudiants
et qui sont Nabil, Fatima et Karim.

Semaine 1 2 3 4 5 6 7 8 9 10
Nabil 0 0 0 0 0 0 0 0 0 0
Fatima -10 +10 -10 +10 -10 +10 -10 +10 -10 +10
Karim 3 5 6 2 4 6 8 4 5 7

Le calcul de la moyenne arithmétique nous a permis de tirer des conclusions à savoir :

- Les deux premiers étudiant Nabil et Fatima ont arrivés à l’heure exacte ;

- À l’opposé, Karim arrive toujours en retard.

- La variation dans le temps d’arriver se diffère sensiblement entre les trois étudiants.

Pour décrire et quantifier formellement cette variabilité, on calcule la variance et l’écart moyen
absolue par rapport à la médiane :

Var(X)N= 1/10([0 − 0]2 +· · ·+[0 − 0]2) = 0

Var(X)F= 1/10([-10 − 0]2 +· · ·+[10 − 0]2) ≈ 100

Var(X)K= 1/10([3 −5]2 +· · ·+[7 − 5]2) ≈ 3,3

Sachant que :
1
e= 𝑛 ∑𝑛𝑖=1 |𝑥 − 𝑥̃0,5 |
𝑖

Donc :

eN= 1/10*(|0-0|+…+ |0-0|)= 0

eF= 1/10*(|-10-0|+…+ |10-0|)= 10

eK= 1/10*(| 3-5|+…+ |7-5|)= 1,4

- On observe que la dispersion/la variabilité/la variation est plus basse chez Nabil et plus élevée
chez Fatima.
- Les deux paramètres, variation et écart absolue moyen par rapport à la médiane, permettent
la comparaison entre les deux étudiants.

- Si on calcule la racine carrée de la variance on retrouvera l’écart type, par exemple :

𝜎𝑘 = √3,3 ≈ 1,8

Qui signifie que la différence moyenne des observations par rapport à la moyenne arithmétique est ≈
1,8

Coefficient de variation
̅ 1 et 𝒙
On considère une situation où deux variables différentes ont des moyennes arithmétiques 𝒙 ̅2
avec des écarts-types 𝜎1 et 𝜎2 , respectivement.

Supposons que nous voulions comparer la variabilité des prix des hôtels à Berlin (mesurés en euros) et
à London (mesurés en livres sterling).

Le coefficient de variation 𝑣 est une mesure de dispersion qui utilise à la fois l'écart type et la moyenne
et permet ainsi une comparaison correcte :

𝜎
𝑣=
𝑥̅

Exemple :

Si nous voulons comparer la variabilité des prix des hôtels entre deux villes en Allemagne et en
Angleterre, nous pourrions calculer les moyennes des prix, ainsi que leur écart type. Supposons qu'un
échantillon de prix de 100 hôtels dans les villes de Berlin et London soit disponible et supposons que
nous obtenions la moyenne et les écarts types des deux villes comme :

̅
𝒙 1 = 130 €, ̅
𝒙 2 = 230 £, 𝜎1 = 99 € et 𝜎2 = 212 £.

Alors, 𝑣1 = 99/130 ≈ 0,72 et 𝑣2 = 212/230 = 0,92.

Cela indique une plus grande variabilité des prix des hôtels à London.

Vous aimerez peut-être aussi